Analiza regresji liniowej
(Zastrzeżenie: niekiedy do opisu zależności między zmiennymi znacznie lepiej od prostej pasuje któraś z krzywych opisanych wzorem matematycznym. Wówczas należy się posłużyć analizą regresji nieliniowej. W poniższym materiale jednak określenie "analiza regresji" oznaczać będzie zawsze analizę regresji liniowej.)
Analiza regresji służy do opisania liniowej zależności między dwiema lub większą liczbą zmiennych ilościowych i dychotomicznych. W wyniku tej analizy otrzymujemy wzór linii prostej dzięki któremu na podstawie znanych wartości zmiennych niezależnych (predyktorów) możemy obliczyć przewidywaną wartość zmiennej zależnej.
Pedagog szkolny zauważył, że istnieje zależność między liczbą książek przeczytanych przez ucznia w ciągu roku szkolnego a oceną z języka polskiego na koniec roku. Oznacza to, że znając liczbę książek przeczytanych przez ucznia można przewidzieć, jaką ocenę na koniec roku otrzyma.
Ogólny wzór każdej prostej to: y = a + bx (czyli y = bx + a). Mamy zatem dwa współczynniki, które opisują jej kształt: b jest związane z kątem nachylenia linii względem osi X, natomiast a, nazywany stałą, oznacza punkt przecięcia przez linię osi Y. Aby sprawdzić, jakie współczynniki powinniśmy wstawić do równania opisującego nasze dane, wykonujemy analizę regresji:
Do odpowiednich pól wpisujemy zmienną zależną i predyktory. W powyższym przykładzie próbujemy ustalić równanie regresji do przewidywania oceny na koniec I klasy na podstawie liczby książek przeczytanych w I klasie.
Wyniki analizy możemy odczytać z raportu.
Na początku znajdziemy ogólne informacje o stworzonym modelu: zestawienie wprowadzonych i usuniętych zmiennych oraz podsumowanie wartości wyjaśniającej modelu - wartości R i R2.
Najpierw warto jednak spojrzeć na znajdujący się poniżej wynik analizy wariancji: porównanie wariancji (zmienności) wyników przewidywanej przez model regresji (wyjaśnionej przez regresję, w wierszu regresja) z wariancją niewyjaśnioną przez model (w wierszu reszta). Wynik analizy wariancji istotny statystycznie oznacza, że model regresji dobrze wyjaśnia wyniki zmiennej zależnej.
W tej sytuacji możemy pokusić się o zapisanie równania regresji: w naszym przykładzie będzie to proste równanie z tylko jednym predyktorem. Poszukujemy w nim przewidywanej wartości zmiennej zależnej i to ona jest oznaczona jako y. Zatem predyktor jest oznaczony jako x. We wzorze opisującym prostą podstawmy:
za a - stałą, czyli wartość z kolumny B i wiersza (stała) = 2,53
za b - wartość współczynnika regresji z kolumny B i wiersza z nazwą zmiennej = 0,11
w ten sposób uzyskujemy następujące równanie regresji:
y' = 2,53 + 0,11* x
Przewidywaną dla danego ucznia ocenę w klasie 1 (y') otrzymamy dodając do stałej (2,53) wynik mnożenia liczby przeczytanych przez niego książek w 1 klasie (x) przez wartość współczynnika b (0,11). Na przykład dla ucznia, który przeczytał 20 książek przewidywana ocena to: y' = 2,53 + 0,11 * 20 = 2,53 + 2,2 = 4,73
Jak widać wartość przewidywana przez równanie regresji może być niemożliwa do uzyskana w faktycznych wynikach. Mało kiedy w życiu zdarzy się tak, że między wynikami przewidywanymi a faktycznymi nie będzie żadnej różnicy.
Dlatego dodatkową cenną informacją o stworzonym modelu jest wartość jego współczynnika determinacji, poznanego przez nas wcześniej jako R2. Jest on proporcją zmienności Y wyjaśnionej przez X do całkowitej zmienności Y - zatem R2 równy 0,82 oznacza że 0,82 (inaczej 82 %) wariancji zmiennej zależnej - oceny w klasie 1 - można wyjaśnić wpływem predyktora - liczbą przeczytanych książek.
Oprócz opisanego właśnie równania regresji dla wyników standardowych możemy w przewidywaniu użyć równania regresji dla wyników standardowych. Pozwala ono przewidywać wystandaryzowaną wartość zmiennej zależnej (zy') na podstawie wystandaryzowanej wartości predyktora (zx). Oczywiście w równaniu używamy także wystandaryzowanego współczynnika regresji, β (beta). Równanie takie ma postać:
zy' = β*zx
W naszym przykładzie przyjmuje ono postać: zy' = 0,91*zx
Na przykład dla ucznia, który przeczytał liczbę książek odpowiadającą jednemu odchyleniu standardowemu powyżej średniej przewidywana ocena ma wartość wystandaryzowaną: zy' = 0,91 * 1 = 0,91
β wskazuje na siłę związku między danym predyktorem a zmienną zależną. Wartości tego współczynnika uzyskane dla różnych predyktorów można wprost porównać ze sobą, gdyż są wyrażone w "jednostkach uniwersalnych" standaryzacji. W przypadku regresji z jednym predyktorem β jest równy współczynnikowi korelacji r- Pearsona.
W ostatnich kolumnach tabeli współczynników znajduje się wynik testu t (wartość i poziom istotności) osobno dla każdego z predyktorów i stałej. Hipoteza zerowa tego testu mówi, że współczynnik regresji dla danego predyktora jest w populacji równy 0. Jeżeli zatem wynik testu t jest nieistotny, dany współczynnik w równaniu regresji należy pominąć.
Ilustracją analizy regresji liniowej jest wykres rozrzutu z prostą: z menu Wykresy wybieramy wykres Rorzutu, a następnie w edytorze wykresów Ustawienia > Opcje i dopasowujemy do wykresu linię regresji prostej. Efekt dla naszego przykładu wygląda następujaco:
Analizę regresji równie łatwo wykonać dla modelu z więcej niż jednym predyktorem.
W trakcie wprowadzania zmiennych do analizy warto skorzystać z możliwości wyboru jednego z kilku wariantów uwzględniania ich w modelu. SPSS pozwala wybrać z następujących metod łączenia predyktorów:
1. Wprowadzania - wszystkie predyktory wprowadzane są jednocześnie i analizowany jest unikalny wpływa każdego z nich na zmienną zależną
2. Selekcji postępującej - kolejno włączane są najsilniejsze predyktory, przy czym istotność każdego z nich nie może być mniejsza niż założona wartość (najczęściej 0.05)
3. Eliminacji wstecznej- po stworzeniu modelu ze wszystkimi predyktorami kolejno usuwane są najsłabsze, przy czym istotność każdego z nich nie może być większa niż założona wartość (najczęściej 0.10)
4. Krokowa - połaczenie dwóch powyższcyh: kolejno włączane są najsilniejsze predyktory oraz usuwane są najsłabsze
5. Hierarchiczna - predyktory wprowadzane są w kolejności i w blokach ustalonych przez użytkownika.
Metody 2, 3 i 4 prowadzą często do wygenerowania więcej niż jednego modelu - analizując dane możemy wówczas wybrać model lepszy, bardziej dopasowany do danych. Najlepiej posłużyć się wtedy wartością skorygowanego R2 - uwzględniającego liczbę predyktorów oraz liczbę obserwacji. Najlepszy jest ten model, który ma jak najwyższą wartość skorygowanego R2 przy jak najmniejszej liczbie predyktorów.
Do oceny relatywnej wartości wyjaśniającej predyktorów warto też wykorzystać korelacje cząstkowe i semicząstkowe (w oknie regresji liniowej, pod klawiszem Statystyki).
Korelacja rzędu zerowego to korelacja predyktora ze zmienną zależną, korelacją cząstkowa to ta sama korelacja po usunięciu wpływu pozostałych predyktorów z obu zmiennych, a korelacja semicząstkowa to korelacja między zmienną zależną a predyktorem po usunięciu tylko z niego wpływu pozostałych predyktorów.
Na podstawie wcześniej zaobserwowanej zależności z klasy 1 pedagog próbuje przewidzieć oceny uczniów w klasie 2. W modelu uwzględnia także wcześniejsze dane z klasy 1 - liczbę książek i ocenę.
wzór analizy regresji dla tego przykładu:
y' = 0,90* ocena1 - 0,08 * książki1 + 0,08*książki2 (stała nieistotna)
4
Zastosowanie komputerów, semestr letni 2004/2005, mgr Ewa Lipiec