Kurs obsługi programu PASW Statistics
Analiza regresji (liniowej, jednej zmiennej)
Autor: dr Joanna Karłowska-Pik
na podstawie informacji zdobytych na
,,Wiosennych Warsztatach Analitycznych SPSS, Warszawa, 12-13 maja 2008'',
warsztaty prowadziła p. dr Sylwia Bedyńska
Funkcja regresji przyporządkowuje średnie wartości zmiennej zależnej konkretnym wartościom zmiennej niezależnej. Najczęściej spotyka się liniowe funkcje regresji, ale dane mogą czasem wymagać dopasowania funkcji nieliniowej. Decyzję o rodzaju funkcji należy podjąć po wykonaniu wykresu rozrzutu.
W przypadku liniowym prosta regresji ma postać y = b0 + b1 x, gdzie paramtery b0 i b1 szacuje się metodą najmniejszych kwadratów. Badając dopasowanie należy uwzględnić istotność całego modelu oraz poszczególnych parametrów (zakładamy, że powinna być mniejsza niż 0,05). Gdyby np. stała okazała się nieistotna statystycznie (istotność większa niż 0,05), to należy usunąć ją z modelu i powtórzyć analizę.
Chcąc otrzymać informację, czy wyznaczona zależność ma miejsce w calej populacji, a nie tylko badanej próbce należy wykorzystać kolejne narzędzia i wyznaczyć obszar ufności dla prostej regresji lub np. wykonać test istotności współczynnika korelacji Pearsona.
Dla wyznaczenia prostej regresji wybieramy jedną z poniższych możliwości:
Analiza -> Regresja -> Estymacja krzywej.... Podajemy zmienne zależną i niezależną oraz zaznaczamy model Liniowy. Istnieje możliwość uzyskania współczynników równania y = b0 + b1 x, jeśli zaznaczymy Uwzglednij stałą w równaniu lub y = b1 x, jeśli tego nie zrobimy. W wyniku otrzymujemy tabelę ze współczynnikami oraz wykres. W tabeli podawany jest również współczynnik R-kwadrat.
Analiza -> Regresja -> Liniowa.... Nie uzyskamy wtedy wykresu, ale możemy wybrać Wykresy -> Wykresy tradycyjne -> Rozrzutu/Punktowy -> Prosty i stworzyć wykres rozrzutu. Po uaktywnieniu Edytora wykresów, kliknięciu prawym klawiszem myszki i wybraniu Dodaj Linia dopasowania w Ogółem mamy możliwość narysowania prostej regresji.
Uwagi:
Współczynnik R-kwadrat jest nazywany współczynnikiem determinacji i mierzy stopień dopasowania linii regresji jako przybliżenia zależności liniowej zmiennej zależnej od niezależnej. Im bliższy jest on liczbie 1, tym dopasowanie lepsze. Interpretacja tego współczynnika jest następująca: mówi on jaka część zmienności zmiennej zależnej Y może być wyjaśniona przez regresję, czyli liniową zależność od zmiennej X.
Współczynnik R-kwadrat jest kwadratem współczynnika korelacji Pearsona R. Jak podaje D.T. Larose:
R>0,7 - zmienne są dodatnio skorelowane,
0,33<R<=0,7 li < skorelowane, dodatnio słabo są zmienne ->
-0,33<=R<=0,33 - brak korelacji,
-0,7<=R<-0,33 - zmienne są słabo ujemnie skorelowane,
R<-0,7 - zmienne są ujemnie skorelowane.
Jeśli metodą najmniejszych kwadratów wyznaczymy zależność zmiennej y od x postaci y=ax+b i na odwrót, postaci x=cy+d, to ac=R.
Jeśli na wykresie rozrzutu z zaznaczoną prostą regresji klikniemy prawym klawiszem myszki i wybierzemy Właściwości, to w zakładce Linia referencyjna jest podane równanie tej prostej. Można zaznaczyć Dołącz etykietę do linii i wówczas równanie prostej pojawi się na wykresie.
Ćwiczenie 1. Wyznacz prostą regresji dla danych z pliku wiek_wzrost.sav. Następnie dodaj jedną obserwację, wpisując 20 jako wiek, a 210 jako wzrost badanej osoby. Wykonaj jeszcze raz analizę regresji. Jak zmieniło się równanie prostej i jej dopasowanie do modelu?
W celu wykluczenia z analizy przypadków odstających, które mogą niekorzystnie wpłynąć na przeprowadzaną analizę należy zrobić wykresy skrzynkowe analizowanych zmiennych. Na wykresach tych kółkiem i gwiazdką zaznaczone są przypadki odstające, odpowiednio nietypowe i skrajne. Przypadki te usuwamy, a w przypadku dużej ich liczby analizujemy osobno.
Ćwiczenie 2. Wykonaj wykresy skrzynkowe dla zmiennych zawartych w pliku cinema.sav, zawierającym dane dotyczące liczby kobiet i mężczyzn na kolejnych seansach filomowych, a następnie wykonaj analizę regresji i narysuj wykres rozrzutu. Czy widzisz przypadek odstający, którego nie wychwyciły wykresy skrzynkowe? Usuń go z dalszej analizy i powtórz ją. Porównaj wyniki.
Ćwiczenie 3. Wykonaj analizę regresji liniowej (Analiza -> Regresja -> Liniowa...) dla par zmiennych x i y z pliku ancsombe.sav. Porównaj wyniki otrzymane w tabelach, a następnie wykonaj wykresy rozrzutu i zaznacz proste regresji. Czy we wszystkich przypadkach prosta regresji dobrze oddaje zależność między zmiennymi?
Ćwiczenie 4. W pewnym Urzędzie Stanu Cywilnego przeprowadzono badanie nowo zawartych małżeństw ze względu na wiek męża i żony. Wyniki zawarte są w pliku usc.sav. Usuń z analizy przypadki odstające. Znajdź liniową funkcję regresji w_zony względem w_meza. Czy wszystkie współczynniki są istotne statystycznie? Jeśli nie, usuń je z analizy. Powtórz analizę i narysuj wykres rozrzutu z zaznaczoną prostą regresji.