Analiza regresji

Analiza regresji - regresja liniowa

Podstawy statystyki dla prowadzących badania naukowe
Odcinek 22: Analiza regresji - regresja liniowa

mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie (Kierownik Zakładu: prof. dr hab. med. Andrzej Żarnecki)
Data utworzenia: 03.08.2001
Ostatnia modyfikacja: 30.04.2007
Opublikowano w Medycyna Praktyczna 2000/11

W poprzednim odcinku omówiliśmy współczynnik korelacji liniowej Pearsona, oddający siłę i kierunek liniowego związku między dwiema zmiennymi losowymi. W tym odcinku, poświęconym regresji liniowej, zajmiemy się modelowaniem zależności między dwiema zmiennymi: zmienną zależną (Y) i zmienną niezależną (X), zakładając, że między X i Y zachodzi związek liniowy. Powiązania nieliniowe będą omówione w dalszych odcinkach.

Podstawy statystyki dla prowadzących badania naukowe

Model regresji liniowej opisujący zależność zmiennej Y od zmiennej X ma postać:

gdzie:

- wartość teoretyczna wyliczona dla wartości x,

β0, β1 - parametry liniowej funkcji regresji

ε - składnik losowy.

Parametrami modelu są liczby β0, β1, przy czym β0 to punkt przecięcia linii prostej z osią rzędnych, a β1 to współczynnik kierunkowy, czyli miara nachylenia linii

względem osi odciętych. Składnik losowy reprezentuje losowe zakłócenia funkcyjnego powiązania między wartościami zmiennej zależnej a wartościami zmiennej niezależnej. Składnik ten wyraża wpływ wszystkich czynników, które obok X mogą wpływać na zmienną objaśnianą Y. Jest on związany z brakiem pełnego dopasowania analitycznej postaci funkcji regresji do rzeczywistego powiązania między analizowanymi zmiennymi. Składnik losowy pozwala obliczyć dokładność szacunku parametrów liniowej funkcji regresji.

Musimy pamiętać, że w rzeczywistości parametry β0 i β1 nie są znane. Można je tylko oszacować na podstawie n-elementowej próby składającej się z par obserwacji (xi, yi) dla i = 1, 2,..., n. Oszacowana funkcja regresji przyjmuje wówczas następującą postać:

gdzie:

i - 1, 2,..., n to kolejne numery elementów obserwacji,

ei - tzw. reszty (zmienna losowa) definiowane jako

b0 i b1 - omówiono dalej.

Jak jednak znaleźć taką "dobrze dopasowaną" linię prostą? Punktem wyjścia są reszty, a właściwie suma kwadratów reszt, opisująca rozbieżność pomiędzy wartościami empirycznymi zmiennej zależnej a jej wartościami teoretycznymi, obliczonymi na podstawie wybranej funkcji. Oszacowania β0 i β1 dobieramy tak, aby suma kwadratów reszt osiągnęła minimum. Ta najbardziej znana i najczęściej stosowana metoda szacowania parametrów linii regresji nosi nazwę metody najmniejszych kwadratów. Nie musimy się martwić o skomplikowane obliczenia, wszystkie pakiety statystyczne zawierają bowiem programy obliczania regresji. Pakiet STATISTICA zawiera moduł Regresja wielokrotna do przeprowadzenia ciekawszych i bardziej złożonych analiz. Za pomocą tego modułu można przeprowadzić obliczenia związane z liniową regresją wielokrotną, regresją krokową lub przeprowadzić analizę modeli nieliniowych, które poprzez transformację sprowadzamy do postaci liniowej. Po wybraniu tego modułu lub po dwukrotnym kliknięciu jego nazwy otwiera się okno Regresja wielokrotna przedstawione na rysunku 1.

Rys. 1. Okno wstępne modułu Regresja wielokrotna

Opis analiz związanych z regresją zaczniemy od przykładu. Z populacji dzieci i młodzieży wybrano losowo próbę 16-osobową i określono następujące dane: xi - wiek w latach, yi - wzrost w centymetrach. Otrzymano następujące pary liczb:

xi 7 8 9 10 11 11,5 12 13 14 14 15 16 17 18 18,5 19
yi 120 122 125 131 135 140 142 145 150 100 154 159 162 164 168 170

Jesteśmy zainteresowani równaniem regresji opisującym zależność wzrostu od wieku. W tym celu po wyborze właściwych zmiennych i przyjęciu pozostałych ustawień domyślnych klikamy OK. Otworzy się wówczas pośrednie okno Wyniki regresji wielokrotnej umożliwiające wybór dalej wyliczanych statystyk i wykresów (rys. 2).

Rys. 2. Okno wstępnych wyników regresji wielokrotnej

Okno to pokazuje sumaryczne wyniki analizy regresji i oferuje opcje do przeglądania wyników szczegółowych, a także umożliwia sprawdzenie założeń analizy regresji.

Nas interesują współczynniki modelu WZROST = b1 ⋅ WIEK + b0 wyznaczone metodą najmniejszych kwadratów. W tym celu klikamy przycisk Podsumowanie regresji dla przywołania arkusza wyników zawierającego te współczynniki. Widzimy go na rysunku 3.

Rys. 3. Okno Arkusz wyników

Współczynniki regresji to kolumna oznaczona [4]. Pierwszy wiersz to wartość stała b0, a drugi to współczynnik b1. Tak więc poszukiwany model ma postać:

WZROST = 4,14753 ⋅ WIEK + 87,72349

Parametr b0 wynosi 4,14753, co oznacza, że jeśli wartość zmiennej WIEK wzrośnie o jedną jednostkę (w naszym przykładzie o rok), to oczekujemy, że WZROST zwiększy się o 4,14753 cm.

W praktyce nie dysponujemy pełną informacją o populacji generalnej. Otrzymujemy więc funkcję regresji wyliczoną metodą najmniejszych kwadratów w oparciu o dane z losowej próby. Ta funkcja regresji, zwana empiryczną, jest aproksymacją regresji w całej populacji. Wiąże się z tym problem oceny rozbieżności między wartościami zmiennej niezależnej yi a wartościami wyliczonymi z modelu. Różnice opisujące tę rozbieżność noszą nazwę reszt. Im reszty są mniejsze, tym bliżej wartości empirycznej yi są wartości przewidywane przez model. Najlepiej by było, gdyby reszty były równe zero, ale w praktyce nigdy tak się nie zdarza. Nasuwa to koncepcję, aby jako miarę omawianej rozbieżności potraktować odchylenie standardowe reszt ei. W statystyce bowiem precyzję estymatora oddaje jego wariancja. Tak też jest w istocie - wielkość ta, zwana błędem standardowym estymacji i oznaczana jako Se, informuje o przeciętnej wielkości odchyleń empirycznych wartości zmiennej zależnej od wartości wyliczonych z modelu (teoretycznych). Jest to ważny parametr w analizie regresji, ponieważ stanowi miarę rozproszenia elementów populacji wokół linii regresji. Odchylenie standardowe reszt mówi więc nam o stopniu "dopasowania" modelu do danych empirycznych. Im Se mniejsze, tym lepiej dopasowany model. Wartość tę znajdziemy w dwóch miejscach, w oknie Wyniki regresji wielokrotnej oraz powtórzoną w arkuszu wyników w polu oznaczonym numerem [1]. W naszym przypadku wartość ta wynosi Se = 12,725. Oznacza to, że przewidywane wartości zmiennej WZROST różnią się od wartości empirycznych średnio o 12,725 cm.

Można zatem napisać:

WZROST = 4,14753 ⋅ WIEK + 87,72349 ± 12,725

Wyliczone współczynniki regresji b0 i b1 są, jak wiemy, oszacowaniami współczynników regresji dla całej populacji. Nasuwa się więc pytanie, jakim błędem są one obciążone. Odpowiedzi na nie udziela średni błąd szacunku parametru. Stanowi on oszacowanie średniej rozbieżności między parametrami modelu a jego możliwymi ocenami. Pamiętajmy - im mniejszy średni błąd szacunku, tym lepiej. Wartości te znajdziemy w arkuszu wyników (rys. 3) w polu oznaczonym numerem [5]. Dla naszego przykładu:

oceny parametru b1 odchylają się od tego parametru o Sb1 = 0,86996

oceny parametru b0 odchylają się od tego parametru o Sb0 = 12,01024.

Szacując współczynnik kierunkowy na poziomie 4,14753, mylimy się więc średnio o 0,869. Podobnie szacując wyraz wolny na poziomie 87,723, mylimy się średnio o 12,01. Można zapytać, czy to dużo czy mało? To zależy od wartości współczynników. Dla parametru b1 błąd szacunku stanowi około 21% (0,86996/4,14753 0,21), natomiast dla wyrazu wolnego - około 14% (12,01024/87,723 0,14). Jeżeli wartość jest bliska 100% lub większa, precyzja jest bardzo niezadowalająca. Wartości ponad 50% powinny już zwrócić naszą uwagę na inne oceny modelu. Przyjęło się wielkości Sb zapisywać w nawiasach pod ocenami parametrów modelu. Dla naszego przykładu mamy więc:

WZROST = 4,14753 ⋅ WIEK + 87,72349 ± 12,725

                   (0,86996)               (12,01024)

Oceny Sb0 umożliwiają wyliczenie przedziałów ufności dla prawdziwych (w całej populacji) parametrów regresji β0, β1.

Korzystamy w tym celu z podanych poniżej wzorów:

(1-α)100% przedział ufności dla parametru β0 ma postać b0 ± tα,n-2Sb0

(1-α)100% przedział ufności dla parametru β1 ma postać b0 ± tα,n-2Sb1

gdzie n to liczebność próby, a tα,n-2 - wartość rozkładu t-Studenta dla poziomu ufności (1-α)100% przy n-2 stopniach swobody (wartość tę możemy wyliczyć w pakiecie STATISTICA, korzystając z kalkulatora prawdopodobieństwa.

Posługując się naszym przykładem, wyliczymy 95% przedział ufności dla β1. Otrzymujemy: b0 ± tα,n-2Sb0 = 4,14753 ± 2,145 ⋅ 0,86996 = <2,28147; 6,01359>. Możemy więc mieć 95% pewność, że współczynnik kierunkowy regresji w całej populacji mieści się gdzieś między 2,281 a 6,014. Ten zakres odbiega daleko od zera i dlatego możemy być na 95% pewni, że zero nie jest miarą nachylenia linii regresji w populacji. O tym bardzo ważnym wniosku będzie mowa w następnym odcinku.

Wielu autorów uważa jednak, że średnie błędy szacunku są niewygodne w użyciu. Dużo łatwiej jest interpretować ilorazy t (t = bi/Sbi). Wartości te znajdujemy w oknie Arkusz wyników (rys. 3) w polu [6]: tb1 = 7,304 i tb0 = 4,76

Widzimy teraz wyraźnie, że ocena pierwszego parametru jest 7,3 razy większa od błędu szacunku, natomiast drugiego - 4,7 razy większa od błędu szacunku. Źle, gdy sytuacja jest odwrotna, tzn. błąd szacunku jest większy od oceny parametru (|t| <1).

Omówiliśmy już kilka miar "dopasowania". Najbardziej jednak popularną miarą jest współczynnik determinacji. Jest to liczba z przedziału <0, 1>. R2 równe 1 oznacza doskonałe dopasowanie, natomiast wartość R2 równa 0 - brak powiązania między zmiennymi. Punktem wyjścia do utworzenia takiej miary jest badanie sumy kwadratów odchyleń poszczególnych obserwacji yi od ich średniej. Można pokazać, że:

całkowita suma kwadratów (CSK) wyjaśniona suma kwadratów
(WSK) - opisuje zmienność wyjaśnioną przez model
resztowa suma kwadratów
(RSK) - zmienność niewyjaśniona przez model

Rozbicie to pokazane jest na rysunku 4.

Rys. 4. Podział zmienności dla linii regresji

Jako współczynnik determinacji przyjmujemy stosunek zmienności wyjaśnionej do zmienności całkowitej.

Otrzymujemy więc: R2 = WSK/CSK

Współczynnik determinacji mierzy, jaka część ogólnej zmienności zmiennej zależnej jest wyjaśniona przez regresję liniową. Tej miary dopasowania używamy tylko dla regresji liniowej. Symbol R2 wziął się stąd, że w modelu liniowym współczynnik determinacji jest równy kwadratowi współczynnika korelacji. Wartość R2 znajdziemy w arkuszu wyników (rys. 3) - w polu oznaczonym symbolem [1]. W naszym przykładzie wartość ta wynosi R2 = 0,618832. Można ją wyrazić w procentach, mówiąc że model wyjaśnia 61,88% zaobserwowanej zmienności, a nie wyjaśnia 38,12% zmienności.

Pamiętajmy: im większe R2, tym lepiej. Nie można jednak przesadzać. Dołączenie bowiem nowej zmiennej do istniejącego modelu zawsze powoduje zwiększenie R2. Naszym celem nie jest bowiem uzyskanie jak największego R2, lecz znalezienie związku między X i Y z rzetelnymi ocenami parametrów. Dlatego w praktyce używamy raczej tzw. poprawionego R2. Uwzględnia on, że R2 jest obliczony z próby i jest trochę "za dobry", jeśli uogólniamy nasze wyniki na populację. Poprawiony R2 mówi nam, jak dobrze dopasowane byłoby nasze równanie regresji do innej próby z tej samej populacji. Poprawiony R2 jest zawsze mniejszy od R2.

Odcinek ten kończę wykresem liniowej regresji dla rozpatrywanego przykładu (rys. 5)

Rys. 5. Wykres linii regresji wraz z 95% przedziałem ufności


Wyszukiwarka