Regresja prosta liniowa i regresja liniowa wielokrotna
Pierwsze spojrzenie
Ekonomistę zajmującego się gospodarką na szczeblu makroekonomicznym może zainteresować jaki wpływ na wysokość stopy procentowej wywierają zmiany w poziomie produktu krajowego brutto per capita. Demograf, którego przedmiotem zainteresowania jest badanie ruchu naturalnego ludności podejmie analizę zależności ilości dzieci od wieku kobiety. Każdy z nas idąc w góry może postawić pytanie, jak zmienia się temperatura powietrza wraz ze wzrostem wysokości nad poziomem morza.
Czytając uważnie powyższe pytania i zawarte w nich problemy badawcze powstaje dylemat, jak uzyskać odpowiedź na te zagadnienia, która będzie wiarygodna? Jakie dane zebrać, jak je uporządkować i jakim narzędziem się posłużyć, aby analiza problemu okazała się skuteczna?
Przywołajmy raz jeszcze pierwsze pytanie i niech to będzie nasz problem badawczy.
Problem badawczy
Jaki wpływ na wysokość stopy procentowej wywierają zmiany w poziomie produktu krajowego brutto per capita?
Analiza problemu ujawnia dwie wielkości czyli zmienne: stopę procentową oraz produkt krajowy brutto. Obie z analizowanych zmiennych są wyrażone są pomocą liczb. Jeśli zmienne są wyrażone liczbami to mamy do czynienia ze zmiennymi ilościowymi.
Wstępna analiza problemu ujawnia dodatkowy fakt, iż mianowicie jedna ze zmiennych wpływa na drugą. To ważny fakt, który prowadzi do rozróżnienia zmiennej zależnej oraz zmiennej niezależnej. W przypadku omawianego problemu zmienną zależną jest stopa procentowa a zmienną niezależną jest produkt krajowy brutto per capita.
Dane
Chcąc przeprowadzić badanie modelem regresji linowej prostej należy zebrać odpowiednie dane. W przypadku naszego problemu badawczego należy zebrać dane dotyczące stopy procentowej oraz wysokości produktu krajowego brutto per capita. Takie dane prezentuje poniższa tablica.
Tablica 1. Dane empiryczne.
Państwo |
PKB per capita w USD |
Stopa procentowa banków centralnych |
Państwo |
PKB per capita w USD |
Stopa procentowa banków centralnych |
Argentyna |
7696 |
24,9 |
Meksyk |
6190 |
12,9 |
Australia |
21080 |
5,1 |
Niderlandy |
26135 |
2,8 |
Austria |
25291 |
2,2 |
Niemcy |
24199 |
4,4 |
Belgia |
23871 |
2,8 |
Norwegia |
42239 |
8,5 |
Białoruś |
3000 |
38,0 |
Nowa Zelandia |
15443 |
5,8 |
Brazylia |
3551 |
25,5 |
Polska |
4944 |
7,5 |
Bułgaria |
1509 |
3,3 |
Portugalia |
12109 |
2,7 |
Chiny |
847 |
2,7 |
Republika Czeska |
6780 |
2,8 |
Cypr |
11715 |
5,0 |
Republika Korei |
10059 |
2,5 |
Dania |
32228 |
2,9 |
Rep. Pd. Afryki |
2882 |
13,5 |
Estonia |
36506 |
4,9 |
Rosja |
1726 |
21,0 |
Finlandia |
25386 |
4,3 |
Rumunia |
1635 |
35,0 |
Francja |
23987 |
4,3 |
Słowacja |
4381 |
6,5 |
Grecja |
12493 |
4,1 |
Słowenia |
9095 |
11,9 |
Hiszpania |
16360 |
4,4 |
Stany Zjednoczone |
35986 |
0,0 |
Indie |
456 |
6,3 |
Szwajcaria |
37294 |
0,8 |
Irlandia |
30902 |
3,3 |
Szwecja |
27245 |
2,0 |
Japonia |
31311 |
0,1 |
Turcja |
2670 |
55,0 |
Kanada |
22920 |
3,0 |
Ukraina |
640 |
7,0 |
Litwa |
3054 |
3,4 |
Węgry |
6667 |
8,5 |
Łotwa |
2963 |
3,0 |
W. Brytania |
26209 |
5,1 |
Malta |
9349 |
3,8 |
Włochy |
20614 |
4,3 |
Źródło: Rocznik statystyczne 2002.
Kilka istotnych faktów
Analiza problemu badawczego metodą regresji liniowej prostej wymaga spełnienia pewnych wymagań formalnych. Ich pominięcie czy niespełnienie może prowadzić do błędnych wniosków wynikających z modelu, a w konsekwencji do podjęcia błędnych decyzji. Ponadto, poznanie istoty modelu znacznie ułatwia pracę badawczą i zwiększa efektywność naszej pracy, a co za tym idzie oszczędzamy czas. Prześledźmy istotne fakty związane z modelem regresji liniowej prostej.
Model regresji liniowej prostej jest wyrażony ogólnym równaniem o następującej formule:
Przedstawiona formuła jest matematycznym zapisem równania prostej, gdzie z punktu widzenia ekonometrii wyróżniamy:
- zmienna zależna
- zmienna niezależna
- parametry
- zmienna losowa
Trzecim parametrem modelu - chociaż nie uwzględnionym wprost w równaniu - jest
, czyli wariancja błędu losowego.
W przypadku naszego problemu badawczego zmienna zależną
jest wysokość stopy procentowej natomiast zmienna niezależną
jest wysokość produktu krajowego brutto per capita.
Interpretacji podlega jedynie parametr
, o nazwie współczynnik kierunkowy. Parametr
nazywamy wyrazem wolnym i nie interpretujemy go.
Zastosowanie metody najmniejszych kwadratów pozwala na oszacowanie parametrów ogólnego równania modelu. W wyniku takiego zabiegu otrzymujemy równanie prognozy o formule:
gdzie,
to estymatory parametrów:
.
Metoda najmniejszych kwadratów polega na minimalizacji kwadratu błędu losowego określonego poprzez formułę:
gdzie:
to błąd losowy.
W tym miejscu warto zwrócić uwagę na rozróżnienie pomiędzy parametrem i estymatorem parametru.
Estymator jest to wartość oszacowana na podstawie próby składającej się z obserwacji. Determinuje to jego zmienność wraz ze zmianą ilości elementów w próbie, bądź ze zmianą wartości liczbowych obserwacji w próbie.
Parametr jest to stała i ustalona wartość, która nie podlega wahaniom związanym z wielkością próby lub zmianami wartości jej elementów, ponieważ oblicza się go na podstawie całej populacji.
Powstają jednak pytania zasadnicznej treści: czy jest celowe obliczanie poszukiwanej wartości na podstawie całej populacji? jak wysokie koszty należy ponieść, aby ów parametr został wyznaczony? oraz czy jest to w ogóle możliwe?
Rozważmy następujący problem badawczy: wyznaczyć średnie zarobki nauczycieli w Polsce, a odpowiedzi na powyższe pytania w konfrontacji w podstawionym zagadnieniem niech sobie udzieli czytelnik sam.
Miara dopasowania modelu do danych empirycznych wskazuje w jakim procencie zmienność zmiennej zależnej
została wyjaśniona przez model regresji liniowej prostej. Miara ta jest również nazywana współczynnikiem determinacji, co określa w jakim procencie zmiany w poziomie zmiennej zależnej
są determinowane przez model. Miara dopasowania modelu przyjmuje zawsze wartości, które mieszczą się w przedziale
i jest oznaczana przez
.
Wyznaczenia współczynnika dopasowania modelu do danych empirycznych można dokonać z wykorzystaniem poniższych wzorów:
gdzie:
to suma kwadratów regresji tj. różnicy pomiędzy prognozowaną wartością zmiennej zależnej
a średnią wartością zmiennej zależnej
to suma kwadratów błędów (reszt) tj. różnicy pomiędzy wartością empiryczną zmiennej zależnej
a prognozowaną wartością zmiennej zależnej
lub
to suma kwadratów ogółem tj. różnicy pomiędzy wartością empiryczną zmiennej zależnej
a średnią wartością zmiennej zależnej
Interpretacja współczynnika determinacji
jest następująca:
jeśli
to model nie wyjaśnia zmienności zmiennej
jeśli
to model całkowicie wyjaśnia zmienność zmiennej
, tzn. ze nie występują reszty w modelu
W modelu regresji liniowej prostej testujemy istotność modelu oraz istotność parametrów modelu. Testowaniu podlega zatem odpowiednio miara dopasowania
oraz parametry
.
Test istotności
Test istotności
to badanie istotności całego modelu, tj. sprawdzenie czy model jest wiarygodny z punktu widzenia analizy jaką przeprowadzamy.
Testowanie oznacza postawienie hipotez statystycznych oraz przyjęcie poziomu istotności testu
. Do weryfikacji hipotez statystycznych dotyczących istotności modelu wykorzystujemy test F.
Hipoteza zerowa:
oznacza, iż model nie wyjaśnia zmienności zmiennej zależnej
. W praktyce, brak podstaw do odrzucenia hipotezy zerowej oznacza odrzucenie modelu.
Hipoteza alternatywna:
oznacza, iż współczynnik determinacji jest istotnie większy od zera. Odrzucenie hipotezy zerowej na korzyść hipotezy alternatywnej warunkuje przyjęcie modelu.
Weryfikacja hipotezy zerowej odbywa się za pomocą następującej formuły zwanej sprawdzianem hipotezy:
gdzie: MSR oraz MSE to średnie kwadraty odchyleń odpowiednio dla sumy kwadratów regresji oraz sumy kwadratów błędów (reszt) wyrażone:
gdzie:
- łączna liczba zmiennych zależnych oraz niezależnych
- liczba obserwacji
Obliczenie wartości testu F z próby oraz wyznaczenie wartości krytycznej testu Fα dla przyjętego poziomu istotności
oraz stopni swobody r-1 i n-2 pozwala na podjęcie jednej z dwóch następujących decyzji, co do hipotezy zerowej:
jeśli
wtedy odrzucamy
na korzyść
, co oznacza, iż współczynnik determinacji jest istotnie większy od zera
jeśli
wtedy nie ma podstaw do odrzucenia
, co oznacza, iż współczynnik determinacji nie jest istotnie większy od zera
Testy istotności parametrów
Test istotności parametrów
to badanie istotności poszczególnych elementów modelu, tj. sprawdzenie wiarygodności parametrów. Testowaniu podlegają dwa z trzech parametrów jakie występują w modelu regresji liniowej prostej.
Testowanie oznacza postawienie hipotez statystycznych oraz przyjęcie poziomu istotności testu
. Do weryfikacji hipotez statystycznych dotyczących parametrów modelu wykorzystujemy test t.
Parametr
Hipoteza zerowa:
wskazuje, iż parametr nie różni się istotnie od zera. W praktyce brak podstaw do odrzucenia hipotezy zerowej oznacza, iż parametr nie jest istotny.
Hipoteza alternatywna:
≠
wskazuje, iż parametr różni się istotnie od zera. W praktyce odrzucenie hipotezy zerowej na korzyść hipotezy alternatywnej oznacza, iż parametr jest istotny. Jest to sytuacja pożądana dla modelu.
Parametr
Hipoteza zerowa:
wskazuje, iż parametr nie różni się istotnie od zera. W praktyce brak podstaw do odrzucenia hipotezy zerowej oznacza, iż parametr nie jest istotny.
Hipoteza alternatywna:
≠
wskazuje, iż parametr różni się istotnie od zera. W praktyce odrzucenie hipotezy zerowej na korzyść hipotezy alternatywnej oznacza, iż parametr jest istotny. Jest to sytuacja pożądana dla modelu.
Miarą, która określa siłę oraz kierunek zależności pomiędzy zmiennymi w modelu regresji liniowej prostej jest współczynnik korelacji
Miara ta zawsze zawiera się w przedziale (-1,1) i zwykle oznaczana jest przez
.
Siłę zależności pomiędzy zmienną zależną
i
niezależną określa wartość
:
jeżeli
lub
wówczas korelacja pomiędzy zmiennymi jest silna (im bliżej 1 lub -1 tym silniejsza)
jeżeli
wówczas korelacja pomiędzy zmiennymi jest słaba (im bliżej 0 tym słabsza)
Kierunek zależności pomiędzy zmienną zależną
i
niezależną określa wartość
:
jeżeli
wtedy korelacja jest dodatnia
jeżeli
wtedy korelacja jest ujemna
Tylko w modelu regresji liniowej prostej istnieje pewna zależność, a mianowicie:
ponadto:
tj. znak współczynnika korelacji oraz znak stojący przy współczynniku
są zawsze takie same.
Prognozowanie w modelu regresji liniowej prostej
Prognozowanie ma miejsce z wykorzystaniem równania prognozy o formule:
Wyznaczenie wartości prognozy może mieć miejsce wyłącznie dla
dla wartości typowych, tj. wartości bliskich średniej. Obliczenie przedziału dla zmiennej niezależnej
odbywa się z wykorzystaniem formuły:
Prognozowanie z wykorzystaniem wartości z poza wyznaczonego przedziału może być przyczyną otrzymania wartości prognozy niezgodnych z zasadami ekonomii lub zdrowego rozsądku. Taka sytuacja jest nazywana `nożycami regresji'.
Przyrost krańcowy (marginalny) oraz elastyczność
Dwie charakterystyki, które są wyznaczane w regresji to:
Przyrost krańcowy odzwierciedla zmiany bezwzględne (jednostkowe) w poziomie zmiennych, przedstawione za pomocą równania:
które, interpretujemy następująco: Zmiana zmiennej zależnej
spowodowana zmianą zmiennej niezależnej
o 1 jednostkę.
Elastyczność odzwierciedla zmiany względne (procentowe) w poziomie zmiennych, przedstawione za pomocą równania:
które, interpretujemy następująco: Zmiana zmiennej zależnej Y spowodowana zmianą zmiennej niezależnej X o 1%.
Do wyznaczenia elastyczności z regresji liniowej prostej niezbędne jest posiadania następujących danych, które podstawiamy w miejsce zmiennych
oraz
do powyższego wzoru:
najbardziej aktualne, jeśli badamy zjawisko w czasie,
najbardziej reprezentatywne wartości w próbie:
średnie, gdy rozkłady zmiennych
oraz
są normalne,
mediany, gdy rozkłady zmiennych
oraz
nie są normalne.
W modelu regresji liniowej prostej należy rozważyć kilka założeń, które są niezbędne do uzyskania wiarygodności modelu.
Wartość oczekiwana błędu losowego
rozumiana jako „zerowanie się” błędów losowych modelu. Obliczenie wartości oczekiwanej jest możliwe z wykorzystaniem estymatora wartości oczekiwanej, tj. średniej błędów losowych:
gdzie:
- to błąd losowy
- liczebność próby w modelu
Wariancja błędu losowego
Estymatorem wariacji błędu losowego jest formuła:
gdzie:
- to błąd losowy
- liczebność próby w modelu
Należy dążyć w modelu do minimalizacji wariancji błędu losowego.
Normalność obserwacji
Spełnienie tego założenia jest związane z wielkością próby:
jeżeli ilość obserwacji w próbie wynosi więcej niż 30 wtedy rozkład reszt może być dowolny
jeżeli ilość obserwacji w próbie wynosi mniej niż 30 wtedy należy przyjąć dodatkowe założenie dotyczące normalnego rozkładu reszt
~
9. Analiza reszt modelu
Homoskedastyczność reszt
Analiza homoskedastyczności modelu opiera się na badaniu rozkładu reszt modelu. W przypadku, gdy nie obserwujemy fluktuacji reszt modelu wraz ze wzrostem wartości zmiennej niezależnej można mówić o stałości reszt, czyli o spełnieniu założenia homoskedastyczności.
Rys. 1 Rozkład reszt
Na rysunku 1 rozkład reszt wskazuje na istnieje homoskedastyczności modelu regresji.
Rysunek 2
Rysunek 2 przedstawia rozkład reszt, który wskazuje na brak stałości wariancji modelu regresji. Reszty modelu odznaczają się zmienną wariancją. Występuje znaczna fluktuacja reszt wraz z narastaniem wartości zmiennej.
Obserwacje odstające
Jeśli reszty standaryzowane modelu znajdują się w przedziale
to oznacza, iż nie ma obserwacji odstających.
Standaryzacja reszt to operacja, polegająca na podzielniu reszty modelu przez pierwiastek z MSE. Otrzymujemy dzięki temu wartości, które są możemy porównywać z sobą. Standaryzaję przedstawia formuła:
Normalność reszt
Sprawdzianem normalności reszt są statystyki opisowe reszt standaryzowanych modelu. Jeśli wartość bezwzględna miary kurtozy i skośności nie przekroczy jedności reszty modelu spełniają założenie normalności.
Autokorelacja składnika losowego
Test Durbina-Watsona
Do wykrywania autokorelacji składnika resztowego służy statystyka dana formułą:
Współczynnik autokorelacji
podobnie, jak współczynnik korelacji
przyjmuje wartości z przedziału (-1;1).
W celu wykrycia zależności pomiędzy resztami modelu formułujemy hipotezy, zerową i alternatywną
oraz przyjmujemy poziom istotności testu
.
Między statystyką d a współczynnikiem autokorelacji z próby
istnieje zależność:
Zatem statystyka d może przyjmować wartości z przedziału
, gdzie jeśli
to
.
Rozkład statystyki d zależy od liczby obserwacji n oraz liczby zmiennych niezależnych w modelu regresji k. Wartości statystyki odczytujemy z tablic Durbina-Watsona dla ustalonego poziomu istotności testu
oraz parametrów n oraz k. Otrzymujemy dwie wartości statystyki d oznaczone jako d1 oraz d2 w oparciu, o które podejmujemy decyzje, co do hipotezy zerowej H0:
Odrzucenie H0:
lub
Przyjęcie H0:
lub
Nie podejmujemy żadnej decyzji:
lub