Wykłady z ekonometrii
rok akademicki 2002/2003
Sprawdzanie liniowości związku regresyjnego. Test F.
W wykładzie podamy sposób sprawdzenia, czy zachodzi liniowy związek regresyjny między zmienną objaśnianą y, a którąkolwiek ze zmiennych objaśniających ![]()
, tzn. odpowiemy na pytanie, czy hipotetyczne równanie regresji jest postaci
![]()
.
Dokładniej mówiąc, przedstawimy test statystyczny, nazywany testem F, rozstrzygający która z hipotez
![]()
,
![]()
nie wszystkie ![]()
są równe zeru,
jest prawdziwa.
Jeżeli prawdziwa jest hipoteza zerowa ![]()
, to liniowy związek w hipotetycznym równaniu regresji nie występuje. Kończy to analizę regresji. Należy wtedy szukać innych modeli regresyjnych. W przypadku odrzucenia hipotezy zerowej ![]()
, mamy statystyczne podstawy do przyjęcia hipotezy alternatywnej![]()
, która oznacza, że występuje związek liniowy pomiędzy y, a co najmniej jedną ze zmiennych ze zmiennych ![]()
. Do przeprowadzenia testu wykorzystamy tzw. analizę wariancji.
5.1 Analiza wariancji. Tablica ANOVA.
Przypomnijmy, obserwacje zmiennej objaśnianej y zapisujemy w postaci
![]()
,
gdzie
![]()
- wartości zmiennych objaśniających,
![]()
- oszacowania (estymatory) parametrów regresji ![]()
,
e - reszta, czyli zaobserwowany błąd losowy.
Jeżeli
![]()
,
jest wartością teoretyczną zmiennej objaśnianej y, to
![]()
.
Średnią zaobserwowanych wartości zmiennej objaśnianej oznaczamy, jak zwykle, przez
![]()
,
gdzie n jest liczbą obserwacji.
Następnie definiujemy następujące wielkości:
Całkowita suma kwadratów
![]()
;
Suma kwadratów odchyleń regresyjnych
![]()
;
Suma kwadratów błędów (reszt)
![]()
.
Zauważmy, że prawdziwa jest równość (należy wykonać odpowiednie obliczenia)
SST = SSR + SSE.
Wielkości te przedstawia się w postaci tablicy ANOVA:
ANALIZA WARIANCJI
Źródło zmienności |
Liczba stopni swobody |
Suma kwadratów odchyleń |
Średnie kwadratowe odchylenie |
Iloraz F |
Regresja |
k |
SSR |
MSR = |
F = |
Błąd losowy |
n - (k+1) |
SSE |
MSE = |
|
Odchylenie całkowite |
n - 1 |
SST |
|
|
Omówimy teraz sposoby wyznaczania tablicy ANOVA.
Zapis macierzowy.
Niech ![]()
będzie wektorem obserwacji zmiennej objaśnianej, a
![]()
wektorem wartości teoretycznych. Wektor reszt jest wtedy postaci
![]()
.
Sumę kwadratów reszt wyznaczamy ze wzoru
SSE = ![]()
.
Całkowitą sumę kwadratów SST obliczamy, ze wzoru
![]()
,
natomiast sumę kwadratów odchyleń regresyjnych SSR, wykorzystując równość
SSR = SST - SSE.
Następnie wypełniamy tablicę ANOVA.
Przypadek jednej zmiennej objaśniającej.
Przypomnijmy, że analizę regresji w modelu o jednej zmiennej objaśniającej przeprowadza się w oparciu o wartości pięciu statystyk ![]()
. Tablicę ANOVA wypełniamy korzystając ze wzorów:
SST = ![]()
,
SSR = ![]()
,
SSE = SST - SSR = ![]()
.
Przykład 5.1 (Inflacja 2000) (kontynuacja przykładu 4.1). Poprzednio obliczyliśmy:
![]()
, ![]()
, ![]()
, ![]()
. Wyznaczyliśmy także prosta regresji ![]()
z próby;
![]()
.
Zatem
SST = 23,17,
SSR = ![]()
,
SSE = SST - SSR = ![]()
.
Tablica ANOVA jest postaci:
ANALIZA WARIANCJI
Źródło zmienności |
Liczba stopni swobody |
Suma kwadratów odchyleń |
Średnie kwadratowe odchylenie |
Iloraz F |
Regresja |
1 |
22,39 |
MSR = 22,39 |
F = 203,55 |
Błąd losowy |
7 |
0,78 |
MSE = 0,11 |
|
Odchylenie całkowite |
8 |
23,17 |
|
|
Wydruk komputerowy.
Przykład 5.2 (Reklama) (kontynuacja przykładu 2.2).
Korzystając z Excela: Analiza Danych, Regresja z wydruku odczytujemy tablice ANOVA:
ANALIZA WARIANCJI |
||||||
|
df |
SS |
MS |
F |
Istotność F |
|
Regresja |
2 |
630,5381 |
315,2691 |
86,33504 |
1,17E-05 |
|
Resztkowy |
7 |
25,56185 |
3,651693 |
|
|
|
Razem |
9 |
656,1 |
|
|
|
|
5.2 Test F o zachodzeniu związku liniowego.
Testujemy hipotezy
![]()
,
![]()
nie wszystkie ![]()
są równe zeru.
Test będzie oparty o sprawdzian (statystykę testową)
F = ![]()
.
Jeżeli hipoteza zerowa ![]()
jest prawdziwa, zmienna losowa F ma rozkład F Fishera o ![]()
i ![]()
stopniach swobody.
Przypomnimy teraz podstawowe informacje o testowaniu hipotez statystycznych. W procesie testowania statystycznego możemy popełnić dwa rodzaje błędów:
Błąd pierwszego rodzaju - odrzucenie hipotezy zerowej w przypadku, gdy jest prawdziwa.
Błąd drugiego rodzaju - przyjęcie hipotezy zerowej w przypadku, gdy jest fałszywa.
|
Stan rzeczy |
||
|
|
|
|
Decyzja |
|
Decyzja słuszna |
Błąd II rodzaju |
|
|
Błąd I rodzaju |
Decyzja słuszna |
Poziomem istotności testu nazywamy prawdopodobieństwo ![]()
odrzucenia hipotezy zerowej w przypadku, gdy jest ona prawdziwa. Zwykle przyjmuje się poziom istotności ![]()
lub ![]()
.
Uwaga. Zamiast mówić "przyjmujemy hipotezę zerową" powinno się mówić "brak jest podstaw do odrzucenia hipotezy zerowej".
Obszarem odrzucenia (obszar krytyczny) hipotezy statystycznej jest taki zbiór liczb, że w przypadku, gdy sprawdzian przyjmuje wartość z tego zbioru, to hipotezę zerową ![]()
odrzuca się. Obszar krytyczny jest tak wyznaczany, aby prawdopodobieństwo zaobserwowania wartości sprawdzianu należącej do obszaru krytycznego, przy założeniu prawdziwości hipotezy zerowej ![]()
, było równe poziomowi istotności testu ![]()
.
W rozważanym teście obszar krytyczny jest półprostą
![]()
,
gdzie
k jest liczbą zmiennych objaśniających,
n jest liczbą obserwacji.
Zatem, jeżeli wartość sprawdzianu F jest większa niż ![]()
to odrzucamy hipotezę zerową ![]()
, w przeciwnym razie nie ma podstaw do jej odrzucenia.
Wielkości ![]()
odczytuje się z tablic krytycznych wartości w rozkładzie F danym poziomie istotności ![]()
.
Przykład 5.1 (Inflacja 2000) (kontynuacja). Przyjmijmy, że sprawdzamy hipotezę o zachodzeniu związku liniowego na poziomie istotności ![]()
. W przykładzie tym ![]()
, ![]()
. Z tablic wyznaczamy![]()
. Obszar krytyczny jest więc postaci![]()
.
Obliczamy wartość sprawdzianu
F = ![]()
.
Ponieważ ![]()
, więc odrzucamy hipotezę zerową ![]()
i przyjmujemy alternatywną ![]()
. Sprawdziliśmy (na poziomie istotności ![]()
), że występuje związek liniowy pomiędzy y, a zmienną ![]()
. Możemy zatem przystąpić do dalszych etapów analizy regresji.
Przykład 5.2 (Reklama). Przyjmijmy, że sprawdzamy hipotezę o zachodzeniu związku liniowego na poziomie istotności ![]()
. W przykładzie tym ![]()
, ![]()
. Z tablic wyznaczamy![]()
. Obszar krytyczny jest więc postaci![]()
.
Obliczamy wartość sprawdzianu
F = 86,34.
Ponieważ ![]()
, więc odrzucamy hipotezę zerową ![]()
i przyjmujemy alternatywną ![]()
. Sprawdziliśmy (na poziomie istotności ![]()
), że występuje związek liniowy pomiędzy y, a co najmniej jedną ze zmiennych ze zmiennych ![]()
. Możemy zatem przystąpić do dalszych etapów analizy regresji.
Zauważmy, że z wydruku
ANALIZA WARIANCJI |
||||||
|
df |
SS |
MS |
F |
Istotność F |
|
Regresja |
2 |
630,5381 |
315,2691 |
86,33504 |
1,17E-05 |
|
Resztkowy |
7 |
25,56185 |
3,651693 |
|
|
|
Razem |
9 |
656,1 |
|
|
|
|
możemy odczytać wartość sprawdzianu
F = 86,33506.
Test można także przeprowadzić w oparciu o tzw. istotność F. Jest to najniższy poziom istotności testu przy którym hipoteza zerowa ![]()
jest odrzucana. Zatem, jeżeli
Istotność F ![]()
,
gdzie ![]()
jest przyjętym poziomem istotności testu, np. ![]()
lub ![]()
, to odrzucamy hipotezę zerową ![]()
.
Z wydruku odczytujemy
Istotność F ![]()
.
Jest to liczba znacznie mniejsza od przyjmowanych zwykle poziomów istotności, możemy więc spokojnie odrzucić hipotezę zerową ![]()
i twierdzić, że występuje związek liniowy pomiędzy y, a co najmniej jedną ze zmiennych ze zmiennych ![]()
.
1
6