Wykłady z ekonometrii
rok akademicki 2002/2003
Sprawdzanie liniowości związku regresyjnego. Test F.
W wykładzie podamy sposób sprawdzenia, czy zachodzi liniowy związek regresyjny między zmienną objaśnianą y, a którąkolwiek ze zmiennych objaśniających
, tzn. odpowiemy na pytanie, czy hipotetyczne równanie regresji jest postaci
.
Dokładniej mówiąc, przedstawimy test statystyczny, nazywany testem F, rozstrzygający która z hipotez
,
nie wszystkie
są równe zeru,
jest prawdziwa.
Jeżeli prawdziwa jest hipoteza zerowa
, to liniowy związek w hipotetycznym równaniu regresji nie występuje. Kończy to analizę regresji. Należy wtedy szukać innych modeli regresyjnych. W przypadku odrzucenia hipotezy zerowej
, mamy statystyczne podstawy do przyjęcia hipotezy alternatywnej
, która oznacza, że występuje związek liniowy pomiędzy y, a co najmniej jedną ze zmiennych ze zmiennych
. Do przeprowadzenia testu wykorzystamy tzw. analizę wariancji.
5.1 Analiza wariancji. Tablica ANOVA.
Przypomnijmy, obserwacje zmiennej objaśnianej y zapisujemy w postaci
,
gdzie
- wartości zmiennych objaśniających,
- oszacowania (estymatory) parametrów regresji
,
e - reszta, czyli zaobserwowany błąd losowy.
Jeżeli
,
jest wartością teoretyczną zmiennej objaśnianej y, to
.
Średnią zaobserwowanych wartości zmiennej objaśnianej oznaczamy, jak zwykle, przez
,
gdzie n jest liczbą obserwacji.
Następnie definiujemy następujące wielkości:
Całkowita suma kwadratów
;
Suma kwadratów odchyleń regresyjnych
;
Suma kwadratów błędów (reszt)
.
Zauważmy, że prawdziwa jest równość (należy wykonać odpowiednie obliczenia)
SST = SSR + SSE.
Wielkości te przedstawia się w postaci tablicy ANOVA:
ANALIZA WARIANCJI
Źródło zmienności |
Liczba stopni swobody |
Suma kwadratów odchyleń |
Średnie kwadratowe odchylenie |
Iloraz F |
Regresja |
k |
SSR |
MSR = |
F = |
Błąd losowy |
n - (k+1) |
SSE |
MSE = |
|
Odchylenie całkowite |
n - 1 |
SST |
|
|
Omówimy teraz sposoby wyznaczania tablicy ANOVA.
Zapis macierzowy.
Niech
będzie wektorem obserwacji zmiennej objaśnianej, a
wektorem wartości teoretycznych. Wektor reszt jest wtedy postaci
.
Sumę kwadratów reszt wyznaczamy ze wzoru
SSE =
.
Całkowitą sumę kwadratów SST obliczamy, ze wzoru
,
natomiast sumę kwadratów odchyleń regresyjnych SSR, wykorzystując równość
SSR = SST - SSE.
Następnie wypełniamy tablicę ANOVA.
Przypadek jednej zmiennej objaśniającej.
Przypomnijmy, że analizę regresji w modelu o jednej zmiennej objaśniającej przeprowadza się w oparciu o wartości pięciu statystyk
. Tablicę ANOVA wypełniamy korzystając ze wzorów:
SST =
,
SSR =
,
SSE = SST - SSR =
.
Przykład 5.1 (Inflacja 2000) (kontynuacja przykładu 4.1). Poprzednio obliczyliśmy:
,
,
,
. Wyznaczyliśmy także prosta regresji
z próby;
.
Zatem
SST = 23,17,
SSR =
,
SSE = SST - SSR =
.
Tablica ANOVA jest postaci:
ANALIZA WARIANCJI
Źródło zmienności |
Liczba stopni swobody |
Suma kwadratów odchyleń |
Średnie kwadratowe odchylenie |
Iloraz F |
Regresja |
1 |
22,39 |
MSR = 22,39 |
F = 203,55 |
Błąd losowy |
7 |
0,78 |
MSE = 0,11 |
|
Odchylenie całkowite |
8 |
23,17 |
|
|
Wydruk komputerowy.
Przykład 5.2 (Reklama) (kontynuacja przykładu 2.2).
Korzystając z Excela: Analiza Danych, Regresja z wydruku odczytujemy tablice ANOVA:
ANALIZA WARIANCJI |
||||||
|
df |
SS |
MS |
F |
Istotność F |
|
Regresja |
2 |
630,5381 |
315,2691 |
86,33504 |
1,17E-05 |
|
Resztkowy |
7 |
25,56185 |
3,651693 |
|
|
|
Razem |
9 |
656,1 |
|
|
|
5.2 Test F o zachodzeniu związku liniowego.
Testujemy hipotezy
,
nie wszystkie
są równe zeru.
Test będzie oparty o sprawdzian (statystykę testową)
F =
.
Jeżeli hipoteza zerowa
jest prawdziwa, zmienna losowa F ma rozkład F Fishera o
i
stopniach swobody.
Przypomnimy teraz podstawowe informacje o testowaniu hipotez statystycznych. W procesie testowania statystycznego możemy popełnić dwa rodzaje błędów:
Błąd pierwszego rodzaju - odrzucenie hipotezy zerowej w przypadku, gdy jest prawdziwa.
Błąd drugiego rodzaju - przyjęcie hipotezy zerowej w przypadku, gdy jest fałszywa.
|
Stan rzeczy |
||
|
|
|
|
Decyzja |
|
Decyzja słuszna |
Błąd II rodzaju |
|
|
Błąd I rodzaju |
Decyzja słuszna |
Poziomem istotności testu nazywamy prawdopodobieństwo
odrzucenia hipotezy zerowej w przypadku, gdy jest ona prawdziwa. Zwykle przyjmuje się poziom istotności
lub
.
Uwaga. Zamiast mówić "przyjmujemy hipotezę zerową" powinno się mówić "brak jest podstaw do odrzucenia hipotezy zerowej".
Obszarem odrzucenia (obszar krytyczny) hipotezy statystycznej jest taki zbiór liczb, że w przypadku, gdy sprawdzian przyjmuje wartość z tego zbioru, to hipotezę zerową
odrzuca się. Obszar krytyczny jest tak wyznaczany, aby prawdopodobieństwo zaobserwowania wartości sprawdzianu należącej do obszaru krytycznego, przy założeniu prawdziwości hipotezy zerowej
, było równe poziomowi istotności testu
.
W rozważanym teście obszar krytyczny jest półprostą
,
gdzie
k jest liczbą zmiennych objaśniających,
n jest liczbą obserwacji.
Zatem, jeżeli wartość sprawdzianu F jest większa niż
to odrzucamy hipotezę zerową
, w przeciwnym razie nie ma podstaw do jej odrzucenia.
Wielkości
odczytuje się z tablic krytycznych wartości w rozkładzie F danym poziomie istotności
.
Przykład 5.1 (Inflacja 2000) (kontynuacja). Przyjmijmy, że sprawdzamy hipotezę o zachodzeniu związku liniowego na poziomie istotności
. W przykładzie tym
,
. Z tablic wyznaczamy
. Obszar krytyczny jest więc postaci
.
Obliczamy wartość sprawdzianu
F =
.
Ponieważ
, więc odrzucamy hipotezę zerową
i przyjmujemy alternatywną
. Sprawdziliśmy (na poziomie istotności
), że występuje związek liniowy pomiędzy y, a zmienną
. Możemy zatem przystąpić do dalszych etapów analizy regresji.
Przykład 5.2 (Reklama). Przyjmijmy, że sprawdzamy hipotezę o zachodzeniu związku liniowego na poziomie istotności
. W przykładzie tym
,
. Z tablic wyznaczamy
. Obszar krytyczny jest więc postaci
.
Obliczamy wartość sprawdzianu
F = 86,34.
Ponieważ
, więc odrzucamy hipotezę zerową
i przyjmujemy alternatywną
. Sprawdziliśmy (na poziomie istotności
), że występuje związek liniowy pomiędzy y, a co najmniej jedną ze zmiennych ze zmiennych
. Możemy zatem przystąpić do dalszych etapów analizy regresji.
Zauważmy, że z wydruku
ANALIZA WARIANCJI |
||||||
|
df |
SS |
MS |
F |
Istotność F |
|
Regresja |
2 |
630,5381 |
315,2691 |
86,33504 |
1,17E-05 |
|
Resztkowy |
7 |
25,56185 |
3,651693 |
|
|
|
Razem |
9 |
656,1 |
|
|
|
możemy odczytać wartość sprawdzianu
F = 86,33506.
Test można także przeprowadzić w oparciu o tzw. istotność F. Jest to najniższy poziom istotności testu przy którym hipoteza zerowa
jest odrzucana. Zatem, jeżeli
Istotność F
,
gdzie
jest przyjętym poziomem istotności testu, np.
lub
, to odrzucamy hipotezę zerową
.
Z wydruku odczytujemy
Istotność F
.
Jest to liczba znacznie mniejsza od przyjmowanych zwykle poziomów istotności, możemy więc spokojnie odrzucić hipotezę zerową
i twierdzić, że występuje związek liniowy pomiędzy y, a co najmniej jedną ze zmiennych ze zmiennych
.
1
6