Badanie istotności parametrów regresji
Oceny standardowych błędów estymatorów parametrów regresji.
W procesie sprawdzania istotności poszczególnych parametrów regresji ważna rolę spełniają tzw. oceny standardowych błędów estymatorów parametrów regresji
. Będziemy je oznaczać odpowiednio
.
W przypadku, gdy wykorzystujemy zapis macierzowy oblicza się je ze wzorów:
,
gdzie
jest standardowym błędem,
jest i-tym diagonalnym elementem macierzy
.
Często wyniki obliczeń zapisuje się w postaci
.
Jeżeli oceny
są "małe" w porównaniu z wartościami estymatorów
, to można się spodziewać, że model regresyjny jest zadawalający. Dokładniej co oznacza słowo "małe", sprecyzujemy w dalszej części tego wykładu, omawiając przedziały ufności i testy istotności dla parametrów regresji.
Przykład (Inflacja) (kontynuacja przykładu 6.1). W szczególnym przypadku
oceny standardowych błędów estymatorów parametrów regresji wyznacza się ze wzorów:
,
.
W rozważanym przykładzie mamy
,
,
i
.
Zatem
,
.
Wyniki obliczeń zapisujemy w postaci
.
Przykład (Reklama).(kontynuacja przykładu 6.2).
Z wydruku
|
Współczynniki |
Błąd standardowy |
Przecięcie |
47,16494227 |
2,470414433 |
x1 |
1,599040336 |
0,280963057 |
x2 |
1,148747938 |
0,30524885 |
odczytujemy
,
,
.
Oszacowany model regresji zapisujemy w postaci
.
Przedziały ufności dla parametrów regresji.
Przedziałem ufności dla parametru regresji
, gdzie
, nazywamy przedział liczbowy, o którym przypuszczamy, że mieści się w nim nieznany parametr
. Z przedziałem tym związana jest miara ufności (pewności) równa prawdopodobieństwu, że przedział rzeczywiście zawiera interesujący nas parametr, zwana poziomem ufności. Zwykle przyjmuje się poziom ufności
lub
. Dla ustalonego poziomu ufności
wyznaczony przedział nazywamy
przedziałem ufności.
przedział ufności dla parametru regresji
, wyznaczamy korzystając ze wzoru:
,
gdzie
n jest liczbą obserwacji,
k jest liczbą zmiennych objaśniających,
jest przyjętym poziomem ufności,
jest estymatorem parametru regresji
,
jest oszacowaniem błędu estymatora
,
jest wielkością odczytywaną z tablic krytycznych wartości rozkładu t (rozkładu t-Studenta).
Przykład wyznaczania wartości krytycznej.
Przyjmijmy, że konstruujemy 90 % przedział ufności, gdy do dyspozycji mamy
obserwacji, a związek regresyjny ma
zmienne objaśniające. Zatem
oraz liczba stopni swobody wynosi
.
Korzystamy z tablic
Liczba stopni swobody |
|
|
... |
|
1 |
|
|
|
|
2 |
|
|
|
|
. |
|
|
|
|
13 |
|
1,771 |
|
|
. |
|
|
|
|
120 |
|
|
|
|
|
|
|
|
|
i odczytujemy
.
Przykład (Inflacja) (kontynuacja). Podamy 99 % przedział ufności dla parametru
i 95 % przedział ufności dla parametru
.
99 % przedział ufności dla parametru
Dla
i liczby stopni swobody
, z tablic odczytujemy
. Poprzednio obliczyliśmy
i
. Ostatecznie
,
i szukany przedział ufności jest postaci
Podsumowując, przedział
zawiera prawdziwą wartość parametru
z prawdopodobieństwem 0,99.
95 % przedział ufności dla parametru
Dla
i liczby stopni swobody
, z tablic odczytujemy
. Poprzednio obliczyliśmy
i
. Ostatecznie
,
i szukany przedział ufności jest postaci
Podsumowując, przedział
zawiera prawdziwą wartość parametru
z prawdopodobieństwem 0,95.
Przykład (Reklama).(kontynuacja).
Z wydruku
|
Dolne 95% |
Górne 95% |
Dolne 99,0% |
Górne 99,0% |
Przecięcie |
41,32334457 |
53,00653997 |
38,51977401 |
55,81011053 |
x1 |
0,934668753 |
2,263411919 |
0,61581547 |
2,582265202 |
x2 |
0,426949621 |
1,870546256 |
0,080535401 |
2,216960475 |
odczytujemy np.
99 % przedział ufności dla parametru
.
Przedział
zawiera prawdziwą wartość parametru
z prawdopodobieństwem 0,99.
95 % przedział ufności dla parametru
.
Przedział
zawiera prawdziwą wartość parametru
z prawdopodobieństwem 0,95.
Uwaga. Gdyby estymatory
rozpatrywać oddzielnie, to łącznym obszarem ufności dla obu parametrów byłby prostokąt o bokach będących przydziałami ufności dla pojedynczych parametrów. W rzeczywistości obszary te są bardziej skomplikowane. Na przykład, przy założeniach przyjętych w niniejszych wykładach są to elipsy. Nie każdy punkt prostokąta pojawia się w łącznych obszarach ufności.
7.3 Testy istotności dla parametrów regresji.
Zainteresujemy się obecnie oceną istotności poszczególnych parametrów regresji
. Chodzi tu o sprawdzenie, czy zmiany zmiennej objaśniającej
w jakimś stopniu wyjaśniają zmienność zmiennej objaśnianej y. Jeżeli tak, to zmienną
włączamy do równania.
Precyzyjniej, będziemy testować hipotezy o poszczególnych parametrach (współczynnikach kierunkowych) równania regresji postaci:
Podamy teraz algorytm postępowania w przypadku testowania hipotezy istotności dowolnego z parametrów regresji. Niech będzie to np. parametr
. Przyjmiemy także trzy warianty hipotezy alternatywnej
. Testujemy więc trzy pary hipotez:
Test opieramy o sprawdzian
.
Obszar krytyczny testu zależy od przyjętej hipotezy alternatywnej:
,
,
,
gdzie
k jest liczbą zmiennych objaśniających,
n jest liczbą obserwacji.
,
są wielkościami odczytywanymi z tablic krytycznych wartości rozkładu t (rozkładu t-Studenta).
Zatem, jeżeli wartość sprawdzianu t należy do obszaru krytycznego K, to odrzucamy hipotezę zerową
i przyjmujemy hipotezę alternatywną
. Oznacza to , że parametr
jest istotny (na poziomie istotności
) i należy włączyć go do równania regresji. W przypadku, gdy jeżeli wartość sprawdzianu t nie należy do obszaru krytycznego K, to nie ma podstaw do odrzucenia hipotezy zerowej
. Mówimy wtedy, ze parametr
jest nieistotny.
Przykład (Inflacja) (kontynuacja). Najpierw sprawdzimy na poziomie istotności
istotność parametru
. Hipotezy stawiamy w postaci:
Zbiór krytyczny jest postaci
.
Ponieważ
,
,
,
,
więc
,
Obliczamy wartość sprawdzianu testu
.
Należy ona do zbioru krytycznego
,
zatem przyjmujemy (na poziomie istotności
) hipotezę alternatywna: "parametr
jest istotny".
W przypadku parametru
hipotezę alternatywna, dla przykładu, postawimy inaczej:
Przyjmujemy poziom istotności
. W tym przypadku zbiór krytyczny jest postaci
.
Ponieważ
,
,
,
,
więc
.
Obliczamy wartość sprawdzianu testu
.
Należy ona do zbioru krytycznego
,
zatem przyjmujemy (na poziomie istotności
) hipotezę alternatywna: "parametr
jest istotny, przy czym jest dodatni".
Przykład Na podstawie
obserwacji dopasowano do danych model regresji liniowej o
zmiennych objaśniających wyniki analizy regresji przedstawione są w poniższej tabeli.
Zmienna objaśniająca |
Estymatory parametrów |
Oceny błędów standardowych |
Wartość sprawdzianu |
Wnioski o parametrze |
Stała |
32,9 |
3,13 |
10,511 |
istotny |
|
0,75 |
0,27 |
2,778 |
istotny |
|
13,78 |
6,93 |
1,988 |
nieistotny |
|
-10,12 |
0,67 |
-15.10 |
istotny |
|
-3,12 |
2,62 |
-1,191 |
nieistotny |
Sprawdzamy istotność parametrów na poziomie istotności
, przy czym hipoteza alternatywna jest dwustronna (parametr jest różny od zera). Zbiór krytyczny jest postaci
,
czyli
.
Przykład (Reklama).(kontynuacja).
Z wydruku
|
Współczynniki |
Błąd standardowy |
t Stat |
Wartość-p |
Przecięcie |
47,16494227 |
2,470414433 |
19,09191496 |
2,69229E-07 |
x1 |
1,599040336 |
0,280963057 |
5,691283238 |
0,00074201 |
x2 |
1,148747938 |
0,30524885 |
3,763316185 |
0,007044246 |
na podstawie Wartości - p zauważamy, że wszystkie parametry są istotne dla zwykle przyjmowanych poziomów istotności.
Skorzystaliśmy tu z reguły:
Jeżeli Wartość - p dla danego parametru jest mniejsza od przyjętego poziomu istotności, np.
, to ten parametr jest istotny.
1