Przydatne fakty:
n
2
∑ ie
1
2
i 1
1. Estymator wariancji składnika losowego
ˆ
σ
=
=
=
−
:
( y ' y b ' X ' y)
n− k
n − k
- jest to
miara zmienności reszt.
2. Macierz wariancji-kowariancji estymatora parametrów β : ∑
=
X′
−
σ 2
1
(
X) . Jako, że
bb
prawdziwa wartość wariancji składnika losowego, 2
σ , jest nieznana, używamy jej estymatora, czyli
zaproponowany wcześniej 2
ˆ
σ .
2
Mamy więc
1
∑ = σ (X X)−
′
.
bb
Na przekątnej tej macierzy stoją wariancje oszacowań (estymatorów) parametrów modelu:
var( b )
1
var( b )
2
2
2
2
Σ =
z oznaczenia: var( b ) = σ b , var( b ) = σ b , ... , var( b ) = σ
bb
b
1
1
2
2
k
k
var( b )
k
k× k
2
σ
1
b
2
σ
Możemy więc zapisać:
2
b
Σ =
bb
2
σ
b
k
k × k
3. Standardowy błąd szacunku ( = standardowy błąd estymatora) parametru β (czyli i
standardowy błąd b ) równy jest jego odchyleniu standardowemu (czyli pierwiastkowi z jego wariancji). Z
i
2
oznaczenia: σ b =
var( b ) = σ b . Innymi słowy – błąd standardowy b to pierwiastek z i – tego miejsca i
i
i
i
diagonalnej macierzy Σ .
bb
2
2
2
Mamy więc: σ b =
var( b ) = σ b , σ b =
var( b ) = σ b , ... , σ b =
var( b ) = σ
1
1
1
2
2
2
b
k
k
k
Standardowy błąd szacunku parametru β mówi o ile jednostek wartość b różni się od nieznanej wielkości i
i
parametru β .
i
4. Testowanie hipotez.
Po oszacowaniu modelu, możliwe jest testowanie hipotez prostych (i złożonych). Hipotezy proste, to hipotezy postaci:
0
H : β = β oraz
0
H : β ≠ β . Hipoteza zerowa mówi więc, że przy określonym poziomie istotności, 0
i
i
1
i
i
nieznana wartość parametru β równa jest 0
β . Hipoteza alternatywna mówi, że nie można tak twierdzić.
i
i
0
b − β
Statystyka testująca ma postać:
i
i
t =
~ t
, gdzie α jest przyjętym poziomem istotności.
b
α
n− k
i
2;
σ bi
Aby stwierdzić, czy są podstawy do odrzucenia hipotezy zerowej (i przyjęcia alternatywnej), czy ich nie ma, budujemy przydział: − t
; t
, odczytując wartości krytyczne z tablic rozkładu t-Studenta. Jeśli
kr;α 2; n− k
kr;α 2; n− k
statystyka testowa t wpada do przedziału, to nie mamy podstaw do odrzucenia H . Jeśli zaś statystyka bi
0
testowa wypada poza przedział, to przyjmujemy H .
1
1
5. Istotność poszczególnych zmiennych w modelu.
Ważne jest zdanie sobie sprawy, że testowanie, czy poszczególne zmienne są w modelu istotne, to po prostu jeden ważnych z przypadków testowania hipotez prostych po oszacowaniu modelu. Przypadek ten sprowadza się do testowania następujących hipotez:
H : β = 0 oraz H : β ≠ 0
0
i
1
i
Proszę zwrócić uwagę, że hipoteza zerowa mówi tyle, że parametr stojący przy zmiennej x jest równy zero, a i
więc, że ta zmienna nie wpływa w sposób istotny na zmienną objaśnianą, czyli że x jest w modelu nieistotna!
i
Hipoteza alternatywna mówi, że parametr przy zmiennej x jest od zera różny, a więc, że zmienna ta jest w i
modelu istotna.
Jak taka postać hipotez zmieni statystykę testową? Otóż zobaczmy:
b − 0
b
i
i
t =
=
~ t
, czyli statystyka ta to iloraz oszacowania dla parametru β , którym jest b , i b
α
n− k
i
i
i
2;
σ b
σ b
i
i
standardowego błędu szacunku tego parametru (σ b ). Rozkład statystyki pozostaje niezmieniony, więc decyzję i
o braku podstaw do odrzucenia H oraz o przyjęciu H będziemy podejmowali tak, jak przy weryfikacji 0
1
innych hipotez prostych.
UWAGA! Wynika z tego, że przy testowaniu istotności zmiennej x w modelu, jeśli statystyka testowa t i
bi
wpadnie do przedziału − t
; t
, to przyjmujemy H , czyli uznajemy zmienną x za nieistotną.
kr;α 2; n− k
kr;α 2; n− k
0
i
Jak statystyka t wypadnie poza ten przedział, to uznajemy x za istotną.
b
i
i
6. Przedziały ufności dla nieznanych wartości parametrów.
Przedział ufności dla nieznanej wielkości parametru β dany jest wzorem:
i
P( b − t
ˆ
σ ≤ β ≤ b + t
ˆ
σ ) = 1− α
i
kr ;α 2; n− k
b
i
i
kr;α 2; n− k
b
i
i
Oznacza to, że prawdopodobieństwo, że nieznana wielkość β znajdzie się w tak zadanym przedziale, wynosi i
1− α . Sami możemy „regulować” to prawdopodobieństwo, ustalając poziom istotności α . (np. dla α = 0, 05
czyli α = 5% , prawdopodobieństwo, że nieznana wielkość β znajdzie się w odpowiednim przedziale, wynosi i
1− 0, 05 = 0, 95 , czyli 95% ).
Reszta wielkości jest nam już znana.
7. Test na łączną istotność zmiennych objaśniających (Test na istotność równania regresji
/ istotność modelu)
Oprócz istotności poszczególnych zmiennych modelu, testować możemy również, czy wszystkie zmienne objaśniające (oprócz stałej) są w modelu łącznie istotne. Dla modelu:
y = β + β x + β x + ... + β x + ε , i = 1,..., n i
1
2
2 i
3 3 i
k
ki
i
Testujemy następujące hipotezy:
H : β = β = ... = β = 0
0
2
3
k
H : nie wszystkie β , β ,..., β są równoczesnie równe 0
1
2
3
k
Hipoteza zerowa oznacza, że parametry dla wszystkich zmiennych objaśniających są równe zero, a więc żadna z tych zmiennych nie jest w modelu istotna, czyli łącznie są one nieistotne (względnie: równanie regresji jest nieistotne). Hipoteza alternatywna mówi, że nie wszystkie parametry stojące przy zmiennych objaśniających są jednocześnie równe zero, a więc łącznie zmienne objaśniające są istotne (względnie: równanie regresji jest istotne).
Statystyka testowa ma następującą postać:
2
ESS n − k
R n − k
k −
(
)
(
)
1
F
=
=
~ F ( k −1, n − k) . Znany jest więc rozkład tej statystyki, co pozwala nam n− k
2
RSS ( k −1)
(1− R )( k −1)
odczytać z tablic rozkładu F-Snedecora wartość krytyczną, F
( k −1; n − k) dla ustalonego poziomu istotności
kr;α
α . Decyzję podejmujemy w następujący sposób:
2
Jeśli statystyka testowa jest mniejsza niż wartość krytyczna (
k 1
F − < F
( k −1; n − k) ), to nie ma podstaw do
n− k
kr;α
odrzucenia H . Jeśli relacja ta zachodzi w przeciwną stronę (
k 1
F − > F
( k −1; n − k) ) , to przyjmujemy H .
0
n− k
kr;α
1
8. Test na łączną istotność podzbioru regresorów / Test pominiętych zmiennych
Załóżmy, że mamy dwa konkurencyjne modele:
y = β + β x + β x + ... + β x + ε = X β + ε (1) i
1
2
2 i
3 3 i
k
ki
i
i
i
y = β + β x + β x + ... + β x + α z + α z + ... + α z + ε = X β + Z α + ε (2) i
1
2
2 i
3 3 i
k
ki
1 1 i
2 2 i
m mi
i
i
i
i
Modele te są bardzo do siebie podobne, z tymże w modelu (1) na y wpływa (k-1) zmiennych objaśniających i
zawartych w macierzy X, zaś w modelu (2), na tę samą zmienną wpływają znowu zmienne z macierzy X, ale również wpływa na nią m zmiennych z macierzy Z. Model (2) nazwiemy modelem bez ograniczeń/bez restrykcji (modelem ogólnym), zaś model (1) – modelem z ograniczeniami/restrykcjami (modelem szczególnym), jako, że na parametry zmiennych z macierzy Z nałożyliśmy ograniczenia, że są one równe zero, więc zmiennych tych w tym modelu nie ma, bo są nieistotne.
Jeśli chcielibyśmy szacować model (1), musimy przeprowadzić test na łączną istotność zmiennych zawartych w macierzy Z (które są podzbiorem regresorów modelu (2)). Jeśli test nie pozwoli odrzucić hipotezy zerowej, którą jest H :α = 0 , to regresory z macierzy Z można pominąć, czyli poprawny jest model (1). Przyjęcie 0
hipotezy alternatywnej ( H :α ≠ 0 ) wskazuje na poprawność modelu (2).
1
Rozróżnienie, który z modeli jest poprawny jest o tyle ważne, że gdy szacujemy model (1), a poprawny jest model (2) (problem zmiennych pominiętych), to estymatory są obciążone. Gdy sytuacja jest odwrotna i szacujemy model (2) gdy poprawny jest model (1) (problem zmiennych nieistotnych), to estymatory są
nieefektywne, ale pozostają nieobciążone. Oczywiście problem zmiennych pominiętych (obciążoność estymatorów) niesie ze sobą dużo bardziej negatywne konsekwencje dla oszacowań parametrów modelu niż problem zmiennych nieistotnych (estymatory mniej efektywne), jednakże obydwa przypadki są niepożądane w czasie estymacji i powinniśmy się ich wystrzegać.
Test przeprowadzamy w następujący sposób:
- szacujemy model bez ograniczeń (2) i obliczamy jego współczynnik determinacji, nazywając go 2
R .
- szacujemy model z ograniczeniami (1) i obliczamy jego współczynnik determinacji, nazywając go 2
R .
R
2
2
( R − R ) / J
- wyznaczamy statystykę testową:
R
F =
~ F ( J , n − ( k + m)) , gdzie J oznacza ilość 2
(1− R ) /( n − ( k + m))
restrykcji nałożonych na model (1) (a więc ilość zmiennych z macierzy Z – ilość zmiennych, które chcemy pominąć), n jest ilością obserwacji, a (k+m) ilością zmiennych objaśniających modelu bez ograniczeń (2). Znając rozkład statystyki testowej, możemy odczytać z tablic wartość krytyczną i jeśli F > F , to przyjmujemy hipotezę alternatywną o prawdziwości modelu (2). Wynik testu często kr
wygodniej jest odczytać z p-Value (często podawanego przez pakiety ekonometryczne), które mówi nam o prawdopodobieństwie popełnienia błędu przy odrzuceniu prawdziwej hipotezy zerowej.
Zadania
1.
Mając dane :
−1
2, 25
8
4
2
'
X y = 0, 5
, Σ =
8
2500
12 oraz σ = 4
bb
1,5
4
12
100
Oszacuj parametry modelu y = b + b x + b x
i
1
2
2 i
3 3 i
Zapisz pełną postać modelu.
3
2.
Oszacuj parametry strukturalne oraz średnie błędy ich szacunku dla modelu: y = β + β x + β x + ε
i
1
2
2 i
3 3 i
i
6
4
2
1
−
2
−
15
n
Jeżeli wiadomo, że:
'
X X = 3
2
,
'
1
( X X )− =
2
0 , '
X y = 9
,
2
∑ y = 56
i
i 1
=
2
3
1
2
3
a. Zinterpretuj odchylenie standardowe reszt oraz średnie błędy szacunku.
b. Zweryfikuj które ze zmiennych objaśniających są w modelu istotne dla α = 0, 05 .
c. Podaj przedziały ufności dla parametrów β , β oraz β na 5% poziomie istotności.
1
2
3
3.
Na podstawie kwartalnych danych z lat 1997-2000 otrzymano:
∧
y = 101+14 x + 2,5 x
i
2 i
3 i
Wiadomo, że:
104,1
19, 6
−
Σ = 4
− 9,8 24,1
bb
9
5,3
a. Zweryfikuj istotność zmiennych na poziomie istotności 1%, 5% oraz 10%.
b. Podaj przedziały ufności dla parametrów.
4.
Na podstawie danych:
y
x2
x3
10
0
0
11
4
2
12
1
1
10
0
1
8
0
1
∧
oszacowano model: y = 10, 45 + 0, 75 x − x
i
2 i
3 i
Oblicz i zinterpretuj 2
R oraz oceń czy równanie regresji jest istotne (czy zmienne objaśniające są łącznie istotne) dla α = 0, 05 .
5.
Na podstawie 20 obserwacji oszacowano MNK parametry modelu i otrzymano:
∧
y = −0,13 + 0, 51 x + 0, 29 x
i
2 i
3 i
Wiadomo również, że ocena wariancji błędu losowego wynosi 0,45. Dodatkowo:
1
,39 0,13 0, 22
20
2
∑( y − y) =102,3 oraz '
1
( X X )− =
0, 06
0, 36
i
i 1
=
0,12
a. Na poziomie istotności 5% zbadaj istotność zmiennych objaśniających modelu.
b. Oblicz i zinterpretuj 2
R
c. Zweryfikuj istotność równania regresji (łączną istotność zmiennych objaśniających) dla α = 0, 05 .
6.
Na próbie liczącej 9 obserwacji oszacowano model: y = β + β x + β x + ε
i
1
2
2 i
3 3 i
i
4
Otrzymano oszacowany model: y = 11, 2 − 283,5 x + 33 x
i
2 i
3 i
0,57
1
−
2
−
Dodatkowo:
'
1
( X X )− =
21, 5
0 oraz '
e
0,5
3 0
2
1 5 1
1
= −
−
−
−
1, 43
9
i
2
∑( y − y) =193,3
i
i 1
=
a. Zweryfikować hipotezy H : β = 0 oraz H : β = 0 na poziomie istotności 5%.
0
2
0
3
b. Obliczyć oraz zinterpretować współczynnik determinacji.
c. Zweryfikować łączną istotność zmiennych objaśniających (istotność równania regresji).
7.
Dla 35 obserwacji oszacowano następujący model: y = β + β x + β x + β x + ε i otrzymano: i
1
2
2 i
3 3 i
4
4 i
i
y = −56, 73+ 34, 22 x − 0, 03 x −11089 x
i
2 i
3 i
4 i
(20,95)
(23,11)
(0,0024)
(6111)
a. Które zmienne są w nim istotne dla α = 0, 05 ?
b. Jakie są przedziały ufności dla estymatorów?
c. Zweryfikuj hipotezę H : β = −10000 dla α = 0, 05 .
0
4
d. Zweryfikuj hipotezę H : β = 7
− 5 dla α = 0, 05 .
0
1
5