ROZDZIAŁ 5. TESTOWANIE HIPOTEZ STATYSTYCZNYCH
Pytania:
1. Jak testujemy hipotezę postaci, H 0 : Hβ = h używając do tego sum kwadratów reszt z modelu bez ograniczeń i z ograniczeniami?
2. Wyjaśnić, jakie korzyści i niebezpieczeństwa łączą się z narzucaniem ograniczeń na model.
5.4
Dodatek Matematyczny
5.4.1
Dekompozycja spektralna macierzy symetrycznej (*)
Macierz symetryczną A można zdekomponować w następujący sposób
A = CΛ C0
gdzie C jest macierzą ortonormalną to jest taką, że C0C = I a Λ jest macierzą diagonalną, a więc
C0 = C− 1. Kolumny macierzy C nazywamy wektorami własnymi a odpowidające im elementy dia-gonalne Λ, wartościami własnymi macierzy A. Rząd macierzy jest równy liczbie niezerowych wartości własnych macierzy.
5.4.2
Określoność odwrotności i iloczynu macierzy(*)
Dekompozycja spektralna macierzy pozwala na łatwe dowiedzenie kilku własności macierzy symetrycznych. Po pierwsze zauważmy, że
n
∑
x0Ax = x0CΛ C0x = v0 Λ v =
λiv 2 i
i=1
∑
gdzie v = C0x. Suma
n
λ
> 0 dla każdych v
i=1
iv 2
i
1 , . . . , vn jeśli λi > 0 dla i = 1 , . . . , n. Wynika z tego, że symetryczna A jest dodatnio określona jeśli wszystkie jej wartości własne są większe od zera. Z
kolei odwrotność macierzy symetrycznej można zapisać jako
(
) −
( )
1
− 1
−
A− 1 = CΛ C0
= C0
Λ − 1 ( C) 1 = CΛ − 1 C0
a więc wartości własne macierzy A− 1 są równe λ− 1 dla i = 1 , . . . , n. W szczególności jeśli wszystkie i
λi > 0, to wszytskie wartości własne własne A− 1 są także większe od zera skoro λ− 1 > 0. Wynika z i
tego, że odwrotność macierzy dodatnio określonej jest też dodatnio określona.
Zastanówmy się teraz nad określonością macierzy D = B0AB, gdzie A jest dodatnio określone a
B ma pełen rząd kolumnowy.
x0Dx = x0B0ABx = v0Av > 0 dla v 6= 0
gdzie v = Bx. Ponieważ możliwe jest, że v = Bx 6= 0 dla x 6= 0 więc macierz D także dodatnio określona. Jeśli macierz B nie ma pełnego rzędu wierszowego D jest macierzą dodatnio półokreśloną.
111
Przykład 5.4.1 Określoność macierzy
[
]
−
− 1
1
− 1
− 1
( X0X)
H0 H ( X0X)
H0
H ( X0X)
−
Macierzy X0X dodatnio określona dla X o pełnym rzędzie wierszowym. ( X0X) 1 dodatnio określona
−
jako odwrotność macierzy dodatnio określonej. H ( X0X) 1 H0 dodatnio określona jeśli H ma pełen
[
]
−
− 1
rz ˛
ad wierszowy. H ( X0X) 1 H0
dodanio określona jako odwrotność macierzy dodanio określonej.
[
]
[
]
−
− 1
−
−
− 1
−
H0 H ( X0X) 1 H0
H dodatnio półokreślona, ( X0X) 1 H0 H ( X0X) 1 H0
H ( X0X) 1
dodatnio półokreślona.
5.4.3
Wartości własne i rząd macierzy idempotentnej(*)
W tym podrozdziale dowiedziemy pewne dodatkowe własności macierzy idempotentych. Założmy, że macierz A jest symetryczna i idempotenta. Jako macierz symetryczną, A można przedstawić jako
A = CΛ C0, gdzie Λ jest diagonalna a C ortonormalna. Ponieważ A jest idempotentna, więc
CΛ C0 = A = AA = CΛ C0CΛ C0 = CΛΛ C0
z czego wynika, że
λ
λ 2
0
1
0
1
Λ =
.
.
.
.
= ΛΛ =
. .
0
λn
0
λ 2 n
Jedynymi liczbami rzeczywistymi, dla których może być prawdą, że λi = λ 2 są 1 i 0. Macierz idempo-i
tentna ma więc pierwiastki charakterystyczne równe 1 lub 0. Rząd macierzy jest równy liczbie niezerowych wartości własnych tej macierzy. Ponieważ jednak w przypadku macierzy idempotentnej wszystkie niezerowe wartości własne są równe jeden, więc
(
)
(
)
tr ( A) = tr CΛ C0 = tr C0CΛ = tr Λ
∑ n
=
λi= r = Rank (Λ) = Rank ( A)
i=1
Symetryczna i idempotentna macierz A ma więc wartości własne równe są 0 lub 1 a rząd tej macierzy jest równy jej śladowi.
5.4.4
Rozkład normalny i rozkłady pochodne
Wielowymiarowy rozkład normalny definiowany jest poprzez gęstość wektora zmiennych losowych
x
[
]
1
0
f ( x) =
exp − 1 ( x − µ) Σ − 1 ( x − µ) n
(2 π) 2 |Σ | 12
2
Zmienna x o takiej funkcji gęstości ma wartość oczekiwaną E ( x) = µ i macierz wariancji kowarancji Var ( x) = Σ. Ponieważ jedynymi parametrami rozkładu normalnego jest wartość oczekiwana i wariancja więc często używa się dla oznaczenia zmiennej o rozkładzie normalnym zapisu x ∼ N ( µ, Σ).
ROZDZIAŁ 5. TESTOWANIE HIPOTEZ STATYSTYCZNYCH
Kombinacje liniowe elementów wektora losowego o wielowymiarowym rozkładzie normalnym mają także wielowymiarowy rozkład normalny. Tak więc dla nielosowego a i B:
x ∼ N ( µ, Σ)
(
)
a + Bx ∼ N a + µ, BΣ B0
Jeśli dwa wektory losowe mają łącznie wielowymiarowym rozkładzie normalnym są nieskorelowane to są także niezależne.
5.4.5
Rozkład χ 2 (*)
Poza rozkładem normalnym ważne są też rozkłady, które powstają po przekształceniu zmiennych pochodzących z tego rozkładu. Jednym z takich rozkładów jest rozkład χ 2. Rozkład ten jest rozkładem sumy kwadratów zmiennych niezależnych o standardowych rozkładach normalnych. Rozkład χ 2 można też uzyskać dla wektorów losowych o wielowymiarowych rozkładach normalnych poprzez zastosowanie odpowiedniego schematu ważenia. Najprostszym przypadkiem jest tu przypadek zmiennej o rozkładzie
x ∼ N (0 , Σ), gdzie Σ jest nieosobliwą macierzą ( r × r). Forma kwadratowa
x0Σ − 1 x ∼ χ 2 r
(5.4)
Dowód tej własności zaczniemy od zdefiniowania Σ − 1
0
2
takiej, że Σ − 12 Σ − 12 = Σ − 1. Mnożąc lewą (
) 0
1
1
1 0
1
stronę tego rónania przez Σ 2
a prawą przez Σ 2 uzyskujemy równanie I = Σ 2 Σ − 1Σ 2 . Odwracając obie strony uzyskujemy równanie I = Σ − 1
0
2 ΣΣ − 12 . Formę kwadratową x0Σ − 1 x można zapisać jako
x0Σ − 1 x = x0Σ − 1 0
2 Σ − 12 x = v0v
gdzie v = Σ − 12 x. Z własności rozkładu normalnego (
)
v ∼ Σ − 1
0
2
x ∼ N 0 , Σ − 12 ΣΣ − 12
1 0
1
ale wiemy już, że Σ 2 Σ − 1Σ 2 = I a więc v ∼ N (0 , I) a tym samym elementy wektora v są nieskore-lowanymi i niezależnymi zmiennymi losowymi o standardowych rozkładach normalnych. Implikuje to, że
r
∑
x0Σ − 1 x = v0 v =
v 2 ∼ χ 2
i
r
i=1
Drugim użytecznym wyprowadzeniach przypadkiem, dla którego otrzymujemy rozkład χ 2 ma zwią-
(
)
zek z własnościami macierzy idempotentnej. Jeśli x ∼ N 0 , σ 2 I , macierz A jest nielosową macierzą idempotentną i Rank ( A) = r, to
x0Ax ∼ χ 2
σ 2
r
(5.5)
gdzie r jest rzędem macierzy A.
113
Tę własność udowadniamy wykorzystując własności macierzy idempotentnej. Z podrozdziału 5.4.3
wiemy, że jeśli macierz Σ jest symetryczna i idempotentna, to Σ można przedstawić jako Σ = CΛ C0
przy czym Λ ma na przekątnej 0 lub 1. Liczba niezerowych wartości własnych jest równa rzędowi r macierzy A. Uporządkujmy teraz wektory własne macierzy C tak, że w macierzy Λ na pierwszych r na przekątnej są jedynki a na pozostałych zera. Uporządkujmy odpowiednio do Λ macierz C i wektor x i zdefiniujmy v = C0x. Oznaczmy teraz
[
]
v 0
vr+1
v
a
.
.
v =
, v
.
.
a = . , xa =
.
,
vb
vr
vN
[
]
Λ a
0
Λ =
, Λ a = I( r×r) ,
Λ b = 0
0
Λ b
Zauważmy teraz, że wariancja v jest równa
(
)
(
)
Var ( v) = Var C0x = C0 Var ( x) C = C0 σ 2 I C = σ 2 C0C = σ 2 I
(
)
z czego wynika, że v ∼ N 0 , σ 2 I . Z drugiej strony
∑ r
x0Σ x = v0 Λ
Λ
v 2
a
ava + vbΛ bvb = v0a ava =
a,i
i=1
Ponieważ elementy v są niezależne i vi ∼ N (0 , 1), więc σ
(
)
x0Σ x
∑ r
v
2
a,i
=
σ
i=1
σ
jest sumą kwadratów r zmiennych o standaryzowanych rozkładach normalnych i ma rozkład χ 2 r 5.4.6
Rozkład t i rozkład F (*)
W wyprowadzeniach używać będziemy następujących dwóch łączących rozkład t-studenta i F -Snedecora z rozkładem normalnyn i rozkładem χ 2.
Pierwsza własność pozwala dostrzec relację między rozkładem normalnym, χ 2 r i rozkładem t. Jeśli zmienna Z ∼ N (0 , 1) a zmienna W ∼ χ 2 r i zmienne te są od siebie niezależne to iloraz zmiennej Z
przez pierwiastek zmiennej W podzielonej przez jej liczbę stopni swobody daje zmienną o rozkładzie t o r stopniach swobody:
Z
√
∼ tr
(5.6)
W
r
Druga własność dotyczy związku między rozkładem χ 2 a rozkładem F -Snedecora. Zmienną o takim rozkładzie otrzymujemy jako iloraz zmiennej Z ∼ χ 2 i zmiennej W ∼ χ 2
k
r
podzielonych przez odpo-
wiednie liczby stopni swobody. Uzyskana zmienna będzie miała rozkład F -Snedecora o k i r stopniach swobody:
( )
Z
k
( ) ∼ F ( k, r)
(5.7)
W
r
ROZDZIAŁ 5. TESTOWANIE HIPOTEZ STATYSTYCZNYCH
5.4.7
Testowanie hipotez statystycznych
Do testowania hipotez statystycznych używamy testów opartych statystykach testowych. Statystyki testowe są odpowiednio dobranymi funkcjami danych. Typowy test statystyczny umożliwia zbadanie, czy pewna hipoteza (zwana hipotezą zerową) jest sprzeczna z zaobserwowanymi danymi. Jeśli okaże się to prawdą, to hipotezę zerową odrzucamy na rzecz hipotezy alternatywnej. Sposób przeprowadzania testu zależy zarówno od postaci hipotezy zerowej jak i alternatywnej. Decyzje podejmowane na podstawie testów statystycznych mają charakter probabilistyczny. Oznacza to, że decyzje te z określonym prawdopodobieństwem mogą być błędne.
Analizując własności testów, rozważamy dwie charakterystyki: prawdopodobieństwo błędu I rodzaju, to jest prawdopodbieństwo odrzucenia prawdziwej hipotezy zerowej, oraz prawdopodobieństwo błędu II rodzaju, to jest prawdopodobieństwo przyjęcia fałszywej hipotezy zerowej. Mówimy w tym kontekście o rozmiarze testu, to jest prawdopodobieństwie błędu I rodzaju i mocy testu to jest prawdopodobieństwie, że nie popełniamy błędu II rodzaju. Idealny test osiąga, przy określonym rozmiarze, najwyższą moc.
Decyzja podejmowana na podstawie statystyki testowej oparta jest na prawdopodobieństwie zdarze-nia, że uzyskamy taką wartość statystyki jaką policzyliśmy na podstawie naszej próby. Hipotezę zerową odrzucamy jeśli prawdopodobienstwo uzyskania zaobserwowanej wartości statystyki jest mniejsza od przyjętego poziomu istotności α. Poziom istotności można interpretować jako akceptowane prawdopodobieństwo popełnienia błędu I rodzaju. W przypadku hipotez jednostronnych, hipotezę zerową odrzucamy jeśli prawdopodobieństwo uzyskania wartości statystyki większej od tej, którą uzyskaliśmy w próbie, jest mniejsza od założonego poziomu istotności α.
Tradycyjna metoda testowania hipotez jednostronnych polega na porównywaniu wartości statystyki testowej k∗ z wartością krytyczną kα takiej, że F ( kα) = 1 − α. Jeśli k∗ > kα, to statystyka k∗ wpada do tak zwanego obszaru krytycznego i H 0 jest odrzucane. Przypadek ten zobrazowany jest na rysunku
5.3. Z kolei na rysunku 5.4 pokazano przypadek, kiedy policzona wartość testu jest równa k∗. Ponieważ k∗ < kα, statystyka wpada do obszaru przyjęć i nie ma podstaw do odrzucenia H 0.
0.1
0.1
0.09
0.09
0.08
0.08
0.07
0.07
0.06
0.06
α
α*
0.05
0.05
α*
0.04
0.04
α
0.03
0.03
0.02
0.02
0.01
0.01
0
0
0
5
10
15
20
25
30
0
5
10
15
20
25
30
kα
k*
k*
kα
Tablica 5.3: k∗ > kα, α∗ < α = ⇒ H 0 odrzu-
Tablica 5.4: k∗ < kα, α∗ > α = ⇒ H 0 nie ma
cana
podstaw do odrzucenia
Wadą tradycyjnej procedury jest konieczność znalezienia w tablicach wartości krytycznej kα. W cza-
115
sach, kiedy nie istniały komputery procedura ta była jedynym wygodnym sposobem testowania hipotez.
Obecnie, dla standardowych rozkładów, można łatwo znaleźć wartości dystrybuant. Nie stanowi więc wiekszego problemu znaleźć wartość α∗ = 1 − F ( k∗). Wartość tę nazywamy policzonym poziomem istotności bądź wartością p ( p-value). Wartość α∗ jest prawdopodobieństwem, że statystyka testowa osią-
gnie wielkość większą lub równą tej wartości wartości, którą uzyskaliśmy z próby. Uzyskanie bardzo mało prawdopodobnych, przy założeniu prawdziwości H 0 , wartości α∗ będzie skłaniało nas do odrzucenia tej hipotezy.
Zauważmy, że α odpowiada polu pod funkcją gęstości dla x > kα a α∗ polu pod tą funkcją dla x > k∗. Na rysunku 5.3 α jest sumą pola zakreskowanego jaśniej i pola zakreskowanego ciemniej podczas gdy α∗ odpowiada polu zakreskowanemu ciemniej. Łatwo zauważyć, że dla k∗ > kα mamy α∗ < α a dla k∗ < kα mamy, że α∗ > α. Wynika z tego, że dla α∗ < α odrzucamy hipotezę zerową, a dla α∗ > α
nie ma podstaw do odrzucenia H 0. Relacje między procedurą tradycyjną a stosowaną obecnie ilustruje tabelka poniżej
Warość k∗
Wartość α∗
Decyzja
k∗ > kα
α∗ < α
Odrzucamy H 0
k∗ < kα
α∗ > α
Nie ma podstaw do odrzucenia H 0
Większość współczesnych pakietów ekonometrycznych automatycznie liczy α∗ używając do tego rozkładu prawdopodobieństwa odpowiedniego dla konkretnej statystyki testowej. Aby przeprowadzić test wystarczy porównać uzyskane α∗ z założonym poziomem istotności α. Dodatkową zaletą tego podejścia jest łatwość z jaką można sprawdzić jak zmiana założonego poziomu istotności wpłynie na rezultat wnio-skowania statystycznego.
5.4.8
Przedziały ufności
Przedziały ufności stanowią jeden ze sposóbów opisu dyspersji uzyskanych oszacowań. Intuicyjnie przedział ufności jest przedziałem, który z wysokim prawdopodobieństwem zawiera prawdziwą wartość parametru. Prawdopodobieństwo z jakim przedział ufności zawiera prawdziwą wartość parametru nazywamy poziomem ufności i oznaczamy jako 1 − α. Poziom ufności ustala się arbitralnie, zwykle na poziomie 95% lub 99%. Najczęściej spotykanym przypadkiem są dwustronne przedziały ufności kontr-uowane dla rozkładów symetrycznych. W tym przypadku szukamy takiego a, dla którego Pr ( bi − a < β < bi + a) = 1 − α
gdzie β jest szacowanym parametrem a bi jest oszacowaniem tego parametru.
Pytania:
1. Dla pewnej hipotezy statystycznej uzyskalimy wartość p na poziomie a*. Przy poziomie istotnoci α, kiedy hipotezę H 0 odrzucamy, a kiedy nie będziemy mieli do tego podstaw?
ROZDZIAŁ 5. TESTOWANIE HIPOTEZ STATYSTYCZNYCH