Metoda Największej Wiarygodności (MNW)
Polega na znalezieniu ocen parametrów, gwarantujących największe prawdopodobieństwo uzyskania wartości zaobserwowanych w próbie.
Jako ilustrację wprowadzającą rozważmy klasyczny model regresji z jedną zmienną objaśniającą:
,
.
Wówczas funkcja wiarygodności jest funkcją gęstości łącznego rozkładu prawdopodobieństwa zmiennych
, traktowaną jako funkcja nieznanych prametrów modelu:
Logarytm funkcji wiarygodności (ang. loglikelihood) dany jest następująco:
.
Poszukując ocen parametrów
oraz
maksymalizujemy powyższe wyrażenie. W tym celu wyznaczamy pochodne cząstkowe i przyrównujemy je do zera:
,
,
Pierwsze dwa warunki dostarczają ocen parametrów strukturalnych identycznych z ocenami KMNK, zaś z ostatniego otrzymujemy:
.
Estymator wariancji składnika losowego uzyskany MNW jest obciążony, ale obciążenie to zanika wraz ze wzrostem próby. Natomiast oceny parametrów strukturalnych uzyskane MNW i KMNK są identyczne. Podobne wyniki otrzymuje się w przypadku regresji wielorakiej.
Pamiętamy, że metoda najmniejszych kwadratów ma zastosowanie przy mniej restrykcyjnych założeniach (nie wymaga normalności rozkładu składnika losowego). Ilustruje to fakt, że MNW często może być również stosowana przy niespełnieniu założenia odnośnie przyjętego rozkładu - mówimy wówczas o metodzie quasi-największej wiarygodności.
Statystyczne własności estymatora MNW
Przy spełnieniu pewnych warunków regularności:
- estymator MNW jest zgodny,
- estymator ten ma asymptotyczny rozkład normalny postaci:
,
gdzie
jest wektorem teoretycznych wartości parametrów,
jest wektorem ocen MNW tych parametrów oraz
,
przy czym
jest graniczną macierzą informacyjną:
.
Macierz informacyjna zawiera więc (wzięte z przeciwnym znakiem) wartości oczekiwane drugich pochodnych cząstkowych logarytmu funkcji wiarygodności. Jeśli logarytm funkcji wiarygodności jest bardzo zakrzywiony w pobliżu swojego maksimum, drugie pochodne przyjmują duże wartości co do wartości bezwględnej, a wariancja estymatora jest mała - estymator staje się bardziej precyzyjny. Ponadto można wykazać, że odwrotność macierzy informacyjnej dostarcza dolnego ograniczenia dla asymptotycznej macierzy wariancji i kowariancji wszystkich zgodnych estymatorów asymptotycznie normalnych. Jest to tzw. dolne ograniczenie Rao-Cramera. Wiąże się ono z kolejną ważną własnością estymatora MNW:
- estymator MNW jest asymptotycznie najefektywniejszy w klasie wszystkich zgodnych estymatorów o asymptotycznym rozkładzie normalnym.
Ta ostatnia własność jest podstawową zaletą metody największej wiarygodności: ponieważ metoda ta wykorzystuje w pełni informację z próby (na temat rozkładów skończenie wymiarowych dla obserwacji na zmiennej zależnej), otrzymujemy estymatory o minimalnej wariancji w dużych próbach. Należy jednak podkreślić, że dobre własności tej metody nie muszą przejawiać się w małych próbach.
Inną ważną zaletą MNW jest możliwość wygodnego testowania liniowych i nieliniowych restrykcji dotyczących estymowanych parametrów. Wykorzystuje się w tym celu trzy różne zasady konstrukcji testów statystycznych.
Załóżmy dla uproszczenia, że testujemy hipotezę odnośnie pojedynczego parametru:
.
Można wówczas rozważyć następujące testy:
Test ilorazu wiarygodności LR (ang. likelihood ratio test) (Neyman, Pearson, 1928) - dostarcza łatwego w konstrukcji sposobu porównania dwu modeli zagnieżdżonych. Wykorzystuje się tutaj iloraz funkcji wiarygodności i konstruuje statystykę postaci:
, (*)
gdzie
jest wartością funkcji wiarygodności wyliczoną dla oceny MNW wyznaczonej przy nieograniczonej estymacji, zaś
jest wartością tej funkcji dla oceny wyznaczonej przy założeniu prawdziwości hipotezy zerowej. Statystyka (*) ma asymptotycznie przy założeniu prawdziwości
rozkład
.
Test Walda W (Wald, 1943) - zasadza się na obserwacji, iż jeśli testowana restrykcja jest prawdziwa, to
powinno być w przybliżeniu równe 0, gdzie, jak poprzednio,
jest oceną parametru uzyskaną MNW bez nakładania restrykcji. Odrzucenie hipotezy zerowej następuje, jeśli
jest istotnie różne od 0. Warto zauważyć, że identyczną zasadę stosujemy, wykonując test t istotności parametrów. Testy Walda wymagają jedynie estymacji modelu nieograniczonego (bez nakładania restrykcji). Są one asymptotycznie równoważne testom LR.
Test mnożnika Lagrange'a LM (ang. Lagrange multiplier test) (Rao, 1948) - korzystamy tu z obserwacji, że ocena parametru wyznaczona przy założeniu prawdziwości restrykcji występującej w hipotezie zerowej powinna znajdować się blisko wartości
maksymalizującej funkcję wiarygodności. Z tego powodu pochodna logarytmu funkcji wiarygodności w punkcie
powinna być bliska zero, gdzie
jest oceną parametru
uzyskaną z estymacji MNW przy warunku pobocznym. Test ten wymaga estymacji jedynie modelu z restrykcjami i jest asymptotycznie równoważny testom LR i W.
Rys. 1. Testowanie restrykcji z wykorzystaniem estymacji MNW
(Greene, Econometric Analysis, s. 485)
W przypadku modeli regresji liniowej trzy wspomniane statystyki mają postać:
oraz zachodzi:
.
Stąd wniosek, że test W jest testem najmocniejszym w skończonych próbach. Ponadto widać związek tego testu z testem F postaci:
O tym, która zasada jest stosowana w konkretnej sytuacji decyduje łatwość przeprowadzenia odpowiedniej estymacji. Ponieważ najłatwiejsze do uzyskania są zwykle oceny parametrów w estymacji z restrykcjami, w praktyce dosyć często stosuje się test LM.
Pamiętamy, że do testowania ogólnej hipotezy liniowej w modelu liniowej regresji używaliśmy do tej pory statystyki postaci:
.
Test F jest testem dla małej próby. Teraz widzimy, że w dużych próbach test F można zastąpić asymptotycznie równoważnymi testami LR, W i LM. Przy okazji testy te mają znacznie ogólniejsze zastosowanie (np. do testowania restrykcji nieliniowych).
Poniżej prezentuje się jedno z ważniejszych zastosowań estymacji metodą największej wiarygodności - estymację modeli logitowych i probitowych.
Modele zmiennej jakościowej. Przypadek zmiennej dychotomicznej (zero-jedynkowej)
Informacje wprowadzające:
Liniowy model prawdopodobieństwa (LMP):
Rozważmy przypadek pojedynczej zmiennej objaśniającej. LMP to zwykłe równanie regresji:
,
,
gdzie zmienna zależna jest zmienną dychotomiczną.
Wówczas
jest równe prawdopodobieństwu, że zero-jedynkowa zmienna objaśniana przyjmuje wartość 1:
Problemy:
- Heteroskedastyczność składnika losowego - ponieważ składnik losowy przyjmuje tylko dwie wartości:
i
z prawdopodobieństwami wynoszącymi odpowiednio
i
, więc można łatwo wyliczyć wariancję:
Wariancja ta nie jest stała (zależy od wartości zmiennej objaśniającej).
- Składnik losowy nie ma rozkładu normalnego (ma rozkład dwupunktowy), co powoduje problemy z wnioskowaniem statystycznym.
- Wartości teoretyczne (oceny prawdopodobieństw,
) mogą wychodzić poza przedział [0, 1].
Modele logitowe i probitowe
Rozważamy model regresji, w którym zmienna objaśniana
jest nieobserwowalna (inaczej - ukryta, ang. latent variable):
.
Obserwujemy zmienną postaci:
Np. jeśli
informuje o tym, czy dana osoba kupiła samochód (zaciągnęła kredyt, podjęła pracę), to
informuje o skłonności (zdolności) do kupna samochodu (zaciągnięcia kredytu, podjęcia pracy). Dla obserwowanej zmiennej o rozkładzie dwupunktowym prawdopodobieństwo sukcesu wynosi:
,
gdzie F jest dystrybuantą rozkładu składnika losowego. Jeśli rozkład składnika losowego jest symetryczny, otrzymujemy:
.
Przyjmując, że F jest dystrybuantą rozkładu logistycznego, otrzymujemy model logitowy, podczas gdy przyjęcie dystrybuanty rozkładu normalnego daje model probitowy.
Funkcja gęstości i dystrybuanta rozkładu logistycznego są postaci:
;
.
Stąd dla modelu logitowego:
lub równoważnie
.
Wyrażenie powyższe to tzw. logarytm ilorazu szans (logit). W modelu logitowym logarytm ilorazu szans jest liniową funkcją zmiennych objaśniających. W LMP taką funkcją było samo prawdopodobieństwo.
W przypadku rozkładu normalnego mamy:
;
.
Stąd w modelu probitowym:
.
Wyrażenie
jest określane w tym przypadku jako probit.
Estymacja modeli logitowych i probitowych odbywa się najczęściej metodą największej wiarygodności, polegającą na poszukiwaniu takich ocen parametrów, które maksymalizują funkcję wiarygodności przyjmującą w tym wypadku postać:
.
Logarytm funkcji wiarygodności dany jest następująco:
,
Wyznaczając pochodne i przyrównując do 0 mamy:
Wyrażenia występujące pod pierwszym znakiem sumy są to tzw. uogólnione reszty. Warunki pierwszego rzędu stwierdzają, że uogólnione reszty sumują się do 0 i są ortogonalne do zmiennych objaśniających.
W przypadku modelu logitowego łatwo sprawdzić, że warunki powyższe redukują się do:
i uogólnione reszty stają się zwykłymi resztami. W szczególności mamy więc:
, tj. rzeczywista częstość względna jest równa przewidywanej częstości względnej (częstości z modelu).
Warunek ten nie zachodzi dla modeli probitowych (zachodzi jedynie w przybliżeniu).
Ponieważ rozkłady logistyczny i normalny są zbliżone, miary dopasowania obu modeli są bardzo podobne. Ponadto mając oceny parametrów modelu logitowego, przybliżone oceny parametrów modelu probitowego otrzymujemy przemnażając te pierwsze przez 1/1,6 = 0,625.
Istnieje także przybliżony związek między ocenami parametrów liniowego modelu prawdopodobieństwa i modelu logitowego postaci:
Predykcja efektów zmian wartości zmiennych objaśniających (inaczej mówiąc - interpretacja parametrów):
w liniowym modelu prawdopodobieństwa parametry informują, o ile wzrośnie średnio prawdopodobieństwo sukcesu, jeśli dana zmienna wzrośnie o jednostkę przy innych zmiennych na tym samym poziomie.
w modelu logitowym wielkość
informuje, ilukrotnie wzrośnie iloraz szans przy jednostkowym wzroście danej zmiennej objaśniającej.
w przypadku modeli logitowych i probitowych efekty krańcowe zależą od wartości zmiennych objaśniających i można je wyznaczyć następująco:
gdzie ϕ to funkcja gęstości standardowego rozkładu normalnego.
W programach komputerowych wyznacza się je dla średnich wartości zmiennych objaśniających.
Miary dopasowania:
W ocenie i porównywaniu różnych modeli zmiennych jakościowych stosuje się mierniki takie jak:
a) współczynnik korelacji między wartościami rzeczywistymi
i teoretycznymi
, tj. ocenami prawdopodobieństw,
:
gdzie to dystrybuanta standardowego rozkładu normalnego.
b) pseudo-R2 McFaddena oparty na ilorazie logarytmów funkcji wiarygodności modelu bez restrykcji (U, ang. unrestricted) i z restrykcjami zerowymi na parametrach j , j = 1, …, k, (R, ang. restricted) postaci:
;
c) zliczeniowy R2 (count-R2): po oszacowaniu parametrów modelu logitowego, probitowego lub LMP szacujemy dla każdej obserwacji odpowiednie prawdopodobieństwa,
, a następnie wyznaczamy prognozy według reguły:
Trafność prognoz wygodnie jest badać w oparciu o tablicę trafności:
Empiryczne |
Prognozowane |
Razem |
|
|
Y = 1 |
Y = 0 |
|
Y = 1 |
n11 |
n10 |
n1. |
Y = 0 |
n01 |
n00 |
n0. |
Razem |
n.1 |
n.0 |
|
Wówczas
Do weryfikacji modeli szacowanych MNW służy test ilorazu wiarygodności - jego wariant w Gretlu testuje łączną istotność wszystkich parametrów poza wyrazem wolnym i ma rozkład χ2 z k stopniami swobody (k - liczba parametrów).