Uogólnione modele liniowe (Generalized Lineał Models)
Dotychczas analizowano modele, w których zmienna zależna miała warunkowy rozkład normalny (tj. Y | Xβ jest normalny)
Uogólnione
modele
liniowe
służą
do
modelowania
zmiennych, które niekoniecznie mają warunkowy rozkład
normalny
Pomiary mogą być dokonywane na następujących skalach:
Nominalna:
• Zmienne binarne, dychotomiczne – dwie kategorie: płeć
(K, M), żywy, umarły, kupi produkt, nie kupi…
• Więcej niż dwie kategorie: zielony, czerwony, niebieski,
albo tak, nie, nie wiem, nie dotyczy….
Porządkowa: wyniki można uporządkować
• Młody, w średnim wieku, stary
• Ocena: bardzo źle, źle, dostatecznie, dobrze, bardzo
dobrze
Przedziałowa lub ilorazowa
• Wiadomo o ile dane obserwacje się różnią: temperatura
• Wiadomo o ile razy się różnią (wyróżnione jest zero): waga ciała, cena itd.
Uogólnione modele liniowe mogą być wykorzystane do analizowania zmiennych, które należą do rodziny rozkładów wykładniczych.
Rozkład należy do rodziny rozkładów wykładniczych jeśli
jego gęstość (albo rozkład) może zostać zapisana:
f ( y;θ ,φ) = exp{[ yθ − b(θ )] / a(φ) + c( y,φ )}
gdzie: a, b, c – to pewne funkcje,
θ - parametr kanoniczny (zazwyczaj trudny do interpretacji)
ф - parametr skali (czasami traktowany jako parametr rozproszenia)
Przykłady rozkładów należących do rodziny wykładniczej
1. Rozkład dwumianowy (Bernoulliego)
n k
n− k
P( X = k) = f ( k; n, p) =
p
1
( − p)
k
p
n
f ( k, n, p) = exp k ln
+ n ln 1
( − p) + ln
1 − p
k
Przyjmując
p
θ = ln
1 − p
ϕ = 1
a ϕ
( ) = ϕ
b(θ ) = − n ln 1
( − p)
c( y,ϕ) = ln
k
Można pokazać równość obu zapisów
Rozkład Poissona
λ k λ
P( X = k) = f ( k, λ
−
) =
e
k!
Przyjmując:
θ = lnλ
ϕ = 1
a ϕ
( ) = ϕ
b θ
( ) = λ
c( y,ϕ) = − ln( k )
!
można pokazać, że rozkład Poissona należy do rodziny
rozkładów wykładniczych
2. Rozkład normalny ….
3. Postać modelu:
Postać uogólnionego modelu liniowego:
k
g( E Y
( ))
η
β x
i
= i = ∑ j ji ,
j=1
gdzie g – to tzw. funkcja wiążąca, która jest monotoniczna i różniczkowalna
Model może być też zapisany:
E( Y )
−1
= g ( Xβ )
Postać funkcji wiążącej zależy od rozkładu zmiennej Y.
Szczególne przypadki funkcji wiążących:
• g(µ) = µ
- funkcja identycznościowa – dla zmiennej
Y o rozkładzie normalnym
µ
• g(µ
) = log 1− µ dla zmiennej o rozkładzie binarnym
•
1
−
g(µ) = Φ (µ) dla zmiennej o rozkładzie binarnym
• g(µ) = log(µ) - dla zmiennej licznikowej (zliczającej, np. rozkład Poissona)
Budowa modelu (strategia podobna jak w przypadku zwykłej regresji):
• Wybór postaci modelu (wybór zmiennych
objaśniających)
parametrów
(metoda
największej
wiarygodnośći)
• Ocena istotności parametrów modelu (test Walda, Test
ilorazu wiarygodności)
• Ocena dopasowania modelu – mierniki pseudo R2
• Zastosowanie modelu (prognozowanie, sterowanie,
symulacje)
Model logitowy, model probitowy
Niech Yi oznacza zmienną losową zero-jedynkową dla i –tej jednostki:
Yi =
,
1
jezel
i d
any wari n
a t wystapi
,0 jezel i d any wari nat n i ewystapi.
P( Y = 1 = P ; P Y = 0 = 1− P
i
) i
( i )
i ,
E( Y = 1⋅ P + 0⋅ 1− P = P
i )
i
( i ) i .
P
P Y
1
F
X
...
X
i =
( i = )= (β0 + β1 i 1 + + β k ik +ξ),
gdzie: X , X ,K, X - zmienne obja
β , K
0 β ,
,
1
β -
1
2
k
śniające ,
k
ξ
parametry strukturalne modelu,
- składnik losowy, F –
funkcja przekształcająca zbiór wartości kombinacji liniowej zmiennych na zbiór wartości z przedziału
1
,
0
(odwrotność
funkcji wiążącej).
W zależności od typu funkcji F wyróżnia się różne rodzaje modeli. Do najbardziej znanych modeli zmiennych jakościowych (dychotomicznych) należą:
- liniowy model prawdopodobieństwa (LMP) - F jest funkcją identycznościową,
- model logitowy - F jest dystrybuantą rozkładu logistycznego,
- model probitowy - F jest dystrybuantą standaryzowanego rozkładu normalnego.
LINIOWY MODEL PRAWDOPODOBIEŃSTWA (LMP)
P
F
X
...
X
X
...
X
i =
(β0 + β1 i 1 + + β k ik +ξ) = β0 + β1 i 1 + + β k ik +ξ .
Zastosowanie liniowego modelu prawdopodobieństwa
ma wiele negatywnych konsekwencji
- oszacowania Pi mogą być spoza przedziału
1
,
0
, co
uniemożliwia interpretację;
- składniki losowe na ogół nie mają rozkładu normalnego, co
znacznie utrudnia testowanie hipotez.
W modelu logitowym przyjmuje się, że funkcja F jest z
e
dystrybuantą rozkładu logistycznego (tzn.
F ( z) =
),
z
1 + e
wówczas:
exp
X
...
X
P
F
X
...
X
0
1
1
i =
(β0 + β1 i 1 + + β k ik +ξ)
(β + β i + + β k ik +ξ)
=
1 + exp(β0 + β X
...
X
1
i 1 +
+ β k ik + ξ )
Wartości funkcji odwrotnej do F będziemy nazywać logitami i oznaczać przez L, zatem:
−1
P
L = F
β
β
β
ξ
0 +
X
1
+ ...
1
+ X +
= ln
i
(
i
k
)
i
ik
)
1 − Pi
czyli logit jest to następująca wartość:
P
L
logit P
ln
X
...
X
i =
( ) =
i
i
= β0 + β1 i 1 + + β k ik + ξ
1 − P
.
i
W modelu probitowym przyjmuje się, że funkcja F jest dystrybuantą standardowego rozkładu normalnego. Wówczas:
P
F
X
...
X
X
...
X
i =
(β0 + β1 i 1 + + β k ik + ξ ) = Φ(β0 + β1 i 1 + + β k ik + ξ ) Wartości funkcji odwrotnej do F będziemy nazywać probitami i oznaczać przez Pr, zatem:
Pr
1 P
X
...
X
i = Φ − ( i ) = β0 + β1
i 1 +
+ β k ik + ξ
P = Φ Pr
i
( i )
czyli:
.
ESTYMACJA PARAMETRÓW MODELU LOGITOWEGO I
PROBITOWEGO
PRZEBIEGA
METODĄ
NAJWIĘKSZEJ
WIARYGODNOŚCI
WERYFIKACJA MODELU LOGITOWEGO I PROBITOWEGO
Weryfikacja modelu składa się z dwóch etapów:
Etap I. - badanie istotności parametrów,
Etap II - ocena dopasowania modelu do danych empirycznych.
Test Walda. Weryfikujemy hipotezę o braku istotności parametrów β i postaci:
H :
β i = 0
0
,
H :
β
i
,
1 K
=
, k
i ≠ 0
1
(
).
wykorzystując statystykę testową:
2
b
W = i
i
s( bi )
gdzie: b
β
i - oszacowana wartość parametru
i ,
β
s( b - średni błąd szacunku parametru
.
i )
i
Statystyka Wi ma rozkład 2
χ z jednym stopniem swobody.
Test ilorazu wiarygodności
Hipoteza zerowa ma postać:
H :
β =K = β k = 0
0
1
,
Hipotezę alternatywna:
H :
β +K+ β k ≠ 0
1
1
.
Do
weryfikacji
hipotezy
służy
statystyka
ilorazu
wiarygodności:
2 ln L
− ln L
UR
R )
gdzie:
LUR - oznacza maksymalną wartość funkcji
wiarygodności dla pełnego modelu (jeśli maksymalizujemy
względem wszystkich parametrów),
LR - oznacza maksymalną wartość funkcji wiarygodności dla modelu zawierającego jedynie wyraz wolny.
Statystyka ilorazu wiarygodności IW dla dużych prób ma 2
rozkład χ z liczbą stopni swobody równą liczbie zmiennych
objaśniających.
Ocena dopasowania modelu do danych rzeczywistych
Miara oparta na ilorazie wiarygodności - R2McFaddena:
2
ln LUR
R
=1−
McFaddena
ln L
R
gdzie: LUR - oznacza maksymalną wartość funkcji wiarygodności dla pełnego modelu,
LR - oznacza maksymalną wartość funkcji wiarygodności dla modelu zawierającego jedynie wyraz wolny.
R2McFaddena przyjmuje wartości z przedziału
,
0 1 .
2
RMcFaddena świadczą o dobrym dopasowaniu,
małe o słabym.
MIERNIK DOKŁADNOŚCI PROGNOZ
2
zliczeniowy R :
2
liczba trafnych prognoz
R =
Zliczeniowy
ł
ączna liczba obserwacji
Zliczeniowy 2
R
określa
zatem
udział
poprawnie
prognozowanych przypadków w łącznej liczbie przypadków.
W związku z tym, że zmienna zależna przyjmuje wartość 0
lub 1, po obliczeniu Pˆ i możemy sklasyfikować i-tą obserwację do jednej lub drugiej grupy (nadać jej wartość „0”
lub „1”) w następujący sposób:
Pˆ
1
i > α
yˆ* i =
Pˆ
0
i ≤ α
Zwykle przyjmuje się wartość odcinającą na poziomie:
α = 0 5
,
Albo (dla prób niezbilansowanych)
n 1
α = n + n
0
1
n
1 i
0 - liczba przypadków, dla których odpowiednio Y
przyjmuje wartości 1 oraz 0).
Trafność prognoz wygodnie jest przedstawić w formie
czteropolowej tablicy trafień.
Tablica trafień.
Teoretyczne
RAZEM
ˆ*
Y = 0
ˆ *
Y = 1
Y = 0
n
n
n
00
01
0•
Rzeczywiste
Y = 1
n
n
n
10
11
•
1
RAZEM
n•0
1
•
n
n
INTERPRETACJA
OCEN
PARAMETRÓW
W
MODELU
LOGITOWYM I PROBITOWYM
Znak oceny parametru przy zmiennej X j określa
kierunek wpływu zmiennej X j na Y
•
b j >
jeżeli
0 , to kierunki zmian są zgodne, czyli wzrost
wartości zmiennej X powoduje wzrost szansy na to, j
że
Y = 1
• jeżeli bj < 0 , to kierunki zmian są przeciwne, czyli wzrost wartości zmiennej X powoduje spadek szansy na j
to, że Y = 1
Efekty krańcowe w modelu logitowym i probitowym
Efekty krańcowe wyznaczamy z następujących wzorów:
exp(β
β X
K
β X
0 +
1
1
i
+ + k ik )
∂ P
β
dla modelu logitowego
i
=
j
[1+ exp(β β X K β X
0 +
1
1
i
+ + k ik )]2
∂ X j β ϕ β β X K β X
j
( 0 + 1 1 i + + k ik )
dla modelu probitowe o
g
Wniosek: efekt krańcowy nie jest stały!
Iloraz szans (iloraz prawdopodobieństwa, że zdarzenie wystąpi do prawdopodobieństwa, że to zdarzenie nie wystąpi):
Pi
1− P
j
Pi
= 3
,
2
Przykładowo,
jeśli
1 − P
,
to
powiemy,
że
j
prawdopodobieństwo zajścia zdarzenia jest 2,3 większe niż prawdopodobieństwa że do zdarzenia nie dojdzie.
Przykład
W 1846 roku rodziny Dinnerów i Reedów opuściły Sprinngfield w Illinois i udały się w wozach w kierunku Kalifornii. Po dotarciu do Fort Bridger grupa 87
osób w 20 wozach postanowiła spróbować nowej, nieznanej trasy do doliny Sacramento. Ciężka zima spowodowała, że wiele osób umarło z głodu i zimna.
Dane w pliku Reed, zawierają wiek, płeć oraz informację o przeżyciu każdej dorosłej osoby z tej grupy. (Dane te zostały użyte przez antropologów do zbadania teorii, że kobiety są bardziej odporne na ciężkie warunki niż mężczyźni).
Zbudować model logitowy (oraz probitowy), zinterpretować jego parametry.
Zinterpretować iloraz szans przeżycia dla kobiet.
Ocenić trafność klasyfikacji dla modelu
Jakie jest prawodpodobieńśtwo przeżycia dla 29 letniej kobiety? A dla 32
letniego mężczyzny?
Powtórzyć analizę wykorzystując model probitowy
Przykład
Otworzyć plik Crabs.sta znajdujący się w folderze plików przykładowych.
Uruchomić moduł Uogólnione modele liniowe.
Wybrać najlepszy model logitowy składający się z dwóch zmiennych.