background image

Rozdział 6 

MODELE ZMIENNEJ JAKOŚCIOWEJ 

 

Wprowadzenie 

W tym rozdziale zajmiemy się modelami dla zmiennych jakościowych jako zmiennych 

objaśnianych w jednorównaniowym modelu. To są takie zmienne Y, których wartości mają 

postać niemierzalnych „kategorii”, na przykład: „zatrudniony” i „bezrobotny” albo: „bankrut” 

i „nie-bankrut” czy też: wykształcenie „podstawowe”, „średnie”, „studia licencjackie”, „stu-

dia magisterskie” i „inne”. W tej sytuacji klasyczny model regresji nie jest specjalnie uży-

teczny. 

Jeśli chodzi o zmienne objaśniające (X), to nadal warto posługiwać się ich kombinacją li-

niową, jak w klasycznym jednorównaniowym modelu. Jednak obecnie ta liniowa kombinacja 

powinna być powiązana ze zmienną objaśnianą za pomocą pewnej funkcji o postaci nielinio-

wej. Dlaczego? Z tego powodu, że „kategorie” zmiennej Y nie dają się sensownie wyrazić 

liczbowo, można jedynie mówić o prawdopodobieństwie,  że dla pewnej kombinacji zmien-

nych X zmienna Y znajdzie się w pewnej „kategorii”. Przyjęty w modelu rozkład prawdopo-

dobieństwa decyduje właśnie o postaci wspomnianej nieliniowej funkcji. 

Modele zmiennych jakościowych należą do mikroekonometrii. A to dlatego, że są za-

zwyczaj stosowane do mikrodanych czyli danych indywidualnych: o pracownikach, o bezro-

botnych, o klientach banku, o firmach, o obywatelach, o osobach ankietowanych itd. Mikro-

dane gromadzone są w urzędach statystycznych, urzędach rejestracyjnych, biurach badania 

opinii, agencjach ratingowych, biurach marketingowych itd. To są zwykle dane przekrojowe, 

czasem też można mieć do czynienia z danymi panelowymi 

Mikrodane często powstają jako wynik badania ankietowego: osób, konsumentów, firm, 

inwestorów itd. Jeśli w drugiej turze wyborów prezydenckich w Polsce ankieter pyta przed 

lokalem wyborczym: „na kogo pani/ pan głosowała”, to otrzymuje odpowiedź: „na A” lub „na 

B” (pomijając odpowiedzi „nie głosowałam”, „skreśliłam obu”, „oddałam głos nieważny”). 

Dla analityka ważne byłoby powiązanie takich wyników (zmienna Y) ze zmiennymi charakte-

ryzującymi daną osobę (zmienne X). Jako wartości zmiennych X ankieter może podać  płeć 

oraz przybliżony przedział wieku respondenta. Jeśli zada mu dodatkowe pytania, to otrzyma 

dalsze informacje (wartości kolejnych zmiennych X). Tak czy inaczej, na tej podstawie można 

próbować wyświetlić związek zmiennych X ze zmienną Y przy użyciu pojęcia prawdopodo-

bieństwa. Warunkiem jest odpowiednio duża liczba obserwacji. 

 Rozdział 6 

1

 

background image

Modele zmiennych jakościowych znajdują zastosowanie w ekonomii, w finansach, a także 

w wielu naukach społecznych, w tym w demografii. 

Po przeczytaniu tego rozdziału i rozwiązaniu zadań oczekuje się, że Czytelnik powinien 

umieć: 

– skonstruować model dwumianowy dla opisu zmiennej jakościowej, 

– odróżnić liniowy model prawdopodobieństwa od modelu probitowego i logitowego, 

– określić wrażliwość prawdopodobieństwa w modelu probitowym i logitowym na zmienne 

objaśniające, 

– podać przykładowe zastosowania modelu dla zmiennych uciętych (modelu tobitowego). 

 

6.1. Liniowy model prawdopodobieństwa 

Rozpoczniemy od sytuacji, w której – mimo, że zmienna Y jest zmienną jakościową – sto-

sujemy jednak liniowy model regresji. 

 

PRZYKŁAD 6.1 

Pięciuset studentów SGH pochodzących z Warszawy spytaliśmy o to, gdzie mieszkają. Przy 

tym możliwe były tylko dwie odpowiedzi: „z rodzicami” lub „samodzielnie” (zmienna Y). 

Zmienne X określające sytuację Y („mieszkam-nie-mieszkam z rodzicami”) to: rok studiów, 

płeć i dochód rodziny za poprzedni rok (według PIT). Wartości zmiennej Y  ustaliliśmy jako 

„0” (z rodzicami) oraz „1” („samodzielnie”). Dane mieszkanie_z_rodzicami, dostępne są na 

stronie internetowej podręcznika w formacie programu gretl. Oszacowaliśmy odpowiedni 

model regresji za pomocą MNK i otrzymaliśmy następujący wynik: 

 

Model 1: Estymacja KMNK z wykorzystaniem 500 obserwacji 1-500 
Zmienna zależna: Y 
 
Zmienna      Współczynnik     Błąd stand.   Statystyka t  Wartość p 
 
  const                -0,0312077        0,0860583    -0,363   0,71703 
  X1                    0,0320255        0,0152510     2,100   0,03624 ** 
  X2                    0,00396163       0,000600157   6,601  <0,00001 *** 
  X3                   -0,0996585        0,0425353    -2,343   0,01953 ** 
 
  Średnia  arytmetyczna  zmiennej zależnej = 0,476 
  Błąd standardowy reszt = 0,474389 
  Wsp. determinacji R-kwadrat = 0,10496 
  Statystyka F (3, 496) = 19,3884 (wartość p < 0,00001) 

 

 Rozdział 6 

2

 

background image

Zmienna X1 to rok studiów (od 1 do 5), zmienna X2 oznacza dochód rodziny studenta w ze-

szłym roku (dokładniej: procent trzeciego kwartyla przeciętnego dochodu rodziny w Warsza-

wie), X3 to płeć studenta/studentki (1 dla kobiety, 0 dla mężczyzny). Mamy więc: 

Yˆ = –0,0312 + 0,0320 X1 + 0,0040 X2 –0,0996 X

Zmienna  Y jest zmienną objaśnianą szczególnego rodzaju. To zmienna jakościowa, która 

przyjmuje dwie wartości „1” oraz „0”. Można zadać pytanie: co tak naprawdę przedstawia 

oszacowany model? Na jego podstawie można na przykład „prognozować”, że dla studentki 

trzeciego roku, której rodzina miała dochód X2=100 wartość Y wynosi 0,3652. Co oznacza ta 

liczba? 

▄ 

 

Aby odpowiedzieć na te pytania, zapiszmy na początek model dla zmiennej jakościowej 

Y, dla prostoty z jedną tylko zmienną objaśniającą X

Y

i

 = α

0

 + α

1

 X

i

 + ε

i

 

i=1,2,...,n. (6.1) 

Niech Y

i

 oznacza fakt posiadania domu przez i–tą rodzinę (1=tak, 0=nie) natomiast X

i

 oznacza 

dochód tej rodziny.  

Czasami zmienną jakościową  Y można sobie wyobrazić jako zero-jedynkową reprezen-

tantkę pewnej zmiennej ciągłej Y*, która jest nieobserwowana (zmienna ukryta). W naszym 

przykładzie  Y* może oznaczać „skłonność do posiadania domu” czyli coś czego nie da się 

wyrazić liczbowo lecz możemy to „coś” wyobrazić sobie jako zmienną ciągłą. Jeśli na przy-

kład skłonność do posiadania domu jest dodatnia, to wówczas dana rodzina ma dom, a jeśli 

niedodatnia – to nie posiada domu. Przy tym „skłonność” to tylko jedno z możliwych okre-

śleń zmiennej Y* (można np. mówić o „inklinacji”, „ciążeniu do”, „dążności” itd.). Poza tą 

teorią fakty są po prostu takie, że ktoś ma dom, a ktoś inny go nie posiada, czyli zamiast Y* 

obserwujemy Y=1 lub Y=0. 

Typowy zbiór obserwacji oraz wynik oszacowania klasyczną MNK wygląda tak jak na 

rys. 6.1 (tutaj: 50 obserwacji; dane posiadanie_domu na stronie internetowej podręcznika). 

 

 

 

 

 

 

 

 

 Rozdział 6 

3

 

background image

 

 

 

6.1. JPG 

 

 

 

 

 

 

Rysunek 6.1. Zależność pomiędzy posiadaniem domu (Y) i dochodem (X

 

Musimy teraz posunąć się dalej, poza klasyczne rozważania o modelu liniowym szacowanym 

za pomocą MNK. Powinniśmy posłużyć się innym niż dotąd sposobem opisywania zmiennej 

Y. Jest to zmienna jakościowa, która ma dwa możliwe warianty (stany, sytuacje itp.) opisane 

przy użyciu kodów „0” i „1”. Jest zatem dwumianowa. Pomyślmy o niej jak o zmiennej loso-

wej o dwóch możliwych wartościach i spytajmy o rozkład prawdopodobieństwa tej zmiennej. 

Niech p

i

 oznacza prawdopodobieństwo zdarzenia Y

i

=1. Wtedy 1–p

i

 jest prawdopodobień-

stwem zdarzenia Y

i

=0. Wartość oczekiwana zmiennej Y

i

 to po prostu: 

E(Y

i

) = 1

p

i

 + 0

⋅(1–p

i

) = p

i

 (6.2) 

Z kolei, w modelu (6.1) zwykle zakładamy, że E(ε

i

) = 0, czyli wartość oczekiwana Y

i

 we-

dług (6.1) równa się: 

E(Y

i

) = α

0

 + α

1

 X

i

a zatem: 

p

i

 = α

0

 + α

1

 X

i

. (6.3) 

W ten sposób dochodzimy do wniosku, że linia MNK na rysunku 6.1 reprezentuje 

p

i

 = P(Y

i

=1), gdzie P oznacza prawdopodobieństwo. Stąd się bierze nazwa modelu typu (6.1). 

Jest to liniowy model prawdopodobieństwa, w skrócie LMP

Jeśli jest tak, że linia MNK z rysunku 6.1 reprezentuje prawdopodobieństwo, to widać, że 

ma z tym kłopoty. Wielkość prawdopodobieństwa powinna znajdować się w przedziale 

<0,1>. LMP tego nie zapewnia. Widzimy, że dla kilku wartości X

i

 oszacowana linia regresji 

wykracza poza przedział <0,1>. Druga wada LMP to heteroskedastyczność składników loso-

wych co powoduje, że dla estymacji powinno się korzystać raczej z uogólnionej niż z kla-

 Rozdział 6 

4

 

background image

sycznej MNK. Mimo tych niedoskonałości, w praktycznych zastosowaniach LMP stanowi 

akceptowalne przybliżenie związku między p

i

 i zmiennymi objaśniającymi. 

Zapiszmy LMP w ogólniejszej postaci z k zmiennymi objaśniającymi: 

Y

i

 = α

0

 + α

1

 X

1i

 + ... + α

k

 X

ki

 + ε

i

 

i=1,2,...,n. (6.4) 

Warto pamiętać, że parametr α

j

 (j=1,...,k) w tym modelu interpretuje się jako przyrost praw-

dopodobieństwa p

i

 związany z przyrostem X

j

 o jednostkę. 

 

PRZYKŁAD 6.1 (ciąg dalszy) 

Model oszacowany w przykładzie 6.1 to liniowy model prawdopodobieństwa typu (6.4) gdzie 

n=500 oraz k=3. Dla przykładu zinterpretujmy ocenę parametru przy zmiennej X1: z każdym 

rokiem studiów (ceteris paribus) prawdopodobieństwo mieszkania samodzielnie zwiększa się 

o 0,032. Podobnie interpretuje się pozostałe parametry. 

Jak pamiętamy, na podstawie modelu otrzymaliśmy wartość 0,3652 jako „prognozę” 

zmiennej Y dla studentki trzeciego roku, której rodzina miała dochód X2=100. Jest to po pro-

stu oszacowanie   prawdopodobieństwa tego, że Y=1 („studentka mieszka samodzielnie”). 

Na tej podstawie można postawić prognozę samej wartości Y. Jeśli w próbie mieliśmy mniej 

więcej tyle samo wartości  Y=1 ile Y=0, to zasadne jest postawienie wniosku, że  Y=1 dla 

> 0,5  oraz  Y=0 dla  < 0,5. W tym konkretnym przypadku próba miała strukturę 48:52. 

Prognozujemy zatem, że studentka mieszka z rodzicami (czyli że Y=0).  

pˆ

pˆ

pˆ

Warto przy okazji dodać, że akurat w tym modelu wszystkie wartości teoretyczne zmien-

nej objaśnianej (czyli oszacowane prawdopodobieństwa) znajdują się w przedziale <0,1>  ▄ 

 

LMP jest najprostszym modelem dla dwumianowej zmiennej jakościowej. Oszacowane 

wartości zmiennej Y reprezentują tu prawdopodobieństwo, że Y

i

 = 1. Jak wiemy (por. rysunek 

6.1) funkcja liniowa nie nadaje się dobrze do reprezentowania związku między zmienną obja-

śniającą a wielkością tego prawdopodobieństwa. Takiej wady nie mają inne modele, które 

omówimy w kolejnych podrozdziałach. 

 

Uwaga na temat R-kwadrat w mikroekonometrii 

W LMP oszacowanym w przykładzie 6.1 wartość R

2

 jest równa 0,10. Czy to mało czy dużo? 

Żeby odpowiedzieć na to pytanie trzeba wiedzieć, że: 

– współczynnik R-kwadrat dla modeli szacowanych na podstawie szeregów czasowych jest 

zwykle większy, niż dla szacowanych przy użyciu danych przekrojowych; szeregi czaso-

 Rozdział 6 

5

 

background image

we w ekonomii dotyczą na ogół kategorii zagregowanych (np. w makroekonomii), a 

„agregaty wyjaśnia się zwykle łatwiej niż wyniki obserwacji dla pojedynczych osób, ro-

dzin, firm” (Wooldridge 2003); 

– test 

F łącznej istotności wszystkich zmiennych w modelu liniowym w istocie weryfikuje 

hipotezę o istotności R

(to jest H

0

R

2

=0); łatwo sprawdzić, że dla R-kwadrat równego 0,2 

oraz n = 1000 i k = 5 wartość F równa się 49,7 i oznacza odrzucenie hipotezy zerowej na 

bardzo niskim poziomie istotności; „graniczną” (dla poziomu istotności 0,01) wartością R-

kwadrat jest w tym przykładzie 0,015; nawet tak niska wartość jest istotnie różna od zera 

– przy dostatecznie dużej próbie; z kolei, jeśli na przykład = 20, to wartość graniczna R-

kwadrat wynosi aż 0,63;  jak widać, dla dużych n niska wartość R

2

 nie świadczy o złym 

modelu; 

–  w LMP wartość R-kwadrat jest z reguły niska; można pokazać, że gdy prawdopodobień-

stwa p

i

 nie mają wartości ekstremalnych (np. są w przedziale od 0,2 do 0,8), to R-kwadrat 

ma wartość ograniczoną do przedziału wartości małych, bliskich zeru; model może być 

całkiem poprawny, a wartość współczynnika determinacji jest niewielka (Cox i Wermuth 

1992). 

 

W świetle tych wyjaśnień uznajemy, że wartość R

2

=0,10 z przykładu 6.1 nie jest mała. Przy 

tym, nie powinno się jej używać do oceny dopasowania modelu, a co najwyżej do porównań 

między konkurencyjnymi niezagnieżdżonymi LMP. 

 

6.2. Model logitowy 

W odróżnieniu od LMP model logitowy dla danych posiadanie_domu wygląda tak jak na 

rysunku 6.2. Obecnie linia ma taki kształt, że może reprezentować prawdopodobieństwo dla 

każdej wartości  X. Ta linia to dystrybuanta tzw. rozkładu logistycznego (przypominamy 

rozważania o funkcji logistycznej z poprzedniego rozdziału). Jest to jedna z linii o kształcie 

podobnym do litery S, określanych jako krzywe typu S. 

  

 

 

 

 

 

 

 Rozdział 6 

6

 

background image

 

 

 

6.2. JPG 

 

 

 

 

 

 

 

 

Rysunek 6.2. Oszacowany model logitowy zależności pomiędzy posiadaniem domu (Y) i dochodem (X

 

Jak pamiętamy, w LMP funkcja, która wiąże prawdopodobieństwo p

i

 ze zmienną objaśniającą 

X

i

 ma postać p

i

 = α

0

 + α

1

 X

i

. W modelu logitowym ten związek jest następujący: 

)

exp(

1

)

exp(

1

0

1

0

i

i

i

X

X

p

α

α

α

α

+

+

+

=

 (6.5) 

gdzie exp(V) = e

V

. Model ten nosi też nazwę regresji logistycznej lub model logistycznego

Jego ogólniejsza postać przyjmuje, że  p

i

 jest funkcją następującej liniowej kombinacji k 

zmiennych objaśniających: 

Z

i

 = α

0

 + α

1

 X

1i

 + ... + α

k

 X

ki

czyli 

)

exp(

1

)

exp(

i

i

i

Z

Z

p

+

=

 (6.6) 

Jeśli obliczymy 

)

exp(

1

1

1

i

i

Z

p

+

=

 

a następnie podzielimy p

i

 przez 1–p

i

)

exp(

1

i

i

i

Z

p

p

=

 

i obliczymy stąd Z

i

 = α

0

 + α

1

 X

1i

 + ... + α

k

 X

ki

, to otrzymamy: 

i

i

p

p

1

ln

α

0

 + α

1

 X

1i

 + ... + α

k

 X

ki

 (6.7) 

 Rozdział 6 

7

 

background image

Model (6.7) jest liniowy względem parametrów α i zmiennych X. Zmienną objaśnianą w tym 

modelu jest ln (pi/(1–p

i

)). Ta wielkość nazywa się logitem. Przypomnijmy, że p

i

 to prawdo-

podobieństwo tego, iż Y

i

=1. Zatem logit to logarytm ilorazu szans

1

 przyjęcia oraz nieprzyję-

cia wartości 1 przez zmienną Y. Jeśli szanse są jednakowe (p

i

=0,5), to logit równa się zeru. 

Dla p

i

>0,5 logit jest ujemny, a dla p

i

<0,5 jest dodatni. 

 

PRZYKŁAD 6.2 (ciąg dalszy przykładu 6.1) 

Oto wydruk oszacowanego w programie gretl modelu logitowego zależności między  Y 

(mieszkanie z rodzicami) oraz X1 (rok studiów), X2 (dochód rodziny) i X3 (płeć): 

 

Model MIESZKANIE Z RODZICAMI: Estymacja Logit z wykorzystaniem 500 obserwacji 1-500 
Zmienna zależna: Y 
 
  Zmienna     Współczynnik     Błąd stand.  Statystyka t  Efekt krańcowy 
                                                                                    dla średnich 
  const                -2,35743          0,408173     -5,776 
  X1                    0,140685         0,0680044     2,069      0,0350719   
  X2                    0,0176054        0,00288574    6,101      0,00438890  
  X3                   -0,438766         0,189761     -2,312     -0,109381    
 
  Średnia dla zmiennej Y = 0,476 
  Liczba przypadków 'poprawnej predykcji' = 377 (75,4%) 
  f(beta'x) dla średnich niezależnych zmiennych = 0,249 
  McFaddena pseudo-R-kwadrat = 0,0796924 
  Logarytm wiarygodności = -318,424 
  Test ilorazu wiarygodności: Chi-kwadrat(3) = 55,1467 (wartość p 0,000000) 
 
                        Prognoza 
                            0     1 
  Empiryczne 0  209    53 
                     1   70   168 
 

Będziemy analizować elementy tego wydruku. Na początek ustalmy, że oszacowana wartość 

logitu czyli Z jest następująca 

Zˆ = –2,3574 + 0,1407 X1 + 0,0176 X2 – 0,4388 X

Oznacza to, że prawdopodobieństwo p

i

 (czyli sytuacji Y

i

=1) szacuje się jako: 

)

3

4388

,

0

2

0176

,

0

1

1407

,

0

3574

,

2

exp(

1

)

3

4388

,

0

2

0176

,

0

1

1407

,

0

3574

,

2

exp(

ˆ

X

X

X

X

X

X

p

i

+

+

+

+

+

=

 

Na tej podstawie możemy obliczyć, że dla X1=3, X2=100 oraz X3=1 oszacowana wartość p 

wynosi 0,3512. Warto przypomnieć, że w przypadku LMP było to 0,3652. 

▄ 

                                                 

1

 Tutaj przez „szansę” rozumiemy „prawdopodobieństwo”. Na ogół jednak szansa czyli w języku angielskim odds 

oznacza od razu iloraz prawdopodobieństw. Jeśli prawdopodobieństwo sukcesu równa się 0,8, to „szansa na sukces” 
wynosi 4 do 1 czyli jest właśnie ilorazem prawdopodobieństw p oraz 1–p. Mimo tego, w angielskojęzycznych pod-
ręcznikach też mówi się o odds-ratio czyli o ilorazie szans. 

 Rozdział 6 

8

 

background image

 

Estymacja modelu logitowego 

W jaki sposób szacuje się model logitowy (6.7)? Jest to model nieliniowy. Zauważmy jednak, 

że wielkości p

i

 nie są obserwowalne. Jedyne co znamy, to wartości Y

i

 czyli jedynki lub zera. 

Właściwą metodą estymacji jest tu metoda największej wiarygodności (MNW), która wyko-

rzystuje założenie o postaci rozkładu logistycznego. Nie wdając się w szczegóły powiedzmy 

jedynie, że termin „logarytm wiarygodności” w wydruku wyników estymacji oznacza wartość 

logarytmu naturalnego funkcji wiarygodności, którą maksymalizuje się poszukując ocen pa-

rametrów przy pomocy MNW. Czyli – jest to wartość maksymalna dla danego modelu. 

Ciekawostka:  średnia wartość  Y

i

 w modelu logitowym (czyli udział jedynek) równa się 

średniej wartości oszacowanych za pomocą MNW prawdopodobieństw p

i

 

Efekty krańcowe w modelu logitowym 

Pochodna prawdopodobieństwa p

i

 względem zmiennej objaśniającej X

ji

 w modelu logitowym 

(6.7) jest następująca: 

ji

i

X

p

α

j

 p

i

 (1–p

i

) = α

j

 

[

]

2

1

1

0

1

1

0

)

...

exp(

1

)

...

exp(

ki

k

i

ki

k

i

X

X

X

X

α

α

α

α

α

α

+

+

+

+

+

+

+

. (6.8) 

Jest więc nieco skomplikowana w porównaniu z taką samą pochodną równą α

j

 dla liniowego 

modelu prawdopodobieństwa. Widzimy, że efekt krańcowej zmiany X

j

 na wartości p w mode-

lu logitowym nie jest stały, zależy od wartości wszystkich zmiennych X. W praktyce podaje 

się taki efekt dla średnich wartości zmiennych X.  

Uwaga: Znak oszacowania parametru stojącego przy zmiennej X

j

 w modelu logitowym 

określa kierunek wpływu X

j

 na Y

– dla 

dodatniego 

α

j

 wzrost X

j

 wiąże się ze wzrostem szans na to, że = 1; natomiast spad-

kowi X

j

 towarzyszy spadek szans na to, że = 1; 

– dla 

ujemnego 

α

j

 wzrost X

j

 wiąże się ze spadkiem szans na to, że = 1; natomiast spadko-

wi X

j

 towarzyszy wzrost szans na to, że = 1. 

Stąd wynika, że interpretacja parametru strukturalnego modelu logitowego jest podobna do 

interpretacji znanej dla modelu liniowego: znak parametru określa kierunek zależności mię-

dzy zmiennymi X

j

 oraz Y

 

PRZYKŁAD 6.2 (ciąg dalszy) 

W modelu z przykładu 6.2 efekty krańcowe dla średnich to: 0,0351 dla zmiennej X1, 0,0044 

dla zmiennej X2, –0,1094 dla zmiennej X3. Pierwszą z tych liczb możemy interpretować na-

 Rozdział 6 

9

 

background image

stępująco: dla osób, których charakterystyki odpowiadają średnim wartościom zmiennych X1, 

X2,  X3 z każdym rokiem studiów (ceteris paribus) prawdopodobieństwo mieszkania samo-

dzielnie zwiększa się o 0,035. Podobnie interpretujemy pozostałe efekty krańcowe. 

 

Interpretacja z wykorzystaniem ilorazu szans 

Iloraz szans p

/(1–p

i

) dobrze nadaje się do interpretacji oszacowanego modelu logitowego. 

Można pokazać, że jeśli jedna ze zmiennych objaśniających, na przykład X

j

 wzrośnie o jed-

nostkę  (ceteris paribus), to iloraz szans zmieni się exp(α

j

) razy. W przypadku exp(α

j

) > 1 

mamy wzrost, a w przypadku exp(α

j

) < 1 mamy spadek ilorazu szans. Jeśli  X

j

 jest zmienną 

zerojedynkową, to exp(α

j

) mówi ile razy wzrasta iloraz szans wartości Y

i

 = 1 dla kategorii „1” 

zmiennej X

j

 w porównaniu z tym samym ilorazem dla kategorii „0” zmiennej X

j

W naszym modelu z przykładu 6.2 logit jest oszacowany jako 

Zˆ = –2,3574 + 0,1407 X1 + 0,0176 X2 – 0,4388 X

natomiast iloraz szans to exp( Zˆ ). Zatem: krotność o jaką zmieni się iloraz szans przy wzro-

ście każdej ze zmiennych o jednostkę równa się: 

 

exp(0,1407) = 1,1511 

dla zmiennej X1, 

 

exp(0,0176) = 1,0178 

dla zmiennej X2, 

 

exp(–0,4388) = 0,6448 

dla zmiennej X3. 

Przykładowa interpretacja: każdy dodatkowy rok studiów zwiększa iloraz szans (szansę) sa-

modzielnego mieszkania o 1,15 raza czyli o 15%. 

 

Miary dopasowania, testowanie modelu, dobór zmiennych 

W modelu logitowym nie można stosować zwykłego współczynnika determinacji R-kwadrat 

(ze względu na nieliniowość). W programie gretl podaje się w zamian wartość pseudo-R-

kwadrat McFaddena, który oblicza się według wzoru: 

pseudoR

2

 = 

MZ

MP

L

L

ln

ln

1

 (6.9) 

gdzie ln L

MP

 jest logarytmem funkcji wiarygodności dla modelu pełnego, natomiast ln L

MZ

 – 

dla modelu zredukowanego do wyrazu wolnego. Pseudo-R-kwadrat może służyć do porównań 

pomiędzy logitowymi modelami niezagnieżdżonymi dla tej samej zmiennej. 

Podana w wydruku wyników estymacji wartość statystyki testu ilorazu wiarygodności 

służy do testowania istotności całego modelu logitowego. Hipoteza zerowa mówi, że wszyst-

 Rozdział 6 

10

 

background image

kie parametry modelu – poza wyrazem wolnym – są równe zeru. Statystyka testu zdefiniowa-

na jako: 

2 (ln L

MP

 – ln L

MZ

) (6.10) 

ma rozkład chi-kwadrat z liczbą stopni swobody równą liczbie zmiennych objaśniających 

modelu pełnego. Na wydruku wyników estymacji w programie gretl podaje się wartość po-

ziomu istotności (p), przy którym odrzucamy hipotezę zerową. Wartość mniejsza od 0,05 

oznacza, że co najmniej jedna zmienna objaśniająca w modelu jest istotna statystycznie. 

Podane w wynikach estymacji wartości statystyki t dla parametrów służą – jak w klasycz-

nym modelu liniowym – do testowania istotności każdej zmiennej oddzielnie. 

Ważna uwaga w sprawie doboru zmiennych. W modelu logitowym występuje kombinacja 

liniowa zmiennych objaśniających X, jak w klasycznym modelu liniowym z rozdziałów 1-4. 

Stąd wynika, że problemy specyfikacji modelu, jak na przykład współliniowość zmiennych 

objaśniających, są w modelu logitowym takie same jak w modelu liniowym. Ta uwaga odnosi 

się do każdego z modeli zmiennych jakościowych omawianych w tym rozdziale. 

 

Tablica trafności 

Po oszacowaniu modelu logitowego można obliczyć wartości empiryczne zmiennej objaśnia-

nej czyli wartości logitów ln (pi/(1–p

i

)) dla każdej z n obserwacji. Na tej podstawie wyznacza 

się wartości empiryczne 

 prawdopodobieństw  p

i

pˆ

i

. Wtedy, jak w przypadku LMP, można 

obliczyć prognozę ex post wartości Y

i

 dla każdej obserwacji. Są przy tym dwie zasady: 

–  zasada standardowa stosowana przy próbie zbilansowanej, to jest takiej gdzie liczba zer i 

jedynek dla zmiennej Y jest mniej więcej jednakowa; wówczas prognozujemy, że Y=1 dla 

> 0,5 oraz Y=0 dla 

< 0,5; 

i

pˆ

i

pˆ

–  zasada optymalnej wartości granicznej (Cramer 1999) stosowana przy próbie niezbilan-

sowanej, w której udział wartości  Y=1 w próbie wynosi δ; wówczas prognozujemy, że 

Y=1 dla 

δ oraz Y=0 dla 

δ

i

pˆ

i

pˆ

Trafność prognozy ex post wygodnie jest przedstawić za pomocą tablicy trafności. Jest to 

czteropolowa tablica, której elementami są następujące liczebności przypadków: 

 

 Rozdział 6 

11

 

background image

 

Empiryczne Prognozowane  Razem 

 

Y = 1 

Y = 0 

 

Y = 1 

n11 

n10 

n1. 

Y = 0 

n01 

n00 

n0. 

Razem 

n.1 

n.0 

 

Udział przypadków z trafnymi prognozami (n11 + n00) w łącznej licznie obserwacji (n) to 

miara trafności prognoz ex post, a zarazem miara jakości dopasowania modelu. Liczbę tę na-

zywa się niekiedy zliczeniowym R-kwadrat (count-R

2

). 

 

PRZYKŁAD 6.2 (ciąg dalszy) 

Z tablicy trafności wynika, że  n11=168 oraz n00=209. Zatem trafność prognozy wynosi 

377/500 czyli 75,4%. 

Uwaga: w tym przypadku stosowano standardową zasadę prognozy, bowiem udział wartości 

Y=1 w próbie jest bliski 50%. [Obecna wersja programu gretl stosuje wyłącznie tę zasadę, 

niezależnie od stopnia zbilansowania próby]. 

 

PRZYKŁAD 6.3 

Wracamy do omawianego w tekście przykładu z posiadaniem domu. Y

i

 oznacza fakt posiada-

nia domu przez i–tą rodzinę (1=tak, 0=nie) natomiast X

i

 oznacza dochód tej rodziny (50 ob-

serwacji; dane posiadanie_domu na stronie internetowej podręcznika). Wynik estymacji mo-

delu logitowego w programie gretl jest następujący: 

 

Model POSIADANIE DOMU: Estymacja Logit z wykorzystaniem 50 obserwacji 1-50 
Zmienna zależna: Y 
 
  Zmienna     Współczynnik     Błąd stand.  Statystyka t  Efekt krańcowy 
                                                                                     dla średnich 
  const                -4,79156          1,24921      -3,836 
  X                     0,0396580        0,0117456     3,376      0,00718633  
 
  Srednia dla zmiennej Y = 0,300 
  Liczba przypadków 'poprawnej predykcji' = 41 (82,0%) 
  f(beta'x) do średnich niezależnych zmiennych = 0,181 
  McFaddena pseudo-R-kwadrat = 0,407392 
  Logarytm wiarygodności = -18,1002 
  Test ilorazu wiarygodności: Chi-kwadrat(1) = 24,8861 (wartość p 0,000001) 
 
                       Prognoza 
                          0    1 
  Empiryczne 0  33   2 
                     1   7    8 

 

 Rozdział 6 

12

 

background image

W tym przypadku liczba wartości  Y=1 w próbie wynosi 30%, zatem do prognozowania ex 

post należy stosować zasadę Cramera. Poprawna tablica trafności dla tego modelu jest nastę-

pująca (można ją wyznaczyć przenosząc do Excela oszacowane z modelu wartości p

i

): 

                       Prognoza 
                          0    1 
  Empiryczne 0  29   6 
                     1   4    11 
 

W porównaniu z zasadą standardową model gorzej prognozuje zera, a lepiej jedynki. Łączna 

trafność prognoz ex post wynosi 40/50 czyli 80%. 

▄ 

 

Duży model logitowy 

Przykład modelu logitowego o większych rozmiarach jest oparty na wynikach badania „Dia-

gnoza społeczna 2005. Warunki i jakość życia Polaków”. Dane dostępne są na stronie interne-

towej 

www.diagnoza.com

.  

 

PRZYKŁAD 6.4 

Zmienna objaśniana Y jest zmienną jakościową dwumianową i oznacza odpowiedź ankieto-

wanego na pytanie „Czy w ostatnich 4 tygodniach poszukiwał pracy?” (1=tak, 0=nie). 

Zmienne objaśniające wybrane do modelu to: płeć (1=mężczyzna, 0=kobieta), stan cywilny, 

poziom wykształcenia, miesięczny dochód netto w gospodarstwie domowym (w tys. zł). 

Zmienna „stan cywilny” może przybrać następujące kategorie, odpowiadające poszczególnym 

stanom: kawaler/panna (1), żonaty/zamężna (2), wdowiec/wdowa (3), rozwiedziony/ rozwie-

dziona (4), w separacji (5). Na bazie poszczególnych kategorii skonstruowane zostało 5 

zmiennych binarnych, przyjmujących wartości 1, jeśli respondent reprezentował dany stan 

(kategorię) i 0 w przeciwnym przypadku. „Wykształcenie” może przyjmować 8 kategorii: 

 

1 wyższe 
2 policealne 

średnie zawodowe 

średnie ogólnokształcące 

zasadnicze zawodowe   

6 podstawowe 

ukończone 

7 bez 

wykształcenia 

osoba w wieku 0-15 lat 

 

Na bazie zmiennej „wykształcenie” skonstruowane zostały 3 zmienne dwumianowe: wy-

kszt_brak – przyjmujące wartość 1 dla respondentów z kategorią wykształcenie 7 lub 8 oraz 0 

w przeciwnym przypadku; wykszt_zasad odpowiednio wartość 1 dla kategorii 5 lub 6 oraz 

 Rozdział 6 

13

 

background image

wykszt_srednie – 1 dla kategorii 1,2,3 lub 4. Aby uniknąć problemu dokładnej współliniowo-

ści zmiennych, do modelu można było włączyć co najwyżej 4 zmienne binarne reprezentujące 

stan cywilny oraz 2 reprezentujące wykształcenie (dlaczego?). Poniższy wydruk z programu 

gretl przedstawia wyniki estymacji:  

 

Model 2: Estymacja Logit z wykorzystaniem 3902 obserwacji  

Zmienna zależna: czy_szukal 

 

      Zmienna     Współczynnik     Błąd stand.  Statystyka t  Efekt krańcowy dla średnich 

  const                -4,14627          0,718449     -5,771 

  dochod_w_tys         -0,690690         0,0743099    -9,295     -0,0609709   

  wykszt_srednie        3,87839          0,715297      5,422      0,342367    

  wykszt_zasad          3,53906          0,712719      4,966      0,312413    

  plec   

 

  0,263516         0,0942064     2,797      0,0232620   

  zonaty               -0,168893         0,0981567    -1,721     -0,0149091   

  wdowiec              -2,34247          0,318518     -7,354     -0,206783    

  rozwiedziony         -0,0278297        0,238629     -0,117     -0,00245668  

  separacja            -0,0550951        0,532782     -0,103     -0,00486354 

 

  Srednia dla zmiennej czy_szukal = 0,153 

  Liczba przypadków 'poprawnej predykcji' = 3305 (84,7%) 

  f(beta'x) do średnich niezależnych zmiennych = 0,088 

  McFaddena pseudo-R-kwadrat = 0,127963 

  Logarytm wiarygodności = -1501,37 

  Test ilorazu wiarygodności: Chi-kwadrat(8) = 440,623 (wartość p 0,000000) 

  Kryterium informacyjne Akaike'a (AIC) = 3020,74 

  Kryterium bayesowskie  Schwarza (BIC) = 3077,16 

  Kryterium infor. Hannana-Quinna (HQC) = 3040,77 

 

Nie wszystkie zmienne są istotne statystycznie. Model można próbować poprawiać. Zatrzy-

majmy się przy tym wyniku estymacji i – jako zadanie do samodzielnego rozwiązania – spró-

bujmy dokonać interpretacji ocen parametrów, korzystając z: 

a) efektów krańcowych, 

b) ilorazów szans. 

Szczególnie istotne jest przy tym porównanie pomiędzy zmiennymi binarnymi reprezentują-

cymi różne kategorie zmiennej „stan cywilny” oraz zmiennej „wykształcenie”. 

 

▄ 

 

6.3. Model probitowy 

Model logitowy omówiliśmy dość szczegółowo w poprzednim podrozdziale. Całkiem podob-

ne omówienie należałoby się modelowi probitowemu, który jest drugim ważnym modelem 

dla jakościowych zmiennych dwumianowych. To omówienie jednak pominiemy, albowiem 

 Rozdział 6 

14

 

background image

oba modele są bliźniaczo podobne. Na rysunku 6.3 pokazany jest wykres modelu probitowe-

go dla danych posiadanie_domu. Do złudzenia przypomina rysunek 6.2 z modelem logito-

wym. Przyczyna jest taka, że w modelu probitowym posługujemy się dystrybuantą rozkładu 

normalnego, bardzo podobną do dystrybuanty rozkładu logistycznego. 

 

 

 

 

 

6.3.JPG 

 

 

 

 

 

Rysunek 6.3. Oszacowany model probitowy zależności pomiędzy posiadaniem domu (Y) i dochodem (X

 

W modelu probitowym funkcja, która wiąże prawdopodobieństwo p

i

 z liniową kombina-

cją zmiennych objaśniających Z

i

 = α

0

 + α

1

 X

1i

 + ... + α

k

 X

ki

 ma postać: 

p

i

 =  

dt

t

i

Z

 )

2

exp

2

1

2

π

 (6.10) 

W tym modelu wartości prawdopodobieństwa p

i

 są wartościami dystrybuanty rozkładu nor-

malnego N(0,1) w punktach Z

i

. Wartości Z

i

 nazywa się probitami lub normitami. Są to warto-

ści kombinacji liniowej (zbiorczego indeksu) zmiennych objaśniających dla określonego po-

ziomu prawdopodobieństwa, przy założeniu, że kombinacja ta ma rozkład N(0,1). 

 

Efekty krańcowe w modelu probitowym 

Pochodna prawdopodobieństwa p

i

 względem zmiennej objaśniającej X

ji

 w modelu logitowym 

(6.7) jest następująca: 

ji

i

X

p

α

j

 φ(Z

i

) (6.11) 

gdzie φ(

⋅) jest funkcją gęstości standardowego rozkładu normalnego. Wartości (6.11), które 

zależą od poziomów zmiennych X  podaje się zwykle dla średnich wartości tych zmiennych. 

 

 Rozdział 6 

15

 

background image

PRZYKŁAD 6.5 (ciąg dalszy przykładu 6.2) 

Wydruk oszacowanego w programie gretl modelu probitowego zależności między Y (miesz-

kanie z rodzicami) oraz X1 (rok studiów), X2 (dochód rodziny) i X3 (płeć) jest następujący: 

 

Model MIESZKANIE Z RODZICAMI: Estymacja Probit z wykorzystaniem 500 obserwacji 1-500 
Zmienna zależna: Y 
 
      Zmienna     Współczynnik     Błąd stand.  Statystyka t  Efekt krańcowy 
                                                                                              dla średnich 
  const                -1,33736          0,230186     -5,810 
  X1                    0,0873128       0,0416130     2,098      0,0347606   
  X2                    0,00984407     0,00156297   6,298      0,00391908  
  X3                   -0,270730         0,115867     -2,337     -0,107782    
 
  Srednia dla zmiennej Y = 0,476 
  Liczba przypadków 'poprawnej predykcji' = 368 (73,6%) 
  f(beta'x) do średnich niezależnych zmiennych = 0,398 
  McFaddena pseudo-R-kwadrat = 0,0760671 
  Logarytm wiarygodności = -319,678 
  Test ilorazu wiarygodności: Chi-kwadrat(3) = 52,638 (wartość p 0,000000) 
 
                       Prognoza 
                           0     1 
  Empiryczne 0  208    54 
                     1   78     160 
 

Wynik estymacji potwierdza podobieństwo modelu probitowego i logitowego. Efekty krań-

cowe obliczone dla średnich wartości zmiennych objaśniających X1, X2 i X3 są prawie iden-

tyczne: w modelu logitowym to 0,0351, 0,0044 oraz –0,1094 natomiast w modelu probito-

wym 0,0348, 0,0039 oraz –0,1078. Na przykład w obu przypadkach stwierdzamy, że prawdo-

podobieństwo samodzielnego mieszkania studentki jest o 0,11 niższe niż studenta (w okolicy 

wartości średnich w próbie). 

 

 

Porównanie z parametrami modelu logitowego 

Pomiędzy parametrami α w modelu logitowym i probitowym zachodzi relacja: 

α

logit

 

≈ γ α

probit

gdzie γ = 1,6 

÷ 1,7 co pozwala łatwo przeliczać wyniki estymacji parametrów jednego modelu 

na drugi. Sprawdźmy to na przykładach 6.2 i 6.4: 

 Rozdział 6 

16

 

background image

 

Zmienna\Ocena parametru

Model logitowy (1) 

Model probitowy (2) 

(1)/(2) 

Const -2,35743 

-1,33736 1,763 

X1 0,14069 

0,08731 

1,611 

X2 0,01761 

0,00984 

1,788 

X3 -0,43877 

-0,27073 

1,621 

 

 

PRZYKŁAD 6.6 (ciąg dalszy przykładu 6.3) 

Dla danych posiadanie_domu na wynik estymacji modelu probitowego jest następujący: 

 
Model POSIADANIE DOMU: Estymacja Probit z wykorzystaniem 50 obserwacji 1-50 
Zmienna zależna: Y 
 
      Zmienna     Współczynnik     Błąd stand.  Statystyka t  Efekt krańcowy 
                                                                                              dla średnich 
  const                -2,78725          0,647303     -4,306 
  X                     0,0230812        0,00622350    3,709      0,00732372  
 
  Srednia dla zmiennej Y = 0,300 
  Liczba przypadków ‘poprawnej predykcji’ = 41 (82,0%) 
  f(beta’x) do średnich niezależnych zmiennych = 0,317 
  McFaddena pseudo-R-kwadrat = 0,412028 
  Logarytm wiarygodności = -17,9585 
 

Tutaj także związek między ocenami parametrów modelu logitowego i probitowego jest po-

dobny: –4,79156/–2,78725=1,719 oraz 0,03966/0,02308=1,718. 

▄ 

 

6.4. Model tobitowy 

Zdarza się, że zmienna objaśniana jest zmienną ciągłą lecz jej zakres jest ograniczony. Wtedy 

nazywamy ją  zmienną ograniczoną. Zmienne ograniczone to rodzaj zmiennych „jakościo-

wo-ilościowych”. Ich wartości obserwujemy – wtedy są zwykłymi kategoriami ilościowymi – 

lub ich nie obserwujemy – wtedy nadajemy im jakąś umowną wartość, np. zero. Oto przykła-

dy: 

–  wydatki na zakup samochodu w rodzinie w danym roku: wartość tej zmiennej dla wielu 

gospodarstw domowych równa się zeru; 

–  przychody z pracy: dane te są dostępne od osób pracujących; dla niektórych osób równają 

się zeru – osoby te „wybierają” stan bezrobocia; 

–  kwota przeznaczona na cele dobroczynne w danym roku; 

–  liczba godzin pracy przepracowanych w ostatnim miesiącu. 

 Rozdział 6 

17

 

background image

Zmienna ograniczona jako zmienna endogeniczna w jednorównaniowym modelu ekonome-

trycznym jest wyjaśniana przy użyciu innych zmiennych – egzogenicznych. Sposób zbierania 

danych o zmiennych lub dostępność tych danych determinują rodzaj próby, z którą mamy do 

czynienia. Może tu wystąpić jedna z dwóch sytuacji: 

–  próba ucięta – dane dla zmiennych egzogenicznych dostępne tylko wówczas, gdy obser-

wuje się zmienną endogeniczną; 

przykład: losujemy w ZUS próbę 1000 osób płacących składki emerytalne w wysokości 

co najmniej 400 zł miesięcznie i badamy zależność wysokości składki od wieku i od licz-

by lat wykształcenia; wtedy nie jesteśmy w stanie nic powiedzieć o osobach płacących 

miesięcznie składki emerytalne niższe niż 400 zł; wszystkie informacje są ucięte poprzez 

warunek „minimum 400 zł składki”; 

–  próba cenzurowana – dane dla zmiennych egzogenicznych dostępne także wtedy, gdy 

nie obserwuje się zmiennej endogenicznej (to jest: dla całej zbiorowości). 

przykład: pytamy 1000 osób w sondzie ulicznej o ich wydatki na wczasy w zeszłym roku i 

badamy zależność tych wydatków od płci i wieku respondenta; wtedy dla niektórych osób 

otrzymujemy odpowiedź: wydatki = 0; posiadamy jednak informację o ich wieku i płci. 

 

PRZYKŁAD 6.7 

Niech Y oraz X oznaczają, odpowiednio, zmienną endo– i egzogeniczną w modelu, który do-

tyczy 500 jednostek obserwacji. Zmienna Y przyjmuje wartości niezerowe dla 300 obserwacji. 

Próba cenzurowana to: 

 

x

1

,..., x

300

x

300+1

,..., x

500

 

y

1

,..., y

300

, 0,...,0  

Zmienną Y nazywa się zmienną cenzurowaną

Z kolei próba ucięta to: 

 

x

1

,..., x

300

 

y

1

,..., y

300

Zmienną Y nazywa się tu zmienną uciętą.  

▄ 

 

W tym podręczniku zajmiemy się jedynie próbami cenzurowanymi. W takich przypad-

kach właściwym modelem regresji zmiennej endogenicznej względem zmiennych egzoge-

nicznych jest model regresji cenzurowanej, zwany modelem tobitowym. Dla najprostszej 

sytuacji z jedną zmienną objaśniającą model tobitowy ma postać: 

 Rozdział 6 

18

 

background image

i

α

0

 + 

α

1

 

X

i

 + 

ε

i

 

i=1,2,...,n (6.12) 

Y

i

 = 

 dla 

> 0 

i

Y

i

Y

Y

i

 = 0

 

dla 

≤ 0 

i

Y

Zmienna 

 to jest właśnie zmienna objaśniana, którą modelujemy. Jest to zmienna ukryta. 

Jej wartości są obserwowane tylko wtedy, gdy są większe od zera. Wartości mniejsze od zera 

oraz wartości równe zero traktowane są jednakowo i są reprezentowane przez 

Y

*

i

Y

i

=0. Wartości 

X

są obserwowane dla wszystkich 

i = 1,...,n. Zmienna 

 nie jest obserwowana, jeśli nie jest 

większa od 0.  

i

Y

 

PRZYKŁAD 6.8 

Zmienna 

inwestycja oznacza kwotę, którą klienci banku przeznaczają na inwestycję w nowym 

funduszu. Spośród 40 klientów, do których skierowano ofertę, 20 postanowiło dokonać inwe-

stycji. Znana jest wartość zmiennej 

inwestycja oraz zmiennej wiek dla tych 40 klientów (dane 

inwestycja dostępne na stronie internetowej podręcznika). Próba jest cenzurowana (20 osób 

nie odpowiedziało; znamy charakterystyki tych osób), zmienna 

inwestycja jest cenzurowana, 

bowiem 50% jej wartości równa się zeru – z racji wyboru dokonanego przez klientów banku. 

Skłonność do zainwestowania w nowym funduszu to zmienna 

Y*. Obserwujemy ją wów-

czas, gdy jest dodatnia: wtedy równa się dodatnim wartościom zmiennej 

Y=inwestycja. W 

pozostałych przypadkach (skłonność 

Y* ujemna lub równa zeru) wartość zmiennej 

Y=inwestycja jest po prostu równa 0. 

 

 

 

 

 

 

6.4.JPG 

 

 

 

 

 

Rysunek 6.4. Oszacowany MNK model liniowy zależności pomiędzy inwestycją (Y) i wiekiem (X

 Rozdział 6 

19

 

background image

 

Dane wyglądają tak jak na rysunku 6.4. Jeśli tę zależność 

Y od X oszacujemy przy pomo-

cy klasycznej MNK, nie martwiąc się o to, że połowa wartości 

Y to zera, otrzymamy: 

MNK

i

Yˆ

= –78,924 + 4,309 

X

i

  

co oznaczałoby, że z każdym rokiem wieku inwestora jego inwestycja wzrasta o 4,3 jednostki 

pieniężne (jp). Szacowanie tego modelu klasyczną MNK nie jest jednak prawidłowe. Dlacze-

go? 

▄ 

 

Wartości oczekiwane zmiennej Y i estymacja modelu tobitowego 

Jeśli przyjąć zwyczajowe założenie o tym, że składniki losowe w (6.12) mają rozkład 

normalny o średniej 0 i stałej wariancji 

σ

2

, można pokazać, że wartość oczekiwana 

E(Y

i

X

i

jest nieliniową funkcją zmiennej 

X

i

. Oznacza to, że estymatory MNK nie są estymatorami 

zgodnymi, która to własność jest kluczowa dla każdego estymatora. W związku z tym model 

tobitowy należy szacować metodą największej wiarygodności (MNW). 

Dla dociekliwych podajemy postać wartości oczekiwanej 

E(Y

i

X

i

) dla modelu (6.12): 

– dla 

wartości 

Y

i

>0: 

E(Y

i

 | 

Y

i

>0, 

X

i

) = 

α

0

 + 

α

1

 

X

i

 + 

σ λ(c

i

), (6.13) 

gdzie 

c

i

 = 

σ

α

α

i

X

1

0

+

 natomiast 

λ(c

i

) = 

)

(

)

(

i

i

c

F

c

f

 to tzw. odwrotny iloraz Millsa: stosunek 

wartości funkcji prawdopodobieństwa 

f oraz dystrybuanty F standardowego rozkładu 

normalnego obliczonych w punkcie c

i

–  dla wszystkich wartości 

Y

i

E(Y

i

X

i

) = 

F(c

i

) (

α

0

 + 

α

1

 

X

i

) + 

σ f(c

i

).  

(6.14) 

 

Wzory (6.13) i (6.14) nie są specjalnie groźne, jeśli przypomnimy sobie, że zarówno 

funkcja gęstości 

f jak i dystrybuanta F przyjmują wartości jedynie z przedziału (0, 1) oraz że 

dla konkretnej zmiennej losowej jest zawsze 

f 

≤ F. Dla modelu z większą liczbą zmiennych 

objaśniających we wzorach (6.13) i (6.14) w miejsce α

0

 + 

α

1

 

X

i

 należy wpisać odpowiednie 

wyrażenie z kolejnymi zmiennymi 

X

 

PRZYKŁAD 6.8 (ciąg dalszy) 

Oszacowanie modelu tobitowego (6.12) za pomocą MNW jest następujące: 

MNW

i

Yˆ

= –411,853 + 9,093 

X

i

 Rozdział 6 

20

 

background image

Pokazuje to następujący wydruk z programu gretl: 

 

Model INWESTYCJA: Estymacja Tobit z wykorzystaniem 40 obserwacji 1-40 
Zmienna zależna: inwestycja 
 
 Zmienna      Współczynnik     Błąd stand.   Statystyka t  Wartość p 
 
  const              -411,853          181,602        -2,268   0,02334 ** 
  wiek                  9,09304          3,95786       2,297   0,02159 ** 
 
  Srednia  arytmetyczna  zmiennej zależnej = 107,55 
  Odchylenie standardowe zmiennej zależnej = 183,584 
  Cenzurowane obserwacje: 20 (50,0%) 
  Sigma (Se) = 288,836 
  Logarytm wiarygodności = -154,248 
 

Otrzymaliśmy całkiem inny rezultat niż poprzednio. Nachylenie prostej regresji jest teraz 

większe niż dla modelu szacowanego za pomocą MNK. Widać to na rysunku 6.5. Różnicę 

można wyjaśnić w ten sposób, że obserwacje 

Y=0 reprezentują także ujemne wartości „skłon-

ności do inwestowania”, których nie obserwujemy. Jeśli zatem wyobrazimy sobie istnienie 

tych ujemnych 

Y*, to wynik estymacji jest akceptowalny.  

 

 

 

 

 

6.5. JPG 

 

 

 

 

 

Rysunek 6.5. Oszacowany MNW model tobitowy zależności pomiędzy inwestycją (Y) i wiekiem (X

 

Pytanie, jakie sobie stawiamy, jest takie: czy można interpretować oszacowanie 9,093 jako 

przyrost wartości zmiennej 

inwestycja w związku z przyrostem zmiennej wiek o 1? Odpo-

wiedź brzmi: (1) tak – jeśli myślimy o zmiennej 

Y* czyli o skłonności do inwestowania, (2) 

nie – jeśli mówimy o zmiennej 

Y czyli o kwocie faktycznie zainwestowanej. Objaśnienie po-

niżej. 

▄ 

 

 Rozdział 6 

21

 

background image

Efekty krańcowe w modelu tobitowym 

Pochodną zmiennej 

Y względem zmiennej X w modelu tobitowym (6.12) możemy wyzna-

czyć ze wzorów (6.13) i (6.14). Mamy więc: 

– dla 

wartości Y

i

>0: 

i

i

i

i

X

X

Y

Y

E

>

)

,

0

|

(

 = 

α

{1 – 

λ(c

i

) [

c

i

 + 

λ(c

i

)]}, (6.15) 

gdzie 

c

i

 = 

σ

α

α

i

X

1

0

+

 oraz 

λ(c

i

) = 

)

(

)

(

i

i

c

F

c

f

 

–  dla wszystkich wartości 

Y

i

i

i

i

X

X

Y

E

)

|

(

 = 

α

1

 

F(c

i

).  

(6.16) 

Co z tego wynika?  

Po pierwsze, że sam parametr 

α

1

 nie reprezentuje efektu jednostkowego przyrostu zmien-

nej 

X na wartości zmiennej Y. Ten efekt jest w istocie mniejszy. Na przykład według wzoru 

(6.16) wielkość 

α

1

 mnożymy przez 

F(c

i

), czyli liczbą mniejszą od 1 (

F(c

i

) jest wartością dys-

trybuanty standardowego rozkładu normalnego obliczoną w punkcie 

c

i

). Można także poka-

zać, że w (6.15) mnożnik parametru 

α

1

 to wielkość z przedziału (0,1). 

 

Zależność między ocenami MNK i MNW 

Po drugie, z (6.16) wynika związek między ocenami MNK i MNK dla modelu tobitowe-

go. Oceny MNK są bezpośrednimi oszacowaniami wyrażeń 

i

i

i

X

X

Y

E

)

|

(

. Zatem, aby otrzy-

mać oceny MNK na podstawie ocen MNW należy te ostatnie pomnożyć przez czynnik 

F(c

i

), 

na przykład w punkcie odpowiadającym średniej wartości zmiennej 

X. Wartość czynnika F 

zwiększa się w miarę zwiększania udziału niezerowych wartości w próbie. 

Według różnych badań, zależność między ocenami MNK i MNW dla modelu tobitowego 

jest następująca. Oceny MNW należy pomnożyć przez udział niezerowych obserwacji w pró-

bie. W wyniku otrzymujemy w przybliżeniu oceny MNK. To stwierdzenie odnosi się do ocen 

parametrów przy zmiennych X (poza wyrazem wolnym). Jeśli więc z jakiegoś powodu nie 

dysponujemy programem do estymacji modelu tobitowego, to należy zastosować MNK i do-

konać odpowiedniej korekty ocen parametrów. 

Pamiętajmy, że obecne rozważania dotyczące modelu tobitowego z jedną zmienną obja-

śniającą przenoszą się analogicznie na model z większą liczbą zmiennych X

 

 Rozdział 6 

22

 

background image

PRZYKŁAD 6.8 (ciąg dalszy) 

Ocena parametru α

1

 otrzymana za pomocą MNK równa się 4,309, ocena otrzymana za pomo-

cą MNW równa się 9,093. Pierwsza z ocen nie powinna być interpretowana (chociaż jest to w 

przybliżeniu efekt (6.16)), druga mówi o tym, jak wzrasta Y* (skłonność do inwestowania) 

przy wzroście 

X (wiek) o jednostkę. 

Zależność między tymi ocenami jest w przybliżeniu następująca: 4,309 równa się 0,5 

(udział niezerowych obserwacji na 

Y) razy 9,093. 

Efekty krańcowe: 

1. Efekt krańcowy 

i

i

i

X

X

Y

E

)

|

(

*

 jest równy 9,093 (jest stały dla każdego 

X). 

2.  Ze wzoru (6.16) wynika, iż efekt krańcowy 

i

i

i

X

X

Y

E

)

|

(

 dla średniej wartości 

X czyli w 

punkcie 

σ

ˆ

093

,

9

853

,

411

X

+

 równa się 9,093 razy wartość dystrybuanty standardowego 

rozkładu normalnego obliczona w tym punkcie. U nas 

= 43,275 oraz 

84

,

288

ˆ

=

σ

 (por. 

wydruk z programu gretl powyżej). Na tej podstawie 

σ

ˆ

093

,

9

853

,

411

X

+

= –0,0635 oraz 

F(–0,0635) = 0,4747.  Zatem 

i

i

i

X

X

Y

E

)

|

(

 dla średniej wartości 

X równa się 

9,093

×0,4747=4,3162. Jeśli bierzemy pod uwagę zarówno osoby, które nie dokonały in-

westycji oraz te, które dokonały inwestycji, jednostkowy przyrost X (w okolicy średnich 

wartości wszystkich zmiennych objaśniających; tutaj – tylko jednej) wiąże się z przyro-

stem 

Y o 4,32.  

3.  Z kolei ze wzoru (6.15) wynika, że 

i

i

i

i

X

X

Y

Y

E

>

)

,

0

|

(

 dla średniej wartości 

X równa się 

9,093 razy współczynnik równy 1 – 

λ(–0,0635) [–0,0635 + λ(–0,0635)] = 0,3499. Zatem, 

jeśli bierzemy pod uwagę tylko osoby, które dokonały inwestycji, to jednostkowy przyrost 

X (w okolicy średniej) wiąże się z przyrostem Y o 3,18. 

▄ 

 

PRZYKŁAD 6.9 

Dla danych z badania „Diagnoza społeczna 2005. Warunki i jakość  życia Polaków”. 

(

www.diagnoza.com

) oszacowano model tobitowy zależności pomiędzy dochodem netto go-

 Rozdział 6 

23

 

background image

spodarstwa domowego respondenta (Y – w złotych) i czynnikami określającymi ten dochód

2

Wzięto pod uwagę 882 obserwacje. Dla 94 z nich wartość 

Y=0. Oszacowany model tobitowy 

ma następującą postać: 

MNW

i

Yˆ

= – 106,050 + 224,850 

X1 + 338,320 X2 + 5,087 X3 – 232,226 X4 + 18,348 X

gdzie 

X1 to miejsce zamieszkania (0= miejscowość poniżej 500 tys. mieszk., =1 powyżej), X

– płeć respondenta (0=kobieta, 1=mężczyzna), 

X3 – skala pozycji ekonomicznej zawodu ojca 

(od 16 do 88), 

X4 – poziom wykształcenia ojca (1=wyższe, 0=inne), X5 – skala pozycji eko-

nomicznej zawodu respondenta (od 16 do 88). 

Z kolei model oszacowany za pomocą MNK ma postać taką: 

MNK

i

Yˆ

= 23,211 + 207,510 

X1 + 311,658 X2 + 4,443 X3 – 199,592 X4 + 16,671 X

Zależność między ocenami MNW i MNK powinna wynikać z udziału wartości niezero-

wych w próbie, który jest równy 788/882 czyli 0,8934. Zatem iloraz: ocena MNK /ocena 

MNW powinien mieć mniej więcej wartość 0,89 (poza oceną wyrazu wolnego). Tak właśnie 

jest dla tego modelu, co pokazuje następujące zestawienie: 

 

Parametr przy 

Ocena MNK (1) 

Ocena MNW (2) 

(1)/(2) 

X1 207,510 224,850 

0,923 

X2 311,658 338,320 

0,921 

X3 4,443 5,087  0,873 
X4 -199,592 -232,226 

0,859 

X5 16,671 18,348  0,907 

 

Jeśli idzie o interpretację, to wiadomo, że oceny MNW wskazują wrażliwość zmiennej 

Y* 

na jednostkowy przyrost wartości danej zmiennej X. Na przykład, ocena przy X2 mówi, że 

dochód dla mężczyzn jest większy (

ceteris paribus) niż dla kobiet o ok. 338 zł (to stwierdze-

nie bierze pod uwagę ewentualne „ujemne dochody”, które występują w postaci dochodów 

równych zero). Efekty typu  (6.15) i (6.16) nie są tutaj podane. Zauważmy także, iż znak oce-

ny parametru przy zmiennej X4 nie jest zgodny z intuicją.  

▄ 

 

Pojęcia kluczowe 

zmienna jakościowa 

liniowy model prawdopodobieństwa 

iloraz szans 

model logitowy, efekty krańcowe 

                                                 

2

 Model został wybrany i oszacowany przez studenta SGH Jakuba Ślusarczyka. 

 Rozdział 6 

24

 

background image

model probitowy, efekty krańcowe 

zmienna ucięta 

zmienna cenzurowana 

model tobitowy, efekty krańcowe 

 

Literatura 

D.R. Cox, N. Wermuth, A comment on the coefficient of determination for binary responses, 

The American Statistician, Vol. 46, 1992. 

J.S. Cramer, Predictive performance of the binary logit model in unbalanced samples, The 

Statistician, Vol. 48, 1999. 

J.S. Cramer, Logit models from economics and other fields, Cambridge University Press, 

2003. 

P.M. Dawson, 

Econometric and quantitative methods, University of Bath, 2006 (materiały do 

zajęć). 

G.S. Maddala, 

Ekonometria, Wydawnictwo Naukowe PWN, Warszawa, 2006. 

M.P. Murray, 

Econometrics. A modern introduction, Addison-Wesley Pearson, 2006.  

J.H. Stock, M.H. Watson, Introduction to econometrics, wyd. 2, Pearson, 2006. 

J. Wooldridge, 

Introductory econometrics: a modern approach, wyd. 2, South-Western, 2003. 

 

Zadania 

6.1

. Przyjmując,  że 

E(ε

i

) = 0  oraz  że 

ε

i

 i 

ε

j

  (

i

j) są nieskorelowane, pokaż,  że wariancja 

zmiennej losowej ε

i

 w modelu (6.1) równa się 

p

i

 (1–

p

i

). Jakie są konsekwencje heteroskeda-

styczności w LMP? 

 

6.2

. Model logitowy wywodzi się z rozkładu logistycznego, którego funkcja gęstości ma po-

stać 

  

[

]

2

)

exp(

1

)

exp(

i

i

Z

Z

+

 

natomiast dystrybuanta wynosi 

 

)

exp(

1

)

exp(

i

i

Z

Z

+

.  

Na wydruku wyników estymacji modelu logitowego w programie gretl pojawia się „f(beta'x) 

dla średnich niezależnych zmiennych”. Chodzi o wartość funkcji gęstości obliczoną w punk-

cie średnich arytmetycznych zmiennych 

X w modelu. Jak należy interpretować tę wartość w 

 Rozdział 6 

25

 

background image

przykładzie 6.2? Odpowiedz na to pytanie wiedząc, że rozkład logistyczny ma funkcję gęsto-

ści i dystrybuantę podobną do odpowiedników z rozkładu normalnego. Wiadomo, że wartość 

oczekiwana zmiennej losowej o rozkładzie logistycznym równa się 0, a wariancja wynosi 

π

2

/3 

≈ 3,29. 

 

6.3

. Dla przykładu 6.2  wykreśl w Excelu funkcję 

)

ˆ

exp(

1

)

ˆ

exp(

ˆ

i

i

i

Z

Z

p

+

=

 (

i=1,...,500). 

 

6.4

. (Wooldridge 2003) W modelu dwumianowym 

jest udziałem jedynek w próbie obser-

wacji 

Y

i

 (jest to średnia wartość 

Y

i

). Niech  oznacza procent trafnych prognoz 

ex post warto-

ści 

Y=0 oraz   oznacza procent trafnych prognoz ex post wartości Y=1. Udowodnij, że jeśli 

oznacza łączną trafność prognoz ex post w procentach, to   jest następującą średnią ważo-

ną trafności   i  : 

0

ˆq

1

ˆq

pˆ

pˆ

0

ˆq

1

ˆq

1

0

ˆ

ˆ

)

1

(

ˆ

q

Y

q

Y

p

+

=

 

Następnie oblicz łączną trafność prognoz przyjmując,  że w próbie o liczebności 300 mamy 

Y

= 0,70 (czyli jest 210 obserwacji z Y=1 oraz 90 obserwacji z Y=0) a procent trafnych pro-

gnoz wartości Y=0 wynosi 80 natomiast procent trafnych prognoz wartości Y=1 wynosi 40. 

 

6.5

. (na podstawie Dawson 2006) W modelu logitowym oszacowanym dla zmiennej vote 

oznaczającej udział w wyborach (1=tak, 0=nie) mamy: 

p

p

Z

ˆ

1

ˆ

ln

ˆ

=

= –2,020 + 0,044 age + 0,691 marry + 0,692 educ19 + 0,362 homeown +  

+ 0,132 female    

(n=406 obserwacji, w tym 292 dla vote=1) 

gdzie  age jest wiekiem respondenta, marry  oznacza stan cywilny: 1=zamężna/żonaty, 0 w 

pozostałych przypadkach, educ19=1 jeśli w wieku 19 lat respondent nadal się uczył (=0 w 

pozostałych przypadkach), homeown=1 jeśli miejsce mieszkania respondenta jest jego wła-

snością (=0 w pozostałych przypadkach), female=1 dla kobiet, =0 dla mężczyzn. 

a) oblicz prawdopodobieństwo udziału w wyborach osoby żonatego mężczyzny z wyższym 

wykształceniem w wieku 45 lat, mającego własne mieszkanie; jak zmieni się to prawdo-

podobieństwo za rok (age=46)?, 

b)  oblicz ilorazy szans dla każdej ze zmiennych; o ile z każdym rokiem wieku respondenta 

zwiększa się szansa wzięcia udziału w wyborach? 

 Rozdział 6 

26

 

background image

c)  o ile procent zwiększa się szansa udziału w głosowaniu dla kobiety w porównaniu z męż-

czyzną? o ile procent zwiększa się szansa udziału w głosowaniu dla osoby zamęż-

nej/żonatego w porównaniu z innymi osobami? 

d)  jaka jest prognoza zmiennej vote dla  = 0,65? 

pˆ

e) zakładając, że głosować można od wieku 19 lat oblicz najmniejsze prawdopodobieństwo 

wzięcia udziału w głosowaniu; oblicz też prawdopodobieństwo największe przyjmując, że 

najstarszy respondent mógł mieć 80 lat. 

 

6.6

. Pomiędzy parametrami α w LMP i modelu logitowym zachodzi relacja α

LMP

 

≈ 0,25 α

logit

przy czym dla wyrazu wolnego jest α

LMP

 

≈ 0,25 α

logit

 + 0,5. Sprawdź te związki dla przykładu 

modeli mieszkanie_z_rodzicami  oraz posiadanie domu (przykłady 6.1–6.3). 

 

6.7

. (według: Stock i Watson 2006) Które z następujących problemów można analizować przy 

użyciu modelu logitowego lub modelu probitowego: 

a)  student SGH decyduje się na studiowanie za granicą przez jeden semestr, 

b) płeć pracownika ma wpływ na poziom zarobków, 

c) starający się o kredyt nie spłacą go, 

d)  kandydat rozpocznie studia po przyjęciu go na uczelnię. 

 

6.8

. Według propozycji z podręcznika Maddali (2006) strony 381-382 dla danych z tablicy 

8.4 dostępnych w formacie gretl na stronie internetowej naszego podręcznika:  

(a) Oszacuj modele: LMP, logitowy i probitowy dla zmiennej zerojedynkowej oznaczającej 

dopuszczenie (lub nie) kary śmierci w danym stanie USA. 

(b) Oblicz i zinterpretuj wrażliwość prawdopodobieństwa dopuszczenia kary śmierci wzglę-

dem zmiennej LF tj. stopy zatrudnienia w stanie w roku 1950:  

–  na podstawie LMP,  

–  na podstawie modelu logitowego,  

–  na podstawie modelu probitowego,  

dla wartości średnich pozostałych zmiennych w modelu. 

 

6.9

. Dla zbioru 2820 gospodarstw domowych w Holandii (dane z roku 1980) J.S. Cramer 

(2003) oszacował kilka modeli logitowych opisujących zmienną  Y –posiadanie prywatnego 

samochodu (1=tak, 0=nie) w zależności od następujących zmiennych: linc – logarytm docho-

 Rozdział 6 

27

 

background image

du (przeliczony na osobę dorosłą w ciągu roku, w guldenach), lsize – logarytm wielkości go-

spodarstwa (w osobach dorosłych przeliczeniowych: pierwsza osoba dorosła =1, kolejne =0,7, 

dzieci =0,5), buscar –samochód służbowy do dyspozycji (1=tak, 0=nie), age – wiek głowy 

gospodarstwa (mierzony w klasach 5-letnich), urba – rodzaj miejscowości (od 1=wieś do 

6=duże miasto). Następująca tabela pokazuje wyniki estymacji pięciu modeli logitowych 

(oceny parametrów przy zmiennych plus wartość logarytmu funkcji wiarygodności ln L): 

 

linc lsize 

buscar age urba ln L 

0,35 

    

–1831,29 

1,77 2,22   

 

 –1614,92 

2,46 3,09 –2,95   

 –1393,74 

2,36 2,83 –3,00 –0,12   –1360,23 
2,38 2,76 –3,04 –0,13 –0,12 

–1351,39 

 

a)  czy znaki oszacowań parametrów są zgodne z intuicją? 

b)  zinterpretuj parametry modelu ze zmiennymi linc,  lsize i buscar; wykorzystaj ilorazy 

szans; 

c)  o ile procent zmniejsza się iloraz szans posiadania samochodu przez rodzinę wraz ze 

zwiększaniem się miejscowości zamieszkania o jednostkę w skali zmiennej urba

d)  o ile procent zmniejsza się iloraz szans posiadania prywatnego samochodu przez rodzinę, 

w której wykorzystuje się samochód służbowy? 

e)  dodanie której zmiennej do modelu najwięcej podwyższyło wartość ln L? co to oznacza? 

 

6.10

. (według: Murray 2006) Kto pali? Dla próby 1169 mężczyzn w USA oszacowano model 

wyjaśniający zależność palenia (smoker =1 dla palaczy oraz =0 dla niepalących) od następu-

jących zmiennych: educ – liczba lat nauki, age – wiek w latach, pcigs79 – cena papierosów w 

danym stanie w roku 1979 (w centach), ageeduc – zmienna interakcyjna równa iloczynowi 

wieku i liczby lat nauki. Otrzymany w programie Stata stylizowany wynik estymacji modelu 

logitowego jest następujący: 

 

Logistic regression   

No. of obs =  1169 

LR chi2(5) =  52.97 

 

Log likelihood 

-767.99226 

pseudo R2 =  0.0333 

prob > chi2 = 0.0000 

 

smoker 

Coef. 

Std. Err. 

Odds Ratio 

Std. Err. 

P>|z| 

educ 

-.2217901 .0593568 .8010835 .0475498 

-3.74 

0.000 

age 

-.0533935 .0140595 .9480069 .0133285 

-3.80 

0.000 

pcigs79 

-.022304 .0125033 .9779429 .0122275 

-1.78 

0.074 

ageeduc 

.002894 .0011942 1.002898 .0011977 

2.42 

0.015 

constant 

4.352163 

1.060662   

4.10 

0.000 

 

a) oceń wyniki estymacji pod względem statystycznym, 

 Rozdział 6 

28

 

background image

b)  czy znaki parametrów przy zmiennych educage i pcigs79 są poprawne z punktu widze-

nia teorii i twoich oczekiwań; odpowiedź uzasadnij, 

c) jak należałoby zinterpretować znak przy zmiennej ageeduc

d)  zinterpretuj podane ilorazy szans (odds ratio) dla każdej ze zmiennych, 

e) wiadomo, że  średnie wartości zmiennych w próbie są następujące: 12,221 dla educ

41,807 dla age, 60,985 dla pcigs79 oraz 498,955 dla ageeduc; oblicz jednostkowy efekt 

krańcowy dla zmiennej pcigs79; w jaki sposób można obliczyć takie efekty dla zmien-

nych educ i age?  

 

6.11

. Spółki prawa handlowego mogą wypłacać udziałowcom (akcjonariuszom) dywidendę z 

osiągniętego rocznego zysku netto. Czasem to czynią, a czasem nie (np. nie wypłacają dywi-

dendy jeśli nie ma zysku). Zaproponuj badanie ekonometryczne 100 spółek giełdowych, w 

którym kwota wypłaconej dywidendy jest zmienną objaśnianą natomiast zmiennymi objaśnia-

jącymi są charakterystyki spółek (np. finansowe, prawne). Jaki model powinien być użyty do 

tego badania? 

 

6.12

. (według: Wooldridge 2003) Ile pracują kobiety? Dla próby 753 kobiet oszacowano za-

leżność między liczbą godzin (zmienna hours) przepracowanych w roku 1975 (dane z USA) i 

zmiennymi charakteryzującymi kobietę oraz jej rodzinę. W tej próbie 428 kobiet pracowało w 

roku 1975 (hours>0) natomiast 325 nie (hours=0). Wyniki estymacji w programie gretl są 

następujące: 

 
 

Model PRACA KOBIET: Estymacja Tobit z wykorzystaniem 753 obserwacji 1-753 
Zmienna zależna: hours 
 
 Zmienna      Współczynnik     Błąd stand.   Statystyka t  Wartość p 
 
  const               965,305          449,287         2,149   0,03167 ** 
  nwifeinc          -8,81424          4,41614      -1,996   0,04594 ** 
  educ                 80,6456          21,6835        3,719   0,00020 *** 
  exper               131,564           16,2839        8,079  <0,00001 *** 
  expersq            -1,86416          0,506061     -3,684   0,00023 *** 
  age                 -54,4050           7,80965      -6,966  <0,00001 *** 
  kidslt6            -894,022          112,258        -7,964  <0,00001 *** 
  kidsge6             -16,2180          38,7426       -0,419   0,67550 
 
  Srednia  arytmetyczna  zmiennej zależnej = 740,576 
  Odchylenie standardowe zmiennej zależnej = 871,314 
  Cenzurowane obserwacje: 325 (43,2%) 
  Sigma (Se) = 1122,02 
  Logarytm wiarygodności = -3819,09 

 

 Rozdział 6 

29

 

background image

Znaczenie poszczególnych zmiennych jest następujące:  nwifeinc – dochód rodziny oprócz 

zarobków kobiety (w tys. dolarów), educ – liczba lat nauki, exper – doświadczenie na rynku 

pracy w latach, expersq – kwadrat zmiennej exper, age – wiek kobiety w latach, kidslt6 – 

liczba dzieci do 6 lat, kidsge6 – liczba dzieci w wieku 6-18 lat. 

a)  dokonaj interpretacji parametrów przy zmiennych nwifeinceducage, kidslt6kidsge6

b)  oblicz i zinterpretuj pochodną zmiennej Y* (reprezentowanej dla wartości nieujemnych 

przez zmienną  hours) względem zmiennej exper dla średniego poziomu exper w próbie 

równego 10,631 lat; 

c) wiadomo, że czynnik 1 – λ(c

i

) [c

i

 + λ(c

i

)] ze wzoru (6.15) dla wartości średnich w próbie 

równa się 0,451; oblicz efekt jednostkowego wzrostu zmiennej educ na wartości zmiennej 

hours

 pod warunkiem, że bierzemy pod uwagę jedynie obserwacje, dla których hours>0; 

d) czynnik F(c

i

) ze wzoru (6.16) dla wartości średnich w próbie równa się 0,645; oblicz efekt 

jednostkowego wzrostu zmiennej educ na wartości zmiennej hours biorąc pod uwagę 

wszystkie obserwacje na zmiennej hours

e) wyjaśnij różnicę między wynikami w c) i d).  

 Rozdział 6 

30

 


Document Outline