1
Zmienne jakościowe
nazwa
opis
typ
pi02
dochód
ilościowa (dochody roczne w Euro)
pd02
płeć
nominalna (1-M, 2-K)
age
wiek
ilościowa (lata)
pe07
wykształcenie
nominalna (1-podstawowe, 2-średnie, 3-wyższe)
pd05
stan cywilny
nominalna (1- w stanie małżeńskim, 2-w separacji, 3-wolni, bez doświadczenia
małżeńskiego, 4-rozwiedzeni, 5-wdowcy/wdowy)
Próbka zmiennych:
pd02
pd05
pl07
pl08
pe07
ph03
pi02
age
exper
2
3
4
1
2
3
27892
49
31
1
3
2
1
3
2
103339
42
12
1
1
3
1
3
2
47445
52
34
2
1
4
1
3
2
36298
44
25
2
1
4
1
2
4
32272
52
35
1
4
4
1
3
3
73463
54
34
1
4
4
1
2
3
29059
53
35
2
4
4
1
1
2
26585
62
47
2
1
2
2
2
2
24959
42
21
1
3
4
1
1
3
11901
18
1
2
4
4
2
3
3
24565
48
32
1
3
3
1
1
3
4837
22
1
2
2
1
1
3
3
18096
46
24
1
3
2
1
1
2
7143
18
1
1
1
4
1
3
2
56258
37
22
2
1
4
2
3
2
17467
40
20
1
4
1
1
3
2
63917
50
22
1
3
3
1
3
3
51806
56
31
2
4
4
2
1
4
22823
52
37
1
3
4
2
3
3
52793
58
27
2
4
1
1
1
2
7687
41
24
2
1
4
1
3
3
27610
52
32
1
1
4
1
3
4
65033
55
30
1
2
4
1
3
4
48267
59
40
2
3
3
1
3
4
38997
47
14
1
1
2
1
3
3
58580
42
23
2
1
2
2
3
3
2460
40
21
1
1
4
1
2
3
41413
36
14
2
1
3
2
2
1
6346
28
9
1
1
4
1
2
2
95385
40
20
2
Chcemy oszacować model dochodów. Podejrzewamy, że na dochody może wpływać wiek.
pi02
i
=
β
0
+
β
1
age
i
+ ε
i
Jednak na dochody często wpływają inne zmienne. Korzystając z dostępności informacji w naszej bazie danych,
następną podejrzaną zmienna może być zmienna pd02 – płeć.
Aby jednak wprowadzić do modelu zmienną jakościową o dwóch kategoriach, trzeba zrobić z niej zmienną
zerojedynkową, czyli tak przekodować kategorie tej zmiennej, by przyjęły one wartości 0 i 1, np.:
plec: 0 gdy mężczyzna, 1 gdy kobieta. Kategorię, dla której tak stworzona zmienna zerojedynkowa przyjmuje
wartość 0 nazywamy kategorią bazową lub referencyjną. Interpretacja oszacowań dla takiej zmiennej jest
interpretacją kategorii reprezentowanej przez wartość 1 względem kategorii referencyjnej.
W naszym przypadku, kategorią referencyjną są mężczyźni.
pi02
i
=
β
0
+
β
1
age
i
+
β
2
plec
i
+ ε
i
Interpretacja oszacowania dla zmiennej plec: kobiety zarabiają o średnio 24990 Euro rocznie mniej niż mężczyźni.
3
Oczywiście sposób utworzenia zmiennej zerojedynkowej, z którego skorzystaliśmy, był tylko jednym z dwóch
możliwych. Moglibyśmy zakodować zmienną plec tak, że 0 oznaczałoby kobietę, a 1 mężczyznę. Wtedy poziomem
bazowym byłyby kobiety. Wpłynęłoby to na nasze oszacowania jedynie w postaci przeciwnego znaku dla
oszacowania parametru dla plci oraz innego oszacowania dla stałej.
Następnie dodajmy do modelu wykształcenie. Jest ono zmienną jakościową, która przyjmuje 3 kategorie.
Aby jednak wprowadzić do modelu zmienną jakościową o m kategoriach, tworzymy zestaw zmiennych
zerojedynkowych odpowiedzialnych za wszystkie kategorie zmiennej jakościowej (tworzymy m zmiennych
zerojedynkowych). Do modelu dołączamy m-1 tych zmiennych, zaś ta kategoria wyjściwej zmiennej, dla której
zmienna zerojedynkowa nie została dołączona do modelu, stanowić będzie kategorię referencyjną dla
pozostałych. Interpretacja parametrów dla zmiennych zerojedynkowych wprowadzonych do modelu jest
interpretacją względem ich kategorii referencyjnej (kategorii nie wprowadzonej do modelu w postaci zmiennej
zerojedynkowej).
Musimy więc stworzyć trzy zmienne zerojedynkowe (bo ‘wykształcenie’ (zmienna pe07) ma 3 kategorie). Więc:
1
07
1
07 _1
0
.
.
gdy pe
pe
w poz przyp
=
=
,
1
07
2
07 _ 2
0
.
.
gdy pe
pe
w poz przyp
=
=
,
1
07
3
07 _ 3
0
.
.
gdy pe
pe
w poz przyp
=
=
Mamy teraz model:
pi02
i
=
β
0
+
β
1
age
i
+
β
2
plec
i
+
β
3
pe07_2
i
+
β
4
pe07_3
i
+ ε
i
U nas kategorią referencyjną jest ‘pe07_1’ – wykształcenie podstawowe, gdyż nie ma w modelu zmiennej 0-1 za nią
odpowiedzialnej. Oczywiście to osoba wykonująca model decyduje, która kategoria będzie poziomem
referencyjnym.
Często w badaniach podejrzewa się również, że stan cywilny jest jednym z determinantów dochodu. Spróbujmy
wprowadzić zmienne 0-1 odpowiedzialne za stan cywilny, traktując osoby w związkach małżeńskich jako kategorię
bazową:
pi02
i
=
β
0
+
β
1
age
i
+
β
2
plec
i
+
β
3
pe07_2
i
+
β
4
pe07_3
i
+
β
5
pd05_2
i
+
β
6
pd05_3
i
+
β
7
pd05_4
i
+
β
8
pd05_5
i
+ ε
i
4
Proszę zwrócić uwagę, na to, że niektóre (większość) kategorii zmiennej stan cywilny jest w modelu nieistotna.
Nieistotności niektórych poziomów można przeciwdziałać stosując rekodowanie zmiennej polegające na łączeniu
niektórych jej kategorii (oczywiście tylko w przypadku kategorii, które po połączeniu mają wciąż jakiś sens
interpretacyjny). W naszym przypadku polegać to może na połączeniu kategorii 2, 4 i 5 tej zmiennej i nadaniu jej
interpretacji ‘osoby wolne z doświadczeniem w małżeństwie’.
Ważna uwaga!
Z uwagi na możliwość wystąpienia problemu zmiennych pominiętych, czego implikacją są
obciążone estymatory przy użyciu MNK, w praktyce zmiennych nie dodaje się do modelu jedna po drugiej, ale
wykorzystujemy od razu cały zbiór zmiennych podejrzewanych o determinowanie zmienności zmiennej
objaśnianej (czyli szacowalibyśmy od razu któryś z finalnych modeli – u nas model, gdzie zmiennymi
objaśniającymi są odpowiednio wprowadzone płeć, wiek, wykształcenie i stan cywilny). Materiały te są oparte
na ćwiczeniu polegającym na umiejętności dodawania zmiennych jakościowych do modelu, dlatego w celach
stopniowania trudności związanych z wprowadzaniem tych zmiennych, pozwoliłem sobie na odstępstwo od
poprawnych zasad estymacji modelu, jednak zwracam Państwa uwagę, że nie jest to prawidłowe podejście.