Uwzględnianie zmiennych jakościowych w charakterze zmiennych objaśniających
W badaniach ekonomicznych wymaga się niekiedy, aby zbiór zmiennych objaśniających
oprócz zmiennych ilościowych obejmował także zmienne jakościowe. Zmiennymi
jakościowymi są na przykład: płeć, wykształcenie, stan cywilny. Aby zmienne jakościowe
mogły być uwzględnione w modelu ekonometrycznym, należy dokonać ich kwantyfikacji za
pomocÄ… zmiennych zerojedynkowych (ang. dummy variables).
Dla uproszczenia, na wstępie rozważa się model, gdzie zmienna objaśniana zależy od
jednej zmiennej ilościowej oraz od jednej zmiennej jakościowej.
Jeśli zmienna jakościowa odnosi się do 2 możliwych wariantów A i B, to można
zdefiniować odpowiadającą jej zmienne zero-jedynkowe jako:
1, gdy i-ta obserwacja reprezentuje wariant A,
ìð
z1i =ð
íð0, gdy i-ta obserwacja reprezentuje wariant B.
îð
1, gdy i-ta obserwacja reprezentuje wariant B,
ìð
z2i =ð
íð0, gdy i-ta obserwacja reprezentuje wariant A.
îð
Gdyby uwzględnić zmienne Z1 i Z2, to wówczas macierz X miałaby postać:
1 1 0 x1
éðÅ‚ð
Ä™ð1 0 1 x2 Å›ð
Ä™ðÅ›ð
Ä™ðÅ›ð
Ä™ðÅ›ð
Ä™ð1 1 0 xj Å›ð
X =ð
Ä™ð1 0 1 xj+ð1 Å›ð
Ä™ðÅ›ð
Ä™ð1 1 0 xj+ð2 Å›ð
Ä™ðÅ›ð
Ä™ðÅ›ð
Ä™ðûð
ëð1 0 1 xn Å›ð
Wtedy pierwsza kolumna byłaby sumą drugiej i trzeciej kolumny zachodziłaby zatem
dokładna współliniowość. W konsekwencji macierz XTX byłaby osobliwa, co
uniemożliwiałoby wyznaczenie w sposób jednoznaczny ocen parametrów ze wzoru
-ð1
b =ð XTX XTY .
(ð )ð
Dlatego też w modelach ze stałą wykorzystuje się tylko jedną ze zmiennych Z1 i Z2. Załóżmy,
że uwzględnimy tylko zmienną Z1. Jaką interpretację mają wtedy parametry poniższego
modelu?
wi =ð c0 +ð a1x1i +ð c1z1i
Ponieważ z2i =ð1-ð z1i , to
wi =ð b0 +ð a1x1i +ð b1z1i +ð b2z2i = wi =ð b0 +ð a1x1i +ð b1z1i +ð b2(1-ð z1i ) =ð b0 +ð b2 +ð a1x1i +ð (b1 -ðb2)z1i
StÄ…d c0 =ð b0 +ð b2 ¸ c1 =ð (b1 -ðb2), czyli w modelu:
wi =ð c0 +ð a1x1i +ð c1z1i
c1 mierzy średni wpływ na zmienną objaśnianą wariantu A w odniesieniu do wariantu B (przy
takim samym poziomie zmiennej ilościowej X1).
Interpretacja wynika także z następującego faktu:
dla Z1=1 mamy: v(1) =ð c0 +ð a1X1 +ð c1 ×ð1=ð c0 +ð a1X1 +ð c1 ,
dla Z1=0 mamy: v(0) =ð c0 +ð a1X1 +ð c1 ×ð0 =ð c0 +ð a1X1 ,
Ć(1) Ć(0)
różnica Y -ðY =ð c1 (przy takim samym X1)
W sytuacji rozważania populacji mamy:
Y =ð gð0 +ðað1X1 +ðgð1Z1 +ðeð (tzn. c0 jest ocenÄ… parametru gð , a1 - að1 oraz c1 - gð1 )
0
(1)
dla Z1=1 mamy: Y(1) =ð gð0 +ðað1X1 +ðgð1 ×ð1+ðeð ,
(0)
dla Z1=0 mamy: Y(0) =ð gð0 +ðað1X1 +ðgð1 ×ð0 +ðeð ,
(1) (0)
Ponieważ E(eð ) =ð E(eð ) =ð 0 , to
(1) (0)
E(Y ) -ð E(Y ) =ð gð1, stÄ…d wynika, że gð1 jest różnicÄ… miÄ™dzy wartoÅ›ciÄ… oczekiwanÄ… zmiennej
objaśnianej dla sytuacji, gdy wystąpiła wariant A a wartością oczekiwaną zmiennej
objaśnianej dla sytuacji, gdy wystąpiła wariant B, przy takim samym poziomie X1.
Przykład
W celu zbadania spożycia owoców w pewnym regionie rozważono następujące dane pochodzące od 12 losowo
wybranych osób.
Tabela Miesięczne spożycie owoców, miesięczne dochody i płeć 12 losowo wybranych osób.
Nr Spożycie Dochody Płeć Nr Spożycie Dochody Płeć
owoców w kg w tys. zł owoców w w tys. zł
kg
1 3,8 2 mężczyzna 7 4,9 5 kobieta
2 4,7 2,1 kobieta 8 5,4 4,5 mężczyzna
3 4,4 1,8 kobieta 9 5,2 4,2 kobieta
4 5 2,7 kobieta 10 4,6 3,8 mężczyzna
5 4,1 3 mężczyzna 11 4,0 2,4 mężczyzna
6 3,7 3,5 mężczyzna 12 3,6 1,4 mężczyzna
yródło: Dane umowne.
Jeśli przez y oznaczymy miesięczne spożycie owoców, x1 miesięczne dochody, a przez z1
zmienną zerojedynkową, .przyjmującą wartość 1, jeśli badana osoba jest kobietą oraz wartość
0, w przypadku, gdy badaną osobą jest mężczyzna, to dane możemy zapisać w postaci:
Tabela
Nr yi x1i z1i Nr yi x1i z1i
1 3,8 2 0 7 4,9 5 1
2 4,7 2,1 1 8 5,4 4,5 0
3 4,4 1,8 1 9 5,2 4,2 1
4 5 2,7 1 10 4,6 3,8 0
5 4,1 3 0 11 4,0 2,4 0
6 3,7 3,5 0 12 3,6 1,4 0
Oszacowany model ma postać:
w =ð 3,27 +ð 0,31x +ð 0,60z
i 1i 1i
[0,34] [0,10] [0,23]
(w nawiasach podano standardowe błędy szacunku).
Można zatem wnioskować, że (po wyeliminowaniu wpływu płci) wzrost miesięcznych
dochodów o 1 tysiąc złotych powoduje wzrost miesięcznego spożycia owoców średnio o 0,31
kg. Z kolei przy takich samych dochodach kobiety spożywają miesięcznie średnio o 0,6 kg
owoców więcej od mężczyzn.
W przypadku, gdy zmienna jakościowa odnosi się do 3 możliwych wariantów A, B i C,
to zmienne zero-jedynkowe określa się jako:
ìð
1, gdy i - ta obserwacja reprezentuje wariant A,
ïð
z1i =ð
íð
0, w przeciwnych przypadkac ð ð ð ð ð ð ð ð ð ð ð ð ð ð ð
h, ð
ïð
îð
oraz
1, gdy i - ta obserwacja reprezentuje wariant B,
ìð
z2i =ð
íð
0, w przeciwnych przypadkac ð ð ð ð ð ð ð ð ð ð ð ð ð
h. ð
îð
ìð
1, gdy i - ta obserwacja reprezentuje wariant C,
ïð
z3i =ð
íð
0, w przeciwnych przypadkac ð ð ð ð ð ð ð ð ð ð ð ð ð ð ð ð
h,
ïð
îð
wówczas między stałą i zmiennymi z1, z2, z3, zachodziłaby zależność liniowa, zatem nie
możliwe byłoby jednoznaczne oszacowanie parametrów modelu.
Przykład
Na podstawie 6 obserwacji ustalono, że zmienna jakościowa kolejno odpowiada wariantom C,
C, B, A, A, B. Macierz X jest wówczas następująca:
1 x11 0 0 1
éð Å‚ð
Ä™ð1 x12 0 0 1Å›ð
Ä™ð Å›ð
Ä™ð Å›ð
1 x13 0 1 0
X =ð
Ä™ð Å›ð
Ä™ð1 x14 1 0 0Å›ð
Ä™ð1 x15 1 0 0Å›ð
Ä™ð Å›ð
Ä™ð Å›ð
ëð1 x16 0 1 0ûð
gdzie x1i wartości i-tej obserwacji zmiennej ilościowej x1, i= 1,2,...,6, pierwsza kolumna
odpowiada stałej, trzecia kolumna zmiennej z1, czwarta z2, piąta z3. Gdy zsumuje się
kolumny trzecią, czwartą i piątą, otrzyma się kolumnę pierwszą. Pomiędzy kolumnami
macierzy X zachodzi więc liniowa zależność. W konsekwencji macierz XTX jest osobliwa,
nie można zatem jednoznacznie oszacować parametrów modelu
yi =ð bð0 +ðað1x1i +ð bð1z1i +ð bð2z2i +ð bð3z3i +ðeði
-ð1
T T
gdyż oceny parametrów wyznacza siÄ™ ze wzoru: b =ð (ðX X)ð X Y .
Aby móc oszacować parametry modelu należy usunąć dowolną kolumnę, która jest związana
z innymi kolumnami zależnością liniową. Załóżmy, że pominiemy zmienną Z3.
Jaką interpretację mają wtedy parametry poniższego modelu?
wi =ð c0 +ð a1x1i +ð c1z1i +ð c2z2i
Ponieważ z3i =ð1-ð z1i -ð z2i , to
wi =ð b0 +ð a1x1i +ð b1z1i +ð b2z2i +ð b3z3i =
wi =ð b0 +ð a1x1i +ð b1z1i +ð b2z2i +ð b3(1-ð z1i -ð z2i ) =ð b0 +ð b3 +ð a1x1i +ð (b1 -ðb3)z1i +ð (b2 -ðb3)z2i
StÄ…d c0 =ð b0 +ð b3 ¸ c1 =ð (b1 -ðb3) , c2 =ð (b2 -ðb3) czyli w modelu:
wi =ð c0 +ð a1x1i +ð c1z1i +ð c2z2i
·ð c1 mierzy Å›redni wpÅ‚yw na zmiennÄ… objaÅ›nianÄ… wariantu A w odniesieniu do wariantu C
(przy takim samym poziomie zmiennej ilościowej x1),
·ð c2 mierzy Å›redni wpÅ‚yw na zmiennÄ… objaÅ›nianÄ… wariantu B w odniesieniu do wariantu C
(przy takim samym poziomie zmiennej ilościowej x1).
Ogólnie, w modelu ze stałą, liczba zmiennych reprezentujących zmienną
jakościową musi być o jeden mniejsza od liczby wariantów.
Ocena parametru występująca w modelu przy zmiennej reprezentującej dany wariant mierzy
średni wpływ na zmienną objaśnianą tego wariantu odniesiony do wpływu wariantu
pominiętego.
Uwaga
W modelach ze zmienną jakościową uwzględniającą k>2 wariantów mamy:
wi =ð b0 +ð a1x1i +ð b1z1i +ð b2z2i +ð bk-ð1zk-ð1.i zasadność wprowadzanej zmiennej jakoÅ›ciowej
weryfikujemy częściowym testem F.
Modele z interakcjami
We wcześniejszych modelach tylko stała a nie parametr nachylenia może różnić się dla
poszczególnych wariantów jakościowej zmiennej objaśniającej.
wi =ð 3,27 +ð 0,31x1i +ð 0,60z1i
Oszacowaną zależność spożycia owoców od dochodów można także zapisać oddzielnie dla obu rozważanych
grup:
wi =ð 3,87 +ð 0,31x1i dla kobiet (różowa linia)
wi =ð 3,27 +ð 0,31x1i dla mężczyzn (przerywana granatowa linia).
Graficznie, modelom tym odpowiadają dwie proste równoległe.
6
5
4
punkty empiryczne
3
kobiety
mężczyżni
2
1
0
0 1 2 3 4 5 6
Dotychczas uwzględnione podejście zakładało, że parametr przy zmiennej X (nachylenie
prostej) jest takie same dla dwóch rozważanych wariantów. Tak być nie musi.
wi =ð c0 +ð a1x1i +ð c1z1i +ðdð x1i ×ð z1i ,
gdzie:
1, gdy i-ta obserwacja reprezentuje wariant A,
ìð
z1i =ð
íð0, gdy i-ta obserwacja reprezentuje wariant B.
îð
Wtedy:
wi =ð c0 +ð a1x1i +ð c1 ×ð1+ðdð1x1i ×ð1=ð c0 +ð c1 +ð (a1 +ðdð1)×ð x1i , dla wariantu A,
wi =ð c0 +ð a1x1i +ð c1 ×ð0 +ðdð1x1i ×ð0 =ð c0 +ð a1x1i , dla wariantu B.
różnica nie tylko w wyrazie wolnym, ale też w parametrze stojącym przy zmiennej X1.
W naszym przykładzie:
wi =ð 2,78+ð 0,47x1i +ð1,59z1i -ð 0,32x1i ×ð z1i
Wtedy:
wi =ð (2,78+ð1,59) +ð (0,47 -ð 0,32)x1i =ð 4,37 +ð 0,15x1i , dla kobiet,
wi =ð 2,78+ð 0,47x1i , dla mężczyzn.
Graficznie:
6
5
4
Punkty empiryczne
3 Mężczyzni
Kobiety
2
1
0
0 1 2 3 4 5 6
Współczynniki Błąd standardowy t Stat Wartość-p Dolne 95% Górne 95%
Przecięcie 2,78 0,42 6,61 0,00 1,81 3,74
x1i 0,47 0,14 3,51 0,01 0,16 0,79
z1i 1,59 0,61 2,61 0,03 0,18 2,99
x1 razy z1 -0,32 0,19 -1,73 0,12 -0,75 0,11
Parametr dð przy x1i ×ð z1i nie jest statystycznie istotny, zatem uwzglÄ™dnienie interakcji nie
było tu konieczne.
Model z interakcjami jest równoważny 2 modelom oddzielnie oszacowanym (jeden model dla
danych odpowiadajÄ…cych wariantowi A, drugi wariantowi B).
Wyszukiwarka
Podobne podstrony:
Wyklad 7 prad zmiennywykład 9 (jakość en el, regulacja U, kompensacja Q, taryfy )zarządzanie jakością wykład 2zarzadzanie jakoscia wyklad 1zarzadzanie jakoscia wyklad 103 Wykład 3 Podstawowe rozkłady zmiennych losowychidB24notatek pl zarzadzanie jakoscia dr janusz niezgoda wykladyZarządzanie jakością wykładyKonspekt wykładu r różniczkowy funkcji jednej zmiennej(1)Jakość satysfakcja klienta wykładkoncepcje zarządzania, wykład 1, 2, 3, 4, część wykładu 5 notatki najlepsza jakośćelementy przebiegu zmienności f , wykladZarządzanie jakością wykład 2009wykład 5 Funkcje wielu zmiennychR Pr MAP1151 wyklad3 zmienna los dystrybuantaWyklad ZMIENNA LOSOWA Biol 2012 wer studwięcej podobnych podstron