wykład 7 jakościowe zmienne objaśniające

Uwzględnianie zmiennych jakościowych w charakterze zmiennych objaśniających
W badaniach ekonomicznych wymaga się niekiedy, aby zbiór zmiennych objaśniających
oprócz zmiennych ilościowych obejmował także zmienne jakościowe. Zmiennymi
jakościowymi są na przykład: płeć, wykształcenie, stan cywilny. Aby zmienne jakościowe
mogły być uwzględnione w modelu ekonometrycznym, należy dokonać ich kwantyfikacji za
pomocą zmiennych zerojedynkowych (ang. dummy variables).
Dla uproszczenia, na wstępie rozważa się model, gdzie zmienna objaśniana zależy od
jednej zmiennej ilościowej oraz od jednej zmiennej jakościowej.
Jeśli zmienna jakościowa odnosi się do 2 możliwych wariantów A i B, to można
zdefiniować odpowiadającą jej zmienne zero-jedynkowe jako:
1, gdy i-ta obserwacja reprezentuje wariant A,
��
z1i =�
��0, gdy i-ta obserwacja reprezentuje wariant B.
��
1, gdy i-ta obserwacja reprezentuje wariant B,
��
z2i =�
��0, gdy i-ta obserwacja reprezentuje wariant A.
��
Gdyby uwzględnić zmienne Z1 i Z2, to wówczas macierz X miałaby postać:
1 1 0 x1
��ł�
ę�1 0 1 x2 ś�
ę�ś�
ę�ś�
ę�ś�
ę�1 1 0 xj ś�
X =�
ę�1 0 1 xj+�1 ś�
ę�ś�
ę�1 1 0 xj+�2 ś�
ę�ś�
ę�ś�
ę��
��1 0 1 xn ś�
Wtedy pierwsza kolumna byłaby sumą drugiej i trzeciej kolumny zachodziłaby zatem
dokładna współliniowość. W konsekwencji macierz XTX byłaby osobliwa, co
uniemożliwiałoby wyznaczenie w sposób jednoznaczny ocen parametrów ze wzoru
-�1
b =� XTX XTY .
(� )�
Dlatego też w modelach ze stałą wykorzystuje się tylko jedną ze zmiennych Z1 i Z2. Załóżmy,
że uwzględnimy tylko zmienną Z1. Jaką interpretację mają wtedy parametry poniższego
modelu?
wi =� c0 +� a1x1i +� c1z1i
Ponieważ z2i =�1-� z1i , to
wi =� b0 +� a1x1i +� b1z1i +� b2z2i = wi =� b0 +� a1x1i +� b1z1i +� b2(1-� z1i ) =� b0 +� b2 +� a1x1i +� (b1 -�b2)z1i
Stąd c0 =� b0 +� b2 � c1 =� (b1 -�b2), czyli w modelu:
wi =� c0 +� a1x1i +� c1z1i
c1 mierzy średni wpływ na zmienną objaśnianą wariantu A w odniesieniu do wariantu B (przy
takim samym poziomie zmiennej ilościowej X1).
Interpretacja wynika także z następującego faktu:
dla Z1=1 mamy: v(1) =� c0 +� a1X1 +� c1 ��1=� c0 +� a1X1 +� c1 ,
dla Z1=0 mamy: v(0) =� c0 +� a1X1 +� c1 ��0 =� c0 +� a1X1 ,
Ć(1) Ć(0)
różnica Y -�Y =� c1 (przy takim samym X1)
W sytuacji rozważania populacji mamy:
Y =� g�0 +�a�1X1 +�g�1Z1 +�e� (tzn. c0 jest oceną parametru g� , a1 - a�1 oraz c1 - g�1 )
0
(1)
dla Z1=1 mamy: Y(1) =� g�0 +�a�1X1 +�g�1 ��1+�e� ,
(0)
dla Z1=0 mamy: Y(0) =� g�0 +�a�1X1 +�g�1 ��0 +�e� ,
(1) (0)
Ponieważ E(e� ) =� E(e� ) =� 0 , to
(1) (0)
E(Y ) -� E(Y ) =� g�1, stąd wynika, że g�1 jest różnicą między wartością oczekiwaną zmiennej
objaśnianej dla sytuacji, gdy wystąpiła wariant A a wartością oczekiwaną zmiennej
objaśnianej dla sytuacji, gdy wystąpiła wariant B, przy takim samym poziomie X1.
Przykład
W celu zbadania spożycia owoców w pewnym regionie rozważono następujące dane pochodzące od 12 losowo
wybranych osób.
Tabela Miesięczne spożycie owoców, miesięczne dochody i płeć 12 losowo wybranych osób.
Nr Spożycie Dochody Płeć Nr Spożycie Dochody Płeć
owoców w kg w tys. zł owoców w w tys. zł
kg
1 3,8 2 mężczyzna 7 4,9 5 kobieta
2 4,7 2,1 kobieta 8 5,4 4,5 mężczyzna
3 4,4 1,8 kobieta 9 5,2 4,2 kobieta
4 5 2,7 kobieta 10 4,6 3,8 mężczyzna
5 4,1 3 mężczyzna 11 4,0 2,4 mężczyzna
6 3,7 3,5 mężczyzna 12 3,6 1,4 mężczyzna
yródło: Dane umowne.
Jeśli przez y oznaczymy miesięczne spożycie owoców, x1 miesięczne dochody, a przez z1
zmienną zerojedynkową, .przyjmującą wartość 1, jeśli badana osoba jest kobietą oraz wartość
0, w przypadku, gdy badaną osobą jest mężczyzna, to dane możemy zapisać w postaci:
Tabela
Nr yi x1i z1i Nr yi x1i z1i
1 3,8 2 0 7 4,9 5 1
2 4,7 2,1 1 8 5,4 4,5 0
3 4,4 1,8 1 9 5,2 4,2 1
4 5 2,7 1 10 4,6 3,8 0
5 4,1 3 0 11 4,0 2,4 0
6 3,7 3,5 0 12 3,6 1,4 0
Oszacowany model ma postać:
w =� 3,27 +� 0,31x +� 0,60z
i 1i 1i
[0,34] [0,10] [0,23]
(w nawiasach podano standardowe błędy szacunku).
Można zatem wnioskować, że (po wyeliminowaniu wpływu płci) wzrost miesięcznych
dochodów o 1 tysiąc złotych powoduje wzrost miesięcznego spożycia owoców średnio o 0,31
kg. Z kolei przy takich samych dochodach kobiety spożywają miesięcznie średnio o 0,6 kg
owoców więcej od mężczyzn.
W przypadku, gdy zmienna jakościowa odnosi się do 3 możliwych wariantów A, B i C,
to zmienne zero-jedynkowe określa się jako:
��
1, gdy i - ta obserwacja reprezentuje wariant A,
��
z1i =�
��
0, w przeciwnych przypadkac � � � � � � � � � � � � � � �
h, �
��
��
oraz
1, gdy i - ta obserwacja reprezentuje wariant B,
��
z2i =�
��
0, w przeciwnych przypadkac � � � � � � � � � � � � �
h. �
��
��
1, gdy i - ta obserwacja reprezentuje wariant C,
��
z3i =�
��
0, w przeciwnych przypadkac � � � � � � � � � � � � � � � �
h,
��
��
wówczas między stałą i zmiennymi z1, z2, z3, zachodziłaby zależność liniowa, zatem nie
możliwe byłoby jednoznaczne oszacowanie parametrów modelu.
Przykład
Na podstawie 6 obserwacji ustalono, że zmienna jakościowa kolejno odpowiada wariantom C,
C, B, A, A, B. Macierz X jest wówczas następująca:
1 x11 0 0 1
�� ł�
ę�1 x12 0 0 1ś�
ę� ś�
ę� ś�
1 x13 0 1 0
X =�
ę� ś�
ę�1 x14 1 0 0ś�
ę�1 x15 1 0 0ś�
ę� ś�
ę� ś�
��1 x16 0 1 0��
gdzie x1i wartości i-tej obserwacji zmiennej ilościowej x1, i= 1,2,...,6, pierwsza kolumna
odpowiada stałej, trzecia kolumna zmiennej z1, czwarta z2, piąta z3. Gdy zsumuje się
kolumny trzecią, czwartą i piątą, otrzyma się kolumnę pierwszą. Pomiędzy kolumnami
macierzy X zachodzi więc liniowa zależność. W konsekwencji macierz XTX jest osobliwa,
nie można zatem jednoznacznie oszacować parametrów modelu
yi =� b�0 +�a�1x1i +� b�1z1i +� b�2z2i +� b�3z3i +�e�i
-�1
T T
gdyż oceny parametrów wyznacza się ze wzoru: b =� (�X X)� X Y .
Aby móc oszacować parametry modelu należy usunąć dowolną kolumnę, która jest związana
z innymi kolumnami zależnością liniową. Załóżmy, że pominiemy zmienną Z3.
Jaką interpretację mają wtedy parametry poniższego modelu?
wi =� c0 +� a1x1i +� c1z1i +� c2z2i
Ponieważ z3i =�1-� z1i -� z2i , to
wi =� b0 +� a1x1i +� b1z1i +� b2z2i +� b3z3i =
wi =� b0 +� a1x1i +� b1z1i +� b2z2i +� b3(1-� z1i -� z2i ) =� b0 +� b3 +� a1x1i +� (b1 -�b3)z1i +� (b2 -�b3)z2i
Stąd c0 =� b0 +� b3 � c1 =� (b1 -�b3) , c2 =� (b2 -�b3) czyli w modelu:
wi =� c0 +� a1x1i +� c1z1i +� c2z2i
�� c1 mierzy średni wpływ na zmienną objaśnianą wariantu A w odniesieniu do wariantu C
(przy takim samym poziomie zmiennej ilościowej x1),
�� c2 mierzy średni wpływ na zmienną objaśnianą wariantu B w odniesieniu do wariantu C
(przy takim samym poziomie zmiennej ilościowej x1).
Ogólnie, w modelu ze stałą, liczba zmiennych reprezentujących zmienną
jakościową musi być o jeden mniejsza od liczby wariantów.
Ocena parametru występująca w modelu przy zmiennej reprezentującej dany wariant mierzy
średni wpływ na zmienną objaśnianą tego wariantu odniesiony do wpływu wariantu
pominiętego.
Uwaga
W modelach ze zmienną jakościową uwzględniającą k>2 wariantów mamy:
wi =� b0 +� a1x1i +� b1z1i +� b2z2i +� bk-�1zk-�1.i zasadność wprowadzanej zmiennej jakościowej
weryfikujemy częściowym testem F.
Modele z interakcjami
We wcześniejszych modelach tylko stała a nie parametr nachylenia może różnić się dla
poszczególnych wariantów jakościowej zmiennej objaśniającej.
wi =� 3,27 +� 0,31x1i +� 0,60z1i
Oszacowaną zależność spożycia owoców od dochodów można także zapisać oddzielnie dla obu rozważanych
grup:
wi =� 3,87 +� 0,31x1i dla kobiet (różowa linia)
wi =� 3,27 +� 0,31x1i dla mężczyzn (przerywana granatowa linia).
Graficznie, modelom tym odpowiadają dwie proste równoległe.
6
5
4
punkty empiryczne
3
kobiety
mężczyżni
2
1
0
0 1 2 3 4 5 6
Dotychczas uwzględnione podejście zakładało, że parametr przy zmiennej X (nachylenie
prostej) jest takie same dla dwóch rozważanych wariantów. Tak być nie musi.
wi =� c0 +� a1x1i +� c1z1i +�d� x1i �� z1i ,
gdzie:
1, gdy i-ta obserwacja reprezentuje wariant A,
��
z1i =�
��0, gdy i-ta obserwacja reprezentuje wariant B.
��
Wtedy:
wi =� c0 +� a1x1i +� c1 ��1+�d�1x1i ��1=� c0 +� c1 +� (a1 +�d�1)�� x1i , dla wariantu A,
wi =� c0 +� a1x1i +� c1 ��0 +�d�1x1i ��0 =� c0 +� a1x1i , dla wariantu B.
różnica nie tylko w wyrazie wolnym, ale też w parametrze stojącym przy zmiennej X1.
W naszym przykładzie:
wi =� 2,78+� 0,47x1i +�1,59z1i -� 0,32x1i �� z1i
Wtedy:
wi =� (2,78+�1,59) +� (0,47 -� 0,32)x1i =� 4,37 +� 0,15x1i , dla kobiet,
wi =� 2,78+� 0,47x1i , dla mężczyzn.
Graficznie:
6
5
4
Punkty empiryczne
3 Mężczyzni
Kobiety
2
1
0
0 1 2 3 4 5 6
Współczynniki Błąd standardowy t Stat Wartość-p Dolne 95% Górne 95%
Przecięcie 2,78 0,42 6,61 0,00 1,81 3,74
x1i 0,47 0,14 3,51 0,01 0,16 0,79
z1i 1,59 0,61 2,61 0,03 0,18 2,99
x1 razy z1 -0,32 0,19 -1,73 0,12 -0,75 0,11
Parametr d� przy x1i �� z1i nie jest statystycznie istotny, zatem uwzględnienie interakcji nie
było tu konieczne.
Model z interakcjami jest równoważny 2 modelom oddzielnie oszacowanym (jeden model dla
danych odpowiadających wariantowi A, drugi wariantowi B).

Wyszukiwarka

Podobne podstrony:
Wyklad 7 prad zmienny
wykład 9 (jakość en el, regulacja U, kompensacja Q, taryfy )
zarządzanie jakością wykład 2
zarzadzanie jakoscia wyklad 1
zarzadzanie jakoscia wyklad 1
03 Wykład 3 Podstawowe rozkłady zmiennych losowychidB24
notatek pl zarzadzanie jakoscia dr janusz niezgoda wyklady
Zarządzanie jakością wykłady
Konspekt wykładu r różniczkowy funkcji jednej zmiennej(1)
Jakość satysfakcja klienta wykład
koncepcje zarządzania, wykład 1, 2, 3, 4, część wykładu 5 notatki najlepsza jakość
elementy przebiegu zmienności f , wyklad
Zarządzanie jakością wykład 2009
wykład 5 Funkcje wielu zmiennych
R Pr MAP1151 wyklad3 zmienna los dystrybuanta
Wyklad ZMIENNA LOSOWA Biol 2012 wer stud

więcej podobnych podstron