Konstrukcja modelu ekonometrycznego
Ogólny model ekonometryczny z wieloma zmiennymi
Zmienną objaśnianą Y jest ilość dzieci przebywających w żłobkach w tys. osób, która w 10-ciu kolejnych latach przedstawiała się następująco:
t |
Y |
1990 |
137,5 |
1991 |
121,8 |
1992 |
100,4 |
1993 |
96,1 |
1994 |
81,7 |
1995 |
69,3 |
1996 |
66,2 |
1997 |
64,9 |
1998 |
61,6 |
1999 |
58,3 |
Zmiennymi objaśniającymi są:
Z1- liczba dzieci w wieku od 0 do 3 lat w tys. osób
Z2- zatrudnienie ogółem w 100 tys. osób
Z3- rodzice samotnie wychowujący dzieci w tys. osób
Z4- przeciętne wynagrodzenie miesięczne w zł
Z5- liczba zachorowań wśród dorosłych na 10 tys. osób
Wartości zmiennych objaśniających są następujące:
t |
Z1 |
Z2 |
Z3 |
Z4 |
Z5 |
Y |
1990 |
1823,4 |
164,847 |
1396 |
465,8 |
2192,5 |
137,5 |
1991 |
1762,8 |
163,482 |
1402 |
471,2 |
2201,3 |
121,8 |
1992 |
1669,7 |
161,243 |
1458 |
487,6 |
2212,1 |
100,4 |
1993 |
1523,2 |
159,876 |
1493 |
498,9 |
2243,2 |
96,1 |
1994 |
1498,7 |
156,835 |
1554 |
511,4 |
2289,8 |
81,7 |
1995 |
1441,6 |
154,857 |
1580 |
560,6 |
2304,4 |
69,3 |
1996 |
1392,4 |
159,348 |
1621 |
721,3 |
2342,7 |
66,2 |
1997 |
1358,2 |
162,945 |
1698 |
877,3 |
2368,3 |
64,9 |
1998 |
1282,0 |
162,671 |
1703 |
1026,7 |
2394,2 |
61,6 |
1999 |
1121,8 |
161,342 |
1742 |
1130,2 |
2427,6 |
58,3 |
Otrzymałyśmy macierz Z = [Ztj] n×p
Z =
oraz wektor Y = [yt] n×1
Y =
Standaryzacja zmiennych
Zmienną Y oraz zmienną Zj, nazywamy zmiennymi standaryzowanymi, jeśli spełniają one warunki:
= 0,
= 0, j = 1,..., p;
Sy = 1, Szj = 1, j = 1,..., p; gdzie:
=
,
=
, j = 1,..., p;
S
=
(yt -
)2, S
=
(ztj -
)2.
Standaryzacji zmiennych dokonujemy przez zastąpienie zmiennych przed standaryzacją Y i Zj zmiennymi Y(S) oraz Zj(S), gdzie Y(S) = [yt(S)] n×1, Zj(S) = [ztj(S)] n×p, przy czym
Yt(S) =
, t = 1,..., n,
Ztj(S) =
, t = 1,…, n, j = 1,…, p.
Otrzymałyśmy wystandaryzowaną macierz Zj(S) oraz wystandaryzowany wektor Y(S).
Zj(S) =
Y(S) =
Wyznaczanie pary korelacyjnej
Miarą podobieństwa dwóch zmiennych jest ich współczynnik korelacji, który będziemy oznaczali r(.,.) i obliczali zgodnie ze wzorem
r( Zi, Zj ) =
r( Y, Zj ) =
Współczynnik korelacji jest wielkością unormowaną
-1 ≤ r (Zi, Zj) ≤ 1
-1 ≤ r (Y, Zi) ≤ 1 i, j = 1,2,...,p,
Jego bezwzględna wartość bliska jedności świadczy o silnej współzależności dwóch zmiennych.
Jeśli przez R(p) = [rij]p×p oznaczymy macierz współczynników korelacji pomiędzy zmiennymi należącymi do zbioru A(p) = {Z1, Z2, ..., Zp}, czyli jeśli
rij = r(Zi, Zj) i, j = 1,2,...,p,
natomiast przez R0(p) = [ri]p×1 oznaczymy wektor współczynników korelacji pomiędzy zmienną objaśnianą Y, a zmiennymi należącymi do zbioru A(p), tzn.
ri = r(Y, Zi), i = 1,2,...,p;
to otrzymujemy
R(p) =
[Z(S)]T Z(S)
R0(p) =
[Z(S)]T y(S)
Macierz R(p) nazywamy macierzą korelacji, natomiast wektor R0(p) wektorem korelacji. Uporządkowaną parę (R(p), R0(p)) nazywamy parą korelacyjną.
Macierz korelacji R(p) jest macierzą symetryczną, na głównej przekątnej posiada elementy równe jeden.
1,000 0,272 -0,971 -0,881 -0,971
0,272 1,000 -0,168 0,184 -0,146
R = -0,971 -0,168 1,000 0,914 0,992
-0,881 0,184 0,914 1,000 0,932
-0,971 -0,146 0,992 0,932 1,000
0,943
0,447
R0 = -0,939
-0,750
-0,918
Wybór optymalnego zbioru zmiennych objaśniających.
Dobierając zmienne objaśniające do modelu zazwyczaj wykorzystujemy współczynnik korelacji, a więc parę korelacyjną ( (R(p), R0(p) ).
Istnieje szereg metod na podstawie których można wybrać wektor zmiennych objaśniających. My wykorzystamy metodę doboru Z. Hellwiga. Aby stwierdzić, które ze zmiennych zbioru A(p) należy uwzględnić jako zmienne objaśniające modelu rozpatrujemy wszystkie możliwe podzbiory zbioru potencjalnych zmiennych objaśniających. Jeśli jest on p-elementowy to podzbiorów tych mamy 2p-1, przy tym podzbiorów j-elementowych jest (
), a rodzinę podzbiorów j-elementowych oznaczamy przez B(j).
W każdej z rodzin B(j) wprowadzamy porządek leksykograficzny, zgodnie z którym element Br(j) = { Z11, Z12, ... , Z1j }, poprzedza element Bs(j) = { Zt1, Zt2, ... , Ztj }, jeśli istnieje takie 1 ≤ q ≤ j, że t1 = 11, t2 = 12, ... , tq-1 = 1q-1 oraz 1q < tq.
Przez Bi(j) oznaczymy i-ty z kolei podzbiór j-elementowy zbioru A(p).
Niech Ri(j) oznacza macierz współczynników korelacji pomiędzy zmiennymi objaśniającymi należącymi do zbioru Bi(j). Przez Ri0(j) oznaczymy wektor współczynników korelacji pomiędzy zmienną objaśnianą Y, a potencjalnymi objaśniającymi należącymi do Bi(j).
Para korelacyjna ( Ri(j), Ri0(j) ) określa model, którego zmienną objaśnianą jest Y, natomiast zmiennymi objaśniającymi są elementy zbioru Bi(j).
Dla każdego z modeli wyznaczamy liczbę Hi(j), zwaną integralną pojemnością informacyjną w sensie Z. Hellwiga, zgodnie ze wzorem
Hi(j) =
,
gdzie:
rit = r ( Y, Zit ) - czyli składowe o numerze t wektora Ri0(j),
Sit - suma wartości bezwzględnych elementów kolumny o numerze t macierzy Ri(j).
Optymalny zbiór zmiennych objaśniających wyznaczamy metodą Z. Hellwiga. Jest to taki podzbiór, dla którego liczba Hi(j), przyjmuje wartość maksymalną.
Właściwością pojemności informacyjnej H jest 0 ≤ Hi(j) ≤ 1 dla dowolnej pary korelacyjnej ( Ri(j), Ri0(j) ).
Pojemność informacyjna Hi(j) mówi nam ile informacji o zmiennej Y wnosi nam kombinacja zmiennych objaśniających Bi(j).
Zbiory jednoelementowe
B1(1) = { Z1 }
R1(1) = [ 1 ] R01(1) = [ 0,943 ]
H1(1) =
= 0,889
B2(1) = { Z2 }
R2(1) = [ 1 ] R02(1) = [ 0,447 ]
H2(1) = 0,199
B3(1) = { Z3 }
R3(1) = [ 1 ] R03(1) = [ -0,939 ]
H3(1) = 0,881
B4(1) = { Z4 }
R4(1) = [ 1 ] R04(1) = [ -0,750 ]
H4(1) = 0,562
B5(1) = { Z5 }
R5(1) = [ 1 ] R05(1) = [ -0,918 ]
H5(1) = 0,843
Zbiory dwuelementowe
B1(2) = { Z1, Z2 }
R1(2) =
R01(2) =
H1(2) =
B2(2) = { Z1, Z3 }
R2(2) =
R02(2) =
H2(2) =
B3(2) = { Z1, Z4 }
R3(2) =
R03(2) =
H3(2) = 0,771
B4(2) = { Z1, Z5 }
R4(2) =
R04(2) =
H4(2) = 0,879
B5(2) = { Z2, Z3 }
R5(2) =
R05(2) =
H5(2) = 0,925
B6(2) = { Z2, Z4 }
R6(2) =
R06(2) =
H6(2) = 0,643
B7(2) = { Z2, Z5 }
R7(2) =
R07(2) =
H7(2) = 0,909
B8(2) = { Z3, Z4 }
R8(2) =
R08(2) =
H8(2) = 0,754
B9(2) = { Z3, Z5 }
R9(2) =
R09(2) =
H9(2) = 0,866
B10(2) = { Z4, Z5 }
R10(2) =
R010(2) =
H10(2) = 0,727
Zbiory trzyelementowe
B1(3) = { Z1, Z2, Z3 }
R1(3) =
R01(3) =
H1(3) =
B2(3) = { Z1, Z2, Z4 }
R2(3) =
R02(3) =
H2(3) = 0,822
B3(3) = { Z1, Z2, Z5 }
R3(3) =
R03(3) =
H3(3) = 0,934
B4(3) = { Z1, Z3, Z4 }
R4(3) =
R04(3) =
H4(3) = 0,819
B5(3) = { Z1, Z3, Z5 }
R5(3) =
R05(3) =
H5(3) = 0,884
B6(3) = { Z1, Z4, Z5 }
R6(3) =
R06(3) =
H6(3) = 0,802
B7(3) = { Z2, Z3, Z4 }
R7(3) =
R07(3) =
H7(3) = 0,839
B8(3) = { Z2, Z3, Z5 }
R8(3) =
R08(3) =
H8(3) = 0,9558
B9(3) = { Z2, Z4, Z5 }
R9(3) =
R09(3) =
H9(3) = 0,822
B10(3) = { Z3, Z4, Z5 }
R10(3) =
R10(3) =
H10(3) = 0,788
Zbiory czteroelementowe
B1(4) = { Z1, Z2, Z3, Z4 }
R1(4) =
R01(4) =
H1(4) =
B2(4) = { Z1, Z2, Z3, Z5 }
R2(4) =
R02(4) =
H2(4) = 0,9549
B3(4) = { Z1, Z2, Z4, Z5 }
R3(4) =
R03(4) =
H3(4) = 0,872
B4(4) = { Z1, Z3, Z4, Z5 }
R4(4) =
R04(4) =
H4(4) = 0,827
B5(4) = { Z2, Z3, Z4, Z5 }
R5(4) =
R05(4) =
H5(4) = 0,880
Zbiory pięcioelementowe
B1(5) = { Z1, Z2, Z3, Z4, Z5 }
R1(5) =
R01(5) =
H1(5) =
Metoda Z. Hellwiga wyznaczyła nam model postaci:
Y = β1Z1 + β2Z2 + β3Z3 + ξ ,
określony parą korelacyjną ( R8(3), R80(3) ), gdzie:
Y - ilość dzieci przebywająca w żłobkach
Z1 - zatrudnienie ogółem w 100 tys. osób,
Z2 - rodzice samotnie wychowujący dzieci w tys. osób
Z3 - liczba zachorowań wśród dorosłych na 10 tys. osób
przyjmują wartości
t |
Z1 |
Z2 |
Z3 |
Y |
1990 |
164,847 |
1396 |
2192,5 |
137,5 |
1991 |
163,482 |
1402 |
2201,3 |
121,8 |
1992 |
161,243 |
1458 |
2212,1 |
100,4 |
1993 |
159,876 |
1493 |
2243,2 |
96,1 |
1994 |
156,835 |
1554 |
2289,8 |
81,7 |
1995 |
154,857 |
1580 |
2304,4 |
69,3 |
1996 |
159,348 |
1621 |
2342,7 |
66,2 |
1997 |
162,945 |
1698 |
2368,3 |
64,9 |
1998 |
162,671 |
1703 |
2394,2 |
61,6 |
1999 |
161,342 |
1742 |
2427,6 |
58,3 |
R8(3) =
R80(3) =
5. Wyznaczanie regularnej pary korelacyjnej.
Regularna para korelacyjna to taka para korelacyjna, w której wektor korelacji R0 nie zawiera ujemnych składowych i elementy wektora umieszczone są w kolejności rosnącej.
By para korelacyjna naszego modelu była regularną parą korelacyjną, wektor korelacji R0 musiałby przyjąć postać:
0,447
R0 = 0,918
0,939
a macierz korelacji R
1,000 0,146 0,168
R = 0,146 1,000 -0,992
0,168 -0,992 1,000
10×5
10×1
10×5
10×1