Dobór zmiennych objaśniających do modelu ekonometrycznego

Oznaczenia:

Y - zmienna objaśniana,

X , X ,..., X

1

2

k - potencjalne zmienne objaśniające.

Postać macierzowa:

 y 1 

 x

x

.. x

11

21

k 1 

 

y





x

x

.. x

Y =  2  X =  12

22

k 2 



,

.

: 

 :

:

:

: 

 





 y

x

x

.. x

n 

 n 1

2 n

kn 

Współczynniki korelacji:

 r 1 

 1 r

r

.. r

12

13

1 k 

 





 r

r

1

r

.. r

2 

 21

23

2 k 

R

R =  r

r

1

.. r

31

32

3 k 

0 =  r 3  ,

,

 





 : 

 :

:

:

..

: 

 r 



 r

r

r

..

1 

k 

 k 1

k 2

k 3



gdzie

n ( y y x x

i −

)⋅ ( mi − )

∑

m

i=1

rm =

; m = ,

1 ,..

2 ., k

n

n

( y

y

x

x

i −

)2 ⋅

( mi − )2

∑

∑

m

i 1

=

i 1

=

n ( x x x x

li −

)

l ⋅ ( mi −

)

∑

m

1 n

i 1

=

rlm =

; x

x

l =

;

∑

n

n

li

( x

x

x

x

n i 1=

li −

)2

l

⋅

( mi − )2

∑

∑

m

i 1

=

i 1

=

l, m = ,

1 ,...,

2

k

Postulaty dotyczące zmiennych objaśniających:

•Wysoki poziom zmienności zmiennych objaśniających.

•Zmienne X , X ,..., X

1

2

k powinny być słabo skorelowane między sobą a jednocześnie silnie skorelowane ze zmienną Y.

Poziom zmienności

Zmienne objaśniające X , X ,..., X

1

2

k powinny charakteryzować się odpowiednio wysokim poziomem zmienności mierzonym współczynnikiem zmienności:

S X

v

l

=

,

l

X l

n

1

n

1

gdzie S

( x

x 2

) , x

x dla l = ,

1 ,...

2 , k .

l =

∑

X

=

l

∑ li − l

n

li

n

i=1

i=1

Krytyczny poziom zmienności *

v jest liczbą z zakresu

0

,

0 5 ,

0

; 20 .

Ze zbioru potencjalnych zmiennych objaśniających eliminujemy te, dla których współczynnik zmienności nie przekracza wybranej wartości krytycznej *

v .

Brak współliniowości

Metody doboru zmiennych objaśniających:

•metoda pojemności informacyjnej,

•metoda grafowa,

•metoda analizy współczynników korelacji.

Metoda pojemności informacyjnej.

k – liczba potencjalnych zmiennych objaśniających (pozostałych po usunięciu zmiennych o zbyt niskim poziomie zmienności).

Zbiór potencjalnych zmiennych objaśniających { X , X ,..., X }

1

2

k

zawiera 2 k −1 niepustych podzbiorów. Każdy podzbiór z tej rodziny numerujemy w pewnym porządku. Niech m oznacza numer wybranego podzbioru ℵ m .

Indywidualna pojemność informacyjna zmiennej Xl będącej elementem podzbioru ℵ m :

2

h =

rl

ml

∑| r | li

i ℵ

∈ m

Integralna pojemność informacyjna podzbioru ℵ m : H

h

m = ∑ mi

i ℵ

∈ m

Integralną pojemność informacyjną wyznacza się dla wszystkich podzbiorów zbioru { X , X ,..., X }

1

2

k

. Podzbiór o największej wartości

integralnego wskaźnika pojemności informacyjnej wyznacza zmienne objaśniające najlepsze w sensie pojemności informacyjnej.

Przykład:

W pewnej firmie przeprowadzono badania dotyczące wydajności pracy mające na celu zbudowanie modelu ekonometrycznego opisującego wydajność pracy. W grupie potencjalnych zmiennych objaśniających znalazły się zmienne: X - techniczne uzbrojenie pracy;

1

X - średnie roczne płace pracowników; 2

X 3 - straty czasu pracy z przyczyn organizacyjno – technicznych.

Macierz i wektor korelacji:



1

82

,

0

4 − 18

,

0



1

 ,

0 520





R =





 ,

0 824

1 − 0,07 

9 R 0 =  0,640

 − 18

,

0 1 − 0 07

, 9







1

− 0,210





W tym przykładzie występują 3 potencjalne zmienne objaśniające, stąd należy wyznaczyć integralne pojemności informacyjne dla 23 −1 = 7 podzbiorów potencjalnych zmiennych objaśniających.

Lista podzbiorów:

ℵ ={ X }

1

1

ℵ ={ X }

2

2

ℵ ={ X }

3

3

ℵ ={ X ; X }

4

1

2

ℵ ={ X ; X }

5

1

3

ℵ ={ X ; X }

6

2

3

ℵ ={ X ; X ; X }

7

1

2

3

Podzbiór ℵ = { X }

1

1

Indywidualny wskaźnik pojemności informacyjnej: 52

,

0

(

0)2

h =

= 0 2

, 7

11

1

Integralny wskaźnik pojemności informacyjnej: H = h = ,

0 27

1

11

Podzbiór ℵ = { X }

2

2

H = h = ,

0 41

2

22

Podzbiór ℵ = { X }

3

3

H = h = ,

0 04

3

33

Podzbiór ℵ = { X ; X }

4

1

2

Indywidualne wskaźniki pojemności informacyjnej:

,

0

( 520)2

( 6

,

0 40)2

h =

= 15

,

0

h =

= 0 22

,

41

1+ |0,824 |

42

1+ | 82

,

0

4 |

Integralny wskaźnik pojemności informacyjnej: H = h + h = 37

,

0

4

41

42

Podzbiór ℵ = { X ; X }

5

1

3

Indywidualne wskaźniki pojemności informacyjnej: 0

( ,520)2

(− 2

,

0

)

10 2

h =

= 0,23 h =

= ,

0 04

51

1+ | −0 181

,

|

53

1+ | −0 18

, 1 |

Integralny wskaźnik pojemności informacyjnej: H = h + h = ,

0 27

5

51

53

Podzbiór ℵ = { X ; X }

6

2

3

Indywidualne wskaźniki pojemności informacyjnej: (0 6

, 4 )

0 2

(− ,

0 21 )

0 2

h =

= ,

0 48 h =

= 0

,

0 4

62

1+ | 0

− 0

, 79 |

63

1+ | 0

− 0

, 79|

Integralny wskaźnik pojemności informacyjnej: H = h + h = 52

,

0

6

62

63

Podzbiór ℵ = { X ; X ; X }

7

1

2

3

Indywidualne wskaźniki pojemności informacyjnej: (0

)

520

,

2

(0 6

, 4 )

0 2

h =

= 1,

0 3 h =

= 0 2

, 1

71

1+ | 0 824

,

| + | −0 18

, 1 |

72

1+ | 8

,

0 24| + | − ,

0 079|

(− ,

0 21 )

0 2

h =

= 0 0

, 3

73

1+ | 0

− 0

, 79| + | − 1

,

0 81|

Integralny wskaźnik pojemności informacyjnej: H = h + h + h = 3

,

0 7

7

71

72

73

Integralna pojemność informacyjna jest największa dla podzbioru numer 6 co oznacza, że najlepszymi w sensie pojemności informacyjnej zmiennymi objaśniającymi są zmienne X , X

2

3 .

Metoda grafowa.

1. Wyznaczamy wartość krytyczną współczynnika korelacji

*

r .

2. W macierzy korelacji pomiędzy potencjalnymi zmiennymi objaśniającymi R zastępujemy zerami wszystkie elementy spełniające warunek:

*

| r |≤ r

ij

tworząc macierz '

R .

3. Na bazie macierzy

'

R buduje się graf. Wierzchołkami grafu są potencjalne zmienne objaśniające, natomiast krawędzie odpowiadają niezerowym elementom macierzy '

R .

Możliwe do otrzymania grafy to:

a) jeden graf spójny, w którym każdy wierzchołek jest połączony krawędziami z innym wierzchołkiem; b) więcej niż jeden podgrafów spójnych, które nie posiadają wspólnych krawędzi;

c) graf lub grafy spójne oraz graf lub grafy zerowe (bez krawędzi);

d) grafy zerowe.

4. Do zmiennych objaśniających zalicza się: a) zmienne, które tworzą grafy zerowe,

b) zmienne o maksymalnej liczbie krawędzi wybrane z każdego podgrafu spójnego; jeżeli w danym podgrafie jest więcej niż jedna zmienna o takiej samej maksymalnej liczbie krawędzi, to wybiera się spośród tych zmiennych najsilniej skorelowaną ze zmienną objaśnianą.

Przykład:

Wektor i macierz korelacji:



1 − 0 1

, 3

72

,

0

− 5

,

0 2

0 03

,

12

,

0

− 0,3 

3

 ,

0



21











1 − 0 23

,

,

0 21

1

,

0 7 − 21

,

0

0

,

0 2

− ,

0



54



1 − ,

0 45

0 03

,

93

,

0

− 0 1,8

−



91

,

0









R = 

1 − 0,28

,

0 87 − 0

,

0 7 R 0 =  ,0 

73



1 − 11

,

0

− 9

,

0 2





82

,

0











1 − 0,2 

1

 ,

0



01









1





− ,

0



78

Wartość krytyczna współczynnika korelacji ( n = , 25 α = 05

,

0

):

,

2 072

*

r =

= ,

0 39

25 − 2 + ,

2 072

Macierz '

R :



1

0

0,72 − ,

0 52

0

0

0







1

0

0

0

0

0



1 − 0,45

0

0,93

0

'





R = 

1

0

0 8

, 7

0



1

0 − 0 9

, 2







1

0









1

Graf:

1

3

5

2

4

6

7

Metoda analizy współczynników korelacji Etapy prac:

1. Wyznaczenie wartości krytycznej współczynnika korelacji, 2. Wybór z grupy potencjalnych zmiennych objaśniających zmiennej najsilniej skorelowanej ze zmienną objaśnianą, 3. Eliminacja ze zbioru potencjalnych zmiennych objaśniających wszystkich zmiennych skorelowanych ze zmienną wybraną w punkcie 2,

4. Powtarzanie kroków 2, 3 do wyczerpania zbioru potencjalnych zmiennych objaśniających.

Przykład (macierz korelacji i wektor korelacja – metoda grafowa): 1. Wybieramy zmienną X 3,

2. Eliminujemy zmienne: X 1, X 4, X 6, 3. Z pozostałych zmiennych ( X 2, X 5, X 7) wybieramy najsilniej skorelowaną ze zmienną objaśnianą ( R 0) czyli zmienną X 5, 4. Eliminujemy zmienną X 7, ponieważ jest skorelowana z X 5

(współczynnik korelacji z macierzy R wynosi –0,92), 5. Pozostała tylko zmienna X 2 i ją jako najsilniej skorelowaną wybieramy do grupy zmiennych objaśniających, 6. Zbiór potencjalnych zmiennych objaśniających został

wyczerpany – koniec metody.

7. Rezultat: zmienne objaśniające wybrane metodą analizy współczynników korelacji to zmienne: X 3, X 5, X 2