Dobór zmiennych objaśniających do modelu ekonometrycznego
Oznaczenia:
Y - zmienna objaśniana,
X , X ,..., X
1
2
k - potencjalne zmienne objaśniające.
Postać macierzowa:
y 1
x
x
.. x
11
21
k 1
y
x
x
.. x
Y = 2 X = 12
22
k 2
,
.
:
:
:
:
:
y
x
x
.. x
n
n 1
2 n
kn
Współczynniki korelacji:
r 1
1 r
r
.. r
12
13
1 k
r
r
1
r
.. r
2
21
23
2 k
R
R = r
r
1
.. r
31
32
3 k
0 = r 3 ,
,
:
:
:
:
..
:
r
r
r
r
..
1
k
k 1
k 2
k 3
gdzie
n ( y y x x
i −
)⋅ ( mi − )
∑
m
i=1
rm =
; m = ,
1 ,..
2 ., k
n
n
( y
y
x
x
i −
)2 ⋅
( mi − )2
∑
∑
m
i 1
=
i 1
=
n ( x x x x
li −
)
l ⋅ ( mi −
)
∑
m
1 n
i 1
=
rlm =
; x
x
l =
;
∑
n
n
li
( x
x
x
x
n i 1=
li −
)2
l
⋅
( mi − )2
∑
∑
m
i 1
=
i 1
=
l, m = ,
1 ,...,
2
k
Postulaty dotyczące zmiennych objaśniających:
•Wysoki poziom zmienności zmiennych objaśniających.
•Zmienne X , X ,..., X
1
2
k powinny być słabo skorelowane między sobą a jednocześnie silnie skorelowane ze zmienną Y.
Poziom zmienności
Zmienne objaśniające X , X ,..., X
1
2
k powinny charakteryzować się odpowiednio wysokim poziomem zmienności mierzonym współczynnikiem zmienności:
S X
v
l
=
,
l
X l
n
1
n
1
gdzie S
( x
x 2
) , x
x dla l = ,
1 ,...
2 , k .
l =
∑
X
=
l
∑ li − l
n
li
n
i=1
i=1
Krytyczny poziom zmienności *
v jest liczbą z zakresu
0
,
0 5 ,
0
; 20 .
Ze zbioru potencjalnych zmiennych objaśniających eliminujemy te, dla których współczynnik zmienności nie przekracza wybranej wartości krytycznej *
v .
Brak współliniowości
Metody doboru zmiennych objaśniających:
•metoda pojemności informacyjnej,
•metoda grafowa,
•metoda analizy współczynników korelacji.
Metoda pojemności informacyjnej.
k – liczba potencjalnych zmiennych objaśniających (pozostałych po usunięciu zmiennych o zbyt niskim poziomie zmienności).
Zbiór potencjalnych zmiennych objaśniających { X , X ,..., X }
1
2
k
zawiera 2 k −1 niepustych podzbiorów. Każdy podzbiór z tej rodziny numerujemy w pewnym porządku. Niech m oznacza numer wybranego podzbioru ℵ m .
Indywidualna pojemność informacyjna zmiennej Xl będącej elementem podzbioru ℵ m :
2
h =
rl
ml
∑| r | li
i ℵ
∈ m
Integralna pojemność informacyjna podzbioru ℵ m : H
h
m = ∑ mi
i ℵ
∈ m
Integralną pojemność informacyjną wyznacza się dla wszystkich podzbiorów zbioru { X , X ,..., X }
1
2
k
. Podzbiór o największej wartości
integralnego wskaźnika pojemności informacyjnej wyznacza zmienne objaśniające najlepsze w sensie pojemności informacyjnej.
W pewnej firmie przeprowadzono badania dotyczące wydajności pracy mające na celu zbudowanie modelu ekonometrycznego opisującego wydajność pracy. W grupie potencjalnych zmiennych objaśniających znalazły się zmienne: X - techniczne uzbrojenie pracy;
1
X - średnie roczne płace pracowników; 2
X 3 - straty czasu pracy z przyczyn organizacyjno – technicznych.
Macierz i wektor korelacji:
1
82
,
0
4 − 18
,
0
1
,
0 520
R =
,
0 824
1 − 0,07
9 R 0 = 0,640
− 18
,
0 1 − 0 07
, 9
1
− 0,210
W tym przykładzie występują 3 potencjalne zmienne objaśniające, stąd należy wyznaczyć integralne pojemności informacyjne dla 23 −1 = 7 podzbiorów potencjalnych zmiennych objaśniających.
Lista podzbiorów:
ℵ ={ X }
1
1
ℵ ={ X }
2
2
ℵ ={ X }
3
3
ℵ ={ X ; X }
4
1
2
ℵ ={ X ; X }
5
1
3
ℵ ={ X ; X }
6
2
3
ℵ ={ X ; X ; X }
7
1
2
3
Podzbiór ℵ = { X }
1
1
Indywidualny wskaźnik pojemności informacyjnej: 52
,
0
(
0)2
h =
= 0 2
, 7
11
1
Integralny wskaźnik pojemności informacyjnej: H = h = ,
0 27
1
11
Podzbiór ℵ = { X }
2
2
H = h = ,
0 41
2
22
Podzbiór ℵ = { X }
3
3
H = h = ,
0 04
3
33
4
1
2
Indywidualne wskaźniki pojemności informacyjnej:
,
0
( 520)2
( 6
,
0 40)2
h =
= 15
,
0
h =
= 0 22
,
41
1+ |0,824 |
42
1+ | 82
,
0
4 |
Integralny wskaźnik pojemności informacyjnej: H = h + h = 37
,
0
4
41
42
Podzbiór ℵ = { X ; X }
5
1
3
Indywidualne wskaźniki pojemności informacyjnej: 0
( ,520)2
(− 2
,
0
)
10 2
h =
= 0,23 h =
= ,
0 04
51
1+ | −0 181
,
|
53
1+ | −0 18
, 1 |
Integralny wskaźnik pojemności informacyjnej: H = h + h = ,
0 27
5
51
53
Podzbiór ℵ = { X ; X }
6
2
3
Indywidualne wskaźniki pojemności informacyjnej: (0 6
, 4 )
0 2
(− ,
0 21 )
0 2
h =
= ,
0 48 h =
= 0
,
0 4
62
1+ | 0
− 0
, 79 |
63
1+ | 0
− 0
, 79|
Integralny wskaźnik pojemności informacyjnej: H = h + h = 52
,
0
6
62
63
Podzbiór ℵ = { X ; X ; X }
7
1
2
3
Indywidualne wskaźniki pojemności informacyjnej: (0
)
520
,
2
(0 6
, 4 )
0 2
h =
= 1,
0 3 h =
= 0 2
, 1
71
1+ | 0 824
,
| + | −0 18
, 1 |
72
1+ | 8
,
0 24| + | − ,
0 079|
(− ,
0 21 )
0 2
h =
= 0 0
, 3
73
1+ | 0
− 0
, 79| + | − 1
,
0 81|
Integralny wskaźnik pojemności informacyjnej: H = h + h + h = 3
,
0 7
7
71
72
73
Integralna pojemność informacyjna jest największa dla podzbioru numer 6 co oznacza, że najlepszymi w sensie pojemności informacyjnej zmiennymi objaśniającymi są zmienne X , X
2
3 .
1. Wyznaczamy wartość krytyczną współczynnika korelacji
*
r .
2. W macierzy korelacji pomiędzy potencjalnymi zmiennymi objaśniającymi R zastępujemy zerami wszystkie elementy spełniające warunek:
*
| r |≤ r
ij
tworząc macierz '
R .
3. Na bazie macierzy
'
R buduje się graf. Wierzchołkami grafu są potencjalne zmienne objaśniające, natomiast krawędzie odpowiadają niezerowym elementom macierzy '
R .
Możliwe do otrzymania grafy to:
a) jeden graf spójny, w którym każdy wierzchołek jest połączony krawędziami z innym wierzchołkiem; b) więcej niż jeden podgrafów spójnych, które nie posiadają wspólnych krawędzi;
c) graf lub grafy spójne oraz graf lub grafy zerowe (bez krawędzi);
d) grafy zerowe.
4. Do zmiennych objaśniających zalicza się: a) zmienne, które tworzą grafy zerowe,
b) zmienne o maksymalnej liczbie krawędzi wybrane z każdego podgrafu spójnego; jeżeli w danym podgrafie jest więcej niż jedna zmienna o takiej samej maksymalnej liczbie krawędzi, to wybiera się spośród tych zmiennych najsilniej skorelowaną ze zmienną objaśnianą.
Wektor i macierz korelacji:
1 − 0 1
, 3
72
,
0
− 5
,
0 2
0 03
,
12
,
0
− 0,3
3
,
0
21
1 − 0 23
,
,
0 21
1
,
0 7 − 21
,
0
0
,
0 2
− ,
0
54
1 − ,
0 45
0 03
,
93
,
0
− 0 1,8
−
91
,
0
R =
1 − 0,28
,
0 87 − 0
,
0 7 R 0 = ,0
73
1 − 11
,
0
− 9
,
0 2
82
,
0
1 − 0,2
1
,
0
01
1
− ,
0
78
Wartość krytyczna współczynnika korelacji ( n = , 25 α = 05
,
0
):
,
2 072
*
r =
= ,
0 39
25 − 2 + ,
2 072
Macierz '
R :
1
0
0,72 − ,
0 52
0
0
0
1
0
0
0
0
0
1 − 0,45
0
0,93
0
'
R =
1
0
0 8
, 7
0
1
0 − 0 9
, 2
1
0
1
Graf:
1
3
5
2
4
6
7
Metoda analizy współczynników korelacji Etapy prac:
1. Wyznaczenie wartości krytycznej współczynnika korelacji, 2. Wybór z grupy potencjalnych zmiennych objaśniających zmiennej najsilniej skorelowanej ze zmienną objaśnianą, 3. Eliminacja ze zbioru potencjalnych zmiennych objaśniających wszystkich zmiennych skorelowanych ze zmienną wybraną w punkcie 2,
4. Powtarzanie kroków 2, 3 do wyczerpania zbioru potencjalnych zmiennych objaśniających.
Przykład (macierz korelacji i wektor korelacja – metoda grafowa): 1. Wybieramy zmienną X 3,
2. Eliminujemy zmienne: X 1, X 4, X 6, 3. Z pozostałych zmiennych ( X 2, X 5, X 7) wybieramy najsilniej skorelowaną ze zmienną objaśnianą ( R 0) czyli zmienną X 5, 4. Eliminujemy zmienną X 7, ponieważ jest skorelowana z X 5
(współczynnik korelacji z macierzy R wynosi –0,92), 5. Pozostała tylko zmienna X 2 i ją jako najsilniej skorelowaną wybieramy do grupy zmiennych objaśniających, 6. Zbiór potencjalnych zmiennych objaśniających został
wyczerpany – koniec metody.
7. Rezultat: zmienne objaśniające wybrane metodą analizy współczynników korelacji to zmienne: X 3, X 5, X 2