dr Dušan Bogdanov
1
Ekonometria 1
Wykład 3
Dobór zmiennych do liniowego modelu ekonometrycznego
1
Przedmiotem naszego zainteresowania jest jednorównaniowy model liniowy, który mo
ż
emy
zapisa
ć
w postaci ogólnej:
t
tk
k
t
t
t
t
x
...
x
x
x
y
ε
α
α
α
α
+
+
+
+
=
3
3
2
2
1
1
(3.1)
gdzie:
t
y
- t-ta realizacja zmiennej obja
ś
nianej
tj
x
- t –ta realizacja j – tej zmiennej obja
ś
niaj
ą
cej
t
ε
- t – ty składnik losowy
Po okre
ś
leniu celu, przedmiotu i zakresu bada
ń
ekonometrycznych przechodzimy do specyfikacji
zmiennych. Na podstawie merytorycznej oceny i analizy modelowanych kategorii ekonomicznych
i relacji mi
ę
dzy nimi definiuje si
ę
zmienn
ą
obja
ś
nian
ą
przez model oraz potencjalne zmienne
obja
ś
niaj
ą
ce. Pomi
ę
dzy zmienn
ą
obja
ś
nian
ą
a zmiennymi obja
ś
niaj
ą
cymi powinna zachodzi
ć
zale
ż
no
ść
przyczynowo-skutkowa lub przynajmniej symptomatyczna. Wybrane zmienne powinny by
ć
mierzalne i dost
ę
pne, co pozawala utworzy
ć
szeregi ich realizacji.
Dana jest, wi
ę
c macierz obserwacji zmiennej obja
ś
nianej i potencjalnych zmiennych
obja
ś
niaj
ą
cych:
nm
n
n
n
m
m
x
...
x
x
y
...
...
...
...
...
x
...
x
x
y
x
...
x
x
y
2
1
2
22
21
2
1
12
11
1
(3.2)
Dalsza analiza ma charakter formalno-statystyczny i jest prowadzona na empirycznych
realizacjach zmiennych. Prowadzi ona zwykle do redukcji zbioru zmiennych obja
ś
niaj
ą
cych. Zmienne
stosowane w modelowaniu ekonometrycznym powinny posiada
ć
dostatecznie du
żą
zmienno
ść
.
Zmienno
ść
(zawarto
ść
informacyjna) jest mierzona współczynnikiem zmienno
ś
ci.
Przyjmuje si
ę
,
ż
e dla zmiennych obja
ś
niaj
ą
cych współczynnik zmienno
ś
ci powinien mie
ć
warto
ść
wi
ę
ksz
ą
ni
ż
10%, dla zmiennej obja
ś
nianej mo
ż
na przyj
ąć
nieco ni
ż
sz
ą
warto
ść
krytyczn
ą
współczynnika.
Dalsza redukcja zbioru zmiennych obja
ś
niaj
ą
cych ma na celu wyłonienie zbioru zmiennych
obja
ś
niaj
ą
cych silnie skorelowanych ze zmienn
ą
obja
ś
nian
ą
i słabo skorelowanych pomi
ę
dzy sob
ą
.
Pierwsza z wymienionych własno
ś
ci zwi
ą
zana jest z faktem,
ż
e zmienna obja
ś
niana w modelu
liniowym jest funkcj
ą
liniow
ą
zmiennych obja
ś
nianych. Druga własno
ść
decyduje natomiast
o dokładno
ś
ci ocen parametrów modelu uzyskanych metod
ą
najmniejszych kwadratów. Zagadnienia
te bli
ż
ej zostan
ą
omówione na wykładach dotycz
ą
cych estymacji.
1
Wykład opracowano na podstawie K Hanusik, U. Łangowska, Modelowanie ekonometryczne procesów
społeczno-ekonomicznych, Uniwersytet Opolski, Opole 1994, ss. 45-47
dr Dušan Bogdanov
2
Ekonometria 1
Informacja niezb
ę
dna do przeprowadzenia doboru zmiennych na tym etapie zawarta jest
w macierzy korelacji rozpatrywanych cech:
=
1
1
1
1
2
1
21
2
2
1
12
1
1
2
1
2
1
...
r
r
r
X
...
...
...
...
...
...
r
...
r
r
X
r
...
r
r
X
r
...
r
r
Y
X
...
X
X
Y
R
m
m
m
m
m
m
m
(3.3)
W przypadku małej ilo
ś
ci rozpatrywanych zmiennych bezpo
ś
rednia analiza macierzy korelacji
pozwala na dokonanie redukcji zbioru zmiennych obja
ś
niaj
ą
cych wprowadzanych do danego
równania modelu. Przy wi
ę
kszych ilo
ś
ciach kandydatek na zmienne obja
ś
niaj
ą
ce analiza taka jest
utrudniona ze wzgl
ę
du na rozmiary macierzy korelacji. Istniej
ą
metody analityczne pozwalaj
ą
ce
pokona
ć
t
ę
trudno
ść
. Do najpopularniejszych nale
ż
y metoda optymalnego doboru predykant
oraz metoda grafowa.
Metoda optymalnego doboru predykant. Na wst
ę
pie nale
ż
y utworzy
ć
wszystkie mo
ż
liwe
kombinacje zbioru zmiennych kandyduj
ą
cych do roli zmiennych obja
ś
niaj
ą
cych w równaniu modelu:
{X
1
},…,{X
m
}, {X
1
,X
2
},...,{X
1
, X
2
...,X
m
}. Otrzymujemy 2
m
-1 kombinacji. Ka
ż
d
ą
kombinacj
ę
rozpatrujemy
oddzielnie, wyznaczaj
ą
c dla niej tak zwan
ą
integraln
ą
pojemno
ść
informacyjn
ą
, która jest sum
ą
indywidualnych pojemno
ś
ci informacyjnych zmiennych wchodz
ą
cych w skład rozpatrywanej
kombinacji. Pojemno
ść
indywidualn
ą
zmiennej w danej kombinacji wyznacza si
ę
według formuły:
∑
=
=
l
m
i
ij
j
lj
r
r
h
1
2
(3.4)
gdzie:
l - numer rozpatrywanej kombinacji,
m
l
- liczba zmiennych w rozpatrywanej kombinacji,
r
ij
- współczynnik korelacji pomi
ę
dzy i-t
ą
i j-t
ą
kandydatk
ą
na zmienn
ą
obja
ś
niaj
ą
c
ą
(i,j=1,2,...m),
r
j
- współczynnik korelacji j-tej kandydatki na zmienn
ą
obja
ś
niaj
ą
c
ą
ze zmienn
ą
obja
ś
nian
ą
.
Z przedstawionego wzoru wida
ć
,
ż
e pojemno
ść
informacyjna zmiennej jest tym wi
ę
ksza,
im wi
ę
ksza jest jej korelacja ze zmienn
ą
obja
ś
nian
ą
oraz im słabsze s
ą
zwi
ą
zki korelacyjne mi
ę
dzy
zmiennymi w danej kombinacji. Pojemno
ść
integralna l
−
tej kombinacji kandydatek na zmienne
obja
ś
niaj
ą
ce wyra
ż
a si
ę
natomiast wzorem:
dr Dušan Bogdanov
3
Ekonometria 1
(
)
∑
=
−
=
=
l
m
m
j
,...
,
l
lj
l
h
H
1
1
2
2
1
(3.5)
Kombinacja o najwi
ę
kszej pojemno
ś
ci wyznacza zbiór zmiennych obja
ś
niaj
ą
cych. Istota metody
optymalnego wyboru predykant polega na tym,
ż
e wybiera si
ę
tak
ą
kombinacj
ę
zmiennych
obja
ś
niaj
ą
cych, które s
ą
relatywnie najsilniej powi
ą
zane ze zmienn
ą
obja
ś
nian
ą
i najsłabiej powi
ą
zane
ze sob
ą
.
Metoda grafowa. Jest to metoda prawie identyczna jak metoda grafowa stosowana do redukcji
zbioru zmiennych diagnostycznych. Metoda ta w zasadzie uwzgl
ę
dnia tylko postulat,
ż
e zmienne
obja
ś
niaj
ą
ce powinny by
ć
nieskorelowane mi
ę
dzy sob
ą
. Poniewa
ż
w praktyce nie ma mo
ż
liwo
ś
ci
uzyskania takiego układu zmiennych, dla których r
ij
= 0, zast
ę
puje si
ę
ten warunek mniej
rygorystycznym, a mianowicie: r
ij
≈
0. Oznacza to, i
ż
przyjmuje si
ę
,
ż
e korelacja mi
ę
dzy zmiennymi jest
dostatecznie niska, gdy charakteryzuj
ą
cy j
ą
współczynnik korelacji mi
ę
dzy zmiennymi przyjmuje
warto
ść
nieistotnie ró
ż
n
ą
od zera, przy danej liczbie obserwacji i zało
ż
onym poziomie istotno
ś
ci.
W utworzonej macierzy korelacji zmiennych - kandydatek do zbioru zmiennych obja
ś
niaj
ą
cych-
wszystkie współczynniki korelacji nieistotnie ró
ż
ne od zera zast
ę
puje si
ę
zerami, a pozostałe
jedynkami. Zmodyfikowan
ą
w ten sposób macierz korelacji traktuje si
ę
jako macierz przyległo
ś
ci grafu,
którego w
ę
złami s
ą
zmienne. Graf ten dzieli si
ę
nast
ę
pnie na podgrafy spójne. Zmienne
reprezentowane przez wierzchołki ka
ż
dego podgrafu spójnego charakteryzuj
ą
si
ę
istotnym
skorelowaniem mi
ę
dzy sob
ą
. Zgodnie z zało
ż
eniem omawianej metody, jako zmienne obja
ś
niaj
ą
ce
typowane s
ą
reprezentantki ka
ż
dego podgrafu. Reprezentantk
ą
danego podgrafu jest natomiast
zmienna poł
ą
czona najwi
ę
ksz
ą
liczb
ą
wi
ą
zadeł z pozostałymi jego w
ę
złami. Je
ż
eli w podgrafie
spójnym jest kilka w
ę
złów o tym samym maksymalnym stopniu, to wybiera si
ę
spo
ś
ród nich jako
zmienn
ą
obja
ś
niaj
ą
c
ą
cech
ę
najsilniej skorelowan
ą
ze zmienn
ą
obja
ś
nian
ą
.
Opisane procedury maj
ą
charakter pomocniczy, w ogólnym przypadku nie daj
ą
identycznych
rozwi
ą
za
ń
i nale
ż
y przy ich pomocy d
ąż
y
ć
do uzyskania nie jednego, ale małej ilo
ś
ci potencjalnych
układów zmiennych obja
ś
niaj
ą
cych. Zwykle dopiero w wyniku procesu weryfikacji nast
ę
puje wybór
najlepszego wariantu zestawu zmiennych obja
ś
niaj
ą
cych modelu.
dr Dušan Bogdanov
4
Ekonometria 1
Pytania kontrolne:
1. Wyja
ś
nij istot
ę
doboru zmiennych obja
ś
niaj
ą
cych metod
ą
optymalnego doboru predykant.
2. Wyja
ś
nij istot
ę
doboru zmiennych obja
ś
niaj
ą
cych metod
ą
grafow
ą
.
3. Która z wymieniowych metod lepiej oddaje istot
ę
doboru zmiennych do liniowego modelu
ekonometrycznego?
4. Oce
ń
precyzj
ę
metod doboru zmiennych.