Adam Waszkowski
Dobór zmiennych objaśniających do modelu
-etap 1- sporządzenie zestawu potencjalnych zmiennych objaśniających, które mają wejść do modelu, na podstawie merytorycznej wiedzy o analizowanych zależnościach
-etap 2- redukcja zbioru zmiennych w oparciu o kryteria statystyczne.
Analiza poziomu zróżnicowania zmiennych
Zmienne objaśniające w modelu powinny charakteryzować się dostatecznie dużym zróżnicowaniem (poszczególne obserwacje powinny różnić się między sobą). Jeśli poszczególne obserwacje nie różnią się między sobą, lub różnią się niewystarczająco, wówczas określane są jako stałe lub quasi-stałe i nie powinny znajdować się modelu.
Miarą poziomu zróżnicowania zmiennych jest współczynnik zmienności obliczany zgodnie z formułą: V , gdzie
S odchylenie standardowe dla zmiennej x,
X średnia arytmetyczna zmiennej x.
Ze zbioru potencjalnych zmiennych objaśniających eliminuje się takie zmiennej x, dla których |V| V.
V* jest wartością graniczną współczynnika zmienności, ustalaną najczęściej na poziomie 10%.
Metoda analizy macierzy współczynników korelacji
Etap 1.
Ze zbioru potencjalnych zmiennych objaśniających eliminujemy zmienne X , dla których
r, r, gdzie:
r* wartość krytyczna współczynnika korelacji obliczana ze wzoru:
( t *
)2
α n−
r*
,
2)
=
2
( t *
)
α n−
+ n − 2
,
2)
t* wartość z tablic rozkładu t-Studenta o prawdopodobieństwie równym α oraz n-2 stopniach swobody (=ROZKŁAD.T.ODW(α; n-2).
Zmienne te nie wejdą do modelu. Analizy dokonuje się w oparciu o wektor współczynników korelacji między zmienną objaśnianą a zmiennymi objaśniającymi.
Etap 2.
Ze zbioru potencjalnych zmiennych objaśniających wybieramy taką zmienną X, dla której
r, max| r,|.
Zmienna ta wejdzie do modelu. Analizy dokonuje się również w oparciu o wektor współczynników korelacji między zmienną objaśnianą a zmiennymi objaśniającymi.
Etap 3.
Ze zbioru potencjalnych zmiennych objaśniających eliminujemy zmienne X, dla których
r, r.
Analizy dokonuje się w oparciu o macierz współczynników korelacji między potencjalnymi zmiennymi objaśniającymi.
Etap 2 oraz 3 należy powtarzać do momentu wyczerpania zbioru potencjalnych zmiennych objaśniających.
Adam Waszkowski
Metoda integralnej pojemności informacyjnej Hellwiga1
Dany jest zbiór X X, X, X, … , X „kandydatek” na zmienne objaśniające do jednorównaniowego liniowego modelu ekonometrycznego, który opisuje kształtowanie się wartości zmiennej zależnej Y. Dane są również współczynniki korelacji liniowej Pearsona:
r, między zmiennymi X i X dla i, j=1, 2, …, m
r, między zmiennymi Y a X dla j=1, 2, …, m.
Każdą z kandydatek można traktować jako źródło wiedzy o zmiennej zależnej Y. Zasadne jest więc traktowanie jej jako nośnika informacji.
W metodzie Hellwiga rozpatruje się wszystkie niepuste kombinacje zmiennych ze zbioru X. Liczba kombinacji wynosi 2 1. Zbiór numerów zmiennych tworzących s-tą kombinację, s = 1, 2, …, 2 1, oznaczamy przez C#.
Indywidualną pojemność informacyjną nośnika Xwchodzącego w skład s-tej kombinacji określamy jako: r
h
,
# ∑
&' | r
(
,|
a następnie obliczeniu polega integralna pojemność informacyjna s-tej kombinacji: H# ∑&' h .
(
#
Indywidualna i integralna pojemność informacyjna jest miarą uporządkowaną i przyjmuje wartości z przedziału <0; 1>.
Za najlepszą kombinację nośników informacji uznajemy ten podzbiór „kandydatek” na zmienne objaśniające, dla którego pojemność integralna jest największa, czyli: C*+,: H*+, maxH#: s 1, 2, 3, … , 2 1.
1 Gruszczyński M., Podgórska M., Ekonometria, Oficyna Wydawnicza SGH, Warszawa 2004.