Przykład
Jedna zmienna objaśniająca
Na podstawie danych statystycznych zamieszczonych w tablicy oszacować parametry strukturalne modelu produkcji
Yt = α1X1t + α0 + ξt
gdzie
Yt – produkcja (w tyś)
X1t – zatrudnienie (osoby)
Kolumnowy wektor realizacji zmiennych endogenicznych oraz macierzy X realizacji zmiennych.
Interpretacja parametru:
Wzrost wielkości zatrudnienia X1t o 1 osobę spowoduje wzrost przeciętnego poziomu produkcji o 1,3203 tyś. szt.
a0 = 3,8483 tyś. szt. – taką średnią wartość przyjmuje wielkość produkcji Yt. W przypadku gdy X1t zatrudnienie będzie równe zero.
ZAGADNIENIE KOINCYDENCJI
Dany jest model
Yt = 1, 3203X1t + 3, 8483 + ut
oraz współczynnik korelacji liniowej Pearsona między produkcją a zatrudnieniem r=0,9349
Wolnego parametru nie badamy pod względem koincydencji.
Zasada koincydencji głosi, że:
sgn(rx, y)≡sgn(a1)
Stąd wynika że:
sgn(rx1t, yt)≡sgn(a1)
Weryfikacja modelu
Wartości teoretyczne modelu dane są następującą formułą
Yt* = 1, 3202Xt + 3, 8483
Zatem mamy:
Y1* = 1, 3202 × 28 + 3, 8483 = 40.8174
Y2* = 1, 3202 × 24 + 3, 8483 = 35, 5361
⋮ ⋮ ⋮ ⋮ ⋮
Y20* = 1, 3202 × 32 + 3, 8483 = 46, 0987
wektor zatrudnienia
Reszty modelu
Reszta modelu dana jest następującą formułą
ut = yt − yt* E(ξ)=0
Stąd
u1 = 35, 2 − 40, 8174 = −5, 6174
u2 = 33, 8 − 35, 5361 = −1, 7361
⋮ ⋮ ⋮ ⋮
u20 = 46, 8 − 46, 0987 = 0, 7013
wartość empiryczna wartość teoretyczna
reszta „ – ” modelu przeszacowanie
reszta „ + ” modelu niedoszacowanie
reszta „ 0 ” stan idealny
Stąd:
$$\sum_{t = 1}^{20}u_{t} = 0,0000$$
MIARY STRUKTURY STOCHASTYCZNEJ
Wariancja resztowa i odchylenie standardowe reszt
Przy spełnionych warunkach Metody Najmniejszych Kwadratów nieobciążonym estymatorem wariancji resztowej jest wariancja resztowa wyznaczona wg następującej formuły:
$$\text{Su}^{2} = \frac{1}{n - k}\ \sum_{i = 1}^{n}{(Y_{t} - Y_{t}^{*})^{2}} = \frac{1}{n - k}\sum_{t = 1}^{n}u_{t}^{2}$$
n – liczba obserwacji
k – liczba parametrów
n-k – stopnie swobody
Pierwiastek kwadratowy z wariancji resztowej daje tzw. Odchylenie standardowe reszt, czyli:
$$Su = \sqrt{\text{Su}^{2}}$$
(Im większa wariancja tym lepiej – lepszy model )
Interpretacja odchylenia standardowego:
Odchylenie standardowe reszt informuje o ile średnio rzecz biorąc in plus bądź in minus odchylają się rzeczywiste realizacje zmiennej endogenicznej od wartości teoretycznych wyznaczonych przez model.
Przykład:
n = 20 Su2 = 0, 9930 (tys.szt.)2
Stąd:
k = 2 Su = 3, 1612 (tys.szt.)
Rzeczywiste realizacje zmiennej endogenicznej Yt (wielkość produkcji) odchylają się średnio rzecz biorąc in plus bądź in minus o 3,1612 (tyś. szt.) od wartości teoretycznych wyznaczonych przez model.
Macierz wariancji i kowariancji oraz średnie błędy szacunku
(są to miary służące do badania precyzji modelu)
Przy spełnionych warunkach Metody Najmniejszych Kwadratów macierz wariancji i kowariancji dana jest następującą formułą:
D2(a) = S2(X′X)−1
gdzie S2 = Su2
D2(a) = Su2(X′X)−1
$D^{2}\left( a \right) = \begin{bmatrix} \sqrt{} & \\ & \sqrt{} \\ \end{bmatrix}$
Wyciągając pierwiastek z głównej przekątnej otrzymujemy błędy oszacowania parametrów.
Miary struktury stochastycznej (wariancja resztowe oraz macierz wariancji i kowariancji) modelu związane są ze składnikiem losowym.
Miaryą precyzji parametrów strukturalnych są średnie błędy szacunku.
Kwadraty błędów szacunku znajdują się na głównej przekątnej macierzy wariancji i kowariancji. Pierwiastek wariancji estymatora daje zatem średni błąd szacunku dla danego parametru.
Przykład:
$$(X^{'}X) = \begin{bmatrix}
18537 & 597 \\
597 & 20 \\
\end{bmatrix}$$
$(X^{'}X)^{- 1} = \begin{bmatrix} 0,0014 & - 0,0417 \\ - 0,0417 & 1,2939 \\ \end{bmatrix}$ ← macierz pomnożona przez Su2
$D^{2}(a) = \begin{bmatrix} 0,0139 & - 0,4163 \\ - 0,4163 & 12,9258 \\ \end{bmatrix}$ główna przekątna musi być dodatnia
(kowariancja – miara zależności, nie jest unormowana na żadnym przedziale)
Z głównej przekątnej wyciągamy pierwiastki.
Odchylenie standardowe estymatora = średnie błędy szacunku
$$D\left( a_{1} \right) = \sqrt{0,0139} = 0,1181$$
$$D\left( a_{2} \right) = \sqrt{12,9258} = 3,5952$$
Błąd szacunku podpisuje się pod parametrem
Yt = 1, 3203X1t + 3, 8483 + ut
(0,1181) (3,5952)
MIARY DOPASOWANIA MODELU DO DANYCH EMPIRYCZNYCH
Współczynnik zbieżności
Dany jest następującą formułą
$$\varphi^{2} = \frac{\sum_{t = 1}^{n}{(Y_{t} - Y_{t}^{*})^{2}}}{\sum_{t = 1}^{n}{(Y_{t} - \overset{\overline{}}{Y})^{2}}}$$
Miara φ2 przyjmuje wartości z przedziału [0,1]. Im wartość współczynnika zbieżności jest bliższa jedności bądź równa 1 tym gorzej model dopasowany jest do rzeczywistości.
Ogólna interpretacja
Współczynnik zbieżności informuje w jaki stopniu wariancja zmiennej endogenicznej Yt (zmienność Yt) nie została wyjaśniona przez model ekonometryczny.
Współczynnik determinacji
Jest miarą alternatywną w stosunku do współczynnika zbieżności i dany jest formułą
R2 = 1 − φ2
Przyjmuje wartości z przedziału [0,1]. Im współczynnik determinacji jest bliższy jedności lub równy 1 tym lepiej model dopasowany jest do rzeczywistości.
Interpretacja faktyczna
Współczynnik determinacji informuje w jakim stopniu wariancja zmiennej endogenicznej Yt została wyjaśniona przez model ekonometryczny.
Wady:
Jego wartość rośnie wraz ze wzrostem liczby zmiennych objaśniających modelu.
Skorygowany współczynnik determinacji
$${\tilde{R}}^{2} = 1 - \frac{n - 1}{n - m - 1}(1 - R^{2})$$
liczba obserwacji liczba zmiennych objaśniających
Między współczynnikiem determinacji i współczynnikiem skorygowanym determinacji zachodzi następująca nierówność:
$$R^{2} > {\tilde{R}}^{2}$$
Można tylko stosować dla modeli liniowych
Współczynnik zmienności losowej
Dany jest formułą:
$$Vs = \frac{\text{Su}}{\overset{\overline{}}{Y}} \times 100\%$$
średnia arytmetyczna z realizacji Y zmiennej endogenicznej
Im niższa wartość Vs tym lepiej dopasowany model, im wyższe Vs tym gorzej dopasowany model.
Współczynnik zmienności losowej informuje jaką część średniego poziomu zmiennej endogenicznej stanowią wahania przypadkowe.
Współczynnik zbieżności
$$\overset{\overline{}}{Y} = 43,26\ \left( tys.szt. \right)$$
$$\sum_{t = 1}^{20}{(y_{t} - \overset{\overline{}}{Y})^{2} = 1429,008}\ $$
$$\sum_{t = 1}^{20}{u_{t}^{2} = 179,8743}\ $$
stąd
φ2 = 12, 59% wysoki poziom
Interpretacja
12,59% wariancji zmiennej endogenicznej Yt (wielkość produkcji) nie zostało wyjaśnione przez model ekonometryczny.
Zatem:
Współczynnik determinacji wynosi:
R2 = 87, 41%
87,41% wariancji zmiennej endogenicznej Yt (wartość produkcji) zostało wyjaśnione przez model ekonometryczny.
Współczynnik zmienności losowej wynosi
Vs = 7, 31%
7,31% przeciętnego poziomu zmiennej endogenicznej Yt stanowią wahania przypadkowe.
Przykład:
Na podstawie danych statystycznych w tablicy oszacować model:
Yt = α1X1t + α0 + ξt
Yt |
X1t |
Y1* |
Ut2 |
$$(Y_{t} - \overset{\overline{}}{Y})^{2}$$ |
---|---|---|---|---|
1 | 2 | 0,542 | 0,2089 | 0,062 |
0 | 0 | 1,17 | 1,3722 | 1,562 |
2 | -2 | 0,2 | 0,04 | 0,562 |
2 | -2 | 0,514 | 0,2644 | 0,562 |
1,8857 | 2,75 |
Szacowanie parametrów strukturalnych
$Y = \begin{bmatrix} 1 \\ 0 \\ 2 \\ 2 \\ \end{bmatrix}$ $X = \left\lbrack \begin{matrix} 2 \\ 0 \\ - 2 \\ - 1 \\ \end{matrix}\begin{matrix} 1 \\ 1 \\ 1 \\ 1 \\ \end{matrix} \right\rbrack$
$(X^{'}X)^{- 1} = \begin{bmatrix} 0,114 & 0,028 \\ 0,028 & 0,257 \\ \end{bmatrix}$ $X^{'}Y = \begin{bmatrix} - 4 \\ 5 \\ \end{bmatrix}$
$$a = \begin{bmatrix}
- 0,31 \\
1,17 \\
\end{bmatrix}$$
↓
Y1 = −0, 31X1t + 1, 17 + ut
Wzrost X o 1 jednostkę spowoduje przeciętny spadek zmiennej endogenicznej Yt o 0,31 jednostki.
Wartości teoretyczne modelu
Y1* = −0, 31 × 2 + 1, 17 = 0, 542
Y2* = −0, 31 × 0 + 1, 17 = 1, 17
⋮ ⋮ ⋮ ⋮ ⋮
Y4* = −0, 31 × ( − 1)+1, 17 = 1, 485
Wariancja resztowa
$Su^{2} = \frac{1}{n - k}\sum_{}^{}{(Y_{t} - Y_{t}^{*})^{2}}$ - wyniki w tabeli
n = 4 k = 2
↓
$$Su^{2} = \frac{1}{4 - 2} \times 1,8857 = 0,9428$$
Odchylenie standardowe reszt
$$Su = \sqrt{0,9428} = 0,971$$
Macierz wariancji i kowariancji oraz średnie błędy szacunku.
D2(a) = Su2(X′X)−1
$$D^{2}\left( a \right) = 0,9428 \times \begin{bmatrix}
0,114 & 0,028 \\
0,028 & 0,257 \\
\end{bmatrix} = 0,32$$
Stąd średnie błędy szacunku dane są jako:
$$D^{2}\left( a_{1} \right) = \sqrt{0,1077} = 0,32$$
$$D^{2}\left( a_{*} \right) = \sqrt{0,2424} = 0,49$$
Model zapisany jako
Y1 = −0, 31X1t + 1, 17 + ut
(0,32) (0,49)
Dopasowanie modelu do danych empirycznych
Współczynnik zbieżności
$\varphi^{2} = \frac{\sum_{t = 1}^{n}{(Y_{t} - Y_{t}^{*})^{2}}}{\sum_{t = 1}^{n}{(Y_{t} - \overset{\overline{}}{Y})^{2}}}\ \ \ \ \Rightarrow \ \ \ \ \ \ \frac{1,8857}{2,75} = 0,6857$ → φ2 = 68, 57%
Średnia zmiennej endogenicznej wynosi:
$$\overset{\overline{}}{Y} = 1,25$$
Współczynnik determinacji:
R2 = 1 − φ2 = 1 − 0, 6857 = 0, 3143
↓
R2 = 31, 43
Współczynnik zmiennej losowej
$Vs = \frac{\text{Su}}{\overset{\overline{}}{Y}} \times 100\%$ → $Vs = \frac{0,9428}{1,25} \times 100\% = 77,68$
WŁASNOŚCI ESTYMATORÓW
Estymator nieobciążony
Estymator jest nieobciążony jeżeli jego wartość oczekiwana (nadzieja matematyczna) jest równa estymowanemu parametrowi.
[czyli modelujemy na poziome przeciętnym (średnim)
Yt = Yt* → $\overset{\overline{}}{Y} = \overset{\overline{}}{Y^{*}}$
Przeciętny poziom świata teoretycznego jest taki sam jak przeciętny poziom świata rzeczywistego wtedy estymator jest nieobciążony]
E(a)=α
poziom średniej
Dla modelu danego jako
y = Xα + ξ
(model ekonometryczny macierzowy dla dowolnego modelu z wieloma zmiennymi objaśniającymi)
Wektor parametrów strukturalnych dany jest jako
a = (X′X)−1 X′Y
Jest estymatorem nieobciążonym czyli
E(a) = E[(X′X)−1X′Y] = E[(X′X)−1X′(Xα+ξ)]
Ponieważ zmienne X (objaśniające) są nielosowe, więc:
E(α) = α
E(ξ) = 0 (wartość oczekiwana składnika losowego =0)
Stąd estymator parametrów strukturalnych jest nieobciążony jeżeli:
zmienne objaśniające są nielosowe – kowariancja składnika losowego nie zależy od zmiennych objaśniających
E(Xξ) = 0
składnik losowy ma wartość oczekiwaną równą zero
E(ξ) = 0
Estymator zgodny
Estymator parametru α jest zgodny jeżeli jest stochastycznie zbieżny do szacowanego niezgodnego parametru α. Oznacza to, że przy wzroście liczby obserwacji do nieskończoności jego wartość dąży stochastycznie do prawdziwej wartości parametru
p{|a−α|<ε} = 1
Jeżeli wraz ze wzrostem liczebności próby oczekiwana wartość rozkładu estymatora zmierza do wartości szacowanego parametru, a jednocześnie wariancja estymatora zmierza do zera, to estymator taki jest zgodny
Estymator efektywny
Przy danych kilku estymatorach zgodnych i nieobciążonych estymatorem najefektywniejszym jest ten, który posiada najmniejszą wariancję.
Jeżeli spełnione są założenia klasyczne Metody Najmniejszych Kwadratów (dotyczące składnika losowego oraz zmiennych objaśniających) to estymator:
a = (X′X)−1 X′Y
jest estymatorem najefektywniejszym spośród estymatorów liniowych, gdzie jego wariancja dana jest następującą formułą:
D2(a) = δ(X′X)−1
Założenie klasyczne Metody Najmniejszych Kwadratów w odniesieniu do własności estymatorów:
Jeżeli zmienne objaśniające są współliniowe, to nie istnieje estymator dany formułą:
a = (X′X)−1 X′Y
ponieważ nie istnieje macierz odwrotna do macierzy X’X ponieważ wyznacznik macierzy jest równy zero czyli:
det(X′X) = 0.
Jeżeli wariancja składnika losowego nie jest stała w czasie to:
a = (X′X)−1 X′Y
jest nieobciążony i zgodny, ale nie jest już najefektywniejszy.
Jeżeli składnik losowy jest zależny
cov(ξt, ξt + τ)≠0
a w zbiorze zmiennych objaśniających nie ma zmiennej endogenicznej opóźnionej w czasie to:
a = (X′X)−1 X′Y
jest nieobciążony i zgodny, ale nie jest już najefektywniejszy.
Jeżeli składnik losowy jest zależny
cov(ξt, ξt + τ)≠0
a w zbiorze zmiennych objaśniających istnieje zmienna endogeniczna opóźniona w czasie to:
a = (X′X)−1 X′Y
nie jest zgodny.
Jeżeli wariancja składnika losowego jest funkcją zmiennych objaśniających to estymator
a = (X′X)−1 X′Y
nie jest zgodny.
Klasyczne założenia dotyczące składnika losowego
Dana jest macierz wariancji i kowariancji składnika losowgo
$$E\left( \xi\xi^{'} \right) = \left\lbrack \begin{matrix}
D^{2}\left( \xi_{1} \right) \\
E(\xi_{2}\xi_{1}) \\
\ldots \\
E(\xi_{n}\xi_{1}) \\
\end{matrix}\begin{matrix}
E\left( \xi_{1}\xi_{2} \right) \\
D^{2}\left( \xi_{2} \right) \\
\ldots \\
E(\xi_{n}\xi_{2}) \\
\end{matrix}\begin{matrix}
E\left( \xi_{1}\xi_{3} \right) \\
E\left( \xi_{2}\xi_{3} \right) \\
\ldots \\
E(\xi_{n}\xi_{3}) \\
\end{matrix}\begin{matrix}
\ldots \\
\ldots \\
\ldots \\
\ldots \\
\end{matrix}\begin{matrix}
E\left( \xi_{1}\xi_{n} \right) \\
E\left( \xi_{2}\xi_{n} \right) \\
\ldots \\
D^{2}\left( \xi_{n} \right) \\
\end{matrix} \right\rbrack$$
Macierz wariancji i kowariancji składnika losowego jest: (główna przekątna jest wariancją)
- macierzą kwadratową, symetryczną o wymiarach (n*n)
- na głównej przekątnej znajdują się wariancje składników losowych poszczególnych okresów (w przypadku szeregów czasowych) natomiast poza główną przekątną znajdują się kowariancje między składnikami losowymi poszczególnych okresów
Cztery sytuacje ze względu na macierz wariancji i kowariancji składnika losowego
Sytuacja 1.
Spełnione założenia Metody Najmniejszych Kwadratów
- wariancja jest jednorodna:
D2(ξ1) = D2(ξ2) = … = D2(ξn) = δ2
- brak autokorelacji, czyli składnik losowy jest niezależny:
E(ξtξt + τ) = 0 dla każdego τ > 0
wówczas macierz wariancji i kowariancji ma następującą postać:
$$E\left( \xi\xi^{'} \right) = \left\lbrack \begin{matrix}
\delta^{2} \\
0 \\
\ldots \\
0 \\
\end{matrix}\begin{matrix}
0 \\
\text{\ δ}^{2} \\
\ldots \\
0 \\
\end{matrix}\ \begin{matrix}
0 \\
0 \\
\ldots \\
0 \\
\end{matrix}\begin{matrix}
\ldots \\
\ldots \\
\ldots \\
\ \ldots \\
\end{matrix}\begin{matrix}
0 \\
0 \\
\ldots \\
\delta^{2} \\
\end{matrix} \right\rbrack = \delta^{2}1n$$
δ2 - wariancja składnika losowego
δ21n - macierz jednostkowa
Sytuacja 2.
Nie jest spełnione założenie o jednorodności wariancji składnika losowego
Oznacza to iż:
D2(ξ1) ≠ D2(ξ2) ≠ … ≠ D2(ξn) ≠ δ2
a składnik losowy jest niezależny (nie występuje autokorelacja składnika losowego) tzn.
E(ξtξt + τ) = 0 dla każdego τ > 0
wówczas macierz wariancji i kowariancji składnika losowego jest macierzą diagonalną i ma postać:
$$E\left( \xi\xi^{'} \right) = \left\lbrack \begin{matrix}
D^{2}\left( \xi_{1} \right) \\
0 \\
\ldots \\
0 \\
\end{matrix}\begin{matrix}
0 \\
D^{2}\left( \xi_{2} \right) \\
\ldots \\
0 \\
\end{matrix}\ \begin{matrix}
0 \\
0 \\
\ldots \\
0 \\
\end{matrix}\begin{matrix}
\ldots \\
\ldots \\
\ldots \\
\ \ldots \\
\end{matrix}\begin{matrix}
0 \\
0 \\
\ldots \\
D^{2}\left( \xi_{n} \right) \\
\end{matrix} \right\rbrack$$
Sytuacja 3.
Jeżeli spełnione jest założenie o jednorodności wariancji składnika losowego, czyli:
D2(ξ1) = D2(ξ2) = … = D2(ξn) = δ2
a składnik losowy jest zależny (występuje autokorelacja składnika losowego)
wówczas macierz wariancji i kowariancji składnika losowego jest macierzą symetryczną i ma postać:
$$E\left( \xi\xi^{'} \right) = \left\lbrack \begin{matrix}
\delta^{2} \\
\rho_{21} \\
\ldots \\
\rho_{n1} \\
\end{matrix}\begin{matrix}
\rho_{12} \\
\text{\ δ}^{2} \\
\ldots \\
\rho_{n2} \\
\end{matrix}\ \begin{matrix}
\rho_{13} \\
\rho_{23} \\
\ldots \\
\rho_{n3} \\
\end{matrix}\begin{matrix}
\ldots \\
\ldots \\
\ldots \\
\ \ldots \\
\end{matrix}\begin{matrix}
\rho_{1n} \\
\rho_{2n} \\
\ldots \\
\delta^{2} \\
\end{matrix} \right\rbrack$$