Szacowanie parametrów liniowych modeli ekonometrycznych (modeli regresji)
Postać ogólna liniowego równania regresji (dla n zmiennych objaśniających i wyrazu wolnego):
y = b x + b x + ... + b x
b
n
n +
1 1
2
2
n 1
+
gdzie:
y – zmienna objaśniana
xi – i-ta zmienna objaśniająca
n – liczba zmiennych objaśniających
bi – i-ty parametr funkcji regresji
Interpretacja wartości parametrów liniowego równania regresji:
• parametry przy zmiennych ( b1 - bn)
wartość bi mówi o tym, o ile jednostek wzrasta przeciętnie wartość y w odpowiedzi na wzrost wartości xi o jednostkę (przy pozostałych zmiennych na tym samym poziomie)
• wyraz wolny ( bn+1)
wartość wyrazu wolnego mówi o tym, jaka jest teoretyczna wartość zmiennej objaśnianej y przy zerowych wartościach wszystkich zmiennych objaśniających Szacowanie parametrów bi modelu regresji odbywa się na podstawie zbioru obserwacji zmiennej objaśnianej i zmiennych objaśniających.
Niech:
Y oznacza wektor obserwacji zmiennej objaśnianej
X oznacza macierz obserwacji zmiennych objaśniających.
Wtedy wektor parametrów b uzyskuje się Metodą Najmniejszych Kwadratów (MNK) z poniższego wzoru:
1
−
b = (XTX) (XTY)
Otrzymany w ten sposób wektor parametrów gwarantuje minimalną sumę kwadratów odchyleń rzeczywistej wartości zmiennej objaśnianej od wartości teoretycznej, obliczonej z modelu, tj.
T
min ∑ ( y
y 2
ˆ
i −
i )
i=1
gdzie:
yi jest rzeczywistą wartością zmiennej objaśnianej w i-tej obserwacji yˆ jest teoretyczną wartością zmiennej objaśnianej, obliczoną jako ˆ y = b x + b x +...+ b x b
n n +
i
1 1
2 2
n 1
+
T jest liczbą obserwacji
Weryfikacja jakości modelu regresji
Zdefiniujmy pojęcia:
• Suma kwadratów reszt (SKR)
T
SKR = ∑ ( y
y 2
ˆ
i −
i )
i=1
• Ogólna suma kwadratów (OSK)
OSK = ∑ ( y
y 2 , gdzie y jest średnią arytmetyczną z obserwacji y i −
)
i=1
• Liczba stopni swobody
Q=T-K, gdzie T jest liczbą obserwacji, zaś K jest liczbą parametrów Miary dopasowania modelu do obserwacji:
• Współczynnik determinacji (R2):
2
SKR
R = 1 −
OSK
Współczynnik determinacji określa, jaki procent zmienności badanego zjawiska został
wyjaśniony przez model. Jest zawsze wartością z przedziału [0;1]. Im bliższy 1, tym lepiej.
• Błąd standardowy
SKR
s =
Q
Błąd standardowy informuje o tym, o ile jednostek wartość rzeczywista badanego zjawiska odchyla się od wartości teoretycznej w wyniku działania składnika losowego.
Jest
wielkością
niestandaryzowaną,
bezwzględną;
powinna
być
oceniana
w porównania do wartości badanego zjawiska. Im mniejsza, tym lepiej.
• Współczynnik zmienności losowej
s
V =
y
y
Współczynnik zmienności losowej informuje o tym, o ile procent wartość rzeczywista badanego zjawiska odchyla się od wartości teoretycznej w wyniku działania składnika losowego. Jest wielkością niestandaryzowaną, względną. Im mniejszy, tym lepiej.
Zadanie (1/s.320 MD163)
W ośmiu pierwszych miesiącach po wprowadzeniu do sprzedaży nowego środka kosmetycznego zanotowano następujące wielkości sprzedaży (w dziesiątkach zł): Miesiące 1
2
3
4
5
6
7
8
Sprzedaż 4,75
7,25
8,75
11,25
12,00
17,00
16,50
18,50
Postawiono hipotezę, że sprzedaż produktu rozwija się liniowo w czasie a. Sporządź wykres danych rzeczywistych i na jego podstawie oceń zasadność powyższej hipotezy
b. Wyznacz parametry trendu i podaj ich interpretację
c. Oceń jakość dopasowania modelu do danych rzeczywistych.
d. Postaw prognozę sprzedaży na dziewiąty miesiąc.
Ocena istotności statystycznej oszacowań parametrów równania regresji.
Wartości
parametrów
modelu
ekonometrycznego
jakie
uzyskujemy
w
wyniku
przeprowadzenia analizy regresji, np. w dodatku Analiza Danych programu Microsoft Excel, odzwierciedlają jedynie zależności pomiędzy wartościami zmiennych objaśniających a zmienną objaśnianą w ograniczonej próbce obserwacji, których użyliśmy do oszacowania parametrów. Użycie innej próbki mogłoby doprowadzić do uzyskania nieco innego modelu.
Miarą „wiarygodności” modelu może być to, czy wartości parametrów uzyskane przy innej próbce danych byłyby „podobne” do modelu pierwotnego. Formalnie jest to realizowane przy pomocy testu statystycznego, którego celem jest zweryfikowanie tzw. istotności statystycznej wartości parametrów.
Hipoteza zerowa:
H0: prawdziwa wartość parametru bi jest równa 0
Hipoteza alternatywna:
H1: prawdziwa wartość parametru bi jest różna od 0
Sprawdzian hipotezy:
*
t < t
i
α , Q
gdzie:
bi – wartość i-tego parametru równania regresji,
di – wartość błędu standardowego oszacowania i-tego parametru równania regresji, bi
t =
– wartość empiryczna statystyki t-Studenta,
i
di
*
tα - wartość krytyczna rozkładu t-Studenta dla poziomu istotności α oraz dla Q stopni
, Q
swobody (domyślnie α=0,05). Wartość krytyczną można odczytać z tablic statystycznych, lub przy użyciu funkcji ROZKŁAD.T.ODW(...) programu Microsoft Excel.
Jeżeli wyrażenie sprawdzianu hipotezy jest spełnione, przyjmujemy iż brak jest podstaw do odrzucenia hipotezy zerowej, mówiącej o tym, że prawdziwa wartość badanego parametru jest równa 0. Jest to sygnał, iż rozpatrywana zmienna objaśniająca nie ma wiarygodnego wpływu na zmienną objaśnianą.
Jeżeli wyrażenie sprawdzianu hipotezy nie jest spełnione, odrzucamy hipotezę zerową na rzecz hipotezy alternatywnej, mówiącej o tym, że prawdziwa wartość badanego parametru jest statystycznie istotnie różna od zera, co wskazuje, że otrzymane przez nas oszacowanie jest wiarygodne.
Wszystkie parametry modelu powinny być istotne statystycznie!
Warunkiem koniecznym stosowania modelu ekonometrycznego do prognozowania jest spełnienie ŁĄCZNIE poniższych warunków:
a. Postać modelu jest logiczna, nie budzi zastrzeżeń co do sensowności swojej postaci (ocena subiektywna).
b. Dopasowanie modelu do obserwacji rzeczywistych jest dobre (ocena obiektywna na podstawie miar: R2, błąd standardowy, współczynnik zmienności losowej) c. Wszystkie parametry występujące w modelu są istotne statystycznie (ocena obiektywna na podstawie przeprowadzenia testu t-Studenta dla każdej ze zmiennych modelu oraz dla wyrazu wolnego).