1)
Ocena standardowego dopasowania modelu do danych empirycznych
Po oszacowaniu parametrów modelu należy następnie zweryfikować model m.in ocenić
stopień dopasowania modelu do danych empirycznych. Wykorzystujemy na tym etapie
wyznaczone wartości reszt. Składnik losowy epsilon jest zmienną losową, a zatem
charakteryzuje się pewnym rozrzutem wartości. Rozrzut ten możemy mierzyć za pomocą
wariancji i odchylenia standardowego. Oczywiste jest, że model jest tym lepiej dopasowany
do danych empirycznych im reszty są mniejsze.
a)
Średni błąd szacunku modelu (Se) (inne nazwy: Błąd standardowy estymacji,
odchylenie standardowe reszt)
Średni błąd szacunku modelu (Se) jest miarą dopasowania modelu. Miara ta opiera się na
resztach modelu, czyli rozbieżności pomiędzy rzeczywistymi wartościami zmiennej zależnej
w próbie (y
i
) a wartościami zmiennej zależnej wyliczonej na podstawie zbudowanego modelu
( ). Najlepiej byłoby, gdyby różnica ta była jak najbliższa zeru dla wszystkich badanych
obiektów próby.
Zatem, aby model był dobrze dopasowany, błąd standardowy estymacji (wyrażony jako
wariancja reszt modelu Se) powinien być jak najmniejszy. Inaczej im odchylenie standardowe
składnika losowego (Se) będzie mniejsze, tym model będzie lepiej pasował do danych.
Se=Odchylenie standardowe składnika losowego = odchylenie standardowe reszt = błąd standardowy estymacji
Interpretacja Se: wartości empiryczne odchylają się od wartości teoretycznych przeciętnie o
Se.
yi odchylają się od przeciętnie o Se.
Gdzie:
y
i
– wartości empiryczne zmiennej Y (wartości obserwowane w próbie)
= wartości teoretyczne zmiennej Y (wartości wyliczone z modelu)
b)
Współczynnik determinacji R
2
Jest to inne podejście do oceny standardowego dopasowania modelu do danych
empirycznych. W podejściu tym wychodzi się od analizy zmienności wartości zmiennej Y.
Zmienna przyjmuje wartość Y : y
1
, y
2
,…y
n
–(
nie wszystkie są jednakowe czyli występuje
zmienność).
Współczynnik determinacji (R
2
) - jest miarą dopasowania modelu. Wyraża on procent
zmienności zmiennej zależnej tłumaczony przez przyjęty model (procent zmienności
wyjaśnionej przez model). Wartość tego współczynnika mieści się w przedziale < 0; 1 >,
gdzie 1 oznacza doskonałe dopasowanie modelu, 0 – zupełny bark dopasowania. Dążymy do
tego żeby R
2
modelu było jak największe, bo oczywiste jest że model jest tym lepszy im
wyjaśnia więcej zmienności Y. (Im R
2
jest większy tym model jest lepszy, bo wyjaśnia więcej
zmienności zmiennej zależnej).
0 ≪
≪ 1 , [0 % ≪
≪ 100% ]
Współczynnik indeterminacji (
)- miara ta mówi o procencie zmienności nie wyjaśnionej
przez model.
Np. Gdy R
2
=0,72 oznacza że ok 72% zmienności Y można wyjaśnić przez przyjęty model
zależności liniowej. 28% zmienności Y nie jest wyjaśniona przez model. Dobry model jest
wtedy gdy współczynnik R
2
>65, to znaczy że ponad 65% zmienności jest wyjaśniona przez
model (ona tak nam powiedziała apropo projektu)
Ponieważ wartość współczynnika R
2
zależy od dopasowania modelu, ale jest również
wrażliwa na ilość zmiennych w modelu i liczność próby, bywają sytuacje, w których może
być obarczona pewnym błędem. Przykład błędu np. gdy danych jest mało to R
2
może być
duże, chociaż sam model jest kiepski: np. gdy n=2 to R
2
=1
Dalego też wyznacza się poprawianą wartość tego parametru: R
2
adj.
Dodanie jakiejkolwiek zmiennej do modelu zawsze powoduje wzrost R
2
,niezależnie od tego,
czy dana zmienna jest istotnie powiązana z Y czy nie. W związku z tym nie można opierać
porównań modeli z różną liczbą zmiennych objaśniających, na porównaniu R
2
dla tych
modeli.
c)
Adjusted R
2
(poprawiony,dopasowany R
2
) – Mówi o tym jak dobrze byłoby
dopasowane nasze równanie regresji do innej próby pobranej z tej samej populacji.
Poprawiony R
2
jest zawsze mniejszy niż R
2
.
R
2
adj.
jest zawsze <1 i może także przyjmować wartości ujemne. Uzyskanie ujemnej wartości
zdarza się najczęściej, gdy mamy mało danych i model jest w istocie źle dopasowany do
danych. Duże rozbieżności między R
2
i R
2
adj.
dają sygnał, że model jest niepoprawny.
Nie wolno posługiwać się R
2
gdy:
1. Model nie ma wyrazu wolnego
czyli powiazanie jest postaci: Y=β
1
* X + epsilon
2. Do oceny modeli które nie sa liniowe:
Y= e
BX
+ epsilon
3.Jeśli do estymacji parametrów modelu stosujemy metodę inną niż MNK.
Powiedziała że bez wzorów ale zostawiłam żeby wiedzieć o co chodzi☺
2)
Standardowe błędy szacunku parametrów modelu
Standardowy błąd szacunku parametru, pozwala na oszacowanie o ile przeciętnie mylimy się
w ocenie prawdziwej wartości βo podając punktowe oszacowanie βo (analogicznie dla β
1
prawdziwej i β
1
oszacowanej).
Standardowy błąd szacunku parametru βo = Sb
0
np. Sb
0
=12,0 (gdy punktowe oszacowanie dla βo=88)
Standardowy błąd szacunku parametru β
1
= Sb
1
np Sb
1
.=0,9 (gdy punktowe oszacowanie dla β
1
=4)
Interpretacja: (Sb
1
) Standardowy błąd szacunku parametru β
1
równego 0,9 mówi się, że
mylimy się przeciętnie o 0,9 jednostki, twierdząc że oszacowanie β
1
jest równe 4
Model jest precyzyjny jeżeli Sb
0
i Sb
1
są małe w porównaniu z b
0
i b
1
. Oceniamy to dzieląc
i
. Im ten iloraz jest większy tym model jest bardziej precyzyjny. W dobrych
modelach ten iloraz powinien być większy od 2 . Zły model gdy Sb
0
i Sb
1
są większe od b
0
i
b
1
.
Na ogół po oszacowaniu parametrów modelu oraz średnich błędów szacunku modelu i
standardowych błędów parametrów modelu zapisujemy oszacowany model w postaci:
=
+
∙
(Sb
0
) (Sb
1
)