5. Wymień miary oceny jakości modelu regresji liniowej i podaj, jakie te miary powinny przyjąć wartości, żeby dany model można było uznać za dobry.
Ocena standardowego dopasowania modelu do danych empirycznych
Po oszacowaniu parametrów modelu należy następnie zweryfikować model m.in ocenić stopień dopasowania modelu do danych empirycznych. Wykorzystujemy na tym etapie wyznaczone wartości reszt. Składnik losowy epsilon jest zmienną losową, a zatem charakteryzuje się pewnym rozrzutem wartości. Rozrzut ten możemy mierzyć za pomocą wariancji i odchylenia standardowego. Oczywiste jest, że model jest tym lepiej dopasowany do danych empirycznych im reszty są mniejsze.
Średni błąd szacunku modelu (Se) (inne nazwy: Błąd standardowy estymacji, odchylenie standardowe reszt)
Średni błąd szacunku modelu (Se) jest miarą dopasowania modelu. Miara ta opiera się na resztach modelu, czyli rozbieżności pomiędzy rzeczywistymi wartościami zmiennej zależnej w próbie (yi) a wartościami zmiennej zależnej wyliczonej na podstawie zbudowanego modelu ($\hat{\mathbf{y}_{\mathbf{i}}}$). Najlepiej byłoby, gdyby różnica ta była jak najbliższa zeru dla wszystkich badanych obiektów próby.
Zatem, aby model był dobrze dopasowany, błąd standardowy estymacji (wyrażony jako wariancja reszt modelu Se) powinien być jak najmniejszy. Inaczej im odchylenie standardowe składnika losowego (Se) będzie mniejsze, tym model będzie lepiej pasował do danych.
Se=Odchylenie standardowe składnika losowego = odchylenie standardowe reszt = błąd standardowy estymacji
Interpretacja Se: wartości empiryczne odchylają się od wartości teoretycznych przeciętnie o Se.
yi odchylają się od $\hat{\mathbf{y}_{\mathbf{i}}}$ przeciętnie o Se.
Gdzie:
yi – wartości empiryczne zmiennej Y (wartości obserwowane w próbie)
$\hat{\mathbf{y}_{\mathbf{i}}}$= wartości teoretyczne zmiennej Y (wartości wyliczone z modelu)
Współczynnik determinacji R2
Jest to inne podejście do oceny standardowego dopasowania modelu do danych empirycznych. W podejściu tym wychodzi się od analizy zmienności wartości zmiennej Y. Zmienna przyjmuje wartość Y : y1, y2,…yn –(nie wszystkie są jednakowe czyli występuje zmienność).
Współczynnik determinacji (R2) - jest miarą dopasowania modelu. Wyraża on procent zmienności zmiennej zależnej tłumaczony przez przyjęty model (procent zmienności wyjaśnionej przez model). Wartość tego współczynnika mieści się w przedziale < 0; 1 >, gdzie 1 oznacza doskonałe dopasowanie modelu, 0 – zupełny bark dopasowania. Dążymy do tego żeby R2 modelu było jak największe, bo oczywiste jest że model jest tym lepszy im wyjaśnia więcej zmienności Y. (Im R2 jest większy tym model jest lepszy, bo wyjaśnia więcej zmienności zmiennej zależnej).
0 ≪ R2 ≪ 1 , [0 %≪R2 ≪ 100% ]
Współczynnik indeterminacji (φ2)- miara ta mówi o procencie zmienności nie wyjaśnionej przez model.
Np. Gdy R2=0,72 oznacza że ok 72% zmienności Y można wyjaśnić przez przyjęty model zależności liniowej. 28% zmienności Y nie jest wyjaśniona przez model. Dobry model jest wtedy gdy współczynnik R2 >65, to znaczy że ponad 65% zmienności jest wyjaśniona przez model (ona tak nam powiedziała apropo projektu)
Ponieważ wartość współczynnika R2 zależy od dopasowania modelu, ale jest również wrażliwa na ilość zmiennych w modelu i liczność próby, bywają sytuacje, w których może być obarczona pewnym błędem. Przykład błędu np. gdy danych jest mało to R2 może być duże, chociaż sam model jest kiepski: np. gdy n=2 to R2=1
Dalego też wyznacza się poprawianą wartość tego parametru: R2adj.
Dodanie jakiejkolwiek zmiennej do modelu zawsze powoduje wzrost R2,niezależnie od tego, czy dana zmienna jest istotnie powiązana z Y czy nie. W związku z tym nie można opierać porównań modeli z różną liczbą zmiennych objaśniających, na porównaniu R2 dla tych modeli.
Adjusted R2 (poprawiony,dopasowany R2) – Mówi o tym jak dobrze byłoby dopasowane nasze równanie regresji do innej próby pobranej z tej samej populacji. Poprawiony R2 jest zawsze mniejszy niż R2.
R2adj.jest zawsze <1 i może także przyjmować wartości ujemne. Uzyskanie ujemnej wartości zdarza się najczęściej, gdy mamy mało danych i model jest w istocie źle dopasowany do danych. Duże rozbieżności między R2 i R2adj.dają sygnał, że model jest niepoprawny.
Nie wolno posługiwać się R2 gdy:
1. Model nie ma wyrazu wolnego czyli powiazanie jest postaci: Y=β1* X + epsilon
2. Do oceny modeli które nie sa liniowe: Y= e BX + epsilon
3.Jeśli do estymacji parametrów modelu stosujemy metodę inną niż MNK.
Powiedziała że bez wzorów ale zostawiłam żeby wiedzieć o co chodzi
Standardowe błędy szacunku parametrów modelu
Standardowy błąd szacunku parametru, pozwala na oszacowanie o ile przeciętnie mylimy się w ocenie prawdziwej wartości βo podając punktowe oszacowanie βo (analogicznie dla β1 prawdziwej i β1 oszacowanej).
Standardowy błąd szacunku parametru βo = Sb0
np. Sb0=12,0 (gdy punktowe oszacowanie dla βo=88)
Standardowy błąd szacunku parametru β1= Sb1
np Sb1.=0,9 (gdy punktowe oszacowanie dla β1=4)
Interpretacja: (Sb1) Standardowy błąd szacunku parametru β1 równego 0,9 mówi się, że mylimy się przeciętnie o 0,9 jednostki, twierdząc że oszacowanie β1 jest równe 4
Model jest precyzyjny jeżeli Sb0 i Sb1 są małe w porównaniu z b0 i b1. Oceniamy to dzieląc $\frac{\mathbf{b}_{\mathbf{0}}}{\mathbf{\text{Sb}}_{\mathbf{0}}}$ i $\frac{\mathbf{b}_{\mathbf{1}}}{\mathbf{\text{Sb}}_{\mathbf{1}}}$ . Im ten iloraz jest większy tym model jest bardziej precyzyjny. W dobrych modelach ten iloraz powinien być większy od 2 . Zły model gdy Sb0 i Sb1 są większe od b0 i b1.
Na ogół po oszacowaniu parametrów modelu oraz średnich błędów szacunku modelu i standardowych błędów parametrów modelu zapisujemy oszacowany model w postaci:
$$\hat{\mathbf{y}}\mathbf{= \ \ }\mathbf{b}_{\mathbf{0}}\mathbf{\ \ + \ \ \ }\mathbf{b}_{\mathbf{1}}\mathbf{\ \bullet \ }{\mathbf{x}\mathbf{\text{\ \ }}}_{\mathbf{- \ }}^{\mathbf{+}}\mathbf{\text{\ Se}}$$
(Sb0) (Sb1)