6.2.1. DOPASOWANIE FUNKCJI REGRESJI DO DANYCH EMPIRYCZNYCH
Po znalezieniu równania funkcji regresji należy zbadać, na ile nasze oszacowanie pokrywa się z rzeczywistością. W tym celu badamy dopasowanie funkcji regresji do danych empirycznych.
Do oceny dopasowania prostej regresji do punktów empirycznych wykorzystuje się tzw. reszty (e), które stanowią różnicę między rzeczywistymi i teoretycznymi wartościami zmiennej zależnej.
Dla funkcji regresji reszty wyznaczamy ze wzoru:
ei=yt-yt, (6.10)
gdzie:
y, - empiryczne (rzeczywiste) wartości zmiennej zależnej Y,
y, - teoretyczne wartości zmiennej zależnej Y.
Funkcja regresji jest poprawnie oszacowana, jeśli wartości reszt są niewielkie i mają charakter przypadkowy.
W oparciu o reszty wyznacza się następujące miary dopasowania modelu do danych empirycznych:
1. Średni błąd szacunku (średni błąd resztowy, odchylenie standardowa składnika resztowego):
S =
Vi-W
N-2
\N-2
(6.11)
Średni błąd szacunku określa, o ile przeciętnie różnią się wartości zmiennej zależnej wyznaczone na podstawie funkcji regresji od jej wartości empirycznych. Im mniejszy jest błąd, tym lepsze dopasowanie funkcji regresji do danych rzeczywistych (tym mniej mylić się będziemy szacując wartość zmiennej zależnej na podstawie funkcji regresji);
2. Współczynnik determinacji R2
R2= 1--SJ-. (6.12)
M
Współczynnik determinacji jest najważniejszą miarą dopasowania funkcji regresji do danych empirycznych. Przyjmuje on wartości z przedziału [0,1], przy czym im większa jego wartość, tym lepsze dopasowanie funkcji. Współczynnik determinacji określa, ile % zmienności Yzostało wyjaśnione przy pomocy oszacowanej funkcji regresji (ile % tej zmienności wynika z czynników uwzględnionych w rówmaniu regresji).
Jak już wspomniano, w przypadku zależności liniowej współczynnik determinacji jest równy kwadratowi współczynnika korelacji: R2 = r2y.
Przykład 6.3.
Dla danych z przykładu 6.2 zbadamy dopasowanie oszacowanej funkcji regresji do danych empirycznych. Obliczenia należy zacząć od wyznaczenia teoretycznych wartości zmiennej zależnej, a następnie obliczamy reszty. Wyniki obliczeń umieścimy w pomocniczej tablicy 6.3.:
Tablica 6.3. Obliczenia pomocnicze do wyznaczenia miar dopasowania funkcji regresji wraz z wybranymi objaśnieniami
«, =y\~9\ =10-9,8 = 0,2
T
yx =8,5 + 1,3-1 = 9,8
Razem
Staż pracy Xl |
Wydajność pracy y> |
A y, |
•* | ||
(1) |
(2) |
(3) |
(4) |
(5) | |
1 |
10 |
^8 |
0,04 | ||
2 |
11 |
11.1 |
*0.1 |
0,01 | |
3 |
12 |
12,4 |
-0,4 |
0,16 | |
4 |
14 |
13.7 |
0,3 |
0,09 | |
5 |
1S |
15 |
0 |
0 | |
5 |
15 |
15 |
0 |
0 | |
6 |
16 |
16,3 |
-0,3 |
0,09 | |
7 |
18 |
17,6 |
0,4 |
0,16 | |
8 |
19 |
18,9 |
0.1 |
0,01 | |
9 |
20 |
20,2 |
-0,2 |
0,04 | |
50 |
150 |
z |
X |
te |
Źródło: Obliczenia własne na podstav/ie danych z przykładów 6.1 i 6.2.
Miary dopasowania równania regresji do danych empirycznych można zatem wyznaczyć w następujący sposób:
• średni błąd szacunku:
S=J-^=0,27szt./h.
‘ V10-2
Oznacza to, że szacując wydajność pracy pracowników firmy OLA na podstawie oszacowanej funkcji regresji mylimy się średnio o +/- 0,27 szt/h. Innymi słowy teoretyczna (wyznaczona na podstawie funkcji regresji) wydajność pracy poszczególnych pracowników różni się przeciętnie od rzeczywistej o +/- 0,27 szt/h.
173