53
Statystyki! matematyczna
Zachodzi
(Vj-f)2= (fi-P)ł+ (3-147)
1=1 Ś=1 1=1
co zapisujemy często jako
SST = SSR + SSE , (3.148)
gdzie SST to całkowita suma kwadratów (w j. ang. łołal sum of sguares), SSR - suma kwadratów związanych z regresją (w j. ang. sum of squares of regression), SSE - poznana wcześniej suma kwadratów błędów (tutaj oznaczenie to jest lekko „nadużyte” jako minimalna wartość dla rozwiązania zagadnienia (3.140)).
Wzór (3.147) interpretujemy w następujący sposób: „całkowitą zmienność” zmiennej Y można wyjaśnić na dwa sposoby - jako zmienność „związana z regresją” (a więc „wyjaśnianą” poprzez zmienną x) i jako zmienność „resztową” (czyli nie wynikającą z zachowania się zmiennej x, tylko związaną z innymi czynnikami). Stąd wartość zdefiniowana jako
(3.149)
2 _ SSR SSE K ~ SST ” 1 SST
nazywana jest współczynnikiem dopasowania i interpretujemy ją jako procentowy wskaźnik zmienności wyjaśnionej „przez regresję”, czyli zaproponowany przez nas model analizy regresji. Zatem im R2 jest bliższy jedynce, tym model analizy regresji jest lepiej dopasowany do zaobserwowanych wartości. Co istotne, zachodzi
R2 = r2 , (3.150)
gdzie r jest poznanym wcześniej przez nas współczynnikiem korelacji liniowej.
Należy pamiętać, iż samo rozwiązanie zadania minimalizacji (3.140) jest możliwe nawet przy braku zależności pomiędzy zmiennymi. Niezbędne są zatem testy sprawdzające, czy nasz model analizy regresji „jest cokolwiek wart”, tzn. czy zależność funkcyjna pomiędzy zmiennymi istnieje, a nasz model dobrze wyjaśnia rzeczywiste obserwacje.
Test F sprawdza prawdziwość hipotezy zerowej
H0 : bx = 0 (3.151)
wobec
(3.152)
Jest to jeden z najistotniejszych testów w analizie regresji. Jeśli bowiem zostanie przyjęta jego hipoteza zerowa, to skoro b\ = 0, z (3.136) otrzymujemy
(3.153)
Y =b0+e,