51
Statystyka matematyczna
(np. niebranymi pod uwagę zmiennymi). W ten sposób model analizy regresji zapisać możemy jako
Y — b±x -f- bo + € , (3.136)
gdzie e jest nieobserwowalnym przez nas błędem losowym, zmienna x - obserwowaną przez nas, deterministyczną zmienną, Y - obserwowaną przez nas zmienną losową, bo,b\ - nieznanymi parametrami funkcji regresji. Należy podkreślić, że x w tym modelu nie jest zmienną losową, ale zmienną deterministyczną, mamy zatem możliwość jej kontrolowania w trakcie trwania eksperymentu. Losowość Y wynika z losowości składnika £.
Przykład 3.43. Załóżmy, że na temperaturę pewnego procesora (zmienna zależna, Y) ma wpływ ustawiany przez nas poziom obciążenia tego procesora (zmienna niezależna, x). Wtedy e odpowiada za błędy w pomiarze temperatury, wpływ innych czynników (np. temperatura otoczenia), itd.
Rtnkcję
y = b\x + (3.137)
nazywamy prostą regresji. Ze względu na obecność nieobserwowanego czynnika £, punkty otrzymane w doświadczeniu (Yj, Y^,..., Yn), czyli
Yi = b\Xi + 6o + £i (3.138)
nie znajdują się dokładnie na prostej regresji, ale „w pobliżu” odpowiadających im punktów t/i,t/2> • • • > Vn> & więc punktów' określonych równaniem
Vi =b\Xi+bo . (3.139)
W najprostszym ujęciu zadaniem analizy regresji jest ocena, czy model liniowy (3.136) jest dostatecznie bliski rzeczywistości oraz jakie są wartości nieznanych parametrów' bo,b\.
W celu znalezienia wartości tych parametrów, musimy oczywfiście skonstruować ich estymatory, oznaczane dalej jako bo i 6j. Wykorzystujemy do tego metodę najmniejszych kwadratów, która polega na minimalizacji wartości
SSE = (Yt - b,Xi - b0f (3.140)
względem poszukiwanych wrartości bo i b\. Innymi słowy, dopasowujemy naszą (nieznaną) prostą tak, aby różnice odchyleń pomiędzy zaobserwowanymi wartościami Yi i Xi były możliwie jak najmniejsze. Odchylenia te mierzymy przy tym wzdłuż osi zmiennej Y.
Skrót SSE pochodzi od angielskiego sum of sąuares of errors i oznacza sumę kwadratów błędów. Analityczne rozwiązanie zagadnienia minimalizacji (3.140) prowadzi do następujących wzorów na estymatory
„(Ą-ĄfK.-F) . ; . |
(3.141) |
= Cov<-v') |
(3.142) |
Estymatory takie nazywane są estymatorami najmniejszych kwadratów (ENK).