Wybrane procedury statystyczne
Zagadnienie regresji rozwijane jest od dosyć dawna. W postaci bliskiej tej, którą znamy dzisiaj pojawiło się w XVIII wieku i było wykorzystywane w nawigacji. Pierwsze prace matematyczne poświęcone regresji pochodzą z roku 1805 i są autorstwa francuskiego matematyka Adrien-Marie begendre’a, który przedstawił estymację metodą najmniejszych kwadratów współczynników regresji. Niezależnie (i jak twierdził, wcześniej) tę metodę opracował Johana Carl Friedrich Gauss, który w roku 1809 wykazał dobre własności metody najmniejszych kwadratów w sytuacji, gdy zakłócenie losowe ma rozkład normalny. W roku 1875 angielski naukowiec Francis Galton użył nazwy regresja do równania, którym opisywał zależności pomiędzy wzrostem synów a wzrostom ojców. Ponieważ wzrost jest uwarunkowany przez wiele różnych czynników, głównie środowiskowych, to synowie wysokich ojców mają wzrost średnio niższy niż ich ojcowie (średnio niższy, ponieważ są tak wysocy jak średnia w popu-lacji, a nie jak średnia dla wysokich ojców). Galton zauważył tę zależność i nazwał ją regresją - tendencją w dążeniu do średniej (do przeciętności).
II yoti glvc |»«ople n llncar model fum Ilon you givp Ihein ■oiiH.thing Uangerous.
John Fox forluno(49)
Metody analizy regresji zostały znacznie rozwinięte na początku wieku XX przez Karla Pearsona i jemu współczesnych. Dziś, wiek później, regr esja jest jednym z uaj bardziej popularnych narzędzi statystycznych. Regresja jest popularna, ponieważ pozwala na opisanie związku pomiędzy zmiennymi objaśniającymi a zmienną objaśnianą, oszacowanie średniej wartości zmiennej objaśnianej w zależności od zmiennych objaśniających, a także wybranie zmiennych istotnie wpływających na zmienną objaśnianą. Postulowany w modelu związek pomiędzy zmiennymi może mieć różnoraki charakter. Poniżej przedstawimy dokładniej zagadnienie regresji liniowej, nieliniowej| i logistycznej.
3.4.4.1 Regresja liniowa
Ogólny model, przedstawiony równaniem 3.4 w przypadku regresji liniowej przybiera postać
V’ = W + e, (3.8)
gdzie Y to zmienna objaśniana, X to wektor p zmiennych objaśniających, 0 = (/h,...,/lp)7 to wektor współczynników a e przedstawia zakłócenie losowe o rozkłar dzie M(0,o2). Równanie 3.8 opisuje oczekiwaną wartość średnią zmiennej Y jako . liniową kombinację zmiennych X.
Badacza interesują wartości współczynników modelu fi. Estymator tych współ-czynników wyraża się wzorem
gdzie Y to wektor n obserwacji zmiennej objaśnianej a X to macierz z pomiarmm-|| zmiennych objaśniających (poprzednio Y i X były zmiennymi losowymi, chwilowo ' zmieniliśmy oznaczenia, by nie komplikować zapisu).
Do oceny poprawności dopasowania modelu do danych wykorzystywane są resztka nazywane residuami. Residua wyznacza się jako różnice wartości obserwowanej Y . { a wartości oszacowanej przez model, oznaczanej Y. Residuum dla itej obserwacji;^, wyrazić można wzorem
£i
gdzie X> oznacza wektor z wartościami znnennycn oojasmającyen dla ttego ptZjM padku a Vj = X,/5. Dla uproszczenia zapisu w całym rozdziale wektor A',
Rysunek 3.24: Ilustracja dla elementów występujących w modelu regresji. Kolejne obserwacje oznaczone są kropkami
wektorem wierszowym, podczas gdy (1 i fi będą wektorami kolumnowymi. Graficzną interpretacje ocen współczynników modelu /3, wartości i G przedstawiono na rysunku 3.24. Określając model regresji liniowej przyjęliśmy pewue założenia. Założenia te powinny być spełnione, aby móc używać wszystkich procedur statystycznych opracowanych dla regresji liniowej. Założenia te są szczególnie ważne, jeżeli chcemy przeprowadzać testy statystyczne lub wyznaczyć przedziały ufności dla ocen współczynników. Przyjęte założenia to:
• Postać modelu jest liniowa (tzn. współczynniki Pi nie występują w modelu w potęgach wyższych niż pierwsza).
• Zmienne objaśniające są liniowo niezależne, (.•żyli macierz X jest rzędu p. To konieczne założenie aby istniało jednoznaczne rozwiązanie.
• Zmienne e
— mają rozkład normalny,
— są niezależne,
— mają średnie 0,
— mają równe wariancje.
Korzystanie z modeli liniowych w R przedstawimy na przykładzie danych o cenach mieszkań. Funkcją służącą do budowy modelu jest lm(stats) (skrót od ang. lincar ni(xld). Funkcja lmO wykorzystuje funkcję lm. f it (stats), która jest szybsza ale mniej przyjazna w obsłudze. Funkcja lm() ma wiele argumentów oraz olbrzymie możliwości, część z nich stopniowo przedstawimy w kolejnych podrozdziałach. Model regresji liniowej opisujemy formułą podobnie jak w przypadku analizy wariancji. Składnia formuł została szczegółowo przedstawiona w podrozdziale 2.1.8.