przewodnikPoPakiecieR8

przewodnikPoPakiecieR8



Wybrane procedury statystyczne

a.4.4 Regresja

Zagadnienie regresji rozwijane jest od dosyć dawna. W postaci bliskiej tej, którą znamy dzisiaj pojawiło się w XVIII wieku i było wykorzystywane w nawigacji. Pierwsze prace matematyczne poświęcone regresji pochodzą z roku 1805 i są autorstwa francuskiego matematyka Adrien-Marie begendre’a, który przedstawił estymację metodą najmniejszych kwadratów współczynników regresji. Niezależnie (i jak twierdził, wcześniej) tę metodę opracował Johana Carl Friedrich Gauss, który w roku 1809 wykazał dobre własności metody najmniejszych kwadratów w sytuacji, gdy zakłócenie losowe ma rozkład normalny. W roku 1875 angielski naukowiec Francis Galton użył nazwy regresja do równania, którym opisywał zależności pomiędzy wzrostem synów a wzrostom ojców. Ponieważ wzrost jest uwarunkowany przez wiele różnych czynników, głównie środowiskowych, to synowie wysokich ojców mają wzrost średnio niższy niż ich ojcowie (średnio niższy, ponieważ są tak wysocy jak średnia w popu-lacji, a nie jak średnia dla wysokich ojców). Galton zauważył tę zależność i nazwał ją regresją - tendencją w dążeniu do średniej (do przeciętności).

II yoti glvc |»«ople n llncar model fum Ilon you givp Ihein ■oiiH.thing Uangerous.

John Fox forluno(49)




Metody analizy regresji zostały znacznie rozwinięte na początku wieku XX przez Karla Pearsona i jemu współczesnych. Dziś, wiek później, regr esja jest jednym z uaj bardziej popularnych narzędzi statystycznych. Regresja jest popularna, ponieważ pozwala na opisanie związku pomiędzy zmiennymi objaśniającymi a zmienną objaśnianą, oszacowanie średniej wartości zmiennej objaśnianej w zależności od zmiennych objaśniających, a także wybranie zmiennych istotnie wpływających na zmienną objaśnianą. Postulowany w modelu związek pomiędzy zmiennymi może mieć różnoraki charakter. Poniżej przedstawimy dokładniej zagadnienie regresji liniowej, nieliniowej| i logistycznej.



3.4.4.1 Regresja liniowa

Ogólny model, przedstawiony równaniem 3.4 w przypadku regresji liniowej przybiera postać

V’ = W + e,    (3.8)

gdzie Y to zmienna objaśniana, X to wektor p zmiennych objaśniających, 0 = (/h,...,/lp)7 to wektor współczynników a e przedstawia zakłócenie losowe o rozkłar dzie M(0,o2). Równanie 3.8 opisuje oczekiwaną wartość średnią zmiennej Y jako . liniową kombinację zmiennych X.

Badacza interesują wartości współczynników modelu fi. Estymator tych współ-czynników wyraża się wzorem

gdzie Y to wektor n obserwacji zmiennej objaśnianej a X to macierz z pomiarmm-|| zmiennych objaśniających (poprzednio Y i X były zmiennymi losowymi, chwilowo ' zmieniliśmy oznaczenia, by nie komplikować zapisu).


Do oceny poprawności dopasowania modelu do danych wykorzystywane są resztka nazywane residuami. Residua wyznacza się jako różnice wartości obserwowanej Y . { a wartości oszacowanej przez model, oznaczanej Y. Residuum dla itej obserwacji;^, wyrazić można wzorem

£i

gdzie X> oznacza wektor z wartościami znnennycn oojasmającyen dla ttego ptZjM padku a Vj = X,/5. Dla uproszczenia zapisu w całym rozdziale wektor A',

Rysunek 3.24: Ilustracja dla elementów występujących w modelu regresji. Kolejne obserwacje oznaczone są kropkami

wektorem wierszowym, podczas gdy (1 i fi będą wektorami kolumnowymi. Graficzną interpretacje ocen współczynników modelu /3, wartości i G przedstawiono na rysunku 3.24. Określając model regresji liniowej przyjęliśmy pewue założenia. Założenia te powinny być spełnione, aby móc używać wszystkich procedur statystycznych opracowanych dla regresji liniowej. Założenia te są szczególnie ważne, jeżeli chcemy przeprowadzać testy statystyczne lub wyznaczyć przedziały ufności dla ocen współczynników. Przyjęte założenia to:

•    Postać modelu jest liniowa (tzn. współczynniki Pi nie występują w modelu w potęgach wyższych niż pierwsza).

•    Zmienne objaśniające są liniowo niezależne, (.•żyli macierz X jest rzędu p. To konieczne założenie aby istniało jednoznaczne rozwiązanie.

•    Zmienne e

—    mają rozkład normalny,

—    są niezależne,

—    mają średnie 0,

—    mają równe wariancje.

Korzystanie z modeli liniowych w R przedstawimy na przykładzie danych o cenach mieszkań. Funkcją służącą do budowy modelu jest lm(stats) (skrót od ang. lincar ni(xld). Funkcja lmO wykorzystuje funkcję lm. f it (stats), która jest szybsza ale mniej przyjazna w obsłudze. Funkcja lm() ma wiele argumentów oraz olbrzymie możliwości, część z nich stopniowo przedstawimy w kolejnych podrozdziałach. Model regresji liniowej opisujemy formułą podobnie jak w przypadku analizy wariancji. Składnia formuł została szczegółowo przedstawiona w podrozdziale 2.1.8.


Wyszukiwarka

Podobne podstrony:
przewodnikPoPakiecieR4 Wybrane procedury statystyczne Wynik każdego z wymienionych testów jest obie
przewodnikPoPakiecieR 5 182 Wybrane procedury statystyczne3.4.5 Regresja logistyczna Zarówno analiza
przewodnikPoPakiecieR 7 Wybrane procedury statystyczno U budujemy model regresji logistycznej z jedn
przewodnikPoPakiecieR 0 Wybrane procedury statystyczne wyr az modelu, formuły -1 albo Otrz
przewodnikPoPakiecieR 6 Wybrane procedury statystyczne Deviance Residuals: Min
przewodnikPoPakiecieR2 Wybrane procedury statystyczne gdzie /i() jest funkcją wiążącą (ang. link fu
przewodnikPoPakiecieR6 Wybrane procedury statystyczne lulaj przedstawimy jedynie jak używać tego te
przewodnikPoPakiecieR0 Wybrane procedury statystyczne ■■ Analiza przeżycia233 Do wizualnej oceny za
przewodnikPoPakiecieR4 140 Wybrane procedury statystyczne >    U ustawiamy ziarno
przewodnikPoPakiecieR 3 I 178 Wybrane procedury statystyczno W powyższym przykładzie wygląda na to,
przewodnikPoPakiecieR 1 I m 174 Wybrane procedury statystyczne. P So good «dvice here is: Bewarc
przewodnikPoPakiecieR 3 I 178 Wybrane procedury statystyczno W powyższym przykładzie wygląda na to,
75190 przewodnikPoPakiecieR 1 I m 174 Wybrane procedury statystyczne. P So good «dvice here is: B

więcej podobnych podstron