Wybrane procedury statystyczno
U budujemy model regresji logistycznej z jedną zmienną objaśniającą ?'
»■/
> modelN <- glm(Niopowodzenia'Nouotwor, daneO, family«'‘hinomial")
* przygotowujemy opis przypadków do predykcji
> ndaneO <- data.frame(Nowotwor«c(l, 2, 3))
tt oceniamy jak różni się oczekiwane prawdopodobieństwo wznowy dla poszczególnych poziomów zmiennej Nowotwór
> prodictCmodelN, ndaneO, typa * "response")
12 3
0.01125905 0.07249761 0.34918513
Do badania zależności pomiędzy zmienną ilościową a jakościową (niekoniecżlijisl binarną) służą warunkowe wykresy gęstości dostępne w funkcji cdplot (graphicą) Funkcja ta bazuje na ocenach gęstości, można więc: dla niej podawać podobne argumenty jak do funkcji densityO. Na warunkowym wykresie gęstości przedstawiane są oceny prawdopodobieństwa występowania poszczególnych poziomów zmiennej jakościowej pod warunkiem określonej wartości zmiennej ilościowej.
Poniżej przedstawiamy przykładowe wywołanie funkcji cdplot O. Wynik tego wywołania przedstawiony jest na rysunku 3.31.
ż dwa przykłady wyznaczania warunkowych prawdopodobieństw wystąpienia określonej wartości dla zmiennej jakościowej cdplot(dane0$VEGF, daneOSNiepouodzenia, bw-3000) cdplot(mieszkania$cena, mieszkaniaStyp.budynku)
CM O
—— ' ■■««■■■* i, mtmum ■ >. .......... ■
O
5000 10000 15000 20000 °
VEGF cena
Rysunek 3.31: Wykresy przedstawiające warunkową gęstość (ponieważ śniatia jest jakościowa, jest to warunkowe prawdopodobieństwo). Na osi stawiona jest zmienna ilościowa, na osi pionowej zmienna jakościowa. Na obserwujemy zwiększającą się częstość niepowodzeń wraz ze wzrostem zmieunej Na prawym rysunku obserwujemy zmieniającą się proporcję mieszkań dostępnych żowcach i niskich blokach w zależności od wybranej ceny mieszkania
ANOVA, regresja liniowa i logistyczna
g 4 5.1 Ogólny model liniowy
Ogólny mofJcl 1 (,ują< ej l,ostad
model liniowy (ang. generalizetl linear model) można przedstawić w nastę-
(3.14)
Y\X ~ F(0). h(E(Y\X)) = h(p) — X13,
mg. link function), a pozostałe symbole mają to samo
znaczenie co w równaniu 3.4. Powyższy wzór opisuje jedynie warunkową wartość oczekiwana zmiennej losowej Y. Jeżeli zmienna Y ma rozkład Af(p,ar2) a funkcja
, . * i f/v /In r*r*\r\nnmo rniMOrlirm m\neeAiirrlmvi nriA/l/ilAm
j,() jest identycznością, to mamy do czynienia ze zwykłym gaussowskim modelem liniowym. Jeżeli zmienna Y ma rozkład 0(1,p) a funkcja hO jest funkcją logit, czyli to mamy do czynienia z modelem regresji logistycznej. Te przykłady zostały szerzej opisane w poprzednich podrozdziałach. Ogólne modele liniowe pozwalają również na modelowanie z użyciem innego rozkładu zmiennej losowej Y oraz na szeroką gamę funkcji wiążących h(). Poniżej przedstawiamy kombinacje rodziny rozkładów zmiennej losowej Y\X oraz funkcji wiążącej, których można użyć wi funkcji glmO.
• Rodzina rozkładów dwumianowych (f amily=binomial) do modelowania zmien-,1 nych licznikowych
Y\X~B{n,p).
Dostępne funkcje wiążące to:
logit, h(p) = (model regresji logistycznej),
— probit, h(p) = <I> ‘1 (p)i
— cauchit,
- log, h(p) = log(p),
- cloglog, h(p) = log(-log(p)).
• Rodzina rozkładów normalnych (family=gaussian)
Dostępne funkcje wiążące to:
- identity, h.(p) — p (model gaussowskiej regresji liniowej),
- log, h(p) = log(p),
- inverse, h(p) = 1/p.
• Rodzina rozkładów gamma (family=Gamma)
Ta rodzina rozkładów wykorzystywana jest często np. do modelowania kosztów' lub przychodów. Dostępne funkcje wiążące to:
- inverse, h(p) = l/p,
— identity, h(p) = p,