Wybrane procedury statystyczne
Większość z wymienionych transformacji należy do popularnej rodziny transfoj|łfV | macji Boxa-Coxa indeksowanej parametrem A i opisanej wzorem
(*tA-n/A a^o. .Hi
log(ari) A = 0.
< = {
(3.3) ; '
W R te transformacje są dostępne w funkcji box. cox(car). Poza argumentem A w tej funkcji można również określić argument start. Jeżeli go określimy, to przed transformowaniem danych wartości są przesunięte o wartość tego parametru, ' . co czasem jest konieczne, ponieważ jedynie dodatnie dane mogą być przekształcone transformacją z rodziny Boxa-Coxa.
Do wyboru parametru A można wykorzystać algorytm maksymalizacji funkcji wiarygodności dla modelu regresji, dostępny między innymi w funkcji boxcox(MASS). Funkcja ta wyznacza również przedział ufności dla parametru A. Poniżej oraz na •• rysunku 3.17 przedstawiamy przykład wywołania tej funkcji.
> daneO = read.tablet“http://wvw.biecek.pl/R/dane/daneO.esy",sep““;",
header=T)
> tt ocena lambdy dla zmiennej stężenie hormonu
> Lbox ■ boxcox(daneO[,9]“daneOt,2])
> Lbox$x[which.max(Lbox$y)j [1] -0.02020202
> 0 ocena lambdy dla zmiennej uńek
> Lbox » boxcox(dane0[,1]~dane0[,2])
> Lbox$x[which.max(Lbox$y)]
[1] 2
Do popularnych transformacji wstępnych należy też zamienianie zmiennej ilościo-wej na zmienną jakościową (tzw. przedzialowanie, można je przeprowadzić z użyciem “ funkcji cut(base)) oraz łączenie poziomów dla zmiennych jakościowych (można tó zrobić używając funkcji levels(base)).
Te funkcje były już omawiane w rozdziale 2.1.1, poniżej przedstawiamy jednie prosty przykład ich zastosowania.
> zmOryginalna = c(0.1,0.8,0.5,0.2,0.9,0.71
> t> zamieniamy zmienną ilościową na jakościową o trzech poziomach
> (zmZmieniona » cut(zmOryginalna, c(0,0.33,0.66,1), c("niski", "średni",
"wysoki”)))
[1] niski wysoki średni niski wysoki wysoki Lovels: niski średni wysoki
> 0 łączymy pierwsze dwa poziomy zmiennej jakościowej
> lovels(zmZmieniona) <- c("niewysoki", "niewysoki", "wysoki")
> zmZmieniona
[11 niewysoki wysoki niewysoki niewysoki wysoki wysoki Lovels: niewysoki wysoki
Wszystkie opisane w tym rozdziało metody dotyczą analizy modelu, którego ogólną postać przedstawia równanie
Y\X ~ F{6), E(Y \X) = /(X,/3),
StftlislicAl
coniputing ift not easy, so how could R be? Who has ever claimed il ia? Any paokage Ihnt. makra statistical computing appear to be casy is probably giving you wrong answers hałf the timc. or ifi extrcinely limited iu senpe.
Duncan Murdoch fortu ne( 170)
gdzie Y to zmienna lub wektor zmiennych, które chcemy opisać (będziemy je nazywać zmiennymi objaśnianymi lub zmiennymi zależnymi), a przez A' oznaczamy wektor zmiennych nazywanych zmiennymi objaśniającymi lub niezależnymi. Interesującym nas zagadnieniem będzie opisanie oczekiwanej wartości zmiennej objaśnianej Y za pomocą zmiennych objaśniających X, a więc wyznaczenie wektora parametrów modelu 0, przy założonej postaci modelu opisanej funkcją /(). Obserwacji nie podlegają wartości oczekiwane, ale wartości zmiennej losowej o rozkładzie z rodziny T indeksowanej parametrem 0. Najczęściej rozważaną rodziną T jest rodzina rozkładów normalnych o wariancji o i wartości średniej i?( V | X).
W zależności od rodzaju zmiennych objaśnianych i objaśniających, ich liczby oraz ich rozkładów stosuje się inną metodę analizy. Wyróżnimy dwie rodziny procedur statystycznych, tj. regresje i metody analizy wariancji (ANOYA). Nie są to rozłączne rodziny jednak wygodnie nam będzie przedstawić je osobno.
• Metody analizy wariancji (ang. ANalysis Of VAriance, A NO VA) to zbiór metod wykorzystywanych do oceny czy średnie wartości cechy Y różnią się istotnie pomiędzy podpopulacjarai określonymi przez cechę A'.
Zmienna objaśniana Y jest zmienną ilościową, najczęściej jednowymiarową, a zmienne objaśniające są zmiennymi jakościowymi. W zależności od liczby zmiennych objaśniających mówimy o jednokierunkowej, dwukierunkowej lub wielokierunkowej analizie wariancji. Gdy zmienna Y jest zmienną wielowymiarową, to mówimy o wielowymiarowej analizie wariancji MANOVA. Jeżeli zmienne objaśniające są zmiennymi tak ilościowymi jak jakościowymi, to mówimy o analizie wariancji ze zmiennymi towarzyszącymi ANCOVA. W zależności od interpretacji zmiennych objaśniających możemy mówić o modelach z efektami deterministycznymi (stałymi), efektami losowymi lub mieszanymi.
• Metody analizy regresji to zbiór metod wykorzystywanych do oceny oczekiwanej wartości zmiennej Y bazując na pomiarach zmiennych objaśniających X, oceny współczynników 0 oraz oceny poprawności dopasowania modelu 3.4.
W regresji zmienne objaśniające są zwykle zmiennymi ilościowymi (zmienne jakościowe wymagają przekodowania). W zależności od postaci funkcji /(X, 0) mówimy o regresji liniowej albo nieliniowej. Zależnie od rodziny rozkładów T mówimy o gaussowskich modelach liniowych lub uogólnionych modelach liniowych, beta regresji itp. Zmienna objaśniana nie musi być zmienną ilościową, np. jeżeli Y jest zmienna binarną to możemy użyć modelu regresji logistycznej.
Możliwości wyboru modelu /(X, 0) oraz rodziny rozkładów T jest. wiele a metod do analiz tych modeli jest jeszcze więcej. W tym podrozdziale przedni awlmy te najpopularniejsze. Osoby chcące zapoznać się bliżej z. analizą wariancji I regresją w R powinny zapoznać się z bardzo dobrą książką [22]. 1'oleeam tez świetnie napisaną i dostępną elektronicznie pozycję (23), z dobrym wprowadzeniem do statystyki i obszernymi przykładami pt. „jak zrobić to w 11"