150 Wybrane procedury statystyczne
150 Wybrane procedury statystyczne
A suHlciently trained siatistician can read Ihc vagAries of a Q-Q plot like a ri haman can read a chicken's entrails, with a similar rccoursc to scientific principles. Interpreting Q-Q plota b> morę a viM-.eral fchan tui int.ellcx.tunl exerciae. The uninitiated are often mystified by tha procesu. Exporience is tho key herc.
Department of Mathematics and Statistioi, Murdoch Univorsity fortune(105)
> # kowariancja danych znormalizowanych
> cov(scale(dane[,c(l,6,7)]))
wiek ciśnienie.skurczowe ciśnienie.rozkurczowe wiek 1.0000000 -0.02765239 -0.08313656
ciśnienie.skurczowe -0.0276523 1.00000000 0.67852707
ciśnienie.rozkurczowe -0.0831365 0.67852707 1.00000000
Do normalizacji wykorzystać można też funkcje sweep(base) oraz apply(base). W poniższym przykładzie skalujemy dane tak, by miały jednostkową wariancję, - i
# wyznaczamy odchylenia standardowe dla wybranych kolumn wektor.sd <- apply(dane[,c(l,6,7)], 2, sd)
tt dzielimy wartoSci w kolumnach przez odchylenia standardowe sweep(dane[,c(l,6,7)], 2, FUN* "/", wektor.sd)
M równoważnie, ale z użyciem tylko funkcji applyO apply(dane[,c(l,6,7)], 2, function(x) x/sd(x))
Takie afiniczne transformacje danych nie zawsze są wystarczające. Jeżeli dane są skośne lub mają tak zwane ciężkie ogony (a są to cechy nieporządne, ponieważ właściwości procedur statystycznych, głównie testów, bada się najczęściej przy założeniu normalności), to ani centrowanie ani skalowanie tego nie zmieni. W tym przypadku popularnie wykorzystywanym narzędziem są transformacje nieliniowe. Transformce wane mogą być zarówno zmienne objaśniające jak i objaśniane. W kolejnych podrozr działach będziemy sygnalizować jakie sytuacje sugerują zastosowanie transformacji. Przegląd najpopularniejszych transformacji znajduje się w' tabeli 3.3. Na rysunku 3.16 przedstawione są wykresy kwantylowe (dokładniej omówione w podrozdziale 3.5.1.1) dla różnych przykładowych odstępstw od normalności.
Oczywiście, często oglądając dane trudno, kierując się wyłącznie intuicją, zdecydować, którą transformację zastosować. Pewne transformacje (np. logarytmiczna i pierwiastkowa), są do siebie bardzo podobne i tym samym trudno określić jednoznacznie, która z nich powinna być użyta. Należy' też pamiętać, że w wielu sytuacjach wybór transformacji zależy od natury badanego zjawiska. Np. gdy dane są w skali procentowej, to nadają się najczęściej do transformacji Arcsin, dla danych przedstawiających wartości stężeń często naturalne jest zastosowanie transformacji logarytmicznej itp.
Tabela 3.3: Popularne transformacje nieliniowe
Nazwa |
Gdy zmienna x przyjmuje wartości dodatnie |
Gdy zmienna x przyjmuje wartości nieujemne |
Logarytmiczna |
X1 = log(z) |
= log(x + 1) |
Odwrotna |
x' = l/x |
x' = l/(x + 1) |
Pierwiastkowa |
x' = y/x |
X* = y/X + 0.5 |
Arcsin (gdy zmienna przyjmuje wartości od 0 do 1) |
x' = arcsin(v/x) |
Pierwiastkowa
81
norm quantiles Odwrotna
8 , 8 -8 §
8
Przetwarzanie wstępne
Logarytmiczna
-1 0 1 norm quanliles
norm quantHes
Arcsin
¥
Rysunek 3.16: Wykresy kwantylowe dla obserwacji, które po zastosowaniu wskazanej w nagłówku rysunku transformacji będą miały rozkład normalny. Różne typy odstępstw od ciągłej linii są sygnałem do zastosowania różnych transformacji
Zmienna VEGF
łog-Likelihood
s
Zmienna wiek
Rysunek 3.17: Wynik graficzny dla dwóch wywołań funkcji boxcox(). W pierwszym przypadku dane dotyczyły stężeń i były silnie skośne, w drugim przypadku dotyczyły wieku i miały rozkład bliski rozkładowi jednostajnemu