1S6 Wybrane procedury statystyczne
1S6 Wybrane procedury statystyczne
I
Zauważmy, że istotność dla poszczególnych zmiennych jest oznaczana •"./'-'i.-' w dwójnasób. Podawana jest p-wartość dla testu istotności P, ale również •—\ / '■ zaznaczany jest kod istotności (po prawej stronie p-wartości).
S Stosowane jest następujące kodowanie: *** (co oznacza wysoką istot, ność) jeżeli p-wartość jest mniejsza od 0.001, ** jeżeli jest większa, ale mniejsza oc| 0.01, * jeżeli jest większa, ale mniejsza od 0.05 (ta wartość najczęściej wybierana ' jest na graniczną wartość istotności statystycznej) oraz . (kropka), jeżeli p-wartość ■ jest mniejsza od 0.1. Brak kodu oznacza brak podstaw do odrzucenia hipotezy ze. : rowej na poziomie istotności 0.1.
Wynikiem działania funkcji anova(stats) jest obiekt klasy anova. Ma on przeciążoną funkcję print. anova. lm(stats) dzięki czemu wynik jest wyświetlany na ekranie; w czytelnej postaci. W R ten obiekt jest reprezentowany jako ramka danych o wymiarach p x 5. Możemy więc, odwołując się do tego obiektu jak do ramki danych, wybierać interesujące nas elementy. Dla każdej zmiennej (w szczególności w jednokierunkowej analizie wariancji jest tylko jedna zmienna) i dla wektora residuów (czyli ocen zakłóceń losowych) wyznaczane są następujące wartości:
• W kolumnie $Df (pierwsza kolumna) znajduje się liczba stopni swobody. Dla zmiennych jakościowych jest ona równa A: — 1, gdzie k to liczba poziomów danej! zmiennej.
W kolumnie $Smn Sq znajduje się suma kwadratów wartości wyjaśnionych przez daną zmienną. Wartość wykorzystywana do wykonania testu F.
W kolumnie $Mean Sq znajduje się średnia suma kwadratów.
W kolumnie $F value znajduje się wartość statyslyki testowej dla testu F, weryfikującego hipotezę o równości średniej wartości cechy w podgrupach danej zmiennej jakościowej.
W kolumnie $Pr(>F) znajduje się wartość p wyznaczona dla testu F.
W poniższym przykładzie z obiektu klasy anova wyłuskujemy p-wartości dla hipotezy zerowej o równości średnich. W obu przypadkach p-wartości są małe, więc na poziomie istotności ci — 0.01 (a nawet niższym) skłonni jesteśmy uznać, że średnie ceny różnią się dla przynajmniej jednej pary rozważanych czynników.
> tt p-wartość dla hipotezy o różnych cenach w różnych dzielnicach
> al [1,5]
[1] 0.007294371
> M p-wartość dla hipotezy o różnych cenach w różnych typach budynku
> a2 [1,5]
[1] 0.001894708
I
Analizę wariancji można również wykonać funkcją aov(stats). Różnica — pomiędzy- obiema funkcjami polega na sposobie prezentacji i udostęp-nienia wyników. Moim zdaniem wygodniej i bardziej uniwersalnie jest w wykonywać analizę w sposób przedstawiony powyżej. Dla porównania poniżej przedstawiamy przykładową sesje z użyciem funkcji aov(). Co do wartości wyniki te są identyczne z uzyskanymi powyżej.
157
J 9 wyświetlmy wynik analizy wariancji, jedno, z e In i r (uiptnuyijr model ANOVA
do zmiennej modeli
Df Sum Sq Mean Sq F vnluo l*r(>K)
2 1.7995e+10 8.9977e+09 6.0456 0.007294 ♦♦
,> gummaryCmodell <- aov(cena'dzielnica, dat.n - m laa/.Knn I a))
Residuals 197 3.5130e+ll 1.7833e+09
Signif- codea: 0 '***’ 0.001 0.01 0.05 0.1 ‘ ’ 1
.leżeli już stwierdzimy, że średnie wartości dla różnyc h czynników różnią się, to najczęściej interesować nas też będzie, które średnie się różnią. Aby to sprawdzić v kolejnym etapie analiz wykonuje się testy post hoc.
i niższe niż w dzielnicy Biskupin.
Zaczniemy od przedstawienia testu post hoc HSD Tukey’a, który jest zaimplementowany w funkcji TukeyHSD(stats) (IiSD to skrót od Honcstly Sigińficanł Dif-ference.s). Test ten porównuje średnie pomiędzy parami różnych czynników. Poniżej prezentujemy przykład wykorzystania tej funkcji a na rysunku 3.20 prezentujemy To d#no S1,ra,d rok„ graficzna reprezentację wyników tej funkcji. Wnioskiem z przeprowadzenia tostu past 2»oo. Term, sdy hoc jest stwierdzenie, że ceny w dzielnicy Krzyki i Śródmieście są porównywalne Biśku^iPstojił
w korkach próhujijc. wjechać do miasta sytuacja może być inna.
> tt stosujemy test post hoc do powyżej otrzymanego wyniku
> TukeyHSD(model1)
Tukey multiple comparisons of means 95‘/. family-wise confidence level
Fit: aov(formula = cena " dzielnica, data ■ mieszkania)
$dzielnica
diff lvrr upr p adj
Krzyki-Biskupin -21321.019 -38021.10 -4620.9333 0.0081457 Srodmiescie-Biskupin -18350.541 -36532.88 -168.2053 0.0473579 Srodmiescie-Krzyki 2970.478 -14450.28 20391.2340 0.9145465
> 9 graficzna prezentacja wyników testu Tukey’a
> plot(TukeyHSD(modell))
> tt dla porównania wykres pudełkowy
> plottcena " dzielnica, data = mieszkania)
Test HSD Tukeya (i inne testy post hoc) jest też zaimplementowany w pakiecie aricolae. Poniżej przedstawiamy przykład wywołania funkcji HSD. test (agricolae) Jej wy wołanie jest trochę bardziej skomplikowane od wywołania funkcji TukeyHSD (). Jako argumenty funkcji HSD. test O należy podać liczbę stopni swobody dla zmiennej jakościowej oraz średni błąd kwadratowy dla residuów. Poniżej przedstawimy przyktad wywołania tej funkcji.
Wyniki testów post-hoc z pakietu agricolae można wizualizować funkcjami bar.err(agricolae) i bar.group(agricolae). Przykładowe wywołanie funkcji bar. err () przedstawiono na rysunku 3.19. Wysokością słupków są oznaczone wartości średnie cechy Y w podpopulacjach, a wąsami zaznaczono odchylenia standardowe dla ocen tych średnich.