Podstawy statystyki dla prowadzących badania naukowe Odcinek 20: ANOVA nieparametryczna
mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie (Kierownik Zakładu: prof. dr hab. med. Andrzej Żarnecki) Data utworzenia: 05.06.2001 Ostatnia modyfikacja: 30.04.2007 Opublikowano w Medycyna Praktyczna 2000/09
W poprzednich odcinkach przedstawiłem różne obszary zastosowań analizy wariancji. Ich wykorzystanie do opracowywania wyników badań naukowych jest ograniczone określonymi założeniami (zmienne mierzalne o rozkładzie normalnym, jednorodność zbioru itd.). Warunkiem użycia tych testów jest więc sprawdzenie założeń. Jeśli nie zostały one spełnione, wyciągnięte wnioski nie są w pełni poprawne lub tracą wiarygodność. Testy te stają się też bezużyteczne dla danych jakościowych i danych typu porządkowego. W tych wszystkich przypadkach stosujemy odpowiednie testy nieparametryczne. Do nieparametrycznych odpowiedników analizy wariancji zaliczamy:
test ANOVA rang Kruskala-Wallisa
Każdy z nich ma inny obszar zastosowań.
Test Kruskala-Wallisa jest nieparametrycznym odpowiednikiem jednoczynnikowej analizy wariancji. Za pomocą tego testu sprawdzamy czy n niezależnych próbek pochodzi z tej samej populacji, czy z populacji z taką samą medianą. Poszczególne próbki nie muszą mieć takiej samej liczebności. Maksymalnie możemy porównywać 10 grup.
Test Friedmana jest nieparametrycznym odpowiednikiem jednoczynnikowej analizy wariancji dla pomiarów powtarzanych. Uważany jest za najlepszy nieparametryczny test dla danych tego rodzaju. Najczęściej są to wyniki dla tych samych osób otrzymane w n (n >>2) różnych badaniach lub wyniki równoważnych grup osób. Oba testy są dostępne w pakiecie STATISTICA. Można je znaleźć w module Statystyki nieparametryczne (rys. 1).
Rys. 1. Okno wyboru statystyk nieparametrycznych
Najpierw omówię przykład zastosowania testu Kruskala-Wallisa. Załóżmy, że przeprowadzono badania w celu porównania 4 metod leczenia pewnej choroby. Pobrano 5-elementowe próby losowe spośród chorych na daną chorobę, których leczono odpowiednio metodą I, II, III i IV. Wyniki terapii oceniono w specjalnym teście. Wartości testu podane w umownej punktacji przedstawia tabela 1. Podano w niej też rangi nadane wynikom obserwacji. Są one bowiem punktem wyjścia do wyliczenia wartości opisywanych testów. Proces rangowania przebiega następująco:
Porządkujemy rosnąco wartości obu prób.
Zaczynając od wartości najmniejszej (lub największej), przyporządkowujemy poszczególnym obserwacjom kolejne liczby naturalne.
W przypadku wystąpienia wartości jednakowych przyporządkowujemy im tzw. rangi wiązane (średnia arytmetyczna z rang, jakie powinno się im przypisać).
W podanym przykładzie chcemy zweryfikować hipotezę, że wszystkie metody leczenia dają jednakowe wyniki. Musimy więc zastosować test sprawdzający hipotezę, że k niezależnych próbek pochodzi z tej samej populacji. Użyjemy w tym celu testu sumy rang Kruskala-Wallisa. Dane powinny być podobnie rozmieszczone jak w analizie wariancji. Jedna zmienna (WYNIKI) zawiera wyniki oceny, a druga (METODA) - kod (numer metody) do jednoznacznej identyfikacji grup. Test uruchamiamy poprzez dwukrotne kliknięcie jego nazwy w oknie Statystyki nieparametryczne (rys. 1).
Po wprowadzeniu danych i ewentualnym ustawieniu potrzebnych opcji klikamy OK, co powoduje wykonanie analizy i pojawienie się (jako pierwszego) okna pokazanego na rysunku 2. Zawiera ono wyniki analizy statystycznej. W 3 kolejnych kolumnach są podane: kod, liczba przypadków, suma rang. Powyżej w nagłówku podana jest wartość testu Kruskala-Wallisa H = 7,841454 i poziom istotności p = 0,0494, który pozwala odrzucić naszą hipotezę zerową. Na podstawie wyników analizy można (na poziomie istotności p = 0,049) wyciągnąć wniosek, że metody leczenia mają statystycznie istotny wpływ na wynik terapii.
Rys. 2. Arkusz wyników testu Kruskala-Wallisa
Do uzyskania interpretacji graficznej wykorzystamy przyciski Wykres ramkowy w oknie ANOVA Kruskala-Wallisa i test mediany. Po wybraniu rodzaju "pudełka" i wciśnięciu OK otrzymamy rysunek 3.
Rys. 3. Wykres ramkowy dla danych z pierwszego przykładu
W tym samym polu co test Kruskala-Wallisa znajduje się jego mniej dokładna wersja, test mediany. STATISTICA oblicza dla każdej z prób liczbę przypadków, które wypadają powyżej lub poniżej mediany. Następnie wyliczana jest wartość statystyki 2 (p. następny odcinek).
Kolejny przykład posłuży do omówienia testu Friedmana. Zakładamy, że w pewnym eksperymencie medycznym oceniano różnice między średnimi stężeniami kortyzolu w kolejnych etapach leczenia chorych na udar mózgu. Oznaczono w tym celu 4-krotnie (w stałych odstępach czasowych) stężenie kortyzolu (w g/dl) u 17 pacjentów. Otrzymane wyniki są przedstawione w tabeli 2. Chcemy wiedzieć, czy między średnimi stężeniami kortyzolu występują istotne różnice.
Hipoteza zerowa, którą chcemy odrzucić, zakłada że kolumny danych zawierają próby pobrane z tej samej populacji. Dane wprowadzamy kolumnami, tzn. wyniki kolejnych pomiarów są zapisane w nowej kolumnie (nowa zmienna). Po uruchomieniu testu (dwukrotnie klikając nazwę) i wybraniu zmiennych otrzymujemy arkusz wyników (rys. 4).
Rys. 4. Arkusz wynikowy testu Friedmana
Zawiera on wyniki analizy statystycznej. W 4 kolejnych kolumnach są podane dla każdej zmiennej: średnia ranga, suma rang i średnia arytmetyczna z odchyleniem standardowym. Powyżej w nagłówku jest podana wartość testu 2 ANOVA = 9,232142 oraz poziom istotności p = 0,02637, który pozwala odrzucić hipotezę zerową.
Na podstawie wyników analizy można (na poziomie istotności p = 0,026) wyciągnąć wniosek, że istnieje statystycznie istotna różnica między średnimi stężenia kortyzolu w kolejnych etapach leczenia. W arkuszu wynikowym mamy również obliczony współczynnik zgodności Kendalla (p. następny odcinek). Jako interpretację graficzną wykorzystamy również wykres ramkowy (skrzynkę z wąsami). Po wybraniu rodzaju "pudełka" i wciśnięciu OK otworzy się okno jak na rysunku 5.
Rys. 5. Wykres ramkowy dla danych z drugiego przykładu
|