198.
Wybrane procedury statystyczno
Testowanie to bardzo ważny dział statystyki, znajdujący zastosowania w wielu dzie_ dżinach. Pierwsze pomysły użycia testów statystycznych sięgają XVII wieku i prac Johna Arbuthnotta. Badał on liczby ochrzczonych noworodków płci męskiej i żejj. skiej w Londynie w latach 1625 - 1710. John Arbuthnott zauważył, że przez 82 lat a co rok było chrzczonych (a więc też rodziło się) więcej chłopców niż dziewczynę^
Na podstawie łych obserwacji stwierdził, że regularność występująca przez tyle lat wyklucza losowość i jest dowodem Boskiej Opatrzności, która uwzględniając bardziej ryzykowny tryb życia chłopców wpływa na ich wyższą częstość urodzin, gwarantu j równe proporcje obu płci w wieku dorosłym. To pozwala na zachowanie monogamij, która jest zgodna z prawem naturalnym.
Kamieniem węgielnym w rozwoju teorii testowania hipotez były prace Karla Pearsona z początków XX wieku dotyczące testowania zgodności. W pracach tych Pearson zaproponował test y2, później nazwany testem x2 Pearsona. Podstawy klasycznej teorii testowania łiipotez (nazywanej też częstościowym ujęciem zagadnienia testowania) zostały sformułowane przez Egona Pearsona (syna Karla Pearsona) oraz Jerzego Spławę Neymana, matematyka polskiego pochodzenia.
Od tego czasu zagadnienie testowania rozwijane jest do dziś. Standardowo w tym zagadnieniu formułuje się dwie przeciwstawne hipotezy: hipotezę zerową i hipotezę alternatywną. Na bazie zebranych obserwacji wykonuje się test statystyczny, na podstawie którego podejmuje się decyzję o przyjęciu lub odrzuceniu łiipotezy zerowej. Przed wykonaniem testu określa się wartość a, nazywaną poziomem istotności.
Ta wartość odpowiada maksymalnemu prawdopodobieństwo odrzucenia prawdziwej hipotezy zerowej (błąd I rodzaju) na jakie możemy się zgodzić. Wynik procesu te-stowania przedstawiany jest często w postaci p-wartości, czyli liczby określającej na jakim minimalnym poziomie istotności podejmiemy dla obserwowanych danych decyzję o odrzuceniu hipotezy zerowej. Jako wynik można też podawać wartość statystyki testowej. Przedstawione funkcje pakietu R wyznaczają zarówno wartość i statystyki testowej jak i odpowiadającą jej p-wartość.
W R zaimplementowanych jest bardzo wiele testów statystycznych, pozwalających na weryfikowanie różnorodnych hipotez. Pojawiają się też nieustannie nowe testy oraz rozszerzenia tych już dostępnych. 7. uwagi na ograniczone miejsce w tym rozdziale przedstawimy jedynie najpopularniejsze i najprzydatniejsze testy.
^ j / W tym rozdziale przedstawiamy funkcje, w których zaimplementowane są testy statystyczne. Nie przedstawiamy jednak wszystkich założeń dla wymienianych testów (przedstawiamy wybrane, najczęściej wymienianc-.łj 9 ale nie wszystkie!). Dlatego przed użyciem wybranego testu czytelnik/* powinien w literaturze sprawdzić założenia wybranego testu oraz zweryfikować, czy są one spełnione.
W tym rozdziale będą przedstawione fimkcje pozwalające na testowanie zgodności.^* obserwowanych danych z zadanym rozkładem ciągłym. Najpopularniejszą grupą te-stów są testy do weryfikacji zgodności z rozkładem normalnym, popularnie nazywane testami normalności. Przedstawimy też inne popularne testy zgodności w tym testy jednostajności i testy zgodności rozkładów dla dwóch prób. ^
I
Testowanie
3.5.1.1 Testowanie zgodności z rozkładem normalnym \V zagadnieniu testowania normalności hipoteza zerowa jest'postaci
gdzie F to nieznany rozkład, z którego pochodzą obserwowano wartości x ~ F. Weryfikujemy hipotezę, że ten rozkład należy do rodziny rozkładów normalnych, n|e znamy ani średniej ani wariancji.
Wiele procedur statystycznych (np. ANOVA, gaussowska regresja liniowa) zakłada, że odpowiednie zmienne są zgodne z rozkładem normalnym. To założenie jest najczęściej ważne, aby zapewnić poprawność procesu testowania, stąd też popularność testów zgodności z rodziną rozkładów normalnych. Opisano poniżej klasyczne testy normalności zostały zebrane w pakiecie nortest. Listę zaimplementowanych tam testów przedstawiliśmy w tabeli 3.12.
199
Fakt, że dostępnych J [ jt»t wiele testów | normalności nic oznacza, że
powinniśmy uruchomić je wszystkie i wybrać najbardziej pasujmy nam wynik. Wybór M | testu powinien zależeć od tego,
| jakich odstępetw od |l normalności się możemy spodziewać, ewentualnie przed j j jakimi odstępstwami | chcemy się uchronić, i
Tabela 3.12: Wybrane funkcje do weryfikacji zgodności z rozkładem normalnym
cvm.test(nortest) |
Test Crainćra-vou Misesa. W tej implementacji minimalna liczba obserwacji, niezbędna do wykonania tego testu, to osiem obserwacji. |
ad.test(nortest) |
Test Andeisona-Darlinga. Podobnie jak powyżej, minimalna liczba obserwacji, niezbędna do wykonania tego testu, to osiem obserwacji. W porów- 1 naniu do testu Cramera-von Misesa większą uwagę zwraca na ogony rozkładu. |
lillie.test(nortest) |
Test. Lillicforsn, czyli test bazujący na statystyce Kolnu>gorova-Srairnova. Sprawuje się średnio gorzej niż dwa przedstawione powyżej testy. |
pearson.test(nortest) |
Test xz Pearsona. Inna implementacja tego testu jest omawiana w kolejnym podrozdziale. Liczbę 1 klas, na które mają być dzielone obserwacje wyznaczana jest domyślnie ze wzoru 2n3/5, można też tę i liczbę określić argumentem n.klas. Wartości krytyczne dla statystyki testowej są domyślnie wyzna-czane z rozkładu Xn.klas 3 (z uwagi na estymowanie dwóch parametrów rozkładu), ale zmieniając wartość argumentu adjust na FALSE można wyznaczać wartości krytyczne z rozkładu X? |
shapiro.test(nortest) |
Test Shapiro-Wilka. Jest to jeden z najbardziej popularnych i jednocześnie jeden z lepszych testów normalności. Liczba obserwacji powinna mieścić się w przedziale od 3 do 5000, pouieważ dla takich liczebności stablicowane są wartości kwantyli statystyki testowej. Wywołanie tej funkcji z wektorem o większej lub mniejszej liczebności zakończy się komunikatem o błędzie. |
sf.test(nortest) |
Test Shapiro-FYaucia jest modyfikacją testu Shapiro-Wilka. Podobnie dla testu Sliapiro-Wilka liczba obserwacji powinna mieścić się w przedziale od 5 do 5000. |