przewodnikPoPakiecieR5

przewodnikPoPakiecieR5



222 Wybrane /irocedtuy statystyczne

3.5.6 Testowanie zbioru hipotez

W wielu dziedzinach nauki spotykamy się z sytuacją, gdy w jednym badaniu testowanych jest wiele hipotez. W takich analizach zachodzi potrzeba modyfikacji poziomą istotności dla poszczególnych hipotez lub też (co jest równoważne) modyfikacji p. wartości dla poszczególnych hipotez.

Z togo powodu jkk! żadnym pozorem nie wolno przeprowadzać analiz typu: ^porównajmy wszystko ze wszystkim, może coś wyjdzie”!!!


y | y Nie należy ignorować problemów związanych z liczbą testów. Nie-uwzględnianie liczby testów przy doborze poziomu istotności może pro wadzić do podobnych efektów jak w przypadku statystycznej siatki ba-rona Mtinchausena (baron był znany z opowiadania różnych niewiary* godnych i nieprawdziwych historii). Idea tej siatki polega na wykonywaniu testów statystycznych dla olbrzymiej liczby różnych podpopulacji. W takim scenariuszu, z przyczyn losowych, nawet gdy żadnych istotnych sygnałów nie ma w danych, to dla którychś testów p-wartość będzie mniejsza od 0.05, co może zostać fałszywie (w tym przypadku) uznane za istotną zależność.

Przykładowo, przeprowadzając, w jednym badaniu 1000 testów, wszystkie na poziomie istotności a = 0.05, możemy „odkryć" około 50 istotnych zależności, które będą całkowicie fałszywe!!!

Tych

współczynników jest wiele wiele więcej, ale inne nie są często używane.


Aby zapanować nad błędami popełnianymi w procesie testowania zbioru hipotez należy używać poziomów istotności dla pojedynczego testu uwzględniających liczbę przeprowadzanych testów. W tabeli 3.18 przedstawiliśmy standardową tabelkę opisującą wyniki testowania zbioru m hipotez zerowych. Zmienna V określa liczbę prawdziwych hipotez zerowych odrzuconych w procesie testowania, zmienna R określa liczbę wszystkich hipotez zerowych odrzuconych w procesie testowania. W przypadku testowania jednej hipotezy interesowało nas kontrolowanie prawdopodobieństwa popełnienia błędu pierwszego rodzaju. W przypadku testowania zbioru hipotez najczęściej rozważa się kontrolę jednego dwóch najpopularniejszych współczynników' błędów. Są to:

FWER = Pr(V » 1),

FDR = E(Q),

gdzie Q — 0 gdy R = 0 i Q = V/R gdy R > 0. Kontrola współczynnika FWER jest bardziej konserwatywna od kontroli współczynnika FDR (ponieważ FWERFDR). Jest to często powodem, dla którego kontrola FDR jest popularniejsza, chociaż oczywiście wybór współczynnika do testowania powinien zależeć od rozważanego zagadnienia.

# przyjętych

#odrzuconyeh

hipotez zerowych

hipotez zerowych

suma

^prawdziwych hipotez zerowych

mą - V

V

m o

#fałszywych hipotez zerowych

mi — S

S

mi

suma

m - R

R

m

Tabela 3.18: Zmienne V, S i fi to zmienne losowe opisujące wyniki testowania- zbioru hipotez. Liczba hipotez zerowych oznaczona jest przez m, mg to liczba hipotez zerowych prawdziwych a mi to liczba hipotez zerowych fałszywych

| ^    Naturalnym pytaniem jest., który współczynnik błędu powinniśmy kon-


' trolować. W wyborze współczynnika powinno pomóc pytanie, jak bar-

dzo chcemy zredukować liczbę możliwych fałszywych sygnałów' (ang.


fatse positives)? Jeżeli chcemy, by wśród wszystkich rozważanych hipo-


tez fałszywy sygnał pojawił się z prawdopodobieństwem nie większym niż a, to interesuje nas kontrola współczynnika FWER. To bardzo wymagająca kontrola, obrazowo: testując czy samolot jest. sprawny i nadaje się do lotu chcielibyśmy kontrolować prawdopodobieństwo, że którykolwiek dopuszczony do lotu samolot zepsuje się w powietrzu. Takie prawdopodobieństwo chcemy kontrolować bez względu na to. ile samolotów dopuścimy do użytku. Kontrola FDR to wymaganie, by średnia liczba fałszywych sygnałów pozytywnych wśród wszystkich pozytywnych nie była większa od założonego a. Obrazowo: sprzedając telewizory możemy dopuścić frakcję telewizorów, które się będą psuły wśród wszystkich sprzedanych telewizorów. Im więcej telewizorów się sprzeda tym tych wadliwych również może być więcej, oby tylko frakcja wadliwych nie była większa od założonego a.

Jak napisaliśmy powyżej, liczbę testowanych hipotez uwzględnia się modyfikując poziom istotności dla poszczególnych testów, tale aby otrzymaną z testu p-wartość porównać ze zmodyfikowanym poziomem istotności. Równoważnie można modyfikować p-wartość w taki sposób, by móc porównywać zmodyfikowaną p-wartość z zadanym współczynnikiem błędu (a więc odpowiednikiem poziomu istotności dla jednego testu). Takie podejście jest popularniejsze, tak więc w zastosowaniach uwzględnienie liczby wykonywanych testów sprowadza się do wyznaczenia tzw. dopasowanych p-wartości (ang. adjusted p-values) zamiast zwykłych p-wartości. Proces podejmowania decyzji z użyciem dopasowanych p-wartości wygląda tak samo jak w zwykłym zagadnieniu testowania a więc jeżeli dla danej i tej hipotezy < a to marny podstawy do odrzucenia tej hipotezy zerowej, w przeciwnym przypadku nie mamy podstaw do jej odrzucenia. Wybrany współczynnik błędu jest w tej sytuacji kontrolowany na poziomie a.

Wiole funkcji przydatnych w zagadnieniu testowania zbioru hipotez jest zaimplementowanych w pakiecie multtest. Część z dostępnych tam korekt bazuje na metodach pcrmutacyjnych, sprawdzają się one całkiem nieźle, ale ich omawianie wykracza poza zakres tej książki. Poniżej przedstawimy funkcję mt.rawp2adjp(multtest) operującą jedynie na surowych p-wartościach. Pozwala ona na przeprowadzenie korekty p-wartości z użyciem jednej ze standardowych metod. Podobna (nieco uboższa) funkcjonalność jest dostępna w funkcji p. adjust (stats). Obie funkcje pozwalają na modyfikacje p-wartości tak, aby kontrolować błędy FWER lub FDR w jednej z trzech najpopularniejszych strategii testowania: step-up, st-ep-down lub single-step. Więcej informacji o zagadnieniu testowania zbioru hipotez znaleźć można np. w pracy [24]. Wiele procedur do kontroli współczynnika FDR znajduje się również w pakietach kerfdr, locfdr, nFDR, qvalue i fdrtool.

Poniżej przedstawiamy przykład, w którym w badaniu wykonujemy sześć testów t-Studenta. Dla każdego z testów wyznaczamy p-wartości i stosujemy do zbioru p-wartości korektę Bonferroniego (dla argumentu proc="bonferroni", historycznie najstarszą i przez to popularną) oraz korektę Benjaminiego-Hochberga (dla argumentu proc="BH", to najpopularniejsza korekta do kontroli współczynnika FDR). Stosując korektę Bonferroniego na poziomie FWER = 0.05 odrzucilibyśmy w poniższym przykładzie 4 hipotezy (o indeksach 1, 2, 5 i 6). Stosując korektę Benjaminiego-Hochberga na poziomie FDR - 0.05 odrzucilibyśmy również t.ę o indeksie 4.


Wyszukiwarka

Podobne podstrony:
przewodnikPoPakiecieR3 198. Wybrane procedury statystyczno3.5 Testowanie Testowanie to bardzo ważny
przewodnikPoPakiecieR9 210 Wybrane procedury statystyczne Testowanie 211 Na rysunku 3.38 przedstawi
przewodnikPoPakiecieR4 140 Wybrane procedury statystyczne >    U ustawiamy ziarno
przewodnikPoPakiecieR 3 I 178 Wybrane procedury statystyczno W powyższym przykładzie wygląda na to,
przewodnikPoPakiecieR 1 I m 174 Wybrane procedury statystyczne. P So good «dvice here is: Bewarc
przewodnikPoPakiecieR 3 I 178 Wybrane procedury statystyczno W powyższym przykładzie wygląda na to,
75190 przewodnikPoPakiecieR 1 I m 174 Wybrane procedury statystyczne. P So good «dvice here is: B
przewodnikPoPakiecieR7 166 Wybrane procedury statystyczne mezczyzna piec Niepowodzenia Rysunek 3.23
przewodnikPoPakiecieR 3 I 178 Wybrane procedury statystyczno W powyższym przykładzie wygląda na to,
przewodnikPoPakiecieR7 126 Wybrane procedury statystyczne Statystyki opisowe127 Tabela 3.1: Statyst
przewodnikPoPakiecieR8 128 Wybrane procedury statystyczne 128 Wybrane procedury statystyczne 3.1.1.
przewodnikPoPakiecieR9 130 Wybrane procedury statystyczne Histogram zmiennej wiek Histogram zmienne
przewodnikPoPakiecieR1 134 Wybrane procedury statystyczne Domyślnie, przedział ufności dla med

więcej podobnych podstron