Wybrane zagadnienia wnioskowania statystycznego
Statystyka opisowa a statystyka indukcyjna
Procedury statystyczne stosowane do opisu właściwości próby albo — tam gdzie dostępne są pełne dane dotyczące populacji — do opisu populacji określa się mianem statystyki opisowej.
Procedury statystyczne stosowane przy wyciąganiu wniosków dotyczących właściwości populacji na podstawie danych uzyskanych z próby określa się mianiem statystyki indukcyjnej. Zastosowanie tych procedur wskazuje nam, z jakim stopniem pewności możemy przyjąć wnioski dotyczące populacji wyciągnięte na podstawie danych z próby. Statystyka posiada narzędzia, pozwalające ocenić wiarygodność twierdzeń co do rzeczywistości na podstawie badania próby (czyli wnioskowania statystycznego). Gdybyśmy zbadali całą populację, to wnioskowanie statystyczne nie jest potrzebne.
Podstawowe pojęcia związane z weryfikacją hipotez statystycznych
Strategia postępowania statystycznego jest następująca. Nazwijmy "zerową hipotezą statystyczną" tezę logicznie przeciwną temu czego oczekujemy. Hipotezę tą oznaczamy H0. Następnie zbieramy dane. Na podstawie analiz statystycznych zgromadzonych danych wykazujemy (albo nie wykazujemy), że hipoteza H0 jest raczej fałszywa i należy ją odrzucić. Odrzucenie H0 oznacza potwierdzenie naszych oczekiwań. Tego typu sposób rozumowania, powszechny w wielu badaniach bywa nazywany "testowaniem odrzucająco-potwierdzającym" gdyż odrzucenie hipotezy zerowej oznacza potwierdzenie badanej tezy. Hipoteza zerowa jest prawdziwa albo fałszywa i statystyczny proces decyzyjny nie zakłada innej możliwości. Hipotezę zerową odrzucamy albo jej nie odrzucamy. W sumie, przed podjęciem badania, mamy cztery możliwości, zebrane w poniższej tabeli.
Tabela 1. Błąd pierwszego i drugiego rodzaju
Rzeczywistość |
Nasza decyzja |
|
|
Przyjmujemy H0 |
Odrzucamy H0 |
H0 prawdziwa |
decyzja poprawna |
błąd I rodzaju (prawdopodobieństwo α) |
H0 fałszywa |
błąd II rodzaju (prawdopodobieństwo β) |
decyzja poprawna |
Konsekwencje błędów:
I rodzaju: stwierdzamy różnicę (zależność) tam, gdzie jej nie ma
II rodzaju: stwierdzamy brak różnicy (zależności) tam, gdzie ona jest
Wszystkie testy statystyczne podają nam prawdopodobieństwo popełnienia błędu I rodzaju w postaci poziomu prawdopodobieństwa testowego p. Z kolei im mocniejszy test, tym mniejsze jest prawdopodobieństwo popełnienia błędu II rodzaju. Dobrze zaplanowany eksperyment musi zapewniać moc testu (1-β) wystarczająco dużą do wykrycia rozsądnych odstępstw od hipotezy zerowej. Za satysfakcjonującą uznaje się moce (1-β)>0,80. Następujące czynniki wpływają na moc testu:
Jaki test jest wykonywany. Niektóre testy statystyczne z natury mają większą moc od innych.
Liczebność próby. Ogólnie, im większa próba tym większa moc testu. Jednak pomiary są drogie i czasochłonne, konieczne jest więc znalezienie liczebności, która będzie "wystarczająco duża" i nie będzie prowadziła do zbędnego marnowania środków.
Wielkość spodziewanego efektu. Jeżeli hipoteza zerowa jest zdecydowanie błędna, to moc testu będzie większa niż przy niewielkich rozbieżnościach.
Błędy pomiarowe. Każda poprawa dokładności pomiarów poprawia moc testu.
Rodzaj stawianej hipotezy: dwustronna lub jednostronna
Przykład 10. Obliczanie mocy testu i liczebności próby w teście t, przy niezależnych próbach
W celu obliczenia mocy testu należy kliknąć Statystyki→Analiza mocy testu i estymacja przedziałowa. W polu w lewej części okna wybieramy jeden z czterech dostępnych typów analizy: Moc, Liczność próby, Estymacja przedziałowa i Rozkłady prawdopodobieństwa. Większe pole, w prawej części okna zawiera listę dostępnych rodzajów analiz, zależną od wyboru dokonanego w lewym polu. Wybierzmy, z lewego pola Moc, po czym kliknijmy podwójnie pozycję Dwie średnie, test t, próby niezależne, by otrzymać okno Test t dla prób niezależnych: Moc. Ten typ wstępnego okna, wspólny dla wszystkich obliczeń mocy, pozwala wprowadzić parametry analizy.
Na karcie Podstawowe (okna Test t dla prób niezależnych: Moc) podajemy podstawowe parametry analizy. W przypadku hipotezy dwustronnej, hipoteza zerowa H0 testowana jest względem alternatywnej H1, przy czym:
H0: μ1 = μ2 |
H1: μ1 ≠ μ2 |
μ1 jest średnią populacyjną w grupie 1, a μ2 jest średnią w grupie 2. W teście t dwóch próbek zakłada się, że porównywane populacje podlegają rozkładom normalnym, a odchylenia standardowe w obu rozkładach są takie same.
Rys. 11. Ocena mocy testu
Przypuśćmy, na przykład, że porównywać zamierzamy, ze względu na iloraz inteligencji, dwie grupy, a odchylenie standardowe w obu grupach wynosi 15. Pomiary są dość kosztowne, decydujemy się więc zbadać po 50 osób z każdej grupy. Zakładamy, że w grupie pierwszej średnia wyniesie 115, a różnicę uznamy za zadowalającą, jeżeli będzie wynosiła 5. Czyli średnia dla drugiej grupy może wynieść 110. Załóżmy, że test przeprowadzać będziemy na poziomie istotności, czyli prawdopodobieństwie błędu I rodzaju α = 0,05. Następnie klikamy przycisk OK, przechodząc do kolejnego etapu analizy.
Wielkość efektu standardowego
Przyjrzyjmy się pojęciu efektu standardowego (Es):
Es=(μ1 - μ2)/ σ
By dobrze zrozumieć jego sens i znaczenie zauważmy jak sztuczny jest rozpatrywany dotąd przykład. Otóż badacz, by obliczyć moc testu podaje dokładnie jaki jest efekt w eksperymencie (czyli różnica μ1 - μ2 pomiędzy średnimi otrzymanymi w różnych warunkach), ponadto badacz skądś wie, ile wynosi σ, czyli odchylenie standardowe w populacji. W większości typowych sytuacji badacz nie zna σ, podobnie jak nie zna μ1 albo μ2. Obliczanie mocy testu przy założeniu znajomości σ jest wygodne lecz nierealistyczne, jest to, co najwyżej prosty, dydaktyczny model. Są, oczywiście sytuacje, w których σ znana jest z rozsądną dokładnością. Na przykład, o IQ często zakłada się, że ma odchylenie standardowe równe 15, bo tak jest normalizowane. Przy obliczaniu mocy testu nie musimy znać σ, μ1 czy μ2. Wystarczy podać efekt standaryzowany, czyli jedną liczbę Es, zamiast μ1, μ2 i σ. Używanie Es ma wiele zalet, na przykład niezależność od jednostek pomiarowych. W analizie mocy funkcjonuje szereg konwencji dotyczących Es:
1. Słaby efekt (Es : 0,20-0,50)
2. Średni efekt (Es : 0,50-0,80)
3. Silny efekt (Es > 0,80)
Oznacza to, że nie musimy znać konkretnych wartości μ1, μ2 i σ by wykonać analizę mocy. W tym, konkretnym przykładzie mamy średni efekt. Aktualna wielkość prób okazuje się w takiej sytuacji za mała. Jak liczne jednak muszą być próby by osiągnąć rozsądny poziom mocy testu? By odpowiedzieć na to pytanie przyjrzyjmy się kilku opcjom programu.
Obliczanie wymaganej liczebności próby
W Panelu początkowym, jako typ analizy, w lewym polu, wybieramy Liczność próby, a w prawym polu wybieramy Dwie średnie, test t, próby niezależne. Klikamy OK i otrzymujemy okno Test t dla prób niezależnych: Liczność. W oknie tym podajemy podstawowe parametry konieczne do obliczenia liczności próby.
Rys. 12. Obliczanie liczebności próby
Wartość Mocy docelowej ustawiamy na 0,8, średnią dla kobiet 110, średnią mężczyzn 115, odchylenie standardowe 15 i kliknijmy OK, by wywołać okno Test t dla prób niezależnych: Wyniki obliczania liczności próby (zob. Rys. 12).
W polu podsumowującym, u góry okna, podane są podstawowe parametry analizy. Aby obliczyć N w grupach konieczne dla osiągnięcia, w zadanych warunkach mocy testu co najmniej równej zadanej mocy docelowej, klikamy przycisk Oblicz N. Otrzymany arkusz zawiera podstawowe parametry oraz Wymagane N (w grupie) i Moc dla wymaganej liczności próby N.
Hipotezy jednostronne i dwustronne i ich konsekwencje dla procesu wnioskowania statystycznego
W przypadku hipotez dotyczących różnic lub zależności hipoteza robocza może być:
dwustronna — stwierdza fakt istnienia różnic lub zależność bez podania kierunku różnic lub znaku zależności
jednostronna — hipoteza zawiera stwierdzenie co do kierunku różnic lub znaku zależności
W większości przypadków program statystyczny oblicza poziom istotności dla testu dwustronnego. W przypadku stawiania hipotez jednostronnych należy ten poziom istotności w przypadku testów parametrycznych dla dwóch prób niezależnych podzielić przez 2.