7.Budowa i weryfikacja hipotez badawczych
Weryfikacja (testowanie) hipotez statystycznych to sprawdzanie określonych założeń wysuniętych w stosunku do parametrów lub rozkładów populacji generalnej na podstawie wyników z próby. Najpierw wysuwamy określone przypuszczenie dotyczące populacji generalnej a następnie sprawdzamy je na podstawie wyników z próby.
Ogólnie rzecz biorąc hipotezy mogą dotyczyć:
wartości badanych zmiennych (np. średnia waga osób chorych na pewną chorobę wynosi 45 kg),
różnicy między cechami opisującymi badaną grupę, populację (np. lek A skuteczniej obniża ciśnienie niż lek B),
porównania rozkładów zmiennych (np. rozkład zmiennej "glikemia" jest rozkładem normalnym).
Hipoteza statystyczna to każdy sąd dotyczący populacji generalnej, wydany bez przeprowadzenia badania wyczerpującego.
Przy weryfikacji hipotez statystycznych używamy pojęć:
Hipoteza zerowa - H0 - jest to hipoteza, którą sprawdzamy. Stawiając H0 przyjmujemy, że między estymatorem i parametrem lub rozkładem empirycznym i teoretycznym nie ma statystycznie istotnej różnicy.
Hipoteza alternatywna - H1 - jest to każda dopuszczalna hipoteza, poza zerową. W H1 dopuszczamy istnienie różnic między estymatorami i parametrami bądź między rozkładami z prób i rozkładami teoretycznymi.
KLASYFIKACJA HIPOTEZ STATYSTYCZNYCH:
Hipotezy istotności różnic: badanie czy uzyskane statystyki charakteryzujące próby losowe różnią się między sobą w sposób istotny, czy też różnice te są przypadkowe:
Ho: dwie próby różnią się między sobą nie w sposób istotny, ale przypadkowy.
H0: Różnica pomiędzy średnimi arytmetycznymi jest nieistotna
H1: Różnica pomiędzy średnimi arytmetycznymi jest istotna i wskazuje, ze średnie te nie pochodzą z tej samej populacji
Hipotezy niezależności: badanie czy istnieje współzależności (współzmienność) co najmniej dwu cech charakteryzujących populację generalną i rozstrzygnięcie czy współzmienność ta rzeczywiście istnieje.
Ho: wartość liczbowa współzmienności (np. współczynnik korelacji) rozpatrywanych cech określana dla populacji generalnej jest równa zeru.
H1: wyraża przypuszczenie, że wartość liczbowa współzmienności jest różna od zera.
Hipotezy zgodności: 1. Ustalenia typu rozkładu zmiennej losowej charakteryzującej populację generalną. 2. Oceny zgodności dwóch rozkładów empirycznych otrzymanych z badań dwu różnych zmiennych X, Y w tej samej populacji bądź tej samej zmiennej w dwu różnych populacjach
H0: rozkład empiryczny jest zgodny z rozkładem teoretycznym (najczęściej normalnym)
H1: rozkłady nie są zgodne.
H0: Rozkład empiryczny zmiennej X(a) jest zgodny z rozkładem empirycznym zmiennej Y(a).
H0: Rozkład empiryczny zmiennej X(a) jest zgodny z rozkładem empirycznym zmiennej X(b).
Błąd I rodzaju - odrzucenie sprawdzanej hipotezy, gdy jest ona prawdziwa; prawdopodobieństwo popełnienia błędu pierwszego rodzaju nazywa się poziomem istotności i oznacza przez α; najczęściej przyjmuje wartości 0,05, 0,01 lub 0,001.
Błąd II rodzaju - przyjęcie sprawdzanej hipotezy, gdy jest ona fałszywa; prawdopodobieństwo popełnienia błędu drugiego rodzaju β
Obszar krytyczny tworzą wartości sprawdzianu, których prawdopodobieństwo wystąpienia przy założeniu prawdziwości H0 jest mniejsze (lub równe) od przyjętego poziomu istotności.
Lokalizacja obszaru krytycznego wynika z następujących określeń:
znajomości rozkładu sprawdzianu obliczonego z próby
brzmienia hipotezy alternatywnej (przy testach istotności)
wybranego poziomu istotności α
Obszar krytyczny dwustronny: tworzą wartości sprawdzianu mniejsze lub równe -tα oraz większe lub równe tα.
Obszar krytyczny prawostronny tworzą wartości sprawdziany większe od tα.
Obszar krytyczny lewostronny tworzą wartości sprawdziany mniejsze od -tα.
REGUŁA TRZECH ODCHYLEŃ (SIGM): - Otrzymanie wartości dowolnej zmiennej losowej o rozkładzie normalnym poza przedziałem (X-3 σ, X+3 σ) jest mało prawdopodobne: P(X<X-3σ i X>X+3 σ)≈0,0027≈0,27% Pojawienie się takiej wartości traktujemy jako coś nietypowego (bardzo małe prawdopodobieństwo) i możemy taką wartość odrzucić.
PROCES WERYFIKACJI HIPOTEZ STATYSTYCZNYCH:
Wysunięcie przypuszczenia dotyczącego parametrów lub rozkładów analizowanych zbiorowości statystycznych.
Określenie hipotezy zerowej i hipotezy alternatywnej.
Wybór odpowiedniego testu statystycznego, za pomocą którego weryfikuje się dane przypuszczenie.
Obranie poziomu istotności α, czyli określenie maksymalnego ryzyka popełnienia błędu I rodzaju.
Obliczenie wartości sprawdzianu na podstawie wyników badania próby losowej.
Określenie obszaru krytycznego (wartości krytycznych odczytanych z tablic), biorąc pod uwagę rozkład sprawdzianu, postać hipotezy alternatywnej, poziom istotności.
Porównanie wartości sprawdzianu z obszarem krytycznym.
Podjęcie decyzji:
Gdy obliczona wartość sprawdzianu wpada w obszar krytyczny, podejmujemy decyzję o odrzuceniu hipotezy zerowej i przyjęciu hipotezy alternatywnej (na danym poziomie istotności!). p<a
Gdy obliczona wartość sprawdzianu nie wpada w obszar krytyczny, stwierdzamy, że nie ma podstaw do odrzucenia hipotezy zerowej. Nie oznacza to jednak, że przyjmujemy hipotezę zerową (na danym poziomie istotności!).p>a
Interpretacja merytoryczna