6 Model statystyczny
Model statystyczny stanowi hipoteza lub układ hipotez sformułowanych w sposób matematyczny (odpowiednio w postaci równania lub układu równań), który przedstawia zasadnicze powiązania występujące pomiędzy rozpatrywanymi zjawiskami rzeczywistymi.
Bardziej formalnie jest to parametryzowana rodzina rozkładów łącznych rozważanych zmiennych, stąd druga nazwa przestrzeń statystyczna.
Hipoteza statystyczna to dowolne przypuszczenie dotyczące rozkładu populacji postaci funkcyjnej lub wartości parametru rozkładu. Proces sprawdzenia prawdziwości tego przypuszczenia na podstawie wyników próby losowej to weryfikacja hipotez statystycznych.
Formułowanie hipotezy statystycznej rozpoczyna się zebraniem informacji na temat populacji i jej możliwego rozkładu. Dzięki temu możliwe jest zbudowanie zbioru hipotez dopuszczalnych Ω, czyli zbioru rozkładów, które mogą charakteryzować badaną populację. Hipoteza statystyczna to każdy podzbiór zbioru hipotez dopuszczalnych.
Hipotezy statystyczne można podzielić na:
parametryczne - hipoteza dotyczy wartości parametru rozkładu
nieparametryczne - hipoteza dotyczy postaci funkcyjnej rozkładu
Hipotezy nieparametryczne
Testy zgodności z rozkładem teoretycznym lub innym rozkładem
Testy niezależności
Rodzaje hipotez parametrycznych
Hipoteza zerowa H0: stwierdza, że nie ma różnicy między parametrem (lub parametrami) i pewną wyszczególnioną wartością (lub zbiorem wartości),
Hipoteza alternatywna H1: stwierdza, że jest istotna różnica między parametrem (lub parametrami), a pewną wyszczególnioną wartością (lub zbiorem wartości).
Testowanie hipotez parametrycznych
Wybór pomiędzy hipotezą zerową H0, która podlega weryfikacji, a hipotezą alternatywną H1, którą jesteśmy skłonni przyjąć gdy odrzucimy hipotezę zerową, dokonany na podstawie wyników próby wylosowanej z populacji
Test statystyczny
Algorytm służący do weryfikacji hipotez na podstawie prób losowych. Każdej próbie losowej przyporządkowują jedną z dwóch decyzji: przyjąć sprawdzaną hipotezę lub odrzucić ją.
Wyniki testowania
Decyzja | H0 prawdziwa | H0 fałszywa |
---|---|---|
Odrzucić H0 | Błąd I rodzaju | Decyzja prawidłowa |
Nie odrzucać H0 | Decyzja prawidłowa | Błąd II rodzaju |
Błędy I rodzaju: odrzucenie H0 mimo, że jest prawdziwa (prawdopodobieństwo α), (np. uznanie chorej pacjentki za zdrową)
Błędy II rodzaju: przyjęcie H0 gdy jest ona fałszywa (prawdopodobieństwo β), (np. uznanie zdrowej pacjentki za chorą)
PRZYKŁAD Weryfikacja hipotezy dotyczącej wartości średniej
H0 : m = m0 przeciwko H1: m≠m0 na poziomie istotności α
Analiza modeli statystycznych
Łączy rozkład statystyk $\overset{\overline{}}{X} = \frac{1}{n}\sum_{i = 0}^{n}X_{i};\ \ \ \ S^{2} = \frac{1}{n}\sum_{i = 1}^{n}\left( X_{i} - \overset{\overline{}}{X} \right)^{2}$
Jeżeli niezależne zmienne losowe Xi i = 1, 2, …, n o mają identyczne rozkłady normalne N(m, σ) to zmienne losowe $\overset{\overline{}}{\mathbf{X}}\mathbf{,S}$ są niezależne: zmienna $\overset{\overline{}}{\mathbf{X}}$ ma rozkład $\mathbf{N}\left( \mathbf{m,\ \sigma/}\sqrt{\mathbf{n}} \right)$ a zmienna S2/σ2 ma rozkład χn − 12
Zauważmy, że praktyczne stosowanie tych rozkładów wymaga znajomości parametrów populacji m oraz σ.
Statystyka t Studenta $t = \frac{\overset{\overline{}}{X} - m}{S}\sqrt{n - 1}$
Statystyka t-Studenta zastępuje $\overset{\overline{}}{\mathbf{X}}$ gdy znamy wartość m a nie znamy wartości σ
Przypadek 1 , gdy X ma rozkład normalny N (m, σ), gdzie σ jest znane to statystyką testową będzie $\mathbf{U =}\frac{\overset{\overline{}}{X} - m_{0}}{\mathbf{\sigma}}\sqrt{\mathbf{n}}$
Jeśli H0 jest prawdziwa, to U ma standardowy rozkład normalny N (0, 1).
Przypadek 2 , gdy X ma rozkład normalny N (m, σ), gdzie σ jest nieznane to statystyką testową będzie $t = \frac{\overset{\overline{}}{X} - m}{S}\sqrt{n - 1}$
Jeśli H0 jest prawdziwa, to t ma rozkład Studenta o n-1 stopniach swobody
Podział na estymację punktową i przedziałową
Możemy wyróżnić dwie metody estymacji: estymacja punktowa i estymacja przedziałowa:
- W estymacji punktowej za ocenę wartości parametru przyjmujemy konkretną wartość, którą otrzymujemy na podstawie wyników z próbki, oczywiście przy zachowaniu odpowiednich reguł do wyznaczania tej wartości.
- W estymacji przedziałowej wyznaczamy przedział liczbowy, w którym z określonym przez nas prawdopodobieństwem zawiera się wartość szacowanego przez nas parametru.