04. WNIOSKOWANIE STATYSTYCZNE
2 WERYFIKACJA
(TESTOWANIE)
HIPOTEZ
STATYSTYCZNYCH
Istnieją dwie formy wnioskowania statystycznego:
•
estymacja (ocena nieznanych parametrów lub ich funkcji, które charakteryzują
rozkład badanej cechy populacji),
•
weryfikacja postawionych hipotez statystycznych (badanie ich prawdziwości).
WERYFIKACJA (TESTOWANIE) HIPOTEZ STATYSTYCZNYCH – sprawdzanie
prawdziwości hipotezy statystycznej w oparciu o wyniki próby losowej.
•
hipotezy parametryczne – hipotezy dotyczące wartości parametru rozkładu (
m, σ
),
•
hipotezy nieparametryczne – hipotezy dotyczące postaci rozkładu.
Hipoteza statystyczna – dowolne przypuszczenie dotyczące rozkładu populacji.
Weryfikacja hipotezy polega na zastosowaniu testu statystycznego, który buduje się w
zależności od postaci hipotezy zerowej
H
0
i postaci hipotezy alternatywnej
H
1
.
Przy weryfikacji hipotez można popełnić błędy dwojakiego rodzaju:
- błąd pierwszego rodzaju – odrzucenie prawdziwej hipotezy, jego prawdopodobieństwo
to
α
– poziom istotności,
- błąd drugiego rodzaju – przyjęcie fałszywej hipotezy.
Odrzucenie hipotezy w teście statystycznym oznacza, że dane liczbowe z próby dają małą
szansę prawdziwości tej hipotezy. Możliwe jest jednak, że hipoteza jest prawdziwa, ale
dane liczbowe są złe lub mało prawdopodobne przy tej hipotezie.
Test istotności – taki rodzaj testu statystycznego, który na podstawie wyników z próby
losowej pozwala podjąć decyzję jedynie o odrzuceniu hipotezy sprawdzanej lub o braku
podstaw do jej odrzucenia. Nie można na podstawie tego testu podjąć decyzji o przyjęciu
hipotezy zerowej.
W przykładowej nierówności:
{
}
α
α
=
≥
u
U
P
U
– obszar krytyczny,
u
α
– pewna statystyka z
n
-eltowej próby,
α
– poziom istotności.
Ilekroć wartość statystyki znajdzie się w obszarze krytycznym, podejmuje się decyzję o
odrzuceniu hipotezy
H
0
na korzyść hipotezy alternatywnej
H
1
. W przeciwnym wypadku
nie ma podstaw do odrzucenia
H
0
(co nie oznacza jej przyjęcia !!!).
PARAMETRYCZNE TESTY ISTOTNOŚCI
a weryfikacja hipotez dla wartości średniej
m
DLA DUŻEJ PRÓBY
Założenia:
- cecha
X
w populacji generalnej ma charakter rozkładu normalnego,
- znane jest odchylenie standardowe dla populacji –
σ
,
lub przy nieznanym
σ
można
posłużyć się
S
dla dużej próby (!), wówczas formuła:
=ODCH.STANDARD.POPUL(dane)
- próba jest duża
n
>30,
- podana jest wartość poziomu istotności
α.
Testowana hipoteza zerowa
H
0
:
0
0
:
m
m
H
=
m
– średnia w populacji generalnej,
m
0
– konkretna wartość hipotetycznej średniej w populacji generalnej.
Hipoteza alternatywna
H
1
ma trzy warianty:
hipoteza dwustronna
0
1
:
m
m
H
≠
hipoteza prawostronna
0
1
:
m
m
H
>
hipoteza lewostronna
0
1
:
m
m
H
<
Z obliczonej lub podanej wartości statystyki
x
(średnia z próby) należy policzyć wartość
zmiennej normalnej standaryzowanej:
n
m
x
u
σ
0
−
=
Następnie należy policzyć kwantyl
u
α
rozkładu normalnego dla zadanego poziomu
istotności
α
i porównać jego wartość z obliczoną wartością
u
(zbiór krytyczny):
dla hipotezy dwustronnej:
P{|u| > u
α
}
u
α
= ROZKŁAD.NORMALNY.S.ODW(1-
α
/2)
dla hipotezy prawostronnej:
P{u > u
α
}
u
α
= ROZKŁAD.NORMALNY.S.ODW(1-
α
)
dla hipotezy lewostronnej:
P{u < u
α
}
u
α
= ROZKŁAD.NORMALNY.S.ODW(
α
)
Jeżeli
u
i
u
α
spełniają odpowiednią nierówność, to znaczy, że na poziomie istotności
α
hipotezę
H
0
należy odrzucić na korzyść hipotezy
H
1
. W przeciwnym wypadku nie ma
podstaw do odrzucenia tej hipotezy.
!!! przy dużych próbach, gdy nieznane jest odchylenie standardowe dla populacji -
σ
,
można zastąpić je odchyleniem standardowym dla próby -
s
.
DLA MAŁEJ PRÓBY
Założenia:
- cecha
X
w populacji generalnej ma charakter rozkładu normalnego,
- znane jest odchylenie standardowe dla próby -
s
,
- próba jest mała
n
≤
30,
- podana jest wartość poziomu istotności
α
.
Hipotezy
H
0
i
H
1
formułowane są podobnie. Stosuje się tu statystykę rozkładu
t-Studenta:
1
0
−
−
−
−
−
−
−
−
=
=
=
=
n
s
x
t
µ
µ
µ
µ
.
Następnie należy policzyć kwantyl
t
α
rozkładu t-Studenta dla zadanego poziomu
istotności
α
i porównać jego wartość z obliczoną wartością
t
(zbiór krytyczny):
dla hipotezy dwustronnej:
P{|t| > t
α
}
t
α
= ROZKŁAD.T.ODW(
α
,
n
-1)
dla hipotezy prawostronnej:
P{t > t
α
}
t
α
= ROZKŁAD.T.ODW(2
α
,
n
-1)
dla hipotezy lewostronnej:
P{t < -t
α
}
t
α
= ROZKŁAD.T.ODW(2
α
,
n
-1)
b weryfikacja hipotez dla dwóch wartości średnich
m
1
i
m
2
– dla dużych
prób
Służy do porównywania średnich w dwóch populacjach, np. porównanie starej i nowej
technologii produkcji wyrobu, porównanie populacji osób chorych do populacji osób
zdrowych.
Założenia:
- cecha X w populacji generalnej ma charakter rozkładu normalnego,
- nieznane są wartości średnie dla obu populacji –
m
1
,
m
2
- znane jest odchylenie standardowe dla populacji –
σ
,
lub przy nieznanym
σ
można
posłużyć się S dla dużej próby (!), wówczas formuła:
=ODCH.STANDARD.POPUL(dane)
- próba jest duża
n
1
+
n
2
>30,
- podana jest wartość poziomu istotności
α
.
Wówczas hipoteza zerowa
H
0
:
2
1
0
:
m
m
H
=
m
1
– wartość średnia dla populacji pierwszej,
m
2
– wartość średnia dla populacji drugiej.
Hipoteza alternatywna
H
1
ma trzy warianty:
hipoteza dwustronna
2
1
1
:
m
m
H
≠
hipoteza prawostronna
2
1
1
:
m
m
H
>
hipoteza lewostronna
2
1
1
:
m
m
H
<
Test istotności buduje się na podstawie wartości średnich
1
x
i
2
x
z dwóch prób (po
jednej z każdej populacji) obliczając statystykę:
2
2
2
1
2
1
2
1
n
n
x
x
u
σ
σ
+
−
=
o rozkładzie N(0,1).
!!! jeśli wartości odchyleń standardowych
σ
1
i
σ
2
dla populacji generalnych są nieznane, a
próby są bardzo duże (
n
1
+
n
2
>120), to przyjmuje się
σ
1
=s
1
i
σ
2
=s
2
i oblicza statystykę
u
jak powyżej.
Obliczenie kwantyla
u
α
i porównanie go z obszarem krytycznym następuje tak samo, jak
przy testowaniu hipotezy dla jednej wartości średniej dla dużej próby.
c weryfikacja hipotez dla wariancji
σ
2
DLA MAŁEJ PRÓBY
Dla małych prób (
n
≤30) stosuje się rozkład
χ
2
.
Założenia:
- populacja generalna ma rozkład normalny
N
(
m,σ
),
- parametry
m, σ
są nieznane.
Hipoteza zerowa
H
0
:
2
0
2
0
:
σ
σ
=
H
Hipoteza alternatywna
H
1
:
2
0
2
1
:
σ
σ
>
H
!!! z reguły interesuje nas, czy wariancja przekracza ustaloną wartość czy nie, w związku
z tym najczęściej stosuje się obszar krytyczny prawostronny.
Budowa testu.
1. Z wyników
n
-elementowej próby obliczamy wariancję s
2
[
=WARIANCJA.POPUL
]
2. Obliczamy wartość statystyki:
2
0
2
2
σ
χ
s
n ×
=
3. Obliczamy wartość krytyczną
χ
α
2
taką, aby
P{χ ≥ χ
α
}=α
[
=ROZKŁAD.CHI.ODW(
α
;
n
-1)
]
4. Jeśli nierówność
χ
2
≥ χ
α
2
jest spełniona, to hipotezę zerową
H
0
należy odrzucić
na korzyść hipotezy
H
1
. W przeciwnym wypadku nie ma podstaw do odrzucenia
H
0
(ale nie oznacza to jej przyjęcia).
DLA DUŻEJ PRÓBY
n
>30
Gdy
n
>30, ze statystyki
χ
2
przechodzi się na statystykę
u
rozkładu normalnego:
3
2
2
2
−
−
=
n
u
χ
i porównuje ją z wartością
u
α
, spełniającą
P{u ≥ u
α
}=α
(obszar
prawostronny)
[
=ROZKŁAD.NORMALNY.S.ODW(1-
α
)
]
d weryfikacja hipotez dla dwóch wariancji
σ
1
2
i
σ
2
2
Test ten służy do sprawdzenia, czy rozproszenie danej cechy jest w jednakowe w dwóch
różnych populacjach.
Założenia:
- dane są dwie populacje generalne o rozkładzie normalnym
N
(
m
1
,
σ
1
),
N
(
m
2
,
σ
2
),
- losuje się po jednej próbie z każdej populacji.
Hipoteza zerowa
H
0
:
2
2
2
1
0
:
σ
σ
=
H
Hipoteza alternatywna
H
1
:
2
2
2
1
1
:
σ
σ
>
H
Budowa testu.
1. Z obu prób wyznaczamy wartości odchylenia standardowego
2
1
ˆ
s
i
2
2
ˆ
s
. Przy czym
numerację (
1
i
2
) ustalamy tak, aby
2
2
2
1
ˆ
ˆ
s
s >
.
[
=WARIANCJA.POPUL(dane)
]
2. Wyliczamy wartości statystyki
F
:
2
2
2
1
ˆ
ˆ
s
s
F =
3. Wyliczamy wartość krytyczną F
α
taką, aby
P{F ≥ F
α
}=α
[
=ROZKŁAD.F.ODW(
α
;
n
1
-1
;
n
2
-1
)
]
4. Jeśli nierówność
F ≥ F
α
jest spełniona, to hipotezę zerową
H
0
należy odrzucić na
korzyść hipotezy
H
1
. W przeciwnym wypadku nie ma podstaw do odrzucenia
H
0
(ale nie oznacza to jej przyjęcia).