Metody probabilistyczne i statystyka
Wykład
10
Weryfikacja hipotez dla wielu
populacji
Dr Joanna Banaś
Zakład Matematyki Stosowanej
Katedra Metod Sztucznej Inteligencji i Matematyki Stosowanej Wydział Informatyki Zachodniopomorskiego Uniwersytetu Technologicznego w Szczecinie
Metody probabilistyczne i statystyka
Wykład 10
25. Parametryczne testy istotności
w dwóch populacjach
(25.1) Wartości oczekiwane (średnie)
Model 1 (rozkłady normalne, znane wariancje)
X – zmienna losowa o rozkładzie normalnym N( m ,σ ) w jednej populacji i 1
1
rozkładzie normalnym N( m ,σ ) w drugiej,
2
2
wartości oczekiwane m = EX , m = EX nie są znane, 1
1
2
2
wariancje σ 2 = D 2 X i σ 2 = D 2 X są znane 1
1
2
2
Statystyka
X 1 − X 2
U =
2
2
σ1
σ2
+
1
n
n 2
ma rozkład N(0,1) przy założeniu prawdziwości hipotezy zerowej H : m = m
0
1
2
Obszary krytyczne dla odpowiednich hipotez alternatywnych zebrano w tablicy 25.1
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 10
Weryfikacja hipotezy dotyczącej
wartości średniej – model 1
Tablica 25.1. Tablica testu dla dwóch średnich – model 1
Hipoteza
Statystyka
Obszar
Uwagi
zerowa
alternatywna
testowa U
krytyczny K
(− ;
∞
u
− (1 α
− )〉
N (0,1)
2
α
α
H : m ≠ m
2
2
1
1
2
∪〈 u(1 α
− );∞)
0.1
2
u(1 α )
u( α
−
−
=
) 0
u(1 α
− )
2
2
2
X 1 − X 2
N (0,1)
H : m = m
H : m < m
2
2
σ
σ
α
(− ;
∞ − u(1− α)〉
0
1
2
1
1
2
1
2
+
0.1
1
n
n 2
u
− (1− α) = u(α) 0
N (0,1)
H : m > m
α
〈 u(1− α);∞)
1
1
2
0.1
0
u(1− α)
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 10
Weryfikacja hipotezy o równości wartości
przeciętnej w dwóch populacjach – model 2
Model 2 (rozkłady normalne, parametry nieznane, wariancje równe) X – zmienna losowa o rozkładach normalnych N( m ,σ ) i N( m ,σ ) 1
1
2
2
w dwóch populacjach odpowiednio,
parametry nie są znane, ale wariancje są równe σ 2 = σ 2
1
2
Statystyka
X 1 − X 2
t =
2
2
+
1
n S 1
n 2 S 2
1
1
+
1
n + n 2 − 2 1
n
n 2
ma rozkład Studenta z n + n − 2 stopniami swobody przy założeniu, 1
2
że prawdziwa jest hipoteza zerowa H : m = m 0
1
2
Obszary krytyczne dla odpowiednich hipotez alternatywnych zebrano w tablicy 25.2
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 10
Weryfikacja hipotezy o równości wartości
przeciętnej w dwóch populacjach – model 2
Tablica 25.2. Tablica testu dla dwóch średnich – model 2
Hipoteza
Statystyka testowa t
Obszar krytyczny K
zerowa
alternatywna
(− ;
∞ − t(1 α
− ,
〉
1
n + n 2 − 2)
2
H : m ≠ m
1
1
2
∪〈 t(1 α
− , n + n
1
2 − 2); ∞)
2
X 1 − X 2
H : m = m H : m < m 2
2
n S + n S 1
1
(− ;
∞ − t(1− α, n + n − 2)〉
0
1
2
1
1
2
1
1
2
2
1
2
+
1
n + n 2 − 2 1
n
n 2
H : m > m
〈 t(1− α, n + n − 2);∞)
1
1
2
1
2
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 10
Weryfikacja hipotezy o równości wartości
przeciętnej w dwóch populacjach – model 2
Przykład (do modelu 2)
Cel badania: sprawdzenie, która z metod nauczania A, czy B jest lepsza
Dwie grupy studentów poddano temu samemu testowi
Wyniki dla grupy nauczanej metodą
A: 7 10 9 8 8 7 9 8 6 7
B: 10 10 7 5 9 5 8 5 6 10 7
Zakładamy, że wynik testu jest zmienną losową o rozkładzie normalnym i wariancje są równe (sprawdzimy to później)
Na poziomie istotności 0.05 sprawdzić hipotezę, że średni wynik testu jest w obu grupach taki sam, wobec
alternatywnej, że w grupie nauczanej metodą A jest lepszy Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 10
Weryfikacja hipotezy o równości wartości
przeciętnej w dwóch populacjach – model 3
Model 3 (rozkłady normalne, parametry nieznane, duże próby n ≥ 100 ) i
X – zmienna losowa o rozkładach normalnych N( m ,σ ) i N( m ,σ ) 1
1
2
2
w dwóch populacjach odpowiednio,
parametry nie są znane
Jeśli próby są duże ( n ≥ 100, n ≥ 100), to nieznane wartości parametrów σ , 1
2
1
σ możemy oszacować za pomocą estymatorów S , S odpowiednio 2
1
2
i statystyka
X 1 − X 2
U =
2
2
S
S
1
2
+
n
n
1
2
ma w przybliżeniu rozkład normalny N(0,1) przy założeniu, że prawdziwa jest hipoteza zerowa H : m = m
0
1
2
Obszary krytyczne dla hipotez alternatywnych H : m ≠ m , H : m < m , 1
1
2
1
1
2
H : m > m wyznaczamy tak samo jak w modelu 1
1
1
2
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 10
Weryfikacja hipotezy o równości wartości
przeciętnej w dwóch populacjach – model 4
Model 4 (rozkłady normalne, nieznane parametry, próby zależne) X – zmienna losowa o rozkładzie normalnym N( m,σ) w populacji poddanej badaniu ze względu na pewną cechę dwukrotnie,
parametry nie są znane
Jeśli z badania otrzymujemy próbkę wartości pewnej cechy ( x ’, x ’,…, x ’) 1
2
n
w populacji przed pewną operacją (np. podaniem leku) oraz po tej operacji ( x ”, x ”,…, x ”) , to ze względu na zależność próbek 1
2
n
hipotezy formułujemy w postaci H : m − m = 0 wobec hipotez alternatywnych 0
1
2
H : m − m ≠ 0 , H : m − m < 0 i H : m − m > 0
1
1
2
1
1
2
1
1
2
obliczamy wartości nowej próbki ( x , x ,…, x ) ze wzoru x = x ’− x ”, i = 1,…, n 1
2
n
i
i
i
stosujemy test dla jednej średniej
Obszary krytyczne dla odpowiednich hipotez alternatywnych wyznaczamy tak samo jak w testach dla wartości średniej w populacji
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 10
Weryfikacja hipotezy o równości wariancji
w dwóch populacjach
(25.2) Wariancje
Model (rozkłady normalne, parametry nieznane)
X – zmienna losowa o rozkładach normalnych N( m ,σ ) i N( m ,σ ) 1
1
2
2
w dwóch populacjach odpowiednio,
parametry nie są znane
Statystyka
2
ˆ
S
n
1
2
i
2
ˆ
F =
, gdzie S =
S
i =
i
i ,
1, 2
2
ˆ
S
n −
i
1
2
ma rozkład Fishera-Snedecora z n −1 i n −1 stopniami swobody 1
2
przy założeniu prawdziwości hipotezy zerowej H : σ 2 = σ 2
0
1
2
Obszary krytyczne dla odpowiednich hipotez alternatywnych zebrano w tablicy 25.3
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 10
Weryfikacja hipotezy o równości wariancji
w dwóch populacjach
Tablica 25.3. Tablica testu dla dwóch wariancji
Hipoteza
Statystyka Obszar krytyczny K
Uwagi
zerowa
alternatywna testowa F
f ( x)
F
2
2
ˆ
ˆ
max{ S , S }
H : σ 2 ≠ σ 2
1
2
F (1 α
〈
− , n − n
l
1, m −1),∞)
1
1
2
2
2
2
ˆ
ˆ
min{ S
α
1 , S 2 }
2
0
F (1 α
− , nl −1, nm −1)
x
2
H : σ 2 = σ 2
0
1
2
2
ˆ
f ( x)
S
H : σ 2 < σ 2
2
〈 F(1− α, n −1, n −1),∞)
1
1
2
2
1
2
F
ˆ
S 1
2
α
ˆ
S
H : σ 2 > σ 2
1
〈 F(1− α, n −1, n −1),∞)
1
1
2
1
2
2
ˆ
S
0
F (1− α, n − n −
l
1, m 1)
x
2
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 10
Weryfikacja hipotezy o równości wariancji
w dwóch populacjach
Przykład
Wyniki dla grupy nauczanej metodą
A: S 2 = 1.29 ; n = 10
A
A
B: S 2 = 3.88 ; n = 11
B
B
Zakładamy, że wynik testu jest zmienną losową o rozkładzie normalnym
Na poziomie istotności 0.05 sprawdzić założenie o
równości wariancji wyników testu w obu grupach
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 10
Weryfikacja hipotezy o równości
wskaźników struktury w dwóch populacjach
(25.3) Wskaźniki struktury
Model (rozkłady 0-1, parametry nieznane, duże próby n ≥ 100) i
X – zmienna losowa o rozkładach 0-1 w dwóch populacjach odpowiednio, parametry p i p nie są znane
1
2
Jeśli próby są duże ( n ≥ 100, n ≥ 100), to statystyka 1
2
M
M
1
2
−
n
n
M + M
n n
1
2
1
2
1
2
U =
, gdzie p =
,
n =
p(1− p)
n + n
n + n
1
2
1
2
n
ma w przybliżeniu rozkład normalny N(0,1) przy założeniu prawdziwości hipotezy zerowej H : p = p
0
1
2
Obszary krytyczne dla hipotez alternatywnych H : p ≠ p , H : p < p , 1
1
2
1
1
2
H : p > p wyznaczamy tak samo jak w modelu 1
1
1
2
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 10
Weryfikacja hipotezy o równości
wskaźników struktury w dwóch populacjach
Przykład
Odbył się egzamin z matematyki na wyższą uczelnię
Spośród 705-ciu absolwentów techników, 450-ciu nie rozwiązało pewnego zadania
Na 1320-tu absolwentów liceum ogólnokształcącego, nie
rozwiązało tego zadania 517-tu kandydatów
Na poziomie istotności 0.05 zweryfikować hipotezę, że
absolwenci techników byli słabiej przygotowani z partii
materiału dotyczącej tego zadania
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 10
26. Analiza wariancji z klasyfikacją
pojedynczą
(26.1) Wartości oczekiwane (średnie)
Założenia i oznaczenia
X – zmienna losowa o rozkładzie normalnym N( m,σ) w k populacjach
Z każdej populacji pobieramy próbkę o liczności n , i =1,…, k i
x – j-ty wynik w i-tej próbce
ij
xi – średnia i-tej próbki, tj.
n
1
i
x
∑
i =
xij , i = 1,..., k
i
n
j 1
=
x – średnia ogólna, tj.
k
n
k
k
1
i
1
x = ∑ ∑ x
∑
∑
ij
=
xini , gdzie n =
n
1
=
1
=
1
=
1
i
n
n
i
j
i
i=
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 10
Analiza wariancji z klasyfikacją pojedynczą
– założenia i oznaczenia
Suma kwadratów odchyleń obserwacji od średniej ogólnej
k
n
k
n
2
i
2
q ≡ ∑ ∑ ( x − x
= ∑ ∑ x − x + x − x
ij
)
i
( ij
i )
( i
)
i 1
=
j 1
=
i 1
=
j 1
=
k
ni
2
k
2
= ∑ ∑ ( x − x
+ ∑
x − x
n
ij
i )
( i
)
1
=
1
=
1
i
i
j
i=
k
ni
2
q ≡ ∑ ∑
x − x
G
( ij
i )
– suma kwadratów odchyleń wewną trz grup i 1
=
j 1
=
albo resztkowa suma kwadratów
k
2
q
∑
P ≡
( xi − x ) n – suma kwadratów pomię dzy populacjami 1
i
i=
q, q
i q traktujemy jako realizacje zmiennych losowych Q, Q
i Q
G
P
G
P
odpowiednio
Można wykazać, że
Q
Q
Q
E (
= E
= E
= σ
n− )
( G
n− k )
( Pk− )
2
1
1
statystyka
2
ˆ
S
Q
Q
P
2
P
2
ˆ
ˆ
F =
, gdzie S =
S
P
i
G
=
2
ˆ
G
S
k −1
n − k
G
ma rozkład Fishera-Snedecora z k − 1 i n − k stopniami swobody Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 10
Weryfikacja hipotezy o równości wartości
przeciętnej w k populacjach
Model (rozkłady normalne, nieznane parametry, równe wariancje) X – zmienna losowa o rozkładach normalnych N( m ,σ ) w k i
i
populacjach odpowiednio,
parametry nie są znane,
wariancje są równe σ 2 = σ 2 =…= σ 2 = σ2
1
2
k
Statystyka
2
ˆ
SP
F =
2
ˆ
SG
ma rozkład Fishera-Snedecora z k − 1 i n − k stopniami swobody przy założeniu, że prawdziwa jest hipoteza zerowa H : m =…= m 0
1
k
Obszar krytyczny dla hipotezy alternatywnej H : „nie wszystkie 1
średnie są równe” ma dla ustalonego poziomu ufności α postać K = 〈 F(1−α, k−1, n− k), ∞) Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 10
Weryfikacja hipotezy o równości wartości
przeciętnej w k populacjach
Tablica 26.1. Schemat analizy wariancji z klasyfikacją pojedynczą Źródło
Liczba stopni
Statystyka
Suma kwadratów
Wariancja
zmienności
swobody
F
Między
k
q
2
q
∑
2
ˆ
P
s =
P ≡
( xi − x ) ni
k − 1
populacjami
P
i 1
=
k −1
Wewn
2
ątrz
ˆ
q
s
k
n
P
i
2
2
q ≡ ∑ ∑
x − x
ˆ
G
s =
F =
G
( ij
i )
n − k
grup
G
2
i 1
=
j 1
=
n − k
ˆ sG
k
i
n
2
Razem
q ≡ ∑ ∑ ( x − x
ij
)
i 1
=
j 1
=
n − 1
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 10
Weryfikacja hipotezy o równości wartości
przeciętnej w k populacjach
Przykład
W pewnym doświadczeniu fizycznym prowadzonym 3 metodami bada się czas świecenia pewnej substancji (w sekundach)
Zakładamy równość wariancji (sprawdzimy później) i normalny rozkład czasu świecenia substancji
Wyniki przedstawiono w tabeli
Metoda
Czasy świecenia
1
0 1 2 3 6 5
2
2 5 5 4 6
3
1 8 3 8
Na poziomie istotności 0.05 zweryfikować hipotezę, że średni czas świecenia substancji nie zależy od wyboru metody
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 10
Test Bartletta jednorodności wariancji
w k populacjach
(26.2) Wariancje
Model (rozkłady normalne, nieznane parametry)
X – zmienna losowa o rozkładach normalnych N( m ,σ ) w k populacjach odpowiednio, i
i
parametry nie są znane
Statystyka
2
2.303
2
k
2
( n k)log ˆ s
χ =
−
∑
G −
( ni −1) log ˆ s
1
i
i
c
=
gdzie
2
ni
2
2
k
i
n
2
1
1
ˆ s
∑
∑ ∑
i
=
( xij − x j ) ,
ˆ sG =
( xij − x j ) ,
ni 1
−
1
n− k
j=
i 1
=
j 1
=
k
1
c = 1 +
∑
−
k −
(
1
1
3(
1)
n
=
i 1
1
−
n− k
i
)
ma rozkład χ2 z k − 1 stopniami swobody przy założeniu, że prawdziwa jest hipoteza zerowa H : σ 2 =…= σ 2
0
1
k
Obszar krytyczny dla hipotezy alternatywnej H : „nie wszystkie wariancje s 1
ą równe”
ma dla ustalonego poziomu ufności α postać
K = 〈 χ2(1−α, k−1), ∞)
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 10
Test Bartletta jednorodności wariancji
w k populacjach
Przykład
W doświadczeniu fizycznym prowadzonym 3 metodami badany
był czas świecenia pewnej substancji (w sekundach) o rozkładzie normalnym
Na poziomie istotności 0.05 sprawdzić poprawność
założenia o jednorodności wariancji czasu świecenia dla
wszystkich 3 metod
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład
10
Dziękuję za uwagę
Opracowała Joanna Banaś