Metody probabilistyczne i statystyka

Wykład

10

Weryfikacja hipotez dla wielu

populacji

Dr Joanna Banaś

Zakład Matematyki Stosowanej

Katedra Metod Sztucznej Inteligencji i Matematyki Stosowanej Wydział Informatyki Zachodniopomorskiego Uniwersytetu Technologicznego w Szczecinie

Metody probabilistyczne i statystyka

Wykład 10

25. Parametryczne testy istotności

w dwóch populacjach

(25.1) Wartości oczekiwane (średnie)

Model 1 (rozkłady normalne, znane wariancje)

X – zmienna losowa o rozkładzie normalnym N( m ,σ ) w jednej populacji i 1

1

rozkładzie normalnym N( m ,σ ) w drugiej,

2

2

wartości oczekiwane m = EX , m = EX nie są znane, 1

1

2

2

wariancje σ 2 = D 2 X i σ 2 = D 2 X są znane 1

1

2

2

Statystyka

X 1 − X 2

U =

2

2

σ1

σ2

+

1

n

n 2

ma rozkład N(0,1) przy założeniu prawdziwości hipotezy zerowej H : m = m

0

1

2

Obszary krytyczne dla odpowiednich hipotez alternatywnych zebrano w tablicy 25.1

Opracowała Joanna Banaś

Metody probabilistyczne i statystyka

Wykład 10

Weryfikacja hipotezy dotyczącej

wartości średniej – model 1

Tablica 25.1. Tablica testu dla dwóch średnich – model 1

Hipoteza

Statystyka

Obszar

Uwagi

zerowa

alternatywna

testowa U

krytyczny K

(− ;

∞

u

− (1 α

− )〉

N (0,1)

2

α

α

H : m ≠ m

2

2

1

1

2

∪〈 u(1 α

− );∞)

0.1

2

u(1 α )

u( α

−

−

=

) 0

u(1 α

− )

2

2

2

X 1 − X 2

N (0,1)

H : m = m

H : m < m

2

2

σ

σ

α

(− ;

∞ − u(1− α)〉

0

1

2

1

1

2

1

2

+

0.1

1

n

n 2

u

− (1− α) = u(α) 0

N (0,1)

H : m > m

α

〈 u(1− α);∞)

1

1

2

0.1

0

u(1− α)

Opracowała Joanna Banaś

Metody probabilistyczne i statystyka

Wykład 10

Weryfikacja hipotezy o równości wartości

przeciętnej w dwóch populacjach – model 2

Model 2 (rozkłady normalne, parametry nieznane, wariancje równe) X – zmienna losowa o rozkładach normalnych N( m ,σ ) i N( m ,σ ) 1

1

2

2

w dwóch populacjach odpowiednio,

parametry nie są znane, ale wariancje są równe σ 2 = σ 2

1

2

Statystyka

X 1 − X 2

t =

2

2

+





1

n S 1

n 2 S 2

1

1

+





1

n + n 2 − 2  1

n

n 2 

ma rozkład Studenta z n + n − 2 stopniami swobody przy założeniu, 1

2

że prawdziwa jest hipoteza zerowa H : m = m 0

1

2

Obszary krytyczne dla odpowiednich hipotez alternatywnych zebrano w tablicy 25.2

Opracowała Joanna Banaś

Metody probabilistyczne i statystyka

Wykład 10

Weryfikacja hipotezy o równości wartości

przeciętnej w dwóch populacjach – model 2

Tablica 25.2. Tablica testu dla dwóch średnich – model 2

Hipoteza

Statystyka testowa t

Obszar krytyczny K

zerowa

alternatywna

(− ;

∞ − t(1 α

− ,

〉

1

n + n 2 − 2)

2

H : m ≠ m

1

1

2

∪〈 t(1 α

− , n + n

1

2 − 2); ∞)

2

X 1 − X 2

H : m = m H : m < m 2

2

n S + n S  1

1 

(− ;

∞ − t(1− α, n + n − 2)〉

0

1

2

1

1

2

1

1

2

2

1

2

+





1

n + n 2 − 2  1

n

n 2 

H : m > m

〈 t(1− α, n + n − 2);∞)

1

1

2

1

2

Opracowała Joanna Banaś

Metody probabilistyczne i statystyka

Wykład 10

Weryfikacja hipotezy o równości wartości

przeciętnej w dwóch populacjach – model 2

Przykład (do modelu 2)

Cel badania: sprawdzenie, która z metod nauczania A, czy B jest lepsza

Dwie grupy studentów poddano temu samemu testowi

Wyniki dla grupy nauczanej metodą

A: 7 10 9 8 8 7 9 8 6 7

B: 10 10 7 5 9 5 8 5 6 10 7

Zakładamy, że wynik testu jest zmienną losową o rozkładzie normalnym i wariancje są równe (sprawdzimy to później)

Na poziomie istotności 0.05 sprawdzić hipotezę, że średni wynik testu jest w obu grupach taki sam, wobec

alternatywnej, że w grupie nauczanej metodą A jest lepszy Opracowała Joanna Banaś

Metody probabilistyczne i statystyka

Wykład 10

Weryfikacja hipotezy o równości wartości

przeciętnej w dwóch populacjach – model 3

Model 3 (rozkłady normalne, parametry nieznane, duże próby n ≥ 100 ) i

X – zmienna losowa o rozkładach normalnych N( m ,σ ) i N( m ,σ ) 1

1

2

2

w dwóch populacjach odpowiednio,

parametry nie są znane

Jeśli próby są duże ( n ≥ 100, n ≥ 100), to nieznane wartości parametrów σ , 1

2

1

σ możemy oszacować za pomocą estymatorów S , S odpowiednio 2

1

2

i statystyka

X 1 − X 2

U =

2

2

S

S

1

2

+

n

n

1

2

ma w przybliżeniu rozkład normalny N(0,1) przy założeniu, że prawdziwa jest hipoteza zerowa H : m = m

0

1

2

Obszary krytyczne dla hipotez alternatywnych H : m ≠ m , H : m < m , 1

1

2

1

1

2

H : m > m wyznaczamy tak samo jak w modelu 1

1

1

2

Opracowała Joanna Banaś

Metody probabilistyczne i statystyka

Wykład 10

Weryfikacja hipotezy o równości wartości

przeciętnej w dwóch populacjach – model 4

Model 4 (rozkłady normalne, nieznane parametry, próby zależne) X – zmienna losowa o rozkładzie normalnym N( m,σ) w populacji poddanej badaniu ze względu na pewną cechę dwukrotnie,

parametry nie są znane

Jeśli z badania otrzymujemy próbkę wartości pewnej cechy ( x ’, x ’,…, x ’) 1

2

n

w populacji przed pewną operacją (np. podaniem leku) oraz po tej operacji ( x ”, x ”,…, x ”) , to ze względu na zależność próbek 1

2

n

hipotezy formułujemy w postaci H : m − m = 0 wobec hipotez alternatywnych 0

1

2

H : m − m ≠ 0 , H : m − m < 0 i H : m − m > 0

1

1

2

1

1

2

1

1

2

obliczamy wartości nowej próbki ( x , x ,…, x ) ze wzoru x = x ’− x ”, i = 1,…, n 1

2

n

i

i

i

stosujemy test dla jednej średniej

Obszary krytyczne dla odpowiednich hipotez alternatywnych wyznaczamy tak samo jak w testach dla wartości średniej w populacji

Opracowała Joanna Banaś

Metody probabilistyczne i statystyka

Wykład 10

Weryfikacja hipotezy o równości wariancji

w dwóch populacjach

(25.2) Wariancje

Model (rozkłady normalne, parametry nieznane)

X – zmienna losowa o rozkładach normalnych N( m ,σ ) i N( m ,σ ) 1

1

2

2

w dwóch populacjach odpowiednio,

parametry nie są znane

Statystyka

2

ˆ

S

n

1

2

i

2

ˆ

F =

, gdzie S =

S

i =

i

i ,

1, 2

2

ˆ

S

n −

i

1

2

ma rozkład Fishera-Snedecora z n −1 i n −1 stopniami swobody 1

2

przy założeniu prawdziwości hipotezy zerowej H : σ 2 = σ 2

0

1

2

Obszary krytyczne dla odpowiednich hipotez alternatywnych zebrano w tablicy 25.3

Opracowała Joanna Banaś

Metody probabilistyczne i statystyka

Wykład 10

Weryfikacja hipotezy o równości wariancji

w dwóch populacjach

Tablica 25.3. Tablica testu dla dwóch wariancji

Hipoteza

Statystyka Obszar krytyczny K

Uwagi

zerowa

alternatywna testowa F

f ( x)

F

2

2

ˆ

ˆ

max{ S , S }

H : σ 2 ≠ σ 2

1

2

F (1 α

〈

− , n − n

l

1, m −1),∞)

1

1

2

2

2

2

ˆ

ˆ

min{ S

α

1 , S 2 }

2

0

F (1 α

− , nl −1, nm −1)

x

2

H : σ 2 = σ 2

0

1

2

2

ˆ

f ( x)

S

H : σ 2 < σ 2

2

〈 F(1− α, n −1, n −1),∞)

1

1

2

2

1

2

F

ˆ

S 1

2

α

ˆ

S

H : σ 2 > σ 2

1

〈 F(1− α, n −1, n −1),∞)

1

1

2

1

2

2

ˆ

S

0

F (1− α, n − n −

l

1, m 1)

x

2

Opracowała Joanna Banaś

Metody probabilistyczne i statystyka

Wykład 10

Weryfikacja hipotezy o równości wariancji

w dwóch populacjach

Przykład

Wyniki dla grupy nauczanej metodą

A: S 2 = 1.29 ; n = 10

A

A

B: S 2 = 3.88 ; n = 11

B

B

Zakładamy, że wynik testu jest zmienną losową o rozkładzie normalnym

Na poziomie istotności 0.05 sprawdzić założenie o

równości wariancji wyników testu w obu grupach

Opracowała Joanna Banaś

Metody probabilistyczne i statystyka

Wykład 10

Weryfikacja hipotezy o równości

wskaźników struktury w dwóch populacjach

(25.3) Wskaźniki struktury

Model (rozkłady 0-1, parametry nieznane, duże próby n ≥ 100) i

X – zmienna losowa o rozkładach 0-1 w dwóch populacjach odpowiednio, parametry p i p nie są znane

1

2

Jeśli próby są duże ( n ≥ 100, n ≥ 100), to statystyka 1

2

M

M

1

2

−

n

n

M + M

n n

1

2

1

2

1

2

U =

, gdzie p =

,

n =

p(1− p)

n + n

n + n

1

2

1

2

n

ma w przybliżeniu rozkład normalny N(0,1) przy założeniu prawdziwości hipotezy zerowej H : p = p

0

1

2

Obszary krytyczne dla hipotez alternatywnych H : p ≠ p , H : p < p , 1

1

2

1

1

2

H : p > p wyznaczamy tak samo jak w modelu 1

1

1

2

Opracowała Joanna Banaś

Metody probabilistyczne i statystyka

Wykład 10

Weryfikacja hipotezy o równości

wskaźników struktury w dwóch populacjach

Przykład

Odbył się egzamin z matematyki na wyższą uczelnię

Spośród 705-ciu absolwentów techników, 450-ciu nie rozwiązało pewnego zadania

Na 1320-tu absolwentów liceum ogólnokształcącego, nie

rozwiązało tego zadania 517-tu kandydatów

Na poziomie istotności 0.05 zweryfikować hipotezę, że

absolwenci techników byli słabiej przygotowani z partii

materiału dotyczącej tego zadania

Opracowała Joanna Banaś

Metody probabilistyczne i statystyka

Wykład 10

26. Analiza wariancji z klasyfikacją

pojedynczą

(26.1) Wartości oczekiwane (średnie)

Założenia i oznaczenia

X – zmienna losowa o rozkładzie normalnym N( m,σ) w k populacjach

Z każdej populacji pobieramy próbkę o liczności n , i =1,…, k i

x – j-ty wynik w i-tej próbce

ij

xi – średnia i-tej próbki, tj.

n

1

i

x

∑

i =

xij , i = 1,..., k

i

n

j 1

=

x – średnia ogólna, tj.

k

n

k

k

1

i

1

x = ∑ ∑ x

∑

∑

ij

=

xini , gdzie n =

n

1

=

1

=

1

=

1

i

n

n

i

j

i

i=

Opracowała Joanna Banaś

Metody probabilistyczne i statystyka

Wykład 10

Analiza wariancji z klasyfikacją pojedynczą

– założenia i oznaczenia

Suma kwadratów odchyleń obserwacji od średniej ogólnej

k

n

k

n

2

i

2

q ≡ ∑ ∑ ( x − x

= ∑ ∑  x − x + x − x 

ij

)

i

( ij

i )

( i

)





i 1

=

j 1

=

i 1

=

j 1

=

k

ni

2

k

2

= ∑ ∑ ( x − x

+ ∑

x − x

n

ij

i )

( i

)

1

=

1

=

1

i

i

j

i=

k

ni

2

q ≡ ∑ ∑

x − x

G

( ij

i )

– suma kwadratów odchyleń wewną trz grup i 1

=

j 1

=

albo resztkowa suma kwadratów

k

2

q

∑

P ≡

( xi − x ) n – suma kwadratów pomię dzy populacjami 1

i

i=

q, q

i q traktujemy jako realizacje zmiennych losowych Q, Q

i Q

G

P

G

P

odpowiednio

Można wykazać, że

Q

Q

Q

E (

= E

= E

= σ

n− )

( G

n− k )

( Pk− )

2

1

1

statystyka

2

ˆ

S

Q

Q

P

2

P

2

ˆ

ˆ

F =

, gdzie S =

S

P

i

G

=

2

ˆ

G

S

k −1

n − k

G

ma rozkład Fishera-Snedecora z k − 1 i n − k stopniami swobody Opracowała Joanna Banaś

Metody probabilistyczne i statystyka

Wykład 10

Weryfikacja hipotezy o równości wartości

przeciętnej w k populacjach

Model (rozkłady normalne, nieznane parametry, równe wariancje) X – zmienna losowa o rozkładach normalnych N( m ,σ ) w k i

i

populacjach odpowiednio,

parametry nie są znane,

wariancje są równe σ 2 = σ 2 =…= σ 2 = σ2

1

2

k

Statystyka

2

ˆ

SP

F =

2

ˆ

SG

ma rozkład Fishera-Snedecora z k − 1 i n − k stopniami swobody przy założeniu, że prawdziwa jest hipoteza zerowa H : m =…= m 0

1

k

Obszar krytyczny dla hipotezy alternatywnej H : „nie wszystkie 1

średnie są równe” ma dla ustalonego poziomu ufności α postać K = 〈 F(1−α, k−1, n− k), ∞) Opracowała Joanna Banaś

Metody probabilistyczne i statystyka

Wykład 10

Weryfikacja hipotezy o równości wartości

przeciętnej w k populacjach

Tablica 26.1. Schemat analizy wariancji z klasyfikacją pojedynczą Źródło

Liczba stopni

Statystyka

Suma kwadratów

Wariancja

zmienności

swobody

F

Między

k

q

2

q

∑

2

ˆ

P

s =

P ≡

( xi − x ) ni

k − 1

populacjami

P

i 1

=

k −1

Wewn

2

ątrz

ˆ

q

s

k

n

P

i

2

2

q ≡ ∑ ∑

x − x

ˆ

G

s =

F =

G

( ij

i )

n − k

grup

G

2

i 1

=

j 1

=

n − k

ˆ sG

k

i

n

2

Razem

q ≡ ∑ ∑ ( x − x

ij

)

i 1

=

j 1

=

n − 1

Opracowała Joanna Banaś

Metody probabilistyczne i statystyka

Wykład 10

Weryfikacja hipotezy o równości wartości

przeciętnej w k populacjach

Przykład

W pewnym doświadczeniu fizycznym prowadzonym 3 metodami bada się czas świecenia pewnej substancji (w sekundach)

Zakładamy równość wariancji (sprawdzimy później) i normalny rozkład czasu świecenia substancji

Wyniki przedstawiono w tabeli

Metoda

Czasy świecenia

1

0 1 2 3 6 5

2

2 5 5 4 6

3

1 8 3 8

Na poziomie istotności 0.05 zweryfikować hipotezę, że średni czas świecenia substancji nie zależy od wyboru metody

Opracowała Joanna Banaś

Metody probabilistyczne i statystyka

Wykład 10

Test Bartletta jednorodności wariancji

w k populacjach

(26.2) Wariancje

Model (rozkłady normalne, nieznane parametry)

X – zmienna losowa o rozkładach normalnych N( m ,σ ) w k populacjach odpowiednio, i

i

parametry nie są znane

Statystyka

2

2.303

2

k

2

( n k)log ˆ s



χ =

−

∑

G −

( ni −1) log ˆ s



1

i

i

c

=



gdzie

2

ni

2

2

k

i

n

2

1

1

ˆ s

∑

∑ ∑

i

=

( xij − x j ) ,

ˆ sG =

( xij − x j ) ,

ni 1

−

1

n− k

j=

i 1

=

j 1

=

k

1

c = 1 +

∑

−

k −

(

1

1

3(

1)

n

=

i 1

1

−

n− k

i

)

ma rozkład χ2 z k − 1 stopniami swobody przy założeniu, że prawdziwa jest hipoteza zerowa H : σ 2 =…= σ 2

0

1

k

Obszar krytyczny dla hipotezy alternatywnej H : „nie wszystkie wariancje s 1

ą równe”

ma dla ustalonego poziomu ufności α postać

K = 〈 χ2(1−α, k−1), ∞)

Opracowała Joanna Banaś

Metody probabilistyczne i statystyka

Wykład 10

Test Bartletta jednorodności wariancji

w k populacjach

Przykład

W doświadczeniu fizycznym prowadzonym 3 metodami badany

był czas świecenia pewnej substancji (w sekundach) o rozkładzie normalnym

Na poziomie istotności 0.05 sprawdzić poprawność

założenia o jednorodności wariancji czasu świecenia dla

wszystkich 3 metod

Opracowała Joanna Banaś

Metody probabilistyczne i statystyka

Wykład

10

Dziękuję za uwagę

Opracowała Joanna Banaś