background image

I rok Farmacji
Statystyka część IV

- różnice pomiędzy średnimi 

- testy dla par wiązanych

- testy dla prób niezależnych

background image

Różnice między średnimi. 

Przykładowy problem:
  Czy przeprowadzenie jakiegoś zabiegu przynosi oczekiwany skutek?
  Czy warunki środowiskowe mają istotny wpływ na ...?
  Czy po jakimś czasie zmieniła się struktura populacji?

Np.:

nawożenie pola nowym nawozem,
podanie nowego leku,
położenie pola po dwóch stronach stoku,
pochodzenie z różnych miast,
wpływ diety na wyniki badań krwi. 

Można się o tym przekonać wykonując dwie próby:

kontrolną – robimy to co zwykle
doświadczalną – stosujemy badany zabieg. 

Czy różnice w wynikach takich dwóch 
eksperymentów są dziełem 
przypadku czy raczej wynikiem zastosowanego 
zabiegu?
Czy średnie z populacji z których pobrano próbki 
różnią się?
Czy dwie pobrane próby mogą pochodzić z tej samej 
populacji 
lub z populacji nie różniących się? 

background image

Jakie testy statystyczne można stosować:

test z zastosowaniem par wiązanych 
  – gdy możemy zbadać ten sam obiekt dwukrotnie
  – można badać obiekty bardzo podobne:

test t Studenta dla par wiązanych,
test Wilcoxona dla par wiązanych 

(nieparametryczny),

test znaków (nieparametryczny),

test bez zastosowania par wiązanych 
   – za każdym razem pobieramy nową próbę, 
   – nie możemy zidentyfikować obiektów podczas 

badania prób:

test t Studenta dla równych wariancji,
test t Studenta dla różnych wariancji,
test U Manna-Whitneya (nieparametryczny),
test Kołmogorowa-Smirnowa 

(nieparametryczny). 

background image

Test t Studenta dla par wiązanych. 

Dwunastu pacjentom zbadano poziom cholesterolu 
i zalecono 
stosowanie nowej diety. Po dwóch miesiącach 
badania 
przeprowadzono ponownie. 

- różnica pomiędzy średnimi populacji z których 
pobrano próby

     populacja poziomów cholesterolu przed dietą
     populacja poziomów cholesterolu po diecie

H

0

 – dieta nie wpływa na poziom cholesterolu, =0.

H

1

 – dieta wpływa na poziom cholesterolu, ≠0.

Można sformułować inne 

H

1

.

  

background image

przed - x

1

po - x

2

d=x

1

-x

2

     d

2

1

203

189

14

196

2

213

206

7

49

3

209

204

5

25

4

206

203

3

9

5

185

203

-18

324

6

203

187

16

256

7

195

187

8

64

8

211

201

10

100

9

213

202

11

121

10

200

195

5

25

11

203

194

9

81

12

195

189

6

36

N=12

sumy

76

1286

76

d

1286

d

2

 

667

,

804

N

d

d

x

2

2

2

SKO

background image

565

,

2

s

-

d

t

X

Statystyka:

Dla df=11 stopni swobody i α=0,05 wartość 
krytyczna 
odczytana z tablic wynosi t

0,05

=2,201 

Otrzymana statystyka jest większa od 
odczytanej z tablic
   H

0

 odrzucamy.

Przyjmujemy H

1

.

333

,

6

N

d

d

8,55

s

15

,

73

1

N

x

s

2

2

469

,

2

N

s

s

X

?

t

t

czy 

Sprawdzamy H

0

 :

background image

Test Wilcoxona dla par wiązanych. 

Opis doświadczenia jak w poprzednim zadaniu, ale nie są 
spełnione 
założenia testu t Studenta. W tym teście należy wyłączyć 
te pary 
dla których d=0 (w naszym przykładzie takich nie ma).

H

0

 – dieta nie wpływa na poziom cholesterolu.

H

1

 – dieta wpływa na poziom cholesterolu. 

Podobnie jak w teście t Studenta dla każdej pary 
obliczamy różnicę (d). 
Obliczamy wartości bezwzględne różnic (  ) i 
przypisujemy im rangi zaczynając od najmniejszej 
różnicy
. Należy pamiętać o rangach wiązanych! 
Sumujemy rangi osobno dla różnic ujemnych i 
dodatnich. Wybieramy 
mniejszą sumę – jest to nasza statystyka T. Z tablicy 
odczytujemy 
wartość krytyczną T

 dla danych N i α. Jeżeli otrzymana 

statystyka T 
jest mniejsza lub równa T

 krytycznemu to wówczas 

odrzucamy hipotezę zerową. 

background image

Sumy 
rang:

66

R

12

12

T

R

Dla N=12 i =0,05 odczytujemy z tablic wartość 
graniczną T

=14.

Ponieważ T<T

 to H

0

 odrzucamy i przyjmujemy H

1

 

background image

Test t Studenta dla par wiązanych – przykład drugi.

Kolokwium 1 Kolokwium 2

d

d

2

1

3

1

2

4

2

2

5

-3

9

3

3

6

-3

9

4

2

1

1

1

5

0

0

0

0

6

0

0

0

0

7

5

6

-1

1

8

2

5

-3

9

9

1

1

0

0

10

1

1

0

0

11

2

1

1

1

12

6

7

-1

1

13

0

0

0

0

14

3

2

1

1

15

3

2

1

1

16

2

3

-1

1

17

8

7

1

1

18

3

4

-1

1

19

7

8

-1

1

20

1

0

1

1

21

1

3

-2

4

22

2

1

1

1

sumy

-7

47

W semestrze zimowym w 
jednej 
z grup studenckich N=22 
osoby pisały I i II 
kolokwium. 
Czy poziom trudności tych 
kolokwiów był jednakowy, 
gdyby zbadać wyniki 
kolokwiów 
w całej populacji studentów 
I roku 
to czy różnica w średniej 
ocen 
byłaby równa zero? 

H

0

 – poziom kolokwiów był 

jednakowy, =0.

H

1

 – poziom kolokwiów nie 

był 
jednakowy, ≠0. 

background image

7

d 

47

d

2

318

,

0

N

d

d

 

773

,

44

N

d

d

x

2

2

2

SKO

132

,

2

1

N

x

s

2

2

460

,

1

s 

455

,

0

N

s

s

X

700

,

0

s

-

d

t

X

Dla df=21 stopni swobody i α=0,05 wartość krytyczna 
odczytana z tablic wynosi t

0,05

=2,080 .

Ponieważ otrzymana statystyka jest mniejsza od odczytanej z tablic 
to H

0

 przyjmujemy

?

t

t

Czy 

background image

Test Wilcoxona dla par wiązanych.

Opis doświadczenia jak w poprzednim zadaniu, w tym 
teście należy 
wyłączyć te pary dla których d=0, czyli pozostaje 17 
przypadków.

H

0

 – poziom 

kolokwiów 

          był jednakowy.
H

1

 – poziom 

kolokwiów 

           nie był 

jednakowy. 

59

R

59

94

T

R

Dla N=17 i α=0,05 
wartość graniczna 
T

=35

Ponieważ T>T

 to H

0

 

przyjmujemy czyli poziom 
ocen w obydwu kolokwiach 
nie różnił się. 

background image

Test F dla wariancji.

Test hipotezy o braku różnic pomiędzy wariancjami. 

Chcemy  sprawdzić  czy  pomiędzy  populacjami  z  których 
pobrano 

próby 

różnice 

występujące 

pomiędzy 

wariancjami są istotne statystycznie. 

Może  to  być  istotne  przy  podejmowaniu  decyzji  który  z 
testów t należy zastosować.

H

0

 – między wariancjami z populacji 

generalnych, 
        z których pobrano dwie próby nie 
ma różnic.

H

1

 – różnice występujące między 

wariancjami 
         są statystycznie istotne.

2

2

2

1

1

2

2

2

1

0

:

:

H

H

background image

A

B

24

27

23

30

25

36

26

35

27

32

25

4

5

,

13

32

5

0

,

2

25

2

2

B

B

A

A

df

s

B

df

s

A

W tym teście obliczamy stosunek 
wariancji większej do mniejszej (zawsze)
 – statystyka F. 

75

,

6

0

,

2

5

,

13

F

Szukamy wartości granicznej dla zadanego poziomu 
istotności. 

Rozkład F zamieszczony w tablicach jest rozkładem 
jednostronnym 
gdyż jest przystosowany do analizy wariancji. Jeżeli 
chcemy otrzymać 
wartości graniczne dla testu dwustronnego to należy 
posługiwać się 
tabelami dla prawdopodobieństwa dwukrotnie 
mniejszego od żądanego. 

background image

Przy poziomie istotności =0,05 dla testu 
dwustronnego 
obszar krytyczny wynosi p=0,025 po każdej ze 
stron rozkładu, 
czyli stosujemy tablice dla p=0,025. 
Znaleziona wartość krytyczna dla =0,05 wynosi 
F

0,025;4;5

=7,39. 

            Znaleziona wartość krytyczna dla 

=0,10 

wynosi 
            F

0,05;4;5

=5,19

Jeżeli F<F

 to H

0

 przyjmujemy, 

w przeciwnym przypadku H

0

 odrzucamy i 

przyjmujemy H

1

6,75<7,39 i H

0

 przyjmujemy.

6,75>5,19 i H

0

 odrzucamy, 

przyjmujemy H

1

.

Błąd I rodzaju 0,05<p<0,10. 

10

,

0

05

,

0

background image

A

B

27

26

31

25

32

27

34

26

37

30

35

28

43
33
34

Test F - przykład

Pomoc:
             F=6,016
             
F

0,025;8;5

=6,757

Czy pobrane próbki mogą pochodzić z populacji o równych wariancjach?

Postaw H

0

 i H

1

 , obliczenia wykonaj dla podanego poziomu istotności.

05

,

0

background image

Test t Studenta dla dwóch prób niezależnych – różne wariancje.

Różnice pomiędzy średnimi.

Założenia:

próby są pobierane losowo,

populacje z których pobieramy próby podlegają 
rozkładowi normalnemu,

wariancje populacji nie są równe (

1

2



2

2

 ).

Liczebności prób N

1

 i N

2

H

0

: 

1

=

2

 

H

1

: 0     lub H

1

: 

1

>

2

      lub H

1

1

<

2

 

2

2

2

1

2

1

2

1

N

s

N

s

X

X

t

2

2

2

1

2

1

X

X

s

s

X

X

t

lub

background image

Są różne metody określania granicznej wartości t

 (dają 

różne wyniki!). 
Metoda Cochrana-Coxa (opisana w podręczniku) jest 
bardziej zachowawcza, czyli trudniej jest odrzucić H

0

2

2

2

2

2

2

2

1

2

1

2

2

2

1

2

1

2

1

2

2

1

1

2

1

X

X

X

X

krytyczne

s

s

s

t

s

t

N

s

N

s

N

s

t

N

s

t

t

Wartość graniczna t jest obliczana jako średnia ważona, wagami 
są kwadraty błędów standardowych w porównywanych grupach.

background image

Czy dwie próbki mogą pochodzić z populacji o takich 
samych średnich? 

Próba 1

7

9

13

5

11

Próba 2

5

5

5

4

5

6

0667

,

0

0000

,

2

5

9

6

5

2

1

2

1

2

1

X

X

s

s

X

X

N

N

7824

,

2

0667

,

0

2

5

9

2

2

t

5706

,

2

5

7765

,

2

4

05

,

0

1

1

a

a

t

df

t

df

7698

,

2

graniczne

t

Jaka 
decyzja?
 

background image

Test U (Manna-Whitneya

różnice pomiędzy medianami dwóch 

populacji. 

Czy dwie próby pochodzą z tej samej populacji 
generalnej? 
 - test t wymaga założenia rozkładu normalnego – 
pomiarów lub różnic,
 - często próby są zbyt mało liczne aby sprawdzić 
założenia .

Testy nieparametryczne: 
 - nie wymagają skali interwałowej (zazwyczaj), 
słabsze założenia 
 - trudniej odrzucić hipotezę zerową, łatwiej popełnić 
błąd II rodzaju 
 - są mniej precyzyjne i trzeba próby o większej 
liczebności 
   niż w testach parametrycznych 

background image

Chcemy zbadać czy dwie próby zostały (lub nie) otrzymane 
z populacji o równych medianach. 
 - Dane zostały otrzymane z populacji w sposób losowy. 
 - Oryginalne dane są w skali porządkowej (lub interwałowej). 
 - Jeżeli rezultat testu Manna-Whitneya wykaże znaczącą różnicę 
    to należy stwierdzić, że jest wysoce prawdopodobne iż próbki 
    pochodzą z populacji o różnych medianach. 

H

0

: brak różnic pomiędzy populacjami z których losowano próby

H

1

: różnice są istotne statystycznie

(populacje nie różnią się medianami)

(mediany populacji są różne)

2

1

1

2

1

0

:

:

H

H

background image

Czy dwie próby niezależne mogą pochodzić z populacji 
o jednakowych medianach?

GRUPA 1

GRUPA 2

X

i

R

i

X

i

R

i

11

9

11

9

1

3

11

9

0

1,5

5

6

2

4

8

7

0

1,5

4

5

Zamieniamy skalę interwałową na porządkową, dwie grupy traktujemy 
łącznie. Dla każdej z grup obliczamy sumę rang: R

1

=19   R

2

=36  

Obliczmy statystyki: 

2

2

2

2

1

2

1

1

1

2

1

1

2

1

2

1

R

N

N

N

N

U

R

N

N

N

N

U

4

36

2

1

5

5

5

5

21

19

2

1

5

5

5

5

2

1

U

U

background image

Wybieramy mniejszą:   U = 4 . 
Wartość graniczna odczytana z tablic dla =0,05 i testu dwustronnego
 U

0,05 

= 2 .                   H

0

  odrzucamy gdy  U≤U

 

Ponieważ UU

α

 to H

0

 przyjmujemy.

Gdy liczebności prób są większe to można posługiwać się 
przybliżeniem rozkładu normalnego: 

776

,

1

12

1

5

5

5

5

2

5

5

4

12

1

2

Z

N

N

N

N

N

N

U

Z

II

I

II

I

II

I

Wartość graniczna dla rozkładu normalnego dla =0,05    Z

=1,96 

 przyjmujemy H

0

 

background image

Czy pomiędzy populacjami z których pobrano próby istnieją różnice 
istotne statystycznie. Zastosuj test t dla par wiązanych oraz test U
należy postawić H

0

 i H

1

 oraz przyjąć poziom istotności                  .

05

,

0

Próba I

3,1

2,5

2,1

2,9

0,9

Próba II

2,7

4,4

3,4

4,6

2,8

Różnica

0,4

-1,9

-1,3

-1,7

-1,9

Ranga I

7

3

2

6

1

19

Ranga II

4

9

8

10

5

36

background image

Test Kołmogorowa-

Smirnowa

Dane z dużą liczbą rang wiązanych, np: 

dane w postaci szeregów rozdzielczych, 
rozkładów liczebności itp. 

Test służy do porównania zgodności rozkładów pomiędzy populacjami
z których pobrane były próby.

Wyniki I i II kolokwium z matematyki. 

Porównujemy wyniki dla całego roku, 
kolokwia pisało odpowiednio 130 i 127 osób. 

Uwaga: studentów I roku traktujemy jako próbę z wszystkich,
którzy kiedykolwiek pisali (lub mogliby pisać) takie kolokwia. 

background image

H

0

: pomiędzy wynikami nie ma różnic istotnie statystycznych

      rozkłady populacji nie wykazują różnic
      próby pochodzą z populacji o takim samym rozkładzie

H

1

: pomiędzy wynikami są różnice istotne statystycznie

      rozkłady populacji wykazują różnice
      próby nie pochodzą z populacji o takich samym rozkładzie

obliczamy liczebności skumulowane i frekwencje skumulowane 
wyliczamy  - różnice pomiędzy frekwencjami skumulowanymi 
obydwu grup i wartości bezwzględne tych różnic -  

background image

osoby

skumul.

frekw.



punkty

I

II

I

II

I

II

I-II

I-II

0

25

19

25

19

0,192

0,15

0,043

0,043

1

20

11

45

30

0,346

0,236

0,110

0,110

2

14

21

59

51

0,454

0,402

0,052

0,052

3

23

20

82

71

0,631

0,559

0,072

0,072

4

13

15

95

86

0,731

0,677

0,054

0,054

5

11

11

106

97

0,815

0,764

0,052

0,052

6

8

6

114

103

0,877

0,811

0,066

0,066

7

7

8

121

111

0,931

0,874

0,057

0,057

8

5

8

126

119

0,969

0,937

0,032

0,032

9

3

5

129

124

0,992

0,976

0,016

0,016

10

1

3

130

127

1,000

1,000

0,000

0,000

suma

130

127

MAX=

0,110

Wyznaczamy największą wartość - statystyka D==0,110 

background image

Obliczamy (wyznaczamy) wartość krytyczną D

dla poziomu istotności =0,05 i dużych liczebności prób 
(jedna ma co najmniej 40, lub każda powyżej 26) 
według wzoru: 

II

I

II

I

N

N

N

N

D

 36

,

1

05

,

0

170

,

0

127

130

127

130

36

,

1

05

,

0

D

D<D

  przyjmujemy H

0

 

Jeżeli D D

 to odrzucamy H

0

 i przyjmujemy H

1

 

background image

Dla innych poziomów istotności stosujemy 
współczynniki:

95

,

1

63

,

1

36

,

1

22

,

1

001

,

0

01

,

0

05

,

0

10

,

0

W przypadku odrzucenia H

0

 możemy oszacować błąd I rodzaju

porównując statystykę D z obliczonymi wartości granicznymi 
dla innych poziomów istotności.

background image

Punkty

A

B

skumul. A skumul. B frekw. A frekw. B

 

0

0

0

0

0

0,0000

0,0000

0,0000

0,0000

1

0

5

0

5

0,0000

0,0431 -0,0431 0,0431

2

2

6

2

11

0,0870

0,0948 -0,0079 0,0079

3

5

13

7

24

0,3043

0,2069

0,0975

0,0975

4

8

19

15

43

0,6522

0,3707

0,2815

0,2815

5

5

22

20

65

0,8696

0,5603

0,3092

0,3092

6

2

16

22

81

0,9565

0,6983

0,2582

0,2582

7

0

10

22

91

0,9565

0,7845

0,1720

0,1720

8

0

10

22

101

0,9565

0,8707

0,0858

0,0858

9

0

6

22

107

0,9565

0,9224

0,0341

0,0341

10

1

9

23

116

1,0000

1,0000

0,0000

0,0000

Wyniki kolokwium ze statystyki, czy rozkład w jednej z grup 
był taki sam jak dla całego roku, obliczenia dla =0,10.
Należy oszacować błąd I rodzaju.


Document Outline