background image

Data ostatniej aktualizacji: piątek, 2 grudnia 2011, godzina 16:39 

Marek Cieciura, Janusz Zacharski 

 

 
 
 

 

 
 
 
 
 
 

PODSTAWY PROBABILISTYKI  

Z PRZYKŁADAMI ZASTOSOWAŃ  

W INFORMATYCE 

 
 
 

CZĘŚĆ IV 

STATYSTYKA MATEMATYCZNA 

 
 

Na prawach rękopisu 

 
 
 
 
 

Warszawa, wrzesień   2011 

background image

 

Statystyka jest bardziej sposobem myślenia lub wnioskowania niŜ pęczkiem recept  

na młócenie danych w celu odsłonięcia odpowiedzi - Calyampudi Radhakrishna Rao 

Podręcznik:  

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ  

W INFORMATYCE 

publikowany jest w częściach podanych poniŜej  

Nr 

Tytuł 

I.

    Wprowadzenie 

II.

    Statystyka opisowa 

III.

    Rachunek prawdopodobieństwa 

IV.

    Statystyka matematyczna 

V.

    Przykłady zastosowań w informatyce 

VI.

    Dowody wybranych twierdzeń   

VII.

    Tablice statystyczne 

Autorzy  proszą  o  przesyłanie  wszelkich  uwagi  i  propozycji  dotyczących  zawartości 
podręcznika  z  wykorzystaniem  formularza  kontaktowego  zamieszczonego  w  portalu 

http://cieciura.net/mp/

  

Publikowane  części  będą  na  bieŜąco  poprawiane,  w  kaŜdej  będzie  podawana  data  ostatniej 
aktualizacji. 

Podręcznik udostępnia się na warunku licencji 

Creative Commons (CC)

Uznanie Autorstwa 

– UŜycie Niekomercyjne – Bez Utworów ZaleŜnych (CC-BY-NC-ND),co oznacza: 

 

  Uznanie  Autorstwa  (ang.  Attribution  -  BY):  zezwala  się  na  kopiowanie, 

dystrybucję,  wyświetlanie  i  uŜytkowanie  dzieła  i  wszelkich  jego  pochodnych  pod 
warunkiem umieszczenia informacji o twórcy. 

 

  UŜycie  Niekomercyjne  (ang.  Noncommercial  -  NC):  zezwala  się  na 

kopiowanie,  dystrybucję,  wyświetlanie  i  uŜytkowanie  dzieła  i  wszelkich  jego 
pochodnych tylko w celach niekomercyjnych.. 

 

  Bez  Utworów  ZaleŜnych  (ang.  No  Derivative  Works  -  ND):  zezwala  się  na 

kopiowanie,  dystrybucję,  wyświetlanie  tylko  dokładnych  (dosłownych)  kopii  dzieła, 
niedozwolone jest jego zmienianie i tworzenie na jego bazie pochodnych.

 

Podręcznik  i  skorelowany  z  nim  portal,  są  w  pełni  i  powszechnie  dostępne, stanowią  więc 

Otwarte Zasoby Edukacyjne 

- OZE (ang. Open Educational Resources – OER). 

 

background image

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 

 

SPIS TREŚCI 

14. STATYSTYKI I ICH ROZKŁADY....................................................................................... 5 

14.1.

 

P

RÓBA JAKO ZMIENNA LOSOWA WIELOWYMIAROWA

............................................................ 5 

14.2.

 

P

ODSTAWOWE STATYSTYKI I ICH ROZKŁADY

........................................................................ 6 

14.2.1. Wykazy statystyk .......................................................................................................... 6

 

14.2.2. Rozkład średniej z próby .............................................................................................. 7

 

14.2.3. Rozkład statystyk związanych z wariancją z próby ....................................................... 8

 

15. ESTYMACJA PARAMETRÓW.......................................................................................... 12 

15.1.

 

W

PROWADZENIE

............................................................................................................... 12 

15.2.

 

E

STYMACJA PUNKTOWA

.................................................................................................... 12 

15.2.1. Klasyfikacja estymatorów i nierówność Rao-Cramera ............................................... 13

 

15.2.2. Estymacja wartości oczekiwanej rozkładu normalnego .............................................. 14

 

15.2.3. Estymatory wariancji rozkładu normalnego ............................................................... 15

 

15.2.4. Metoda największej wiarygodności otrzymywania estymatorów ................................. 17

 

15.2.5. Zestawienie estymatorów parametrów rozkładu zmiennej losowej i ich własności...... 19

 

15.3.

 

E

STYMACJA PRZEDZIAŁOWA

.............................................................................................. 20 

15.3.1. Uwagi wstępne........................................................................................................... 20

 

15.3.2. Wyznaczenie przedziału ufności dla wartości oczekiwanej rozkładu normalnego ....... 21

 

15.3.3. Tabela przedziałów ufności........................................................................................ 24

 

15.3.4. Wyznaczanie wielkości próby..................................................................................... 28

 

15.3.5. Wykorzystanie arkusza Excel ..................................................................................... 30

 

16. WERYFIKACJA HIPOTEZ ................................................................................................ 31 

16.1

 

W

PROWADZENIE

................................................................................................................ 31 

16.1.1. Uwagi wstępne........................................................................................................... 31

 

16.1.2. Pzykład konstrukcji testu parametrycznego do weryfikacji hipotezy o wartości 
oczekiwanej........................................................................................................................... 34

 

16.1.3. Pzykład konstrukcji testu parametrycznego do weryfikacji hipotezy o równości wartości 
oczekiwanych ........................................................................................................................ 35

 

16.1.4. Uwagi o weryfikacji hipotez parametrycznych ........................................................... 37

 

16.2.

 

T

ESTY PARAMETRYCZNE DLA JEDNEJ PRÓBY

...................................................................... 38 

16.2.1. Testy do weryfikacji hipotezy o wartości oczekiwanej................................................. 38

 

16.2.2. Testy do weryfikacji hipotezy o wariancji i odchyleniu standardowym ....................... 43

 

16.2.3. Testy do weryfikacji hipotezy o wskaźniku struktury ................................................... 44

 

16.3.

 

T

ESTY PARAMETRYCZNE DLA DWÓCH PRÓB

........................................................................ 45 

16.3.1. Testy do porównywania wartości oczekiwanych dla prób niezaleŜnych ...................... 45

 

16.3.2. Testy do porównywania wartości oczekiwanych – próby zaleŜne................................ 53

 

16.3.3. Testy do porównywania wariancji.............................................................................. 57

 

16.3.4. Testy do porównywania wskaźników struktury ........................................................... 59

 

16.4.

 

T

ESTY NIEPARAMETRYCZNE DLA JEDNEJ PRÓBY

................................................................. 61 

16.4.1. Ocena losowości próby .............................................................................................. 61

 

16.4.2. Test zgodności chi kwadrat ........................................................................................ 62

 

16.4.3. Ocena normalności rozkładu ..................................................................................... 65

 

16.4.4. Test niezaleŜności chi kwadrat ................................................................................... 68

 

16.5.

 

T

ESTY NIEPARAMETRYCZNE DLA DWÓCH PRÓB

................................................................... 73 

16.5.1. Test zgodności rozkładów dla prób niepowiązanych (test Wilcoxona) ........................ 73

 

16.5.2. Test zgodności rozkładów dla prób powiązanych (test rangowanych znaków) ............ 75

 

16.6.

 

A

LGORYTMIZACJA OBLICZEŃ

............................................................................................. 77 

16.6.1. Wykorzystanie arkusza Excel ..................................................................................... 77

 

16.6.2.Zasady wyboru testu przy dwóch próbach................................................................... 78

 

background image

STATYSTYKA MATEMATYCZNA 

 

17. ANALIZA KORELACJI I REGRESJI DWÓCH ZMIENNYCH...................................... 79 

17.1.

 

W

PROWADZENIE

............................................................................................................... 79 

17.2.

 

A

NALIZA KORELACJI

.......................................................................................................... 80 

17.2.1. Uwagi wstępne........................................................................................................... 80

 

17.2.2. Estymacja współczynnika korelacji cech populacji..................................................... 80

 

17.2.3. Weryfikacja hipotez o współczynniku korelacji........................................................... 82

 

17.2.4. Współczynnik korelacji Spearmana ............................................................................ 84

 

17.2.5. Współczynnik korelacji Cramera................................................................................ 87

 

17.3.

 

A

NALIZA REGRESJI

............................................................................................................ 88 

17.3.1. Uwagi wstępne........................................................................................................... 88

 

17.3.2. Estymatory współczynników regresji.......................................................................... 88

 

17.3.3. Rozkłady estymatorów współczynników regresji......................................................... 92

 

17.3.4. Estymacja przedziałowa współczynników regresji...................................................... 92

 

17.3.5. Weryfikacja hipotez o współczynnikach regresji......................................................... 94

 

18. WPROWADZENIE DO ZAAWANSOWANYCH METOD STATYSTYCZNYCH......... 96 

18.1.

 

C

HARAKTERYSTYKA ZAAWANSOWANYCH METOD STATYSTYCZNYCH

................................. 96 

18.2.

 

A

LGORYTMIZACJA WYBORU METOD STATYSTYCZNYCH

.................................................... 100 

background image

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 

 

14. STATYSTYKI I ICH ROZKŁADY 

Począwszy  od  tego  rozdziału  będziemy  przedstawiali  teorię  i  zastosowania  statystyki 
matematycznej.  RozwaŜymy  najpierw  sytuacje,  w  których  badana  jest  jedna  cecha  populacji  lub 
dwie  cechy  róŜnych  populacji  tak,  Ŝe  moŜna  je  traktować  jako  zmienne  losowe  niezaleŜne. 
Wówczas o próbach pobranych z tych populacji mówimy, Ŝe są niepowiązane

14.1. Próba jako zmienna losowa wielowymiarowa 

W  dalszych  rozwaŜaniach  będzie  potrzebna  nowa  definicja  próby  umoŜliwiająca  korzystanie  
w statystyce z rachunku prawdopodobieństwa. 
Badana  jest  cecha  X  populacji.  Niech  X

1

,  X

2

,  ...  X

n

  będą  zmiennymi  losowymi  niezaleŜnymi  

o jednakowym rozkładzie, takim jak rozkład cechy X. Próba losowa n-elementowa ze względu na 
cechę X (próba n elementowa)

 jest to zmienna losowa n-wymiarowa  

                                                                   (X

1

, X

2

, ..., X

n

)                                                    (14.1) 

Interpretacja 
Zmienna  losowa  X

1

  jest  modelem  wartości  cechy  X  pierwszego  elementu  wylosowanego  

z populacji do próby, X

2

 modelem drugiego elementu itd. PoniewaŜ do próby losujemy elementy 

metodą  ze  zwracaniem,  więc  kaŜdy  element  populacji  ma  te  same  szanse  być  
wylosowany, dlatego przyjmuje się, Ŝe zmienne losowe są niezaleŜne.  
KaŜdą wartość   
                                                                   (x

1

, x

2

, ..., x

n

)                 

                          (14.2) 

próby (14.1) nazywamy realizacją próby lub takŜe próbą. 
Przykład 14.1 
RozwaŜamy  populację  gospodarstw  domowych  na  terenie  Warszawy.  Populację  tę  badamy  ze 
względu  na  cechę  X  –  liczba  osób  w  gospodarstwie.  Z  populacji  pobieramy  próbę 
pięcioelementową.  Losujemy  ze  zwracaniem  pięć  gospodarstw  domowych.  Przypuśćmy,  
Ŝ

e otrzymaliśmy wartości cechy X: 2, 3, 1, 3, 4. Zatem zmienna losowa X

oznaczająca liczbę osób 

w  wylosowanym  pierwszym  gospodarstwie  przyjęła  wartość  2,  zmienna  losowa  X

2

  oznaczająca 

liczbę osób w wylosowanym drugim gospodarstwie przyjęła wartość 3 itd.  
Próba 
                                                         (X

1

, X

2

, X

3

, X

4

, X

5

 

                                       (14.3) 

przyjęła wartość 
                                                                 (2, 3, 1, 3, 4) 

 

                                        (14.4) 

Przypuśćmy,  Ŝe  badanie  powtórzono  i  otrzymano  teraz  następujące  wartości  cechy  X:  3,1,1,2,2. 
Otrzymaliśmy inną wartość próby (14.3), mianowicie 

 

 

                                                                (3, 1 ,1, 2, 2)                                                              (14.5) 
Ciągi (14.4) i (14.5) są realizacjami próby (14.3). 



 

Statystyki 
Aby moŜna było przeprowadzić analizę statystyczną naleŜy przekształcić próbę, czyli rozpatrywać 
funkcje próby. Funkcje próby (14.1) nazywamy statystykami  
                                                             U

n

 = g(X

1

, X

2

, ..., X

n

)                                                     (14.6) 

Przykład 14.2  
Jeśli  interesujemy  się  średnią  liczbą  osób  w  gospodarstwach  domowych  wybranych  do  próby,  
to naleŜy rozwaŜyć zmienną losową  

                                              

1

2

3

4

5

5

X +X +X +X +X

U =

5

  

ś

rednia arytmetyczna z próby 

                          

(14.7)

 

background image

STATYSTYKA MATEMATYCZNA 

 

Zmienna  ta  jest  funkcją  próby  (14.3),  jest  zatem  statystyką.  Wartościami  (realizacjami)  tej 
statystyki, dla realizacji próby (14.4) i (14.5) są liczby 

5

2+3+1+3+4

u =

=2,6

5

   i 

5

3+1+1+2+2

u =

=1,8

5

 



 

14.2. Podstawowe statystyki i ich rozkłady 

14.2.1. Wykazy statystyk 

Przedstawimy teraz dwa wykazy najczęściej stosowanych statystyk. 

  Wykaz statystyk klasycznych, tj. statystyk, których wartości zaleŜą od wszystkich zmiennych 

losowych wchodzących w skład próby. 

  Wykaz  statystyk  pozycyjnych,  tj.  statystyk,  których  wartości  zaleŜą  tylko  od  niektórych 

zmiennych losowych wchodzących w skład próby, głównie od tych, które zajmują odpowiednią 
pozycję w próbie. 

                                                                                         Tabela 14.1 Wykaz statystyk klasycznych 

Lp 

Postać 

Nazwa / Komentarz 

n

n

i

i 1

1

X

X

n

=

=

 

Ś

rednia z próby 

n

2

2

n

i

n

i 1

1

S

(X

X )

n

=

=

 

Wariancja z próby (obciąŜona

1

n

2

n

i

n

i 1

1

S

(X

X )

n

=

=

 

Odchylenie standardowe z próby 

n

2

2

n

i

n

i 1

1

ˆS

(X

X )

n 1

=

=

 

Wariancja z próby (nieobciąŜona

2

n

o2

2

n

i

i 1

1

S

(X

m)

n

=

=

 

m=EX 

2

o2

n

n

i

n

2

i 1

nS

X

m

U

=

=

=

σ

σ

 

m=EX, σ=DX 

2

2

n

n

i

n

n

2

i 1

nS

X

X

U

=

=

=

σ

σ

 

 

n

k

n

i

i 1

1

U

X

n

=

=

 

Moment z próby rzędu k 

n

k

n

i

n

i 1

1

U

(X

X )

n

=

=

 

Moment centralny z próby rzędu k 

10 

n

n

n

X

m

U

n 1

S

=

−  

 

 

11 

 
 

n

Y

W( ) = 

n

ω

 

Y

n

- liczba jedynek w próbie - 

patrz poniŜsza uwaga 

Wskaźnik struktury wariantu ω. 

 

                                                 

1

 Wyjaśnienie nazwy w podpukcie 15.2.1. 

2

 Jak wyŜej 

background image

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 

 

                                                                                                        Tabela 14.2. Wykaz statystyk pozycyjnych 

Podobnie definiuje się inne statystyki pozycyjne np. decyle z próby i centyle z próby. 
Uwaga:  KaŜdemu  elementowi  próby  przyporządkowujemy  1,  gdy  element  ma  wartość  cechy  X 
równą  wariantowi  ω  lub  0  w  przeciwnym  przypadku.  Wtedy  próba  (X

1

,  X

2

,  ...,  X

n

)  jest  ciągiem 

zmiennych  losowych  o  rozkładach  zerojedynkowych,  a  kaŜda  realizacja  próby  jest  ciągiem  
n- elementowym zer lub jedynek. 

14.2.2. Rozkład średniej z próby 

Ś

rednia z próby n-elementowej jest to statystyka 

n

n

i

i=1

1

X =

X

n

 

Parametry średniej  

Jeśli cecha X populacji ma wartość oczekiwaną m i wariancję 

2

σ , to  

n

EX =m , 

2

2

n

σ

D X =

n

n

σ

DX =

n

 

Rozkład średniej  
Jeśli  cecha  X  populacji  ma  rozkład  normalny  N(m,  σ),  to  średnia  arytmetyczna 

n

X   ma  rozkład 

normalny N 

σ

m,

n

. Twierdzenie to wynika z własności rozkładu normalnego

3

.  

Rozkład asymptotyczny średniej 
Jeśli  cecha  X  populacji  ma  wartość  oczekiwaną  m  i  wariancję 

2

σ

>0 ,  to  dla  duŜych  n  średnia 

arytmetyczna 

n

X

 ma rozkład asymptotycznie normalny N 

σ

m,

n

Twierdzenie to wynika z faktów:  

a) na podstawie tw. Lindeberga-Levy’ego

4

 suma 

n

i

i=1

X

ma rozkład asymptotycznie normalny,  

b) funkcja liniowa zmiennej losowej o rozkładzie normalnym ma rozkład normalny. 
Oba  rozkłady  średniej  (dokładny  i  asymptotyczny)  potwierdzają  znany  nam  fakt,  wynikający  
z prawa wielkich liczb Chinczyna, Ŝe średnia arytmetyczna duŜej liczby zmiennych losowych ma 
rozkład skupiony przy wartości oczekiwanej. Teraz ten fakt został ujęty ilościowo. 

                                                 

3

 

Patrz podpunkt 21.1.1.

 

części VII Wybrane twierdzenia z dowodami

 

4

 Patrz podpunkt 9.2.2 części III Rachunek prawdopodobieństwa 

Nazwa statystyki 

Symbol 

Definicja statystyki 

Mediana z próby 
 M

e

 

Statystyka przyjmująca dla kaŜdej realizacji 
próby medianę w tej realizacji  

Kwantyl rzędu p z próby 
K

p

 

Statystyka przyjmująca dla kaŜdej realizacji 
próby kwantyl rzędu p  w tej realizacji 

Kwartyl pierwszy, drugi i trzeci z próby  
Q

1

, Q

2

, Q

3

 

Statystyka przyjmująca dla kaŜdej realizacji 
próby odpowiedni kwartyl w tej realizacji 

Rozstęp z próby 
R

o

 

Statystyka przyjmująca dla kaŜdej realizacji 
próby rozstęp w tej realizacji 

background image

STATYSTYKA MATEMATYCZNA 

 

Przykład 14.1 
Cecha X populacji ma rozkład normalny N(3,1). Obliczymy prawdopodobieństwa 

16

400

P( X-3 <0,1), P( X -3 <0,1), P( X -3 <0,1) . 

Rozwiązanie  

(

)

(

)

P X-3 <0,1 =2Φ 0,1 -1=2 0,5398-1=0,08

 

Statystyka 

16

X

ma rozkład 

1

N 3,

16

, czyli rozkład 

1

N 3,

4

. Zatem 

16

16

1

1

P( X -3 <0,1)=P X -3 : <0,1:

=2Φ(0,4)-1= 2 0,4556-1=0,30

4

4

 

 Statystyka 

400

X

ma rozkład 

1

N 3,

400

czyli rozkład 

1

N 3,

.

20

 Zatem 

400

400

1

1

P( X -3 <0,1)=P X -3 :

<0,1:

=2Φ(2)-1=2 0,97725-1=0,955

20

20

 

Obliczyliśmy  prawdopodobieństwa,  Ŝe  zmienne  losowe  X, 

16

X

400

X

przyjmą  wartości  

z otoczenia o promieniu 0,1 swoich wartości oczekiwanych. Widać, Ŝe to prawdopodobieństwo dla 
zmiennej losowej X jest małe, umiarkowanej wartości dla średniej 

16

X  i bardzo duŜe dla średniej 

400

X

. Potwierdza to wcześniej sformułowaną właściwość średniej z próby, o przyjmowaniu przez 

nią  wartości  z  prawdopodobieństwem  bliskim  jedności  mało  róŜniących  się  od  jej  wartości 
oczekiwanej (a  takŜe cechy  populacji),  gdy  próba jest  liczna.  Wynika  stąd,  Ŝe  wartości  statystyki 

n

X  mogą słuŜyć do oceny wartości oczekiwanej, gdy wartość ta nie jest znana, a próba ma duŜo 

elementów. 



 

14.2.3. Rozkład statystyk związanych z wariancją z próby 

Wariancja z próby n-elementowej jest to statystyka 

n

2

2

n

i

n

i 1

1

S

(X

X )

n

=

=

 

Odchylenie standardowe z próby n-elementowej jest to statystyka 

n

2

n

i

n

i 1

1

S

(X

X )

n

=

=

 

Interpretacja  
ZauwaŜmy,  Ŝe  dla  realizacji  próby,  której  elementy  mało  róŜnią  się  od  siebie  realizacja 

2
n

s

 

statystyki 

2
n

S   jest  liczbą  bliską  zeru,  natomiast  dla  realizacji  próby,  której  elementy  róŜnią  się 

znacznie od siebie, ta realizacja jest duŜą liczbą. Podobne uwagi dotyczą odchylenia standardowego 
z  próby.  Zatem  statystyki 

2
n

S

i  S

n

  są  miarami  zróŜnicowania elementów  próby  względem  średniej  

z próby. 
Z wariancją z próby związane są statystyki 

(

)

n

2

2
nn

i

n

i=1

1

ˆS =

X -X

n-1

  oraz 

(

)

n

2

o2
n

i

i=1

1

S =

X -m

n

 

gdzie m jest wartością oczekiwaną cechy X populacji.  

background image

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 

 

ZauwaŜmy, Ŝe między statystykami 

2

o2

n

n

ˆS i S występują związki 

2

2

n

n

n

ˆS =

S

n-1

  oraz   

2
n

nS =(n-1)

(

)

n

2

2
nn

i

n

i=1

ˆS =

X -X

 

Rozkłady statystyk

  

2

o2

n

n

2

2

nS

nS

i

σ

σ

 

Zakładamy, Ŝe cecha X populacji ma rozkład normalny N(m, σ). Wtedy statystyka  

2

o2

n

n

i

2

i=1

nS

X -m

=

σ

σ

 

jest sumą kwadratów n niezaleŜnych zmiennych losowych o rozkładzie normalnym N(0, 1), zatem 
ma rozkład 

2

χ z n stopniami swobody

5

.  

Natomiast statystyka 

2

2

n

n

i

n

2

i=1

nS

X -X

=

σ

σ

 

róŜni  się  tym  od  statystyki 

o2
n

2

nS

σ

,  Ŝe  zamiast  róŜnicy  X

i

  -  m  występuje  róŜnica 

i

n

X - X .  MoŜna 

udowodnić, Ŝe ma ona takŜe rozkład 

2

χ , tyle, Ŝe z  n-1 stopniami swobody. Zatem prawdziwe jest 

twierdzenie:. 

Jeśli  cecha  X  populacji  ma  rozkład  normalny  N(m,  σ),  to  statystyka 

o2
n

2

nS

σ

  ma  rozkład 

2

χ   

z n stopniami swobody. Statystyka 

2
n

2

nS

σ

 ma rozkład 

2

χ

 z n-1 stopniami swobody. 

ZbieŜność statystyk

   

2

2

o2

n

n

n

ˆ

S ,S ,S  

Jeśli  cecha  populacji  X  ma  wariancję 

2

σ ,  to  ciągi 

( )

( )

( )

2

2

o2

n

n

n

ˆ

S , S , S

  są  zbieŜne  według 

prawdopodobieństwa  do  wariancji

2

σ ,  natomiast  ciągi 

( )

( )

( )

o

n

n

n

ˆ

S , S , S są  zbieŜne  według 

prawdopodobieństwa do odchylenia standardowego 

σ

.  

Wynika  stąd,  Ŝe  dla  licznej  próby  wartości  statystyk 

2

2

o2

n

n

n

ˆ

S , S , S   mogą  słuŜyć  do  oceny  wariancji 

2

σ

, natomiast wartości statystyk

o

n

n

n

ˆ

S ,S ,S do oceny odchylenia standardowego 

σ

Wartość oczekiwana statystyk 

2

2

o2

n

n

n

ˆ

S , S , S  

2

2

2

2

o2

2

n

n

n

n-1

ˆ

ES =

σ

,

E S =σ ,

E S =σ .

n

 

                                                 

5

 

Patrz ppkt 6.2.5 - definicja rozkładu chi kwadrat.

 

background image

STATYSTYKA MATEMATYCZNA 

 

10 

W tabelach 14.2. i 14.3. podano zestawienie wybranych statystyk wraz z ich rozkładami

6

Tabela 14.2. Rozkłady statystyk dla jednej cechy populacji 

Rozkład cechy populacji 

Statystyka 

Rozkład statystyki 

n

X  

Normalny 

σ

N m,

n

 

2

n

2

nS

σ

 

2

χ z n-1 stopniami swobody 

o2

n

2

nS

σ

 

2

χ z n stopniami swobody 

Normalny N(m,

σ

n

n

X -m

n-1

S

 

Studenta z n-1 stopniami swobody 

Dowolny z wartością 

oczekiwaną m i wariancją 

0

2

>

σ

 

n

X

 

Asymptotycznie normalny 

σ

N(m,

)

n

dla duŜych n 

Zerojedynkowy 

p

1

)

0

X

(

P

p

)

1

X

(

P

=

=

=

=

 

p- prawdopodobieństwo 

sukcesu 

Wskaźnik struktury 

(częstość sukcesu) 

n

Y

n

 

Y

n

- liczba jedynek w 

próbie 

Asymptotycznie normalny 

p(1-p)

N p,

n

Dla przypadku, gdy X: N(m, 

σ

), podane w tabeli 14.3. rozkłady statystyk moŜna zilustrować  

w sposób następujący. 

 

Rys. 14.1. Rozkłady wybranych statystyk 

                                                 

6

 Patrz punkt 21.1. części VII Wybrane twierdzenia z dowodami  

background image

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 

 

11 

Tabela 14.4. Rozkłady statystyk dla dwóch niezaleŜnych cech populacji 

Rozkład cechy X  Rozkład cechy Y 

Statystyka 

Rozkład statystyki 

Normalny 

N(m, 

σ

1

Normalny 

N(m, 

σ

2

1

2

n

n

2

2

1

2

1

2

X -Y

σ

σ

+

n

n

 

Normalny 

N(0,1) 

Normalny 

N(m, 

σ

Normalny 

N(m, 

σ

1

2

1

2

n

n

1 2

1

2

2

2

1

2

1 n

2 n

X -Y

nn

(n +n -2)

n +n

nS +n S

 

Studenta z n

1

 + n

2

 -2 

stopniami swobody 

Normalny 

N(m

1

, σ ) 

Normalny 

N(m

2

, σ ) 

1

2

2
nn

2
n

ˆS

ˆS

 

Snedecora z parą 

(n

1

-1, n

2

-1) stopni 

swobody 

Dowolny  

z wartością 

oczekiwaną m

1

  

i z wariacją  

2

1

σ  

Dowolny  

z wartością 

oczekiwaną m

2

  

i z wariacją

2
2

σ  

1

2

1

2

n

n

2

2

n

n

1

2

X -Y

S

S

+

n

n

 

Asymptotycznie normalny 

N(0,1) 

 
 

background image

STATYSTYKA MATEMATYCZNA 

 

12 

15. ESTYMACJA PARAMETRÓW 

15.1. Wprowadzenie

 

W teorii estymacji wyróŜnia się: estymację parametryczną i estymację nieparametryczną. 

Estymacja  parametryczna

  dotyczy  szacowania  nieznanych  parametrów  rozkładu.  Problem 

estymacji parametrycznej, odnoszący się do jednej cechy jest następujący: 
Populacja  badana  jest  ze  względu  na  cechę  X  o  rozkładzie  zaleŜnym  od  parametru  Q,  tzn. 
dystrybuanta tej cechy jest postaci F

Q

 (x), przy czym dla kaŜdego Q naleŜącego do pewnego zbioru 

  –  przestrzeni  parametru  Q,  dystrybuanta  ta  jest  znana.  Przy  tych  załoŜeniach  wnioskowanie  

o  rozkładzie  cechy  X  sprowadza  się  do  oszacowania  (estymacji)  na  podstawie  próby  wartości 
parametru Q. 
WyróŜnia  się  dwa  sposoby  szacowania  parametru  Q:  oszacowanie  punktowe  i  oszacowanie 
przedziałowe.  

Estymacja  nieparametryczna

  dotyczy  szacowania  postaci  funkcyjnej  rozkładu,  np.  w  postaci 

dystrybuanty.  MoŜna  w  tym  celu  stosować,  analogicznie  jak  przy  estymacji  parametrycznej, 
oszacowanie  punktowe  lub  przedziałowe.  Przy  szacowaniu  przedziałowym  wyznacza  się  obszar 
(pas) ufności

15.2. Estymacja punktowa 

Estymacja punktowa parametru Q polega na: 

 Wybraniu pewnej statystyki U

n

 o rozkładzie zaleŜnym od parametru Q.  

 Obliczeniu na podstawie próby wartości u

n

 statystyki U

n

 

 Przyjęciu, Ŝe u

n

 jest oszacowaniem parametru Q, co zapisujemy 

n

ˆQ = u  

i czytamy: oceną parametru Q jest u

n

.  

Statystyka U

n

 nazywa się wówczas estymatorem parametru Q. 

Znanych jest szereg metod wyznaczania estymatorów. NajwaŜniejsze z nich to: metoda momentów, 
metoda największej wiarygodności, metoda najmniejszych kwadratów – autor Carl Gauss, metoda 
estymacji bayesowskiej i metoda estymacji minimaksowej. 
PoniŜej  podano  istotę  pierwszej  z  wymienionych  metod,  druga  zostanie  scharakteryzowana  
w punkcie 15.2.4, a trzecia w punkcie 17.3.2.(łacznie z nawiązaniem do poprzednich) 
Metoda  momentów  została  opracowana  pod  koniec  XIX  wieku  przez  angielskiego  statystyka  
K.  Pearsona.  Zgodnie  z  tą  metodą  przyjmuje  się,  Ŝe  estymatorem  momentu  cechy  populacji  jest 
odpowiadający  mu  moment  z  próby,  zaś  estymatorem  funkcji  momentów  populacji  jest  ta  sama 
funkcja momentów z próby. 
Przykład 15.1 
Badana  jest  cecha  X  populacji.  Zgodnie  z  metodą  momentów  przyjmujemy,  Ŝe  estymatorem 

wartości  oczekiwanej  m  jest  średnia  z  próby 

n

n

i

i 1

1

X

X

n

=

=

,  natomiast  estymatorem  wariancji  σ

2

 

jest wariancja z próby 

(

)

n

2

2
n

i

n

i=1

1

S =

X -X

n

NaleŜy podkreślić, Ŝe charakterystyki liczbowe opisane w ramach statystyki opisowej pokrywają się 
z estymatorami wyznaczonymi metodą momentów. 

background image

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 

 

13 

15.2.1. Klasyfikacja estymatorów i nierówność Rao-Cramera

 

Estymator zgodny

 parametru Q jest to estymator U

n

 zbieŜny wg prawdopodobieństwa do Q, tzn. 

n

n

lim P( U -Q <ε)=1

→∞

dla dowolnego ε >0

 

Estymator  nieobciąŜony

  parametru  Q  jest  to  estymator  U

n

  o  wartości  oczekiwanej  równej 

parametrowi Q 

EU

n

 = Q 

Estymator  najefektywniejszy

  parametru  Q  jest  to  estymator  nieobciąŜony  tego  parametru  

o najmniejszej wariancji spośród wszystkich estymatorów nieobciąŜonych parametru Q. 
Estymator obciąŜony

 parametru Q jest to estymator U

n

 taki, Ŝe 

EU

n

 ≠ Q 

Estymator  asymptotycznie  nieobciąŜony

  parametru  Q  jest  to  estymator  U

n

  o  granicy  wartości 

oczekiwanej równej parametrowi Q 

n

n

lim EU =Q

→∞

 

Estymator  asymptotycznie  najefektywniejszy

  parametru  Q  jest  to  estymator  nieobciąŜony  lub 

asymptotycznie nieobciąŜony taki, Ŝe  

2

n

2

n

n

D U

lim

=1

D U

→∞

(

 

gdzie

n

U

(

 jest estymatorem najefektywniejszym parametru Q. 

Interpretacja 
Jeśli  estymator  jest  estymatorem  zgodnym  parametru  Q,  to  dla  duŜej  próby  
z prawdopodobieństwem bliskim 1 ocena parametru i parametr mało róŜnią się. 
Jeśli estymator parametru Q jest nieobciąŜony, to otrzymujmy oceny bez błędu systematycznego. 
Jeśli  bowiem  byłoby 

n

EU <Q ,  to  otrzymywalibyśmy  oceny  średnio  zaniŜone.  Natomiast,  gdyby 

n

EU >Q , to otrzymywalibyśmy oceny średnio zawyŜone. 

Jeśli estymator jest estymatorem najefektywniejszym parametru Q, to jego rozkład jest najbardziej 
skupiony  przy  parametrze  Q,  zatem  otrzymujemy  oceny  bliŜsze  parametrowi  Q,  niŜ  przy  innych 
estymatorach. 
Estymator  asymptotycznie  nieobciąŜony  jest  praktycznie  estymatorem  nieobciąŜonym,  gdy  próba 
jest  liczna,  takŜe  estymator  asymptotycznie  najefektywniejszy  jest  praktycznie,  dla  duŜej  próby, 
estymatorem najefektywniejszym. 
Zgodność, a  nieobciąŜoność estymatora 
PoniŜsze twierdzenie jest uŜyteczne przy badaniu zgodności estymatora. 
Jeśli U

n

 jest estymatorem  nieobciąŜonym lub asymptotycznie nieobciąŜonym parametru Q  oraz 

2

n

n

lim D U =0

→∞

 

to U

n

 jest estymatorem zgodnym tego parametru. 

Nierówność Rao-Cramera  
Jeśli cecha populacji X jest zmienną losową skokową o funkcji prawdopodobieństwa zaleŜnej od 
parametru Q 

k

k

P(X=x )=p (Q)  

i U

n

 jest estymatorem nieobciąŜonym parametru Q oraz spełnione są warunki regularności

7

, to 

wariancja estymatora U

n

 spełnia tzw. nierówność Rao-Cramera 

                                                 

7

 Leitner Roman, Zacharski Janusz: Zarys matematyki wyŜszej dla studentów, część III, WNT, Warszawa 1998 - str. 298 

background image

STATYSTYKA MATEMATYCZNA 

 

14 

2

n

2

k

k

k

1

D U

d

n

lnp (Q) p (Q)

dQ

 

przy czym dla estymatora najefektywniejszego zachodzi równość w powyŜszej nierówności. 
Jeśli  cecha  populacji  X  jest  zmienną  losową  ciągłą  o  gęstości  f

Q

(x)  zaleŜnej  od  parametru  Q  

i  U

n

  jest  estymatorem  nieobciąŜonym  parametru  Q  oraz  spełnione  są  warunki  regularności

8

,  to 

wariancja estymatora U

n

 spełnia nierówność  Rao-Cramera  w poniŜszej postaci 

2

n

2

Q

Q

-

1

D U

n

ln f (x) f (x)dx

Q

 

przy czym dla estymatora najefektywniejszego zachodzi równość w powyŜszej nierówności. 

Efektywność estymatora 

Efektywność estymatora nieobciąŜonego U

n

 parametru Q jest to liczba 

2

n

n

2

n

D U

e =

D U

(

 

gdzie 

2

n

D U

(

jest wariancją estymatora najefektywniejszego parametru Q. 

Oczywiście 

1

e

0

n

<

 

Estymator U

n

 jest estymatorem najefektywniejszym wtedy i tylko wtedy, gdy e

n

 = 1.  

15.2.2. Estymacja wartości oczekiwanej rozkładu normalnego

 

Cecha  X  populacji  ma  rozkład  normalny  N(m,

σ

),  przy  czym 

σ

  jest  znane.  Przyjmiemy, 

Ŝ

estymatorem warto

ś

ci oczekiwanej jest 

ś

rednia z próby 

n

n

i

i 1

1

X

X

n

=

=

 

Zgodność 

Cecha X ma rozkład z warto

ś

ci

ą

 oczekiwana m. 

Ś

rednia z próby 

n

X

  jest estymatorem zgodnym 

warto

ś

ci oczekiwanej m, gdy

Ŝ

 na podstawie prawa wielkich liczb Chinczyna

9

 

                                          

n

n

lim P( X - m <

ε

)=1

→∞

dla dowolnego ε >0 



 

NieobciąŜoność 

Poniewa

Ŝ

   

n

n

n

n

k

k

k=1

k=1

k=1

1

1

1

1

EX =E

X =

EX =

m= nm=m

n

n

n

n

 

wi

ę

ś

rednia z próby jest estymatorem nieobci

ąŜ

onym warto

ś

ci oczekiwanej. 



 

Efektywność 

Obliczymy  najpierw  wariancj

ę

  estymatora  najefektywniejszego  warto

ś

ci  oczekiwanej  rozkładu 

normalnego, a nast

ę

pnie wariancj

ę

 

ś

redniej z próby i porównamy otrzymane wielko

ś

ci. 

                                                 

Patrz  jw

 

Patrz

 

 ppkt 9.4.3. części III Rachunek prawdopodobieństwa

 

background image

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 

 

15 

Je

ś

li 

n

U%

 jest estymatorem najefektywniejszym, to jego wariancja jest równa prawej stronie   

nierówno

ś

ci Rao-Cramera 

{

}

2

n

2

m

m

-

1

1

D U =

= ozn.

M

n

lnf (x) f (x)dx

m

=

%

 

gdzie: 

2

2

-(x-m) /(2σ )

m

1

f (x)=

e

σ

2

π

 

Zatem 

2

m

2

1

(x-m)

lnf (x)=ln

-

σ

 i 

m

2

(x-m)

lnf (x)=

m

σ

 

2

2

2

m

4

4

4

2

-

n

n

n

n

M=

(x-m) f (x)dx=

D X=

σ

=

σ

σ

σ

σ

 

Czyli    

2

2

n

2

1

σ

D U =

=

1

n

n

σ

(

  

wariancja estymatora najefektywniejszego wartości oczekiwanej rozkładu normalnego 

2

n

n

n

2

2

2

2

2

n

k

k

2

2

2

k=1

k=1

k=1

1

1

1

1

σ

D X =D

X =

D X =

σ

=

n

σ

=

n

n

n

n

n

 

Zatem 

2

n

D X   =

2

n

D U

(

,  wi

ę

ś

rednia  z  próby  jest  estymatorem  najefektywniejszym  warto

ś

ci 

oczekiwanej rozkładu normalnego.  

Z  powy

Ŝ

szego  wynika, 

Ŝ

ś

rednia  z  próby 

n

X

  jest  estymatorem  zgodnym,  nieobci

ąŜ

onym  

i najefektywniejszym warto

ś

ci oczekiwanej rozkładu normalnego. 

15.2.3. Estymatory wariancji rozkładu normalnego

 

Estymatorami wariancji s

ą

 statystyki 

(

)

n

2

2

n

i

n

i=1

1

S =

X -X

n

  

(

)

n

2

o2

n

i

i=1

1

S =

X -m

n

  

(

)

n

2

2

n

i

n

i=1

1

ˆS =

X -X

n-1

 

Zbadamy własno

ś

ci tych estymatorów przy zało

Ŝ

eniu, i

Ŝ

 rozkład cechy jest normalny. 

W  ppkt  14.2.3.  stwierdzili

ś

my, 

Ŝ

e  statystyki 

2

o2

n

n

2

2

nS

nS

i

σ

σ

  maj

ą

  rozkłady  chi  kwadrat  z  n-1  

i n stopniami swobody oraz, 

Ŝ

e rozkład chi kwadrat z n stopniami swobody ma warto

ść

 oczekiwan

ą

 

równ

ą

 n i wariancj

ę

 2n. 

NieobciąŜoność

10

 

2
n

2

nS

E

=n-1

σ

  

oraz   

2

2

n

n

2

2

nS

n

E

=

ES

σ

σ

  

zatem 

2

2

n

n-1

ES =

σ

n

 

 

o2
n

2

nS

E

=n

σ

 

 

oraz  

o2

o2

n

n

2

2

nS

n

E

=

ES

σ

σ

 

 

zatem 

o2

2

n

ES =

σ  

2

2

2

2

2

n

n

n

n

n

n n-1

ˆ

ES =E

S =

ES =

σ

n-1

n-1

n-1 n

 

                                                 

10

 W    21.2  części  VI  Wybrane  twierdzenia  wraz  z  dowodami  oceniono  obciąŜoność  wariancji  bez  załoŜenia  o 

normalności rozkładu 

background image

STATYSTYKA MATEMATYCZNA 

 

16 

Wnioski 

Statystyki 

o2
n

S  i 

2
n

ˆS   s

ą

 estymatorami nieobci

ąŜ

onymi wariancji 

2

σ . 

Statystyka 

2
n

S

 jest estymatorem obci

ąŜ

onym wariancji 

2

σ ale  

2

2

2

n

n

n

n-1

lim ES = lim

σ

=

σ

n

→∞

→∞

 

czyli jest estymatorem asymptotycznie nieobci

ąŜ

onym wariancji 

2

σ . 

Zgodność 

Przy badaniu zgodno

ś

ci estymatorów wariancji 

2

σ   wykorzystamy  twierdzenie  podane  w  punkcie 

15.2.1.  Poniewa

Ŝ

  rozwa

Ŝ

ane  estymatory  wariancji  s

ą

  nieobci

ąŜ

one  lub  asymptotycznie 

nieobci

ąŜ

one,  to  zgodnie  z  tym  twierdzeniem  b

ę

d

ą

  estymatorami  zgodnymi,  gdy  ich  wariancje 

zbie

Ŝ

ne s

ą

 do zera. Obliczymy te wariancje 

2

2

n

2

nS

D

=2(n-1)

σ

 

oraz 

2

2

2

2 2

n

n

2

4

nS

n

D

=

D S ,

σ

σ

  zatem 

(

)

2 2

4

n

2

2 n-1

D S =

σ

0

n

 

o2

2

n

2

nS

D

=2n

σ

   

oraz 

o2

2

2

o2

n

n

2

4

nS

n

D

=

ES ,

σ

σ

  zatem 

4

2 o2

n

D S =

0

n

 

(

)

(

)

(

)

2

2

4

2 2

2

2

2 2

4

n

n

n

2

2

2

2 n-1

n

n

n

ˆ

D S =D

S =

D S =

σ

=

0

n-1

n

n-1

n-1

n-1

→  

Wniosek. Statystyki 

2

n

S , 

2

o

n

S , 

2

n

Sˆ  są estymatorami zgodnymi wariancji 

2

σ  

Efektywność 
Jeśli 

n

U

(

jest estymatorem najefektywniejszym wariancji 

2

σ ,  to  jego  wariancja jest  równa  prawej 

stronie nierówności Rao-Cramera, czyli 

{

}

2

2

2

n

2

2

σ

σ

-

1

1

D U =

= ozn.

M

n

lnf (x) f (x)dx

σ

=

%

 

gdzie: 

2

2

2

-(x-m) /(2σ )

σ

1

f (x)=

e

σ

 

Zatem 

2

2

2

2

σ

1

1

(x-m)

lnf (x)=- lnσ -ln

-

2

 

2

2

2

2

2

2

4

4

σ

1

(x-m)

(x-m) -σ

lnf (x)=-

+

=

σ

 

2

2

2

2

σ

σ

-

M = n

lnf (x) f (x)dx

σ

=

2

2

2

2

4

σ

-

(x-m) -σ

n

f (x)dx

2

2

2

4

2

2

4

8

σ

σ

σ

-

-

-

4

4

4

4

4

4

4

8

8

8

4

n

=

(x-m) f (x)dx-2σ

(x-m) f (x)dx+σ

f (x)dx =

n

1

n

=

µ

-2σ +σ =

3σ -2σ +σ =

=

 

4

2

n

4

1

D U =

=

1

n

n

(

 

  

background image

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 

 

17 

Porównując otrzymany wynik z wcześniej obliczonymi wariancjami estymatorów stwierdzamy, Ŝe 

4

2 o2

2

n

n

D S =D U =

n

(

 

n

2

4

4

n

n

2 2

D U

2σ 2σ

n-1

e =

=

:

=

ˆ

n

n-1

n

D S

(

 

n

2

4

4

n

2 2

2

D U

2σ 2(n-1)σ

n

=

:

=

D S

n

n

n-1

(

 

Wnioski z powyŜszych równości 

Statystyka 

(

)

n

2

o2
n

i

i=1

1

S =

X -m

n

jest  estymatorem  najefektywniejszym  wariancji  σ

2

  rozkładu 

normalnego. 

Statystyka 

(

)

n

2

2
n

i

n

i=1

1

ˆS =

X -X

n-1

nie  jest  estymatorem  najefektywniejszym  wariancji  σ

2

  rozkładu 

normalnego, ma efektywność (n-1)/n, jest więc estymatorem asymptotycznie najefektywniejszym.  

Statystyka 

(

)

n

2

2
n

i

n

i=1

1

S =

X -X

n

jest  estymatorem  asymptotycznie  najefektywniejszym  wariancji  σ

2

 

rozkładu normalnego.  
PoniewaŜ  statystyka  ta  nie  jest  estymatorem  nieobciąŜonym,  więc  nie  moŜe  być  estymatorem 
najefektywniejszym i nie moŜna mówić o efektywności tego estymatora. 

Estymatory odchylenia standardowego 

Estymatory odchylenia standardowego przedstawione są w tabeli 15.2.  
ZauwaŜmy,  Ŝe  pierwiastek  kwadratowy  estymatora  nieobciąŜonego  wariancji  σ

2

  nie  musi  być 

estymatorem nieobciąŜonym odchylenia standardowego σ. 

15.2.4. Metoda największej wiarygodności otrzymywania estymatorów

 

Cecha X populacji ma rozkład zaleŜny od  s parametrów Q

1

, ... , Q

 

(X

1

, ... , X

n

) – próba 

(x

1

, ... , x

n

)  – realizacja próby.  

Funkcja wiarygodności jest to funkcja s zmiennych Q

1

, ... , Q

s

  

   w przypadku cechy populacji X skokowej przyporządkowuje kaŜdemu moŜliwemu punktowi  

(Q

1

, ... , Q

s

) prawdopodobieństwo otrzymania realizacji próby (x

1

, ... , x

n

L(Q

1

, ... , Q

s

) = P(X

= x

1

, … , X

= x

n

) = P(X

= x

1

) …  P(X

= x

n

  w  przypadku  cechy  populacji  X  ciągłej  przyporządkowuje  kaŜdemu  moŜliwemu  punktowi  

(Q

1

, ... , Q

m

) gęstość próby w punkcie będącym realizacją próby (x

1

, ... , x

n

L(Q

1

, ... , Q

s

) = f (x

1

, ... , x

n

) = f

1

(x

1

) … f

n

(x

n

Metoda  największej  wiarygodności  (MNW)  otrzymywania  estymatorów  polega  na  wyznaczeniu, 
dla danej realizacji próby, takich ocen 

1

s

ˆ

ˆ

Q , ...,Q , parametrów Q

1

, ... , Q

s

, by funkcja wiarygodności 

w punkcie (

1

s

ˆ

ˆ

Q , ...,Q ) osiągała wartość największą. 

Estymatory,  których  wartościami  są  oceny  parametrów  Q

1

,  ...  ,Q

s

  uzyskiwanymi  metodą 

największej wiarygodności nazywamy estymatorami największej wiarygodności (ENW). 

background image

STATYSTYKA MATEMATYCZNA 

 

18 

Interpretacja 
MNW opiera się na następującej intuicji: skoro otrzymano realizację próby (x

1

, ... , x

n

), to musiała 

ona  być  bardziej  wiarygodna  od  innych  realizacji,  tzn.  w  przypadku  cechy  skokowej 
prawdopodobieństwo  uzyskania  takiej  realizacji  powinno  być  największe,  natomiast  
w przypadku cechy ciągłej gęstość próby dla otrzymanej realizacji powinna być największa. 
ENW  mają  rozkłady  asymptotycznie  normalne  i  są  estymatorami  zgodnymi  oraz  asymptotycznie 
nieobciąŜonymi i asymptotycznie najefektywniejszymi ( przy dość ogólnych załoŜeniach). 
Przykład 15.2 
Wyznaczymy metodą największej wiarogodności na podstawie próby 

1

2

n

(x , x ,..., x ) estymator 

wartości oczekiwanej cechy X o rozkładzie N(m,σ)  
Uwzględniając, Ŝe gęstość rozkładu normalnego ma postać 

2

2

(x m)

2

1

f (x)

e

2

σ

=

σ

π

 

otrzymuje się funkcję wiarogodności w postaci 

n

2

2

2

1

n

i

2

2

2

i 1

1

n

(x m)

(x

m)

(x m)

2

2

2

1

1

1

L(m)

e

...

e

e

2

2

2

=

σ

σ

σ

=

= 

σ

π

σ

π

σ

π

 

Przy poszukiwaniu maksimum funkcji L(m) wygodniej posługiwać się logarytmem tej funkcji, 
gdyŜ łatwiej jest znaleźć maksimum lnL(m), aniŜeli maksimum L(m), a obie funkcja L(m) i ln L(m) 
przyjmują maksimum w tym samym punkcie, co funkcja, a na ogół. 
Logarytm funkcji L(m) jest równy 

n

2

i

2

i 1

1

1

1

ln L(m) n ln

n ln

(x

m)

2

2

=

=

+

σ

σ

π

 

Po zróŜniczkowaniu względem parametru m otrzymujemy 

n

n

i

i

2

2

2

i 1

i 1

d ln L(m)

1

1

1

(x

m)

x

n m

dm

=

=

= −

=

σ

σ

σ

 

Po przyrównaniu pochodnej do zera otrzymujemy 

n

i

2

2

i 1

1

1

ˆ

x

n m 0

=

=

σ

σ

 

skąd 

n

i

i 1

1

ˆ

m

x

n

=

=

 

Zatem estymator wartości oczekiwanej cechy X o rozkładzie N(m,σ) jest równy średniej 
arytmetycznej elementów próby.  
Druga pochodna jest równa 

2

n

i

2

2

2

2

i 1

d

d d ln L(m)

d

1

1

1

ln L(m)

x

n m

n 0

dm

dt

dm

dt

=

=

=

= −

<

σ

σ

σ

 

czyli  ˆm zapewnia maksimum funkcji L(m)  
Kolejne przykłady wyznaczania estymatorów metoda największej wiarogogodności zamieszczono 
w punkcie 21.3. części VI Wybrane twierdzenia wraz z dowodami: 

  Estymator parametru p rozkładu zero-jedynkowego. 

  Estymator parametru Θ rozkładu wykładniczego. 

  Estymator parametru λ rozkładu Poissona. 

background image

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 

 

19 

15.2.5. Zestawienie estymatorów parametrów rozkładu zmiennej losowej i ich własności 

Tabela 15.2. Zestawienie estymatorów 

Własności estymatora 

Parametr 

Estymator 

Zgodny 

NieobciąŜony 

Najefektywniejszy 

Wartość 

oczekiwana m 

rozkładu 

normalnego 

n

n

k

k=1

1

X =

X

n

 

TAK 

TAK 

TAK 

(

)

n

2

2
n

i

n

i=1

1

S =

X -X

n

 

TAK 

Asymptotycznie 

nieobciąŜony 

Brak oceny

11

 

(

)

n

2

02
n

i

i=1

1

S =

X -m

n

 

TAK 

TAK 

TAK 

Wariancja σ

2

 

rozkładu 

normalnego 

(

)

n

2

2
n

i

n

i=1

1

ˆS =

X -X

n-1

 

TAK 

TAK 

Asymptotycznie 

najefektywniejszy 

0
n

S

,

n

ˆS ,

n

S  

 

TAK 

Asymptotycznie 

nieobciąŜone 

Asymptotycznie 

najefektywniejsze 

(

)

n

max

min

n

U = X

-X

d  

X

max

 – największy 

element w próbie 

X

min

 – najmniejszy 

element w próbie 

d

n

 – współczynnik 

liczbowy, tak 

dobrany, by estymator 

był nieobciąŜony 

TAK 

TAK 

DuŜa efektywność 

dla małych prób 

Odchylenie 

standardowe 

n

n

k

k=1

1

U =

π

/2

X -m

n

 

TAK 

TAK 

Efektywność  

1/(π-2) 

Parametr λ 

rozkładu 

Poissona 

n

n

k

k=1

1

X =

X

n

 

TAK 

TAK 

TAK 

Parametr p 

rozkładu zero-

jedynkowego 

Y

n

/n, gdzie Y

n

 

oznacza liczbę 

jedynek  

w próbie 

TAK 

TAK 

TAK 

 

 

                                                 

11

  Statystyka  jest  estymatorem  asymptotycznie  najefektywniejszym  wariancji  rozkładu  normalnego,  ale  poniewaŜ 

statystyka ta nie jest estymatorem nieobciąŜonym, więc nie moŜe być estymatorem najefektywniejszym i nie moŜna 
mówić o efektywności tego estymatora. 

background image

STATYSTYKA MATEMATYCZNA 

 

20 

15.3. Estymacja przedziałowa 

15.3.1. Uwagi wstępne 

Oszacowanie przedziałowe nieznanego parametru polega na wyznaczeniu przedziału ufności. 

X – cecha populacji, Q – parametr rozkładu cechy X, 1 - α - poziom ufności  ( 0< α <1). 

Jeśli istnieją dwie statystyki 

*

**

n

n

U , U  takie, Ŝe  

*

**

n

n

P(U

Q U )=1-

α   to przedział losowy 

 

 

                                  

*

**

n

n

<U ; U >

12

                                                               (15.1) 

nazywamy przedziałem ufności parametru Q na poziomie ufności 1 - α. 

Jeśli na podstawie próby obliczymy wartości 

*

**

n

n

u , u  statystyk 

*

**

n

n

U , U

, to otrzymujemy liczbowy 

przedział  

                                                              

*

**

n

n

u ; u

<

>                                                               (15.2) 

będący wartością (realizacją) przedziału (15.1). Parametr Q moŜe naleŜeć do przedziału (15.2) lub 
nie  naleŜeć.  Jeśli  jednak  poziom  ufności  1  -  α  jest  bliski  jedności,  to  bardzo  rzadko  będziemy 
otrzymywać liczbowe przedziały ufności (15.2) do których parametr Q nie naleŜy. 
Granice  przedziału  ufności  są  zmiennymi  losowymi.  Zatem  dla  róŜnych  realizacji  próby 
otrzymujemy na ogół róŜne realizacje przedziałów ufności. Gdybyśmy oszacowanie przedziałowe 
powtórzyli wiele razy, to częstość realizacji, do których szacowany parametr naleŜy byłaby bliska 
poziomowi  ufności  i  tak  np.  jeśli  próbę  powtórzono  100  razy  i  poziom  ufności  przyjęto  0,99,  to 
częstość  tych  realizacji,  do  których  parametr  naleŜy  byłaby  bliska  0,99,  a  więc  średnio  tylko  do 
jednej ze 100 realizacji szacowany parametr nie będzie naleŜał.  

Błąd bezwzględny. Błąd względny 

Jeśli realizacja (15.2) ma postać 

n

n

<u - ε; u + ε> , to liczbę ε nazywamy błędem bezwzględnym, zaś 

liczbę 

n

ε

δ

=

u

 błędem względnym oszacowania parametru na poziomie istotności 1 - α. 

Na poniŜszym rysunku przedstawiono kilka z moŜliwych realizacji przedziałów ufności dla 
wartości oczekiwanej. 
 
 
 
 
 
 
 
 
 

Rys. 15.4. Ilustracja szacowania m za pomocą przedziałów ufności 

Niektóre  z  nich  pokrywają  prawdziwą  wartość  parametru  m,  a  niektóre  nie.  Sumarycznie,  tzn. 
odnosząc  się  do  wszystkich  realizacji  przedziałów  ufności  otrzymywanych  tą  metodą  naleŜy 
stwierdzić, Ŝe z częstością bliską 1-α pokrywają prawdziwą wartość parametru. 

                                                 

12

 

RozwaŜa się takŜe jednostronne przedziały ufności postaci (-∞; U

n

> lub <U

n

;-∞).

 

background image

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 

 

21 

15.3.2. Wyznaczenie przedziału ufności dla wartości oczekiwanej rozkładu normalnego 

Dla zilustrowania sposobu postępowania przy określeniu przedziału ufności wyznaczymy go dla 
wartości oczekiwanej rozkładu normalnego w dwóch przypadkach: przy znanej i nieznanej 
wariancji. 
Znana wariancja. 
Cecha X ma rozkład normalny N(m,σ), σ jest znane. 
Do budowy przedziału ufności na poziomie 1 – α wybieramy statystykę do oszacowania wartości 
oczekiwanej  w  postaci  średniej  arytmetycznej  próby 

n

X

,  która  jak  wiadomo  (21-3.1)  jest 

estymatorem najefektywniejszym. Jak wiadomo

13

, średnia arytmetyczna ma rozkład 

n

X : N(m,

)

n

σ  

zaleŜny od wartości oczekiwanej m.                         
Standaryzujemy 

n

X , tzn. przekształcamy ją w statystykę 

n

U    

n

n

X

m

U

n

=

σ

 

Statystyka U

n

  ma rozkład N(0,1)

14

 

.

 

Wyznaczamy przedział liczbowy 

u , u

α

α

< −

>  tak aby 

n

X

m

P[ u

u ] 1

n

α

α

= − α

σ

                                (15-3.2) 

gdzie u

α

 

zaleŜy od poziomu ufności 1 - α. 

 

 
Rozwiązujemy nierówność pod znakiem prawdopodobieństwa względem m 

n

u

X

m u

n

n

α

α

σ

σ

 

n

n

X

u

m

X

u

n

n

α

α

σ

σ

≤ −

≤ −

+

 

n

n

X

u

m X

u

n

n

α

α

σ

σ

+

 

n

n

X

u

m X

u

n

n

α

α

σ

σ

+

                                        (15-3.3) 

ZaleŜność (15-3.3 ) określa szukany przedział ufności, spełnia on warunek  

n

n

P(X

u

m X

u

) 1

n

n

α

α

σ

σ

+

= − α                              (15-3.4) 

Dla jego określenia naleŜy jeszcze wyznaczyć u

α

. Uwzględniając (3.6-2) i rozkład normalny U

n  

n

n

n

P( u

U

u ) P(U

u ) P(U

u )

(u )

( u )

α

α

α

α

α

α

=

≤ −

= φ

− φ −

 

qdzie Φ jest dystrybuantą rozkładu normalnego N(0,1). 

PoniewaŜ  ( u ) 1

(u )

α

α

Φ −

= − Φ

 - patrz poniŜszy rysunek 

                                                 

13

 Podpunkt 19.1.1 części VI Wybrane twierdzenia z dowodami 

14

 

Podpunkt 20.5.5 części VI Wybrane twierdzenia z dowodami 

background image

STATYSTYKA MATEMATYCZNA 

 

22 

 

 

Rysunek 15.14a. Wyznaczanie granicy przedziału ufności 

to 

n

P( u

U

u )

(u ) 1

(u ) 2 (u ) 1

α

α

α

α

α

= φ

− + φ

= φ

−  

Uwzględniając (15-3.2) mamy  równanie do wyznaczenia u

α

 

2 (u ) 1

α

φ

− =1-α 

Zatem u

α

 wyznacza się z zaleŜności 

(u ) 1

2

α

α

φ

= −

                                                   (15-3.5) 

Uwagi dotyczące przedziału ufności (15.3) 

1.

  PołoŜenie końców przedziału jest losowe (bo średnia z próby ma wartość zaleŜną od realizacji 

próby). 

2.

  Długość przedziału jest stała. 

3.

  Długość przedziału zaleŜy od poziomu ufności 1–α (bo 

α

u   zaleŜy  od  α),  im  większy    poziom 

ufności, tym dłuŜszy przedział ufności – patrz rys. 15.3. 

4.

  Długość  przedziału  jest  odwrotnie  proporcjonalna  do  pierwiastka  liczebności  próby,  zatem  ze 

wzrostem  liczebności  próby  zwiększa  się  dokładność  oszacowania,  jednak  nadmierne 
powiększanie próby nie jest korzystne, bowiem powoduje małe zwiększanie się dokładności. 

5.

  Długość  przedziału  ufności  zaleŜy  od  odchylenia  standardowego  σ  cechy  X.  Jeśli  X  oznacza 

wynik  pomiaru,  to  σ  oznacza  dokładność  pomiaru,  a  więc  zwiększanie  dokładności  pomiarów 
powoduje zmniejszenie błędu oszacowania. 

Z  powyŜszych  uwag  wynika,  Ŝe  potrzebny  jest  kompromis  między  zaufaniem  do  oszacowania 
(poziomem  ufności),  a  błędem  oszacowania,  bowiem  zwiększenie  ufności  powoduje  zwiększenie 
błędu, zmniejszenie błędu powoduje zmniejszenie ufności oszacowania.  
Stosowanie  przedziału  ufności  (15.3)  wymaga  spełnienia  załoŜenia,  Ŝe  odchylenie  standardowe  σ 
jest znane. ZałoŜenie to w zagadnieniach praktycznych jest niezmiernie rzadko spełnione. 
Nieznana wariancja 
Cecha X ma rozkład normalny N(m,σ), σ jest znane.. 
Konstrukcja  przedziału  ufności  dla  wartości  oczekiwanej  rozkładu  normalnego,  gdy  σ    nie  jest 
znane  wymaga  innego,  niŜ  poprzednio  przekształcenia  średniej  z  próby,  mianowicie 
wykorzystujemy twierdzenie, Ŝe statystyka 

n

n

n

X -m

U =

n-1

S

 

ma rozkład Studenta z n-1 stopniami swobody

15

. Dalej postępujemy podobnie jak poprzednio.  

                                                 

15

 

Podpunkt 21.1.2 części VI Wybrane twierdzenia z dowodami

 

background image

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 

 

23 

Wyznaczamy liczbę 

α

u  tak, by  

α

n

α

P(-u

U

u )=1- α

 

co jest równowaŜne wyraŜeniu 

n

α

P( U

u )=α

 

Liczbę 

α

u  spełniającą powyŜszy związek odczytujemy z tablic rozkładu Studenta z n-1 stopniami 

swobody  i  poziomu  prawdopodobieństwa  α  (pkt  6  części  VII  „Tablice  statystyczne”)  lub 
znajdujemy ją przy pomocy programu komputerowego. Mamy 

n

α

α

n

X -m

P(-u

n-1 u )=1-α

S

 

Rozwiązując względem m występującą w powyŜszym związku nierówność otrzymujemy przedział 
ufności 

α

n

α

n

n

n

u S

u S

<X -

;X +

n-1

n-1

>  

przedział ufności dla wartości oczekiwanej rozkładu normalnego

 

α

n

u S

ε

=

n-1

  

błąd bezwzględny (połowa długości przedziału ufności)

 

Tym  razem  nie  tylko  końce  przedziału  ufności  są  losowe,  takŜe  losowa  jest  długość  przedziału 
ufności. 
Próba o duŜej liczności 
RozwaŜymy  jeszcze  jedną  sytuację.  Nie  mamy  informacji,  Ŝe  rozkład  cechy  jest  normalny,  za  to 
wiemy,  Ŝe  próba  jest  liczna.  Wówczas  statystyka 

n

X

  ma  rozkład  w  przybliŜeniu  normalny, 

σ

N m,

n

).  Postępując,  jak  przy  konstrukcji  przedziału  (15.3)  i  zastępując  σ  odchyleniem 

standardowym z próby ( o ile σ nie jest znane) otrzymujemy przedział ufności 

α

n

α

n

n

n

u S

u S

<X -

;X +

n

n

>   

- przedział ufności dla wartości oczekiwanej dowolnego rozkładu.

 

Podsumowanie 
Znalezione  powyŜej trzy  przedziały  ufności  dla  wartości  oczekiwanej  oraz  przedziały  ufności  dla 
innych  parametrów  są  przedstawione  w  tabeli  15.3.  Uogólniając  powyŜszej  przedstawione  
postępowanie naleŜy stwierdzić, Ŝe konstrukcja przedziału ufności dla parametru Q polega na: 
1.

  Wybraniu statystyki o rozkładzie zaleŜnym od Q, najlepiej by statystyka ta była estymatorem 

najefektywniejszym tego parametru lub estymatorem o wysokiej efektywności. 

2.

  Przekształceniu wybranej statystyki w statystykę 

n

U   wyraŜoną  wzorem,  w  którym  występuje 

Q. Rozkład 

n

U powinien być znany i zaleŜeć tylko od Q. 

3.

  Wyznaczeniu przedziału liczbowego 

1

2

<u ;u > , tak by 

1

n

2

P(u

U

u )=1-α

4.

  Rozwiązaniu względem Q nierówności 

1

n

2

u

U

u

background image

STATYSTYKA MATEMATYCZNA 

 

24

15.3.3. Tabela przedziałów ufności

 

Tabela 15.3. Zestawienie przedziałów ufności 

Parametr 

Rozkład cechy 

Przedział ufności 

Wyznaczanie liczby  u

α

 

Nr 

Wartość 

oczekiwana 

Normalny 

N(m,σ), 

σ - jest znane 

u

u

X

; X

n

n

α

α

σ

σ

<

+

>

 

 

2

α

1

)

u

(

=

Φ

α

 

Φ -dystrybuanta rozkładu N(0,1) 

PU-1 

Wartość 

oczekiwana 

Normalny 

N(m,σ), 

σ - nie jest znane 

Su

Su

X

; X

n 1

n 1

α

α

<

+

>

 

α

)

u

|

T

(|

P

1

n

=

α

 

T

n-1

 zmienna losowa o rozkładzie Studenta z n-1 

stopniami swobody 

PU-2 

Wartość 

oczekiwana 

Dowolny 

Liczna próba 

n ≥ 100 

Su

Su

X

; X

n

n

α

α

<

+

>  

2

α

1

)

u

(

=

Φ

α

 

Φ -dystrybuanta  N(0,1) 

PU-3 

Wariancja σ

2

  Normalny N(m,σ) 

2

2

1

2

nS nS

;

u

u

 

2

1

)

u

Y

(

P

2

)

u

Y

(

P

2

1

n

1

1

n

α

=

α

=

 

Y

n-1 

ma rozkład χ

z n – 1 stopniami swobody 

PU-4 

Odchylenie 

standardowe 

σ 

Normalny 

N(m,σ), 

2

2

1

2

nS

nS

;

u

u

 

2

1

)

u

Y

(

P

2

)

u

Y

(

P

2

1

n

1

1

n

α

=

α

=

 

Y

n-1

 ma rozkład χ

2

 z n – 1 stopniami swobody 

PU-5 

Wskaźnik 

struktury p 

Rozkład zero- 

jedynkowy 

p

1

)

0

X

(

P

,

p

)

1

X

(

P

=

=

=

=

 

liczna próba 

n ≥ 100 

W(1 W)

W(1 W)

W u

; W u

n

n

α

α

+

 

W - wskaźnik struktury w próbie  
W=Y

n

/n Y

n

 – licznba jedynek w próbie 

2

α

1

)

u

(

=

Φ

α

 

Φ -dystrybuanta  rozkładu normalnego N(0,1) 

PU-6 

background image

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 

 

25 

Przykład 15.3  
Badano  ceny  drukarek  Canon  BC250  w  40  wylosowanych  punktach  sprzedaŜy.  Otrzymano,  Ŝe 
ś

rednia  cena  drukarki  wynosi  358,37.  Zakładając,  Ŝe  cena  drukarki  w  całej  populacji  ma  rozkład 

normalny  N(m,  σ)  na  poziomie  ufności  1-α  =  0,95  wyznaczymy  na  podstawie  40  elementowej 
próby przedział ufności dla średniej ceny drukarki przyjmując, Ŝe odchylenie standardowe populacji 
jest równe 20. 

Rozwiązanie.  

Zastosujemy  przedział  ufności  PU-1: 

α

α

σ

u

σ

u

<X-

; X+

n

n

> .  PoniewaŜ  1-α  =  0,95,  czyli  α  =  0.05  

α

2

 = 0.025. Równanie do wyznaczenia u

α

 ma postać 

α

α

Φ

(u )=1-

2

= 0,975, stąd u

α

=1,96, więc błąd 

bezwzględny, czyli połowa długości przedziału ufności 

α

σ

u

ε

=

n

 

20 1,96

40

=

 = 6,198. 

Ś

rednia arytmetyczna ceny jest równa  x = 358,37. 

Zatem  szukanym  przedziałem  ufności  jest  przedział  <358,37–6,2;358,37+6,2  =  <352,17;364,57> 

Błąd względny δ= 

ε

6,2

100%=

100%

x

358,37

= 1,55%. 

Długość  połowy  przedziału  ufności  równą 

α

σ

u

n

ε =

zwraca  funkcja  UFNOŚĆ  arkusza  Excel  na 

podstawie odchylenia standardowego σ i liczebności próby.  

 

 

Zwracamy uwagę, Ŝe otrzymany wynik jest identyczny jak obliczony powyŜej.



 

background image

STATYSTYKA MATEMATYCZNA 

 

26 

Przykład 15.4 
Dla danych z przykładu 15.3 obliczymy błędy bezwzględny i względny oszacowania parametru m 
na poziomie ufności 1 - α = 0,99. 

Rozwiązanie  

Mamy 

α

α

Φ

(u )=1-

2

= 0,995, stąd 

α

u =2,576 , więc błąd bezwzględny, czyli połowa długości 

przedziału ufności 

α

σ

u

ε

 =

n

40

576

,

2

20 ⋅

=

=8,15, błąd względny δ = 

ε

8,15

=

=2,27%

x 358,37

 



 

Widzimy,  Ŝe  powiększanie  poziomu  ufności  (zaufania  do  otrzymanego  oszacowania)  powoduje 
powiększenie  obu  błędów  bezwzględnego  i  względnego.  Dlatego  w  praktyce  nie  moŜna 
przyjmować  zbyt  duŜych  poziomów  ufności,  gdyŜ  prowadzi  to  do  duŜych  błędów  oszacowania 
(przedziały ufności mają wtedy duŜą długość).  
Niektórzy praktycy przyjmują, Ŝe oszacowanie jest:  

  Bardzo dobre, gdy błąd względny jest równy najwyŜej 2%; 

  Dobre, gdy błąd względny jest zawarty między 2% i 5%; 

  Dostateczne, gdy błąd względny jest zawarty między 5% i 10%; 

  Niedostateczne, gdy błąd względny jest większy od 10%.  

Przykład 15.5 
Na poziomie 0,95 obliczmy przedział ufności dla średniej ceny monitorów 17 calowych na 
podstawie 12 elementowej próby: 733, 685, 761, 812, 708, 735, 639, 730, 703, 694, 714, 664 
zakładając, Ŝe cena ma rozkład normalny.   
Rozwiązanie 

Stosujemy przedział ufności PU-2  

α

α

Su

Su

<X-

; X+

n-1

n-1

>  

Obliczamy:  x = 714,83 oraz s 

10

2

i

i 1

1

(x

714,83)

12

=

=43,19 

Liczba 

α

u   spełnia  związek

n-1

α

P(|T | u )=α

,  który  dla  danych  zadania  przybiera  postać 

11

α

P(|T |   u )  = 0,01.

 Z tablicy rozkładu Studenta dla 11 stopni swobody i poziomu prawdopodo-

bieństwa  0,05  (pkt  6  części  VII  „Tablice  statystyczne”)  odczytujemy,  Ŝe 

α

u =  2,201,  więc 

α

Su

43,19 2,201 95,064

ε

=

=

=

=28,66

3,317

n-1

11

Zatem 

przedział 

ufności 

jest 

równy 

8, 6 0, 23 ; 8, 6 0, 23     8,37 ; 8, 63

<

+

> = <

>  

Długość  połowy  przedziału  ufności  równą 

α

ˆs u

45,11 2, 201 99, 287

'

3, 464

n

12

ε =

=

=

=  28,66  zwraca 

narzędzie Statystyka opisowa modułu Analiza danych pakietu Excel 

Kolumna1 

Ś

rednia 

714,8333333 

Błąd standardowy 

13,02261048 

Mediana 

711 

Tryb 

#N/D! 

Odchylenie standardowe 

45,11164601 

Wariancja próbki 

2035,060606 

Poziom ufności (95,0%) 

28,6625724 

 

Zwraca się uwagę, Ŝe otrzymany wynik jest identyczny jak obliczony powyŜej.



 

background image

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 

 

27 

Przykład 15.6 
Jako  miarę  dokładności  przyrządu  przyjęto  odchylenie  standardowe  pomiarów  dokonanych  tym 
przyrządem.  Zakładamy,  Ŝe  pomiary  pochodzą  z  populacji  normalnej  N(m,σ).  Dokonano  20 
pomiarów i otrzymano wariancję z próby 6,5. Na poziomie ufności 0,9 oszacuj przedziałem ufności 
wariancję i odchylenie standardowe wszystkich moŜliwych pomiarów. 
Rozwiązanie 

Dane n = 20, s

2

 =6,5, 1- α = 0, 9, rozkład cechy populacji N(m, σ). 

Stosujemy przedziały ufności PU-4 i PU-5 

2

2

1

2

nS nS

;

u

u

 , 

2

2

1

2

nS

nS

;

u

u

 

 Liczby u

1

 i  u

 spełniają  związki 

n-1

1

n-1

2

α

P(Y

u )=

2

α

P(Y

u )=1-

2

 

w których Y

n-1 

oznacza zmienną losową o rozkładzie χ

2

 z n-1 stopniami swobody.  

19

1

19

2

0,1

P(Y

u )=

=0,05

2

0,1

P(Y

u )=1-

=0,95

2

 

Z tablicy rozkładu χ

2

 (pkt 5 części VII „Tablice statystyczne”) odczytujemy, Ŝe u

1

 = 30,1 u

2

 = 10,1 

Przedział ufności dla wariancji 

20 6,5 20 6,5

;

4,3;12,9

30,1

10,1

=<

>  

Przedział ufności dla odchylenia standardowego 

4,3 ; 12,9

2,1 ; 3,6

<

> = <

>  



 

Przykład 15.7 
Na  400  obrotów  anteny  radarowej  obiekt  znajdujący  się  w  obszarze  obserwacji  radaru  został 
wykryty 350 razy. Literą p oznaczamy prawdopodobieństwo wykrycia obiektu przy jednym obrocie 
anteny (niezawodność radaru). Znajdziemy przedział ufności dla p na poziomie ufności 0,95. 

Rozwiązanie 

Niech X będzie zmienną losową przyjmującą wartość 1, gdy w jednym obrocie anteny obiekt został 
wykryty, zaś wartość 0, gdy nie został wykryty. Zmienna losowa X ma rozkład zerojedynkowy z 
parametrem p. Prawdopodobieństwo p oszacujemy przedziałem ufności PU-6 

α

α

W(1-W)

W(1-W)

W-u

; W+u

n

n

 

gdzie  w  jest  wskaźnikiem  struktury  w  próbie  (oszacowaniem  wskaźnika  struktury  p  w  populacji) 

k

w =

n

, k - liczba jedynek w próbie. 

Dla danych w zadaniu mamy 

%

5

,

87

875

,

0

400

350

n

k

w

=

=

=

=

 

background image

STATYSTYKA MATEMATYCZNA 

 

28 

α

α

α

0,05

Φ

(u )=1- =1-

=0,975

u =1,96

2

2

 

α

w(1-w)

0,875 0,125

ε

 = u

=1,96

=3,2%

n

400

<87,5%-3,2% ; 87,5%+3,2%>= <84,2% ; 90,7%>

 

Odp. Niezawodność radaru z ufnością 0,95 jest zawarta między 84,2% a 90,7%. 



 

 15.3.4. Wyznaczanie wielkości próby 

Zagadnienie  
Wyznaczyć  liczebność  próby  n  tak  by  błąd  bezwzględny  oszacowania  parametru  przedziałem 
ufności wynosił ε , przy poziomie ufności 1 - α . 
Zasady wyznaczania wielkości próby podano w poniŜej tabeli. 

Tabela 15.4. Wyznaczanie liczebności próby n przy poziomie ufności 1 - α 

ZałoŜenia 

Etapy wyznaczania liczebności próby 

Nr 

Cecha X ma 

rozkład 

normalny  

N(m, σ), σ jest 

znana

16

 

1) Wyznaczamy liczbę u

α

 : 

α

α

Φ

(u )=1-

2

 

2) Obliczamy 

2

u

n

α

σ

= 

ε

 

LP-1 

Cecha X ma 

rozkład 

normalny  

N(m, σ), σ nie 

jest znana 

Rozkład cechy 

X nie jest znany. 

Próba jest liczna 

1) Pobieramy próbę o małej liczebności n

0

 (wstępną próbę) i szacujemy 

odchylenie standardowe σ za pomocą odchylenia standardowego s

z tej próby 

2) Obliczamy 

2

0

α

s  u

n =

1

ε

+

 

3)  Jeśli  n-n

0

  >  0,  to  naleŜy  powiększyć  próbę  o  n-n

0

  elementów.  

Jeśli  
n – n

0

  ≤  0, to poprzestajemy na pobraniu wstępnej próby. 

LP-2 

Cecha X ma 

rozkład 

zerojedynkowy. 

Próba jest 

liczna. 

Dokładność 

oszacowania 

dokładnością ε 

17

 

1) Wyznaczamy liczbę u

α

 : 

α

α

Φ

(u )=1-

2

 

2) Obliczamy 

2
α

2

u

n = 

k

ε

 gdzie 

w oszacowanie wskaźnika na podstawie wstępnej próby, 

w(1 w)

w 0,5 

k

0, 25

nie mamy Ŝadnych informacji o w

0, 21

jesli wiemy, Ŝe wadliwość nie moŜe przekroczyć30%



=



 

LP-3 

Uwaga: Przy obliczaniu n zawsze przyjmujemy zaokrąglenie w górę 
 

                                                 

16

 Patrz przedział ufności PU-1 

17

 Patrz przedział ufności PU-6 

background image

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 

 

29 

Przykład 15.8 
W  doświadczeniu  chemicznym  bada  się  czas  trwania  reakcji  chemicznej.  Czas  ten  modelujemy 
zmienną losową X o rozkładzie normalnym N(m, 5 sek). 
Ile  razy  naleŜy  powtórzyć  to  doświadczenie,  by  oszacować  przedziałem  ufności  średni  czas  m 
trwania tej reakcji na poziomie ufności 0,95 tak, by błąd bezwzględny wynosił 2 s? 

Rozwiązanie 

Korzystamy z zasady LP-1 podanej w tabeli 15.3 

2

α

σ

 u

n =

ε

 

α

0, 05

(u ) 1

1

0,975

2

2

α

Φ

= −

= −

=

  ⇒   u

α

=1,96, 

24

2

5

96

,

1

n

2

=

 

Odp. NaleŜy doświadczenie powtórzyć 24 razy.  
Przykład 15.9  
Cecha X populacji ma rozkład normalny o nieznanych parametrach. W celu oszacowania wartości 
oczekiwanej  przedziałem  ufności  o  długości  1,  na  poziomie  ufności  0,96,  pobrano  wstępną  
5- elementową próbę i otrzymano odchylenie standardowe s

0

=0,8. Jak wielką próbę naleŜy pobrać? 

Rozwiązanie 

Korzystamy z zasady LP-2 podanej w tabeli 15.3 

0, 04

(u ) 1

1

0,98

u

2,05

2

2

α

α

α

Φ

= −

= −

=

=

 

2

0

s  u

n

1

α

=

+

ε

2

0,8 2, 05

1 12

0,5

+ ≈

 

Odp. NaleŜy pobrać próbę 12 elementową, czyli naleŜy dobrać jeszcze 7 elementów.  
Przykład 15.10 
Cecha X populacji ma rozkład normalny N(m, σ), σ nie jest znana. Jak wielką próbę naleŜy pobrać, 
by na poziomie ufności 0, 98 oszacować wartość oczekiwaną m z błędem, co najwyŜej równym 0,5, 
gdy na podstawie wstępnej próby 50 elementowej otrzymano odchylenie standardowe 3,0? 
Rozwiązanie 

Korzystamy z zasady LP-2 podanej w tabeli 15.3 

1 – α = 0, 98  ε = 0,5 

0

n

50

=

  

0

s

3, 0

=

 

α

0, 04

(u ) 1

1

0,98

2

2

α

Φ

= −

= −

=

  ⇒  u

α

 

= 2,05 

2

0

s  u

n

1

α

=

+

ε

 

2

3, 0 2, 05

1 153

0,5

=

+ ≈

 

Odp. NaleŜy wziąć próbę 153 elementową, naleŜy więc jeszcze dobrać 103 elementy.  

background image

STATYSTYKA MATEMATYCZNA 

 

30 

Przykład 15.11 
Mamy  oszacować  przedziałem  ufności  wadliwość  p  partii  towaru  na  poziomie  ufności  
1- α = 0,96, z dokładnością ε = 0,05. Jak wielka powinna być próba? 
Rozwiązanie  

α

α

0,04

Φ

(u )=1- =1-

=0,98

2

2

  ⇒  u

α

 

= 2,05 

2
α

2

w(1-w)

n = u

ε

 

Jeśli nie mamy Ŝadnych informacji o wadliwości w, to w miejsce iloczynu w(1-w) podstawiamy ¼ 
(największą wartość iloczynu). 

2

2

1/4

n = 2,05

421

0,05

 

Jeśli  natomiast  wiemy,  Ŝe  wadliwość  nie  moŜe  przekroczyć  30%,  to  iloczyn  w  (1-w)  nie  moŜe 

przekroczyć liczby 0,3 

0,7 = 0,21, zatem 

2

2

0,21

n=2,05

353

0,05

  

15.3.5. Wykorzystanie arkusza Excel 

Lp  Zakres analizy statystycznej 

Funkcje 

statystyczne 

Narzędzia statystyczne 

1.

 

Estymacja długości połowy przedziału 
ufności dla wartości oczekiwanej przy 
znanej wariancji 

UFNOŚĆ 

 

2.

 

Estymacja długości połowy przedziału 
ufności dla wartości oczekiwanej przy 
nieznanej wariancji 

 

STATYSTYKA 

OPISOWA 

 

 

background image

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 

 

31 

16. WERYFIKACJA HIPOTEZ  

16.1 Wprowadzenie 

16.1.1. Uwagi wstępne  

Teoria weryfikacji hipotez zajmuje się metodami sprawdzania hipotez statystycznych.  

Hipoteza  statystyczna

  to  kaŜde  przypuszczenie  dotyczące  nieznanego  rozkładu  badanej  cechy 

(cech). Hipoteza dotycząca jedynie wartości parametrów cechy nazywa się hipotezą parametryczną, 
natomiast  hipoteza  precyzująca,  do  jakiego  typu  rozkładów  naleŜy  rozkład  cechy  populacji,  nosi 
nazwę hipotezy nieparametrycznej. 
Przykład 16.1 
Wiemy, Ŝe cecha X populacji ma rozkład N(m, 3). Przypuszczenie, Ŝe „wartość oczekiwana cechy 
X jest równa 5” jest hipotezą parametryczną. 
ZałóŜmy  teraz,  Ŝe  nie  mamy  Ŝadnej  informacji  o  rozkładzie  cechy  X  populacji.  Przypuszczenie 
„rozkład cechy X jest normalny” jest hipotezą nieparametryczną.  
Test statystyczny jest to metoda weryfikacji (sprawdzania) hipotez statystycznych, przy czym 

 

Test parametryczny jest to test do weryfikacji hipotez parametrycznych. 

 

Test nieparametryczny jest to test do weryfikacji hipotez nieparametrycznych. 

Zajmiemy się najpierw hipotezami i testami parametrycznymi dla jednej i dwóch prób.  

Rozpatrzmy  cechę  X  populacji,  o  rozkładzie  zaleŜnym  od  parametru  Q 

 

,  gdzie 

  jest 

podzbiorem zbioru liczb rzeczywistych, zwanym przestrzenią parametru.  
O parametrze Q wysuwamy dwie hipotezy: 

  Hipotezę  zerową,  (główną,  sprawdzaną),  Ŝe  parametr  Q  ma  wartość  równą  Q

0

 

,  co 

zapisujemy H

0

 (Q = Q

0

) i czytamy: hipoteza H zero, Ŝe parametr Q jest równy Q zero. 

  Hipotezę alternatywną, Ŝe parametr Q przyjmuje dowolną wartość z przestrzeni parametru róŜną 

od Q

0

, co zapisujemy H

1

 ( Q

 Ω- Q

0

W zagadnieniach tu rozwaŜanych hipoteza alternatywna będzie miała jedną z czterech poniŜszych 
postaci 
                                           H

1

 (Q ≠ Q

0

),  H

1

 (Q > Q

0

), H

(Q < Q

0

), H

1

 (Q = Q

1

).                 (16.1) 

Przy weryfikacji hipotez podejmujemy jedną z dwu decyzji 

  Odrzucić hipotezę zerową i przyjąć alternatywną. 

  Przyjąć hipotezę zerową i odrzucić alternatywną. 

PoniewaŜ decyzje przy weryfikacji hipotez podejmujemy na podstawie próby, więc decyzja moŜe 
być błędna mimo iŜ test został wykonany poprawnie. 
Hipoteza  zerowa  odzwierciedla  z  reguły  pytanie,  na  które  naleŜy  uzyskać  odpowiedź. Występują 
równieŜ przypadki, Ŝe taką rolę spełnia hipoteza alternatywna, ale łatwiej jest weryfikować hipotezę 
zerową.  Hipotezę  alternatywną  ustala  się  na  podstawie  przesłanek,  jakimi  dysponuje  się  przed 
pobraniem próby, tzn. postać hipotezy alternatywnej określona jest wiedzą o problemie badawczym 
nie opierającą się o wnioski z analizy prób. Tak więc hipoteza alternatywna wyraŜa skrystalizowane 
a priori przypuszczenie o treści róŜnej od treści hipotezy sprawdzanej. 
Opis testu parametrycznego 
X - cecha populacji, Q – parametr rozkładu cechy X. 
Wysuwamy hipotezy: zerową H

0

 (Q = Q

0

) i alternatywną H

1

, która ma jedną z postaci (16.1).  

background image

STATYSTYKA MATEMATYCZNA 

 

32 

Postępowanie przy weryfikacji powyŜszych hipotez jest następujące 

1.

  Wybieramy pewną statystykę 

n

U o rozkładzie zaleŜnym od parametru Q oraz pewną liczbę 

α

 z 

przedziału  (0,1)  i  wyznaczamy  podzbiór  K  zbioru  liczb  rzeczywistych  tak  by  spełniony  był 
warunek 

                                                                

n

0

P(U

K/Q=Q ) = α

                                        (16.2) 

czyli by prawdopodobieństwo, iŜ statystyka U

n

 przyjmie wartość ze zbioru K, przy załoŜeniu, Ŝe 

prawdziwa jest hipoteza zerowa było równe 

α

2.

  Pobieramy próbę

18

 i obliczamy wartość u

n

 statystyki  U

n

 

 

3.

  Podejmujemy decyzje   

 

odrzucamy   H

0

 ,   gdy  u

n

                                                                                 (16.3)   

przyjmujemy H

0

,  gdy 

K

u

n

                                                                                   (16.4) 

Wykorzystywaną  statystykę  Un  nazywamy  sprawdzianem,  zbiór  K  –  zbiorem  krytycznym,  
a liczbę 

α

 poziomem istotności. 

Przy weryfikacji hipotez przyjmuje się mały poziom istotności (bliski 0, ale dodatni). 
Uzasadnienie podejmowanych decyzji: 

  Decyzja (16.3): Jeśli hipoteza H

0

  (Q  =  Q

0

)  jest  prawdziwa,  to  prawdopodobieństwo  zdarzenia 

U

n

K jest zgodnie z (16.2) równe 

α

, a więc tak małe, Ŝe uwaŜamy, iŜ zajście tego zdarzenia jest 

w  praktyce  niemoŜliwe.  PoniewaŜ  jednak  to  zdarzenie  dla  pobranej  próby  zaszło,  więc 
wnioskujmy, Ŝe załoŜenie, przy którym prawdopodobieństwo tego zdarzenia zostało obliczone 
jest nieprawdziwe. Stąd teŜ odrzucamy H

0

  Decyzja (16.4): Jeśli zdarzenie U

n

K, przy załoŜeniu, Ŝe hipoteza H

0

 (Q = Q

0

) jest prawdziwa, 

nie  zaszło,  to  nie  ma  powodu,  by  twierdzić,  Ŝe  H

nie  jest  prawdziwa,  bowiem  nie  ma  nic 

nadzwyczajnego  w  fakcie,  Ŝe  nie  zaszło  zdarzenie  o  małym  prawdopodobieństwie.  Dlatego 
hipotezę  H

0

  przyjmujemy  lub  ostroŜniej:  mówimy,  Ŝe  nie  ma  podstaw  do  odrzucenia  tej 

hipotezy. 

Przy podejmowaniu decyzji moŜna zawsze popełnić jeden z dwu błędów 

  Błąd  I  rodzaju  -  błąd  polegający  na  odrzuceniu  hipotezy  zerowej  H

0

,  gdy  ta  hipoteza  jest 

prawdziwa.  Odrzucenie  H

0

,  gdy  jest  ona  prawdziwa  moŜna  jako  zdarzenie  losowe  zapisać 

U

n

K/Q=Q

0

.  Prawdopodobieństwo  tego  zdarzenia,  zgodnie  ze  wzorem  (16.2)  jest  równe 

poziomowi istotności 

α

, zatem prawdopodobieństwo błędu I rodzaju 

n

0

P(U

K/Q = Q )=α

  Błąd  II  rodzaju  -  błąd  polegający  na  przyjęciu  hipotezy  zerowej  H

0

,  gdy  ta  hipoteza  jest 

fałszywa. Przypuśćmy, Ŝe hipoteza alternatywna jest postaci H

1

(Q = Q

1

). Wtedy błąd II rodzaju: 

przyjęcie H

0

, gdy ta hipoteza jest fałszywa, jako zdarzenie losowe moŜna zapisać

n

1

U

K/Q=Q

a  prawdopodobieństwo  tego  zdarzenia  oznaczmy  β,  zatem  prawdopodobieństwo  błędu  II 
rodzaju 

n

1

P(U

K/Q=Q )=β

.  

Jak widzimy prawdopodobieństwo błędu I rodzaju jest równe poziomowi istotności α, a więc jest 
znane na podstawie metody weryfikacji, natomiast prawdopodobieństwo błędu II rodzaju wymaga 
obliczenia, co wcale nie musi być łatwe, dlatego często rezygnujemy z jego wyznaczania. 

                                                 

18

 

WyróŜnia się dwa rodzaje prób: niepowiązane i powiązane. JeŜeli wartości określonej cechy mierzone są u róŜnych 

elementów  to  otrzymywane  próby  nazywamy  niepowiązanymi.  Z  kolei  jeŜeli  wartości  cechy  mierzone  sa  u  tych 
samych elementów np. w róŜnych momentach czasu to otrzymywane próby nazywamy powiązanymi.  

background image

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 

 

33 

W zaleŜności od postaci hipotezy alternatywnej przyjmuje się róŜną postać zbioru krytycznego.  
I tak: 

Zbiór krytyczny prawostronny jest to 
zbiór postaci 

2

K

k ; )

=<

. Wzór (16.2) 

przybiera teraz postać 

n

2

0

P(U

k /Q=Q )=α

 

 

 

Rys.  16.1. Prawostronny zbiór krytyczny 

Zbiór krytyczny lewostronny jest to 
zbiór postaci 

1

K (

;k

= −∞

> . Wzór 

(16.2) przybiera teraz postać 

n

1

0

P(U

k /Q=Q )=α

 

Jeśli gęstość statystyki Un / Q=Q

0

 ma 

wykres symetryczny względem osi O

(rozkład normalny, rozkład Studenta), to 
zbiór krytyczny lewostronny moŜna 
zapisać w postaci 

>

−∞

=

k

;

(

K

. Wzór 

(16.2) przybiera teraz postać 

α

=

=

)

Q

Q

|

k

U

(

P

0

n

 identyczną jak 

dla zbioru krytycznego prawostronnego. 
 

 
 
 

 

Rys.  16.2. Lewostronny zbiór krytyczny 

Zbiór krytyczny dwustronny jest to zbiór 
postaci

1

2

K (

; k

k ; )

= −∞

> ∪ <

. Zbiór 

ten w przypadku symetrycznego 
względem osi Oy rozkładu statystyki  
U

n

 / Q=Q

0

 przyjmuje postać 

K=(- ;-k> <k; )

∞  

W pierwszym przypadku liczby k

1

 i k

2

 

wyznaczamy z relacji 

n

1

0

P(U

k /Q=Q )=α/2

 

n

2

0

P(U

k /Q = Q )=α/2

   

 

W drugim przypadku liczba k spełnia 
relację 

n

P(|U | k)=α

 

 

 
 
 

 

Rys.  16.3. Dwustronny zbiór krytyczny 

Zbiór  krytyczny  naleŜy  wybrać  tak,  by  przy  ustalonym  prawdopodobieństwie  błędu  I  rodzaju 
(poziomie istotności), prawdopodobieństwo błędu II rodzaju było najmniejsze. 

  Jeśli  hipoteza  alternatywna  ma  postać  H

1

  (Q  >  Q

0

),  to  przyjmujemy  zbiór  krytyczny 

prawostronny. 

  Jeśli  hipoteza  alternatywna  ma  postać  H

1

  (Q  <  Q

0

),  to  przyjmujemy  zbiór  krytyczny 

lewostronny. 

  Jeśli  hipoteza  alternatywna  ma  postać  H

1

  (Q  ≠  Q

0

),  to  przyjmujemy  zbiór  krytyczny 

dwustronny.  

background image

STATYSTYKA MATEMATYCZNA 

 

34 

16.1.2. Pzykład konstrukcji testu parametrycznego do weryfikacji hipotezy o wartości 
oczekiwanej

 

Badana jest cecha X populacji generalnej ma rozkład normalny N(m,σ), przy czym σ jest znane.   
O wartości oczekiwanej wysuwamy hipotezy: 

  zerową  H

0

 (m=m

0

  alternatywną  H

1

 (m>m

0

)     

a)

  ZałóŜmy,  Ŝe  hipoteza  zerowa  jest  prawdziwa  i  Ŝe  przyjęto  hipotezę  alternatywną  postaci  

H

1

  (m>m

0

).  Hipotezy  weryfikujemy  na  podstawie  o  próbę 

1

1

2

n

(x , x ,..., x )   przy  poziomie 

istotności α. Wtedy róŜnica 

0

n

m

X

 obliczona na podstawie próby powinna przyjąć wartość 

bliską  zeru,  bowiem  statystyka 

n

X   jest  estymatorem  najefektywniejszym  parametru  m. 

Natomiast, gdy róŜnica ta jest duŜa (ze względu na kształt hipotezy alternatywnej powinna być 
dodatnia), to moŜna sądzić, Ŝe hipoteza zerowa jest fałszywa. 
Wygodniej jest posługiwać się postacią standaryzowaną statystyki 

0

n

m

X −

, czyli statystyką  

n

/

m

X

U

0

n

n

σ

=

 

Statystyka U

n

/m = m

0

 ma rozkład normalny N(0,1). Mała wartość tej statystyki przemawia za 

przyjęciem  hipotezy  zerowej,  natomiast  duŜa  wartość  za  przyjęciem  hipotezy  alternatywnej. 
Dlatego  zbiór  krytyczny  przyjmujemy  prawostronny  (potwierdza  się  zasada  wyboru  zbioru 
krytycznego  K  =  <k  ;  ∞))  na  danym  poziomie  istotności  α.  Liczba  k  spełnia  związek  
P(U

n

 ≥ k/m = m

0

). Stąd 

α

=

Φ

)

k

(

1

, czyli  Φ(k)=1-α . Liczba k jest liczbą graniczną w tym 

sensie,  Ŝe  przyjmujemy, iŜ  wartości u

statystyki  U

n

,  obliczone  na podstawie  próby  są  duŜe, 

gdy u

n

 ≥ k, natomiast są małe w przeciwnym przypadku. Zatem 

Jeśli u

n

 ≥ k, czyli 

K

u

n

, to H

0

 odrzucamy i przyjmujemy H

1

 

Jeśli u

n

 < k, czyli 

K

u

n

, to H

0

 przyjmujmy i odrzucamy H

1

 

b)

  ZałóŜmy teraz, Ŝe hipoteza alternatywna ma postać H

1

 (m< m

0

). TakŜe w tym przypadku mała 

wartość  statystyki  U

n

  przemawia  za  przyjęciem  hipotezy  zerowej,  natomiast  duŜa  wartość 

bezwzględna,  ale  ujemna  za  przyjęciem  hipotezy  alternatywnej.  Dlatego  zbiór  krytyczny 
przyjmujemy  lewostronny  K  =  (-∞  ;  -k>  na  danym  poziomie  istotności  α.  Liczba  k  spełnia 
związek 

0

P(Un -k/m = m )=α

. Stąd  Φ(-k) = α

1-Φ(k) = α

, czyli  Φ(k)=1-α .  

c)

  ZałóŜmy  wreszcie,  Ŝe  hipoteza  alternatywna  ma  postać  H

1

  (m≠m

0

).  W  tym  jak  

i w poprzednich przypadkach mała wartość statystyki U

n

 przemawia za przyjęciem hipotezy 

zerowej,  natomiast  wartości  o  duŜym  module  (dodatnie lub  ujemne)  za  przyjęciem  hipotezy 
alternatywnej.  Dlatego  zbiór  krytyczny  przyjmujemy  dwustronny  K=(- ; -k>  < k; )

∞   na 

danym poziomie istotności α. Liczba k spełnia związek  

n

0

P( U

k/m=m ) = α

. Stąd 

[

]

2 1-Φ(k)  = α , czyli 

α

Φ

(k)=1-

2

 

Przykład 16.2 
Czas  wykonania  detalu  modelowany  jest  zmienną  losową  o  rozkładzie  normalnym  
N(m,  2  min.).  W  celu  weryfikacji  hipotez:  zerowej,  Ŝe  średni  czas  wykonania  detalu  wynosi  
3 min i alternatywnej, Ŝe wynosi 4,6 min., pobrano próbę 9 elementową, której średnia wyniosła 3,4 
min. Zweryfikujemy powyŜsze hipotezy na poziomie istotności 0,015. 
Rozwiązanie 
X - zmienna losowa oznaczająca czas wykonania detalu, 
Rozkład zmiennej losowej X: N(m, 2 min.)  
Hipotezy: H

0

 (m =3), H

1

 (m =4,6) 

Poziom istotności: α = 0,015 

background image

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 

 

35 

Liczebność próby n = 9 
Ś

rednia z próby 

9

x = 3,4 

 

 

 

 

 

 

Sprawdzian U

n

 =

0

X-m

σ

/ n

. Wartość sprawdzianu 

9

3, 4 3, 0

u

0, 6

2 / 9

=

=

  

 

Zbiór krytyczny prawostronny K = <k; ∞) 
Liczba k spełnia związek Φ(k) =1- α = 1- 0,015 =0,985⇒ k = 2,17  
(na podstawie tablicy – pkt 4 części VII „Tablice statystyczne”). 

K = <2,17 ; ∞) 

 

u

9

 = 0,6 

 

PoniewaŜ 

K

u

9

, więc hipotezę H

0

 przyjmujemy. 

Przy podjęciu tej decyzji moŜna popełnić błąd drugiego rodzaju. Obliczymy prawdopodobieństwo 
tego błędu. 

9

n

1

9

9

X -3,0

β

=P(U

K/Q=Q )=P(U <2,17/m=4,6)=P

<2,17/m=4,6 =

2/ 9

X -4,6

1,6

=P

<2,17-

/m=4,6 =Φ(-0,23)=1-Φ(0,23)=0,4

2/ 9

2/ 9

 

Odp.  Hipotezę,  Ŝe  średni  czas  wykonania  detalu  wynosi  3  min.  naleŜy  przyjąć.  Prawdo-
podobieństwo,  Ŝe  powyŜsza  decyzja  jest  błędna  wynosi  0,4,  a  więc  jest  wysokie,  dlatego  moŜna 
polecić podjęcie ostroŜniejszej decyzji: nie ma podstaw do odrzucenia powyŜszej hipotezy. 

16.1.3. Pzykład konstrukcji testu parametrycznego do weryfikacji hipotezy o równości 
wartości oczekiwanych 

Zakładamy, Ŝe badane cechy X i Y populacji generalnej są niezaleŜne i mają rozkłady normalne 

1

1

X : N(m , )

σ

 oraz 

2

2

Y : N(m ,

)

σ

, przy czym 

σ

1

 i 

σ

2

 są znane.  

O wartościach oczekiwanych wysuwamy hipotezy: 

  zerową  H

0

 (m

1

=m

y2

 

  alternatywną  H

1

 (m

1≠

m

2

)    

Hipotezy  weryfikujemy  na  podstawie  niezaleŜnych  prób 

1

1

2

n

(x , x ,..., x ) i 

2

1

2

n

(y , y ,..., y )   na 

poziomie istotności α.  
Do weryfikacji hipotezy wykorzystujemy średnie arytmetyczne z prób 

1

1

n

n

i

i 1

1

1

X

X

n

=

=

  

2

2

n

n

i

i 1

2

1

Y

Y

n

=

=

                                         (16.5) 

które są estymatorami nieobciąŜonymi i najefektywniejszymi wartości oczekiwanych – patrz tabela 
15.2.

 

Gdyby  hipoteza  H

0

  była  prawdziwa,  wówczas  róŜnica  pomiędzy  średnimi  arytmetycznymi 

1

n

X i 

2

n

Y nie powinna być zbyt duŜa. 

Jak wiadomo, średnie arytmetyczne 

1

n

X i 

2

n

Y mają rozkłady 

1

1

n

1

1

X : N(m ,

)

n

σ

  

2

2

n

2

2

Y : N(m ,

)

n

σ

 

background image

STATYSTYKA MATEMATYCZNA 

 

36 

Zatem zmienna losowa 

1

2

n

n

X

Y

ma rozkład:  

2

2

1

2

1

2

1

2

N(m

m ,

)

n

n

σ

σ

+

 

czyli zmienna 

1

2

n

n

1

2

2

2

1

2

1

2

(X

Y ) (m

m )

n

n

σ

σ

+

 

ma rozkład N(0,1). 
JeŜeli załoŜymy, Ŝe hipoteza 

o

1

2

H : m

m

=

 jest prawdziwa, to 

1

2

m

m

0

=

 i wobec tego zmienna 

1

2

1

2

n

n

n ,n

2

2

1

2

1

2

X

Y

U

n

n

=

σ

σ

+

 

będzie miała rozkład normalny N(0,1). 
Znajdziemy taką liczbę k

α

, aby przy ustalonym α był spełniony warunek 

 

(

)

1

2

n ,n

P U

k

α

>

= α                                            (16-3.4) 

Jest on równowaŜny warunkowi 

{

}

1

2

n ,n

P

k

U

k

1

α

α

= − α                                           (16-3.5) 

Ale 

{

}

1

2

1

2

1

2

n ,n

n ,n

n ,n

P

k

U

k

P(U

k ) P((U

k )

(k )

( k )

α

α

α

α

α

α

=

≤ −

= φ

− φ −

  

qdzie Φ jest dystrybuantą rozkładu normalnego N(0,1). 

PoniewaŜ  ( u ) 1 u

α

α

Φ −

= −

to  

{

}

1

2

n ,n

P

k

U

k

(k ) 1

(k ) 2 (k ) 1

α

α

α

α

α

= φ

− + φ

= φ

−  

Równanie do wyznaczenia k

α

  

ma postać  2 (k ) 1

α

φ

=1-α 

Zatem u

α

 wyznacza się z zaleŜności 

(u ) 1

2

α

α

φ

= −

  

Na podstawie u

α

 wyznacza się zbiór krytyczny   (

; k ) (k ; )

α

α

−∞ −

background image

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 

 

37 

16.1.4. Uwagi o weryfikacji hipotez parametrycznych 

Uwaga 1.

  O związku poziomu istotności z decyzjami 

JeŜeli odrzuci się hipotezę zerową na danym poziomie istotności, to odrzuci się ją takŜe na kaŜdym 
poziomie istotności większym od danego. 
JeŜeli  przyjmie  się  hipotezę  zerową  na  danym  poziomie  istotności,  to  przyjmie  się  ją  takŜe  na 
kaŜdym poziomie istotności mniejszym od danego. 
Czytelnik jest proszony o wykonanie ilustracji graficznej powyŜszych twierdzeń. 
Uwaga 2.

 O granicznym poziomie istotności 

Graniczny poziom istotności (oznaczenie  ˆα ) to liczba taka, Ŝe 

  dla wszystkich poziomów istotności 

ˆ

α

α

≥  hipotezę zerową odrzucamy 

  natomiast dla wszystkich poziomów istotności 

ˆ

α

 < α  hipotezę zerową przyjmujemy. 

ˆα  wyznacza się na podstawie rozkładu sprawdzianu U

n

 , przykładowo dla prawostronnego zbioru 

krytycznego  ˆα = 

n

0

ˆ

P(U

k/Q=Q )

, gdzie  ˆk  jest otrzymaną wartością sprawdzianu. 

Uwaga 3.

 O odrzucaniu hipotezy zerowej 

Jeśli w wyniku testowania hipotez otrzymaliśmy decyzję o odrzuceniu hipotezy zerowej na danym 
poziomie  istotności  i  poziom  graniczny  jest  mniejszy  od  danego,  to  moŜna  ją  takŜe  odrzucić  na 
poziomie  równym  poziomowi  granicznemu,  więc  moŜna  zmniejszyć  prawdopodobieństwo 
popełnienia błędu II rodzaju, zatem utwierdzić się bardziej w przekonaniu, Ŝe podjęliśmy właściwą 
decyzję. 
Przykład 16.3 
Cecha  X  populacji  ma  rozkład  normalny  N(m,2).  O  parametrze  m  wysunięto  hipotezy  
H

0

(m = 3) i H

1

(m = 1), które postanowiono zweryfikować na poziomie istotności 0,025. W tym celu 

pobrano próbę 16 elementową i otrzymano średnią z próby równą 1,5. Zweryfikujemy te hipotezy  
i obliczymy poziom graniczny. 
Rozwiązanie 

Sprawdzian U

n

=

n

/

m

X

0

σ

. Wartość sprawdzianu u

16

 = 

1,5 3, 0

3

2 / 16

= −  

Zbiór krytyczny prawostronny K =( -∞; -k> 
Liczba k spełnia związek Φ(k) =1- α = 1- 0,025 =0,975

k =1,96. K = (- ∞; -1,96> 

PoniewaŜ 

K

u

16

, więc hipotezę H

0

 odrzucamy, na poziomie istotności 0,025. 

Poziom graniczny  ˆα  spełnia zaleŜność

ˆ

Φ

(-3)=1-α =0,99865  ˆ

α

≈ 0,00135 

Wniosek.  Hipotez

ę

  H

0

  nale

Ŝ

y  odrzuci

ć

  na  poziomie  istotno

ś

ci  równym  0,00135  (a  wi

ę

c  bardzo 

małym), co utwierdza nas w podj

ę

tej wcze

ś

niej decyzji - decyzja na podstawie poziomu istotno

ś

ci 

α

 

oraz poziomu granicznego  ˆ

α

, poniewa

Ŝ

  ˆ

α

≈ 0,00135<.0,025=

α

.

Uwaga 4. O hipotezie alternatywnej 
Nale

Ŝ

y  podkre

ś

li

ć

Ŝ

e  decyzja  o  wysuni

ę

ciu  hipotezy  alternatywnej  w  postaci  H

1

(Q>Q

0

)  lub  

w  postaci  H

1

(Q<Q

0

)  nie  mo

Ŝ

e  by

ć

  podj

ę

ta  na  podstawie  wyników  próby,  powinna  natomiast 

wynika

ć

 z analizy rozwa

Ŝ

anego zjawiska i stosowanych testów. Je

ś

li wi

ę

c nie mamy dostatecznie 

mocnych argumentów za przyj

ę

ciem hipotezy alternatywnej w jednej z dwu powy

Ŝ

szych postaci, to 

zaleca si

ę

 przyj

ąć

 posta

ć

 H

1

(Q

Q

0

). Konsekwencj

ą

 tego faktu jest stosowanie zbioru krytycznego 

dwustronnego, natomiast przy poprzednich hipotezach alternatywnych stosuje si

ę

 zbiory krytyczne 

jednostronne.  Nale

Ŝ

y  jeszcze  podkre

ś

li

ć

Ŝ

e  przy  stosowaniu  testów  opartych  na  zbiorach 

krytycznych  dwustronnych  (testów  dwustronnych)  otrzymuje  si

ę

  wi

ę

ksze  prawdopodobie

ń

stwo 

ę

du II rodzaju, ni

Ŝ

 przy stosowaniu testów jednostronnych. 

background image

STATYSTYKA MATEMATYCZNA 

 

38 

Uwaga 5. O analogii przedziału ufności oraz zbioru krytycznego 
W tym miejscu zwraca si

ę

 uwag

ę

 na analogi

ę

 przedziału ufno

ś

ci budowanego w ramach estymacji 

parametrycznej  oraz  zbioru  krytycznego  okre

ś

lanego  przy  konstrukcji  testu  parametrycznego  do 

weryfikacji  hipotez  o  parametrach  rozkładu.  Poka

Ŝ

emy  to  na  przykładzie  cechy  X  o  nieznanej 

warto

ś

ci oczekiwanej, która ma rozkład N(m, σ) ze znanym σ. 

 

 

Rys. 16.4. Związek pomiędzy przedziałem ufności a zbiorem krytycznym 

16.2. Testy parametryczne dla jednej próby 

16.2.1. Testy do weryfikacji hipotezy o wartości oczekiwanej 

Zało

Ŝ

ymy, 

Ŝ

e badana cecha X populacji generalnej ma rozkład normalny N(m, σ), przy czym σ jest 

znane. W podpunkcie 16.1.3. pokazali

ś

my w jaki sposób konstruuje si

ę

 test do weryfikacji hipotez: 

  zerowej  H

0

 (m=m

0

  alternatywnej  H

1

 (m>m

0

)  

Tak samo post

ę

puje si

ę

 przy konstrukcji testu dla innych hipotez alternatywnych: H

1

 (m< m

0

) lub  

H

1

 (m

m

0

).    

W analogiczny sposób konstruuje si

ę

 testy w dwóch innych przypadkach: 

 

σ

 nieznane 

 

σ

 nieznane, próba liczna 

Zostały one przedstawione w tabeli 16.1. 

background image

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 

 

39

                                                                     Tabela 16.1. Zestawienie testów do weryfikacji hipotezy o wartości oczekiwanej na podstawie próby o liczności n 

 

 

Nr testu 

TP-1 

TP-2 

TP-3 

 

 

Rozkład cechy 

N(m,σ) 

N(m,σ) 

Dowolny 

 

 

Warunki stosowania 

σ

 znane 

σ

 nieznane 

σ

 nieznane, próba 

liczna 

 

 

Hipoteza zerowa 

0

0

H (m=m )  

0

0

H (m=m )  

0

0

H (m=m )  

 

 

Sprawdzian 

0

X m

/ n

σ

 

0

X m

S / n 1

 

0

X-m
S/ n

 

 

 

Rozkład sprawdzianu 

pod warunkiem m=m

0

 

N(0,1) 

Studenta z n-1 

stopniami swobody 

N(0,1) 

Wariant testu 

Hipoteza 

alternatywna 

Zbiór krytyczny 

TP-1 

TP-2 

TP-3 

1

0

H (m>m )  

k ; )

<

∞  

α

=

Φ

1

)

k

(

 

α

=

2

)

k

|

T

(|

P

1

n

 

1

0

H (m<m )

 

(

; k

−∞ − >  

α

=

Φ

1

)

k

(

 

α

=

2

)

k

|

T

(|

P

1

n

 

α

=

Φ

1

)

k

(

 

1

0

H (m m )

 

(

; k

k ; )

−∞ − > ∪ <

∞  

(k) 1

2

α

Φ

= −

 

α

=

)

k

|

T

(|

P

1

n

 

(k) 1

2

α

Φ

= −

 

background image

STATYSTYKA MATEMATYCZNA 

 

40 

 

Przykład 16.4 
Czasy  wykonania  pewnego  zło

Ŝ

onego  zestawienia  (w  sekundach)  w  zale

Ŝ

no

ś

ci  od  danych  były 

nast

ę

puj

ą

ce:  

123   146   151   149   162   133   142   156   155   137 

Zweryfikowa

ć

 na poziomie 

α

 = 0,05 hipoez

ę

 H

0

 (m=140) wzgl

ę

dem  H

1

 (m>140) przy zało

Ŝ

eniu, 

Ŝ

e rozpatrywany czas ma rozkład  N(m, 

σ

),  w dwóch przypadkach: a) 

σ

 = 12 b) 

σ

 nieznane 

Rozwiązanie 
a) 

σ

 = 12 

Wykorzystujemy  test  TP-1.  Na  podstawie  próby  obliczamy 

ś

redni  czas  wykonania  zestawienia 

x =145,4. 

Warto

ść

 sprawdzianu 

0

n

X m

U

/ 10

=

σ

 jest równa 

10

145, 4 140

5, 4

5, 4

u

1, 423

12 / 3,163 3, 794

12 / 10

=

=

=

=

 

Z  tablic  rozkładu  normalnego  wyznaczamy  warto

ść

  k  dla  której  (k) 1

Φ

= − α   =  0,95  otrzymuj

ą

k=1,64. Zatem zbiór krytyczny ma posta

ć

K=

)

;

64

,

1

<

. Warto

ść

 sprawdzianu nie nale

Ŝ

y do zbioru 

krytycznego, czyli hipotez

ę

 zerow

ą

 przyjmujemy.  

Wysuni

ę

te  hipotezy  mo

Ŝ

na  zweryfikowa

ć

  korzystaj

ą

c  z  funkcji  statystycznej  TEST.Z      arkusza 

kalkulacyjnego  Excel,  podaj

ą

c  warto

ść

  oczekiwan

ą

  140  z  H

0

  w  polu  X    oraz  odchylenie 

standardowe 12 w polu Sigma.  

 

Wynik  formuły  to  krytyczny  poziom  istotno

ś

ci  ˆ

α ≈

  0,0774  przy  weryfikacji  hipotezy  dla 

prawostronnego zbioru krytycznego. Poniewa

Ŝ

  ˆα

 0,0774 > 0.05 = 

α

 wi

ę

c H

0

 przyjmujemy

19

Mo

Ŝ

emy  na  zako

ń

czenie  przekona

ć

  si

ę

Ŝ

e  rzeczywi

ś

cie  ˆ

α ≈

  0,0774  jest  krytycznym  poziomem 

istotno

ś

ci.  Wstawiaj

ą

c  warto

ść

  sprawdzianu    u

10

=1,423    do  funkcji  ROZKLAD.NORMALNY.S 

otrzymujemy 0,9226 .  

                                                 

19

 Patrz uwaga 2 w punkcie 16.1.4. 

background image

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 

 

41 

 

Otrzymany wynik 0,9226  = 1 -  ˆα  = 1 - 0,0774. 
b) 

σ

 nieznane.  

Zamiast  testu  TP-1  wykorzystamy  test  TP-2,  a uwzgl

ę

dniaj

ą

c  posta

ć

  hipotezy  alternatywnej  jego 

wersj

ę

 TP-2C. 

Na podstawie próby obliczamy: 

 

ś

redni czas wykonania zestawienia  x =145,4. 

  wariancj

ę

 z próby 

10

2

2

i

i 1

1

s

(x

x)

10

=

=

= 126,24, czyli 

2

s

s

126, 24 11, 24

=

=

=

 

Zatem warto

ść

 sprawdzianu 

0

n

X m

U

S / n 1

=

 

10

145, 4 140 145, 4 140

u

1, 44

3, 75

11, 24 / 9

=

=

=

 

Z tablic rozkładu Studenta 

9

P(| T | k) 0,1

=

 otrzymujemy k=1,833. Uwzgl

ę

dniaj

ą

c posta

ć

 H

1

 zbiór 

krytyczny jest nast

ę

puj

ą

cy  K= k ; )

<

∞ =

)

;

833

,

1

<

. Warto

ść

 sprawdzianu nie nale

Ŝ

y do zbioru 

krytycznego, czyli nie ma podstaw do odrzucenia hipotezy zerowej.  
Wysuni

ę

te hipotezy mo

Ŝ

na zweryfikowa

ć

 korzystaj

ą

c z funkcji statystycznej TEST.Z   arkusza 

kalkulacyjnego Excel, podaj

ą

c warto

ść

 oczekiwan

ą

 140 z H

0

 w pole X oraz nie wypełniaj

ą

c pola 

Sigma.  

background image

STATYSTYKA MATEMATYCZNA 

 

42 

 

Wynik formuły jest równy krytycznemu poziomowi istotno

ś

ci   ˆ

α

 = 0,0747 dla prawostronnego 

zbioru krytycznego krytycznego. Poniewa

Ŝ

  ˆα

 0,0747 > 0.05 = 

α

 wi

ę

c H

0

 przyjmujemy. 

Mo

Ŝ

emy  na  zako

ń

czenie  sprawdzi

ć

,  czy  rzeczywi

ś

cie  ˆ

α ≈

  0,07467  jest  krytycznym  poziomem 

istotno

ś

ci.  Wstawiaj

ą

c  warto

ść

  sprawdzianu    u

10

=1,44    do  funkcji  ROZKLAD.T  otrzymujemy 

0,0918. 

 

Otrzymany wynik 0,0918 jest  ró

Ŝ

ny od  ˆ

α

 = 0,0747. Spowodowane jest to tym, 

Ŝ

e w arkuszu Excel 

wykorzystano  rozkład  normalny,  co  oznacza, 

Ŝ

e  zastosowany  został  test  dla  prób  o  du

Ŝ

ych 

liczno

ś

ciach, mimo 

Ŝ

e liczno

ść

 próby wynosiła zaledwie 10. 

Dowodem  tego  jest  wstawienie  warto

ś

ci  sprawdzianu    u

10

=1,44    do  funkcji 

ROZKLAD.NORMALNY.S 

  

background image

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 

 

43 

 

Otrzymany wynik 0,925 jest równy w przybli

Ŝ

eniu 1 -  ˆ

α

 = 1 – 0,0747



 

16.2.2. Testy do weryfikacji hipotezy o wariancji i odchyleniu standardowym 

Cecha  X  populacji  ma  rozkład  normalny  N(m, 

σ

),  parametr  m  mo

Ŝ

e  by

ć

  znany  lub  nieznany. 

Hipoteza zerowa H

0

 (

σ

 = 

σ

0

                                            Tabela 16.2. Testy do weryfikacji hipotezy o wariancji i odchyleniu standardowym 

Hipoteza 

alternatywna 

Sprawdzian U

n

 

Rozkład sprawdzianu 

Zbiór krytyczny K 

Wyznaczanie  

liczby k 

Nr testu 

1

0

H (

σ

>

σ

)  

2

k ;

<

∞ ) 

n-1

2

P(Y

k )=

α

 

TP-4A 

1

0

H (

σ

<

σ

)  

1

0 ; k

<

>  

n-1

1

P(Y

k )=1-

α

 

TP-4B 

1

0

H (

σ

σ

)

 

2

o

2

n

nS

σ

 

Rozkład 

χ

2

 z n-1 stopniami 

swobody 

1

2

<0 ; k >

k ; )

∪ <

 

n-1

1

P(Y

k )=

α

/2

 

n-1

2

P(Y

k )=1-

α

/2

 

TP-4C 

Y

n-1

 zmienna losowa o rozkładzie 

χ

2

 z n-1 stopniami swobody 

Uwaga

  

Hipoteza H

0

 (

σ

 = 

σ

0

), jest równowa

Ŝ

na hipotezie H

0

 (

σ

2
0

σ ), hipoteza 

1

0

H (

σ

>

σ

)  jest równowa

Ŝ

na 

hipotezie  H

1

  (

σ

2

  >

2
0

σ ),    itd.,  zatem  hipoteza  o  odchyleniu  standardowym  jest  równowa

Ŝ

na 

odpowiedniej hipotezie o wariancji, co wykorzystuje si

ę

 przy weryfikacji hipotez o tym parametrze. 

Przykład 16.4  
Popyt  na  pewien  towar  modelujemy  zmienn

ą

  losow

ą

  X  o  rozkładzie  normalnym.  W  próbie  10 

elementowej otrzymali

ś

my 

ś

redni

ą

 1250 kg i odchylenie standardowe 50 kg. 

a)

  Na poziomie istotno

ś

ci 0,02 sprawdzimy hipotezy H

0

(m = 1350 kg) i H

1

(m 

1350 kg) 

b)

  Na poziomie istotno

ś

ci 0,05 sprawdzimy hipotezy H

0

(

σ

 =45) i H

1

(

σ

 >45)  

Rozwiązanie 
Cecha populacji X - popyt na towar. Rozkład cechy X: normalny N(m, 

σ

), parametry m i 

σ

 nie s

ą

 

znane. 
Liczebno

ść

 próby n = 10. Charakterystyki próby 

10

10

x =1250 kg, s =50 kg  

a) Stosujemy test TP – 2C.  Sprawdzian 

1

n

/

S

m

X

U

0

n

=

 jego warto

ść

 

10

1250 1350

u

6

50 / 9

=

= −  

    Zbiór krytyczny K= (

; k

k ; )

−∞ − > ∪ <

∞  

background image

STATYSTYKA MATEMATYCZNA 

 

44 

Wyznaczanie  liczby  k   

α

=

)

k

|

T

(|

P

1

n

9

P(|T | k) 0,02

k 2,821

=

⇒ =

    (na  podstawie 

tablicy rozkładu Studenta – pkt 6 cz

ęś

ci VII „Tablice statystyczne”) 

10

0

10

K (

; 2,821

2,821, ; )

u

K

H odrzucamy

u

6

= −∞ −

> ∪ <

∞ 

= −

 

 b) Stosujemy test TP – 4A. Sprawdzian 

2
n

n

2
o

nS

U =

σ

, jego warto

ść

 

2

10

2

10 50

u

12,34

45

=

=

 

     Zbiór krytyczny K = (k; 

). Wyznaczanie liczb

ę

 k 

n-1

P(Y

k)

= α       

     

9

P(Y

k) 0,05

k 16,919

=

=

 (na podstawie tablicy rozkładu χ

2

 – pkt 5 cz

ęś

ci VII „Tablice 

statystyczne”). 

10

0

10

K (16,919; )

u

K

H przyjmujemy

u

12,34

=

∞ 

=

 

Przykład 16.5 
Dokonano  10  pomiarów  nat

ęŜ

enia  pr

ą

du.  Otrzymano  z  tej  próby  wariancj

ę

  2,3.  Zakładamy,  

Ŝ

e nat

ęŜ

enie to jest zmienn

ą

 losow

ą

 o rozkładzie normalnym.  

Na poziomie istotno

ś

ci 0,04 sprawd

ź

 hipotezy: zerow

ą

Ŝ

e nat

ęŜ

enie pr

ą

du ma wariancj

ę

 równ

ą

 2  

i alternatywn

ą

Ŝ

e nat

ęŜ

enie pr

ą

du ma wariancj

ę

 ró

Ŝ

n

ą

 od 2. 

Rozwiązanie 
X – nat

ęŜ

enie pr

ą

du 

Rozkład cechy X: normalny N(m, 

σ

). Liczebno

ść

 próby n =10. Wariancja z próby 

2

10

s =2,3  

Hipotezy H

0

 (

σ

2

 = 2,0)  H

1

 (

σ

2

 

 2,0) Poziom istotno

ś

ci 

α

 =0,04 

Stosujemy test TP-4C. Sprawdzian U

n

=

2
n

2
o

nS

σ

jego warto

ść

 u

10

 = 

10 2,3

11,5

2, 0

=

 

Zbiór krytyczny K=

1

2

0 ;k

k ; )

<

> ∪ <

∞  

n-1

2

P(Y

k )

/ 2

= α

  

9

2

P(Y

k ) 0,02

=

 k

2

 = 19,679 

n-1

1

P(Y

k ) 1

/ 2

= − α

   

9

1

P(Y

k ) 0,98

=

 k

1

 =2,532 

K = 

)

;

679

,

19

532

,

2

;

0

<

>

<

 

u

10

 =11,5 

Poniewa

Ŝ

 

10

u

K,

 wi

ę

c hipotez

ę

 H

0

 przyjmujemy.  

 

16.2.3. Testy do weryfikacji hipotezy o wskaźniku struktury 

Cecha X populacji ma rozkład zerojedynkowy  P(X=1)=p, P(X=0)=1-p,

p (0;1)

 

Hipoteza zerowa 

)

p

p

(

H

0

0

=

. Próba liczna n 

100 

                                                                            Tabela 16.3. Test do weryfikacji hipotezy o wskaźniku struktury 

Hipoteza 

alternatywna 

Sprawdzian 

n

U  

Rozkład sprawdzianu 

Zbiór krytyczny K 

Wyznaczanie  

liczby k 

Nr 

testu 

1

0

H (p p )

>

 

k ; )

<

∞ ) 

α

=

Φ

1

)

k

(

 

TP-5A 

1

0

H (p p )

<

 

(

;k

−∞

> (

; k)

−∞

 

α

=

Φ

1

)

k

(

 

TP-5B 

1

0

H (p p )

 

0

0

0

W-p

n

p (1-p )

 

Asymptotycznie 

normalny N(0,1) 

(

; k

k ; )

−∞ − > ∪ <

 

(k) 1

2

α

Φ

= −

 

TP-5C 

W – wskaźnik struktury w próbie, w= r/n, r – liczba jedynek w próbie. 
Φ

 – dystrybuanta rozkładu normalnego N(0,1) 

background image

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 

 

45 

Przykład 16.6 

W  próbie  1000  osób  uprawnionych  do  głosowania,  320  osób  oświadczyło,  Ŝe  będzie  głosować  
w  wyborach  na  pewną  partię.  Czy  otrzymany  wynik  jest  sprzeczny  z  przypuszczeniem,  Ŝe  na  tą 
partię moŜe głosować 35% wyborców? Sprawdzimy odpowiednie hipotezy na poziomie istotności 
0,02. 

Rozwiązanie 

X – zmienna losowa przyjmująca wartość 1, gdy wyborca będzie głosował na daną partię, wartość 
0, gdy nie będzie głosował na tą partię. 

Zmienna losowa X na rozkład zerojedynkowy 

p

1

)

0

X

(

P

,

p

)

1

X

(

P

=

=

=

=

 

Liczebność próby n =1000. Liczba jedynek w próbie r = 320 

Wskaźnik struktury w próbie

32

,

0

1000

320

n

r

w

=

=

=

 

Poziom istotności α = 0,02 
Hipotezy

0

1

H (p=0,35), H (p 0,35)

<

 

Stosujemy test TP-5B 

Sprawdzian Un =

n

)

p

1

(

p

p

W

0

0

0

. Wartość sprawdzianu 

2

1000

65

,

0

35

,

0

35

,

0

32

,

0

u

n

=

=

  

Zbiór krytyczny K =

>

−∞

k

;

(

 

α

=

Φ

1

)

k

(

= 0,98  

k 2,05

⇒ =

  

>

−∞

=

05

,

2

;

(

K

 

u

n

 = -2 

PoniewaŜ 

,

K

u

10

 więc hipotezę H

0

 przyjmujemy. Otrzymany wynik nie przeczy przypuszczeniu, 

Ŝ

e na partię moŜe głosować 35% wyborców







 

 

16.3. Testy parametryczne dla dwóch prób  

16.3.1. Testy do porównywania wartości oczekiwanych dla prób niezaleŜnych 

ZałoŜymy, Ŝe badana cecha X populacji generalnej ma rozkład normalny N(m, 

σ

), przy czym 

σ

 jest 

znane. W podpunkcie 16.1.3. pokazaliśmy w jaki sposób konstruuje się test do weryfikacji hipotez: 

 

zerowej  H

0

 (m

1

=m

2

 

alternatywnej  H

1

 (m

1

m

2

)     

Tak samo postępuje się przy konstrukcji testu dla innych hipotez alternatywnych: H

1

 (m

1

>m

2

)  lub 

H

1

 (m

1

< m

2

)     

 

W analogiczny sposób konstruuje się testy w trzech innych przypadkach: 

  σ

1

 

σ

2

 są równe i nieznane  

  σ

1

 

σ

nie są równe i nieznane 

 

próby są liczne, n

1

, n

 100 

Wszystkie rozpatrzone dotąd testy zostały przedstawione w tabeli 16.4. 
 

background image

STATYSTYKA MATEMATYCZNA 

 

46

                                                        Tabela 16.4 . Zestawienie testów do porównywania dwóch wartości oczekiwanych na podstawie niezaleŜnych prób o licznościach n

1

, n

2

 

 

 

Nr testu 

TP-6 

TP-7 

TP-8 

TP-9 

 

 

Nazwa testu 

 

test Studenta  

test Studenta dla 

nieznanych wariancji 

 

 

 

Rozkłady cech 

1

1

2

2

N(m ,σ ), N(m ,σ )  

N(m

1

,

σ

), N(m

2

,

σ

Dowolny 

Dowolny 

 

 

Warunki stosowania 

1

σ  

i

 

2

σ  

są znane 

σ

 nieznane 

σ

1

 

σ

 są nieznane  

próby są liczne  

n

1

, n

 100 

 

 

Hipoteza zerowa 

)

m

m

(

H

2

1

0

=

 

)

m

m

(

H

2

1

0

=

 

)

m

m

(

H

2

1

0

=

 

)

m

m

(

H

2

1

0

=

 

 

 

Sprawdzian 

2

2

1

2

1

2

X-Y

σ

σ

+

n

n

 

2

2

1 1

2 2

1

2

1

2

1 2

X-Y

n S +n S n +n

n +n -2

n n

 

2

2

1

2

1

2

X Y

S

S

n

1 n

1

+

 

2

2

1

2

1

2

X Y

S

S

n

n

+

 

 

 

Rozkład sprawdzianu 

N(0,1) 

Studenta z n

1

+n

2

-2  

stopniami swobody 

Studenta  - patrz 

poniŜej

 

asymptotycznie 

N(0,1) 

Nr 

testu 

Hipoteza 

alternatywna 

Zbiór krytyczny 

TP-6 

TP-7 

TP-8 

TP-9 

1

1

2

H (m >m )  

k ; )

<

 

1

1

2

H (m <m )

 

(

; k

−∞ − >

 

α

=

Φ

1

)

k

(

 

1

2

n n

2

P( T

k) 2

+

= α

 

def

P( T

k) 2

= α

 

2

2

2

1

2

(a b)

df

a

b

n

1 n

1

+

=

+

 

gdzie: 

2

1

1

s

a

n

1

=

   

2

2

2

s

b

n

1

=

 

α

=

Φ

1

)

k

(

 

1

1

2

H (m

m )

 

(

; k

k ; )

−∞ − > ∪ <

 

(k) 1

2

α

Φ

= −

 

n n

2

1

2

P(| T

| k)

+

= α

 

def

P( T

k)

= α

 

def jak powyŜej 

(k) 1

2

α

Φ

= −

 

 

background image

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 

 

47 

Przykład 16.7 

W  celu  określenia  struktury  zatrudnienia  w  pewnej  firmie  obliczono  liczbę  zatrudnionych  kobiet  
i męŜczyzn w kolejnych 8 miesiącach otrzymując następujące wyniki: 

MęŜczyźni 

195 

187 

175 

146 

194 

191 

194 

206 

Kobiety 

219 

233 

190 

210 

214 

247 

225 

197 

Chcemy  sprawdzić  hipotezę  o  równości  wartości  oczekiwanych  ilości  zatrudnionych  kobiet  
i  męŜczyzn,  względem  hipotezy alternatywnej bedącej jej  zaprzeczeniem,  przy załoŜeniu,  Ŝe  liczby 
zatrudnionych  mają  rozkłady  normalny  o  takich  samych    wariancjach

20

  oraz  przyjmując  poziom 

istotności 0,05. 

Rozwiązanie 

Na podstawie prób obliczamy średnie i wariancje z próby   

 

MęŜczyŜni 

Kobiety 

Ś

rednia z próby 

n

i

i 1

1

x

x

n

=

=

 

186, 0 

216,875

 

Wariancja z próby 

n

2

2

i

i 1

1

s

(x

x)

n

=

=

 

294,5

 

301,3594

 

Zatem wartość sprawdzianu dla testu TP-7   

1

2

n ,n

2

2

1 1

2 2

1

2

1

2

1 2

X-Y

U

n S +n S n +n

n +n -2 n n

=

 

jest równa 

8,8

2

2

2

2

1

2

1

2

x-y

x-y

30,875

30,875

30,875

u

3,3464

9, 2262

294,5+301,36

85,1227

8s +8s

s +s

16

7

14

64

7

=

=

=

=

=

= −

 

Granice zbioru krytycznego wyznaczamy z zalezności 

α

=

+

)

|

(|

2

2

1

k

T

P

n

n

, która po uwzględnieniu 

danych ma postać 

05

,

0

)

|

(|

14

=

≥ k

T

P

zatem k=2,145. 

Zbiór krytyczny jest więc równy K=

)

;

k

k

;

(

<

>

−∞

=

)

;

2,145

2,145

;

(

<

>

−∞

 

Wartość sprawdzianu naleŜy więc do zbioru krytycznego, więc odrzucamy hipotezę H

0

 na korzyść 

statystyki H

1

. Oznacza to, Ŝe średnie liczby zatrudnionych kobiet i męŜczyzn nie są równe. 

Wysunięte  hipotezy  moŜna  zweryfikować  korzystając  z  arkusza  kalkulacyjnego  Excel  na  dwa 
sposoby, co zilustrowano poniŜej. 
1.

 

Wykorzystujemy funkcję statystyczną TEST.T

 

Po wpisaniu danych w komórki a1:p1 i a2:p2 oraz 

ustalając parametry testu: Typ = 2 - test dla równych wariancji i Ślady = 2 - test dwustronny. 

                                                 

20

 Równość wariancji w populacji naleŜy sprawdzić testem do porównywania wariancji, otrzymany wynik potwierdzi lub 

nie słuszność przyjętego załoŜenia – test opisano w punkcie 16.3.3. 

background image

STATYSTYKA MATEMATYCZNA 

 

48 

 

Wynik formuły ≈ 0,0048 jest równy jest równy granicznemu poziomowi istotności 

ˆα

, wyznaczonemu 

na podstawie wartości wskaźnika obliczonego bez wykorzystania programu komputerowego, co 
zilustrowano poniŜej. 

 

PoniewaŜ 

ˆα

0,0048  < 0,05 = α hipotezę zerową naleŜy odrzucić

21

                                                 

21

 Patrz uwaga 2 w punkcie 16.1.4. 

background image

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 

 

49 

2.

 

Wykorzystujemy narzędzie pakietu Analiza danych: 

Test t: z dwiema próbami zakładający równe 

wariancje 

 wpisując wcześniej dane w komórki a1:p1 i a2:p2. 

 

 

Test t: z dwiema próbami zakładający równe wariancje 

Komentarz 

  

Zmienna 1 

Zmienna 2 

 

Ś

rednia 

186 

216,875 

 

Wariancja 

336,571429  344,410714 

 

Obserwacje 

 

Wariancja sumaryczna 

340,491071   

 

RóŜnica średnich wg hipotezy 

0   

 

df 

14   

 

t Stat 

-3,3464481   

Sprawdzian 

P(T<=t) jednostronny 

0,00239888   

Graniczny poziom 
istotności 

Test T jednostronny 

1,76131012   

Granica zbioru 
krytycznego 

P(T<=t) dwustronny 

0,00479775   

Graniczny poziom 
istotności 

Test t dwustronny 

2,14478668    

Granica zbioru 
krytycznego 

Za pomocą otrzymanej tabelki weryfikujemy wysunięte hipotezy na dwa sposoby, pamiętając, Ŝe 
hipoteza alternatywna jest zaprzeczeniem hipotezy zerowej:   

 

W oparciu o zbiór krytyczny.  
PoniewaŜ  t Stat=-3,3464481 

 K = 

)

;

2,145

2,145

;

(

<

>

−∞

więc odrzucamy hipotezę H

0

 na 

korzyść hipotezy H

1

 

W oparciu o graniczny poziom istotności 
PoniewaŜ  

ˆα =

0,00479775

  < 

0,05 = α hipotezę zerową naleŜy odrzucić na korzyść hipotezy Ho. 

Na zakończenie zwracamy uwagę, Ŝe otrzymaliśmy taką samą wartość sprawdzianu t Stat ≈ -3,346 i 
granicę zbioru krytycznego ≈ 2,14 jakie otrzymano wcześniej bez programu komputerowego oraz taką 
samą wartość krytycznego poziomu istotności P(T<=t) dwustronny ≈0,0048, jaką otrzymano z 
wykorzystaniem funkcji statystycznej TEST.T. 



 

background image

STATYSTYKA MATEMATYCZNA 

 

50 

Przykład 16.8 

Porównywano  czas  rozwiązywania  pewnego  testu  przez  członków  dwóch  zespołów  analityków  
(w minutach).  

Z1 

188 

192 

187 

178 

179 

175 

177 

178 

185 

190 

Z2 

190 

179 

185 

186 

183 

184 

179 

180 

190 

 

Chcemy  sprawdzić  hipotezę  o  równości  średniego  czasu  rozwiązywaniu  testu  w  obu  zespołach, 
względem hipotezy alternatywnej bedącej jej zaprzeczeniem, przy załoŜeniu, Ŝe czasy rozwiązywania 
testu mają rozkłady normalne z róŜnymi wariancjami

22

 oraz przyjmując poziom istotności 0,05. 

Rozwiązanie

 

Na podstawie prób obliczamy: 

 

Ś

rednia z próby 

n

i

i 1

1

x

x

n

=

=

 

x 182,9

=

 

y 184, 0

=

 

Wariancja z próby 

n

2

2

i

i 1

1

s

(x

x)

n

=

=

 

2

1

s

34, 09

=

 

2

2

s

16,0

=

 

Zgodnie z załoŜeniem o nierówności wariancji stosujemy TP-8 
Wartość sprawdzianu   

n ,n

1 2

2

2

1

2

1

2

X Y

U

S

S

n

1 n

1

=

+

 

jest równa 

n n

1 2

182,9 184, 0

1,1

1,1

1,1

u

0, 457

2, 406

34, 09 16

3.788 2

5,788

9

8

=

= −

= −

= −

= −

+

+

 

Sprawdzian ma rozkład Studenta z liczbą stopni swobody równą 

2

2

2

1

2

(a b)

df

a

b

n

1 n

1

+

=

+

 gdzie: 

2

1

1

s

a

n

1

=

 i 

2

2

2

s

b

n

1

=

 

Dla danych z przykładu 

2

1

1

s

34,09

a

3,79

n

1

9

=

=

=

 i 

2

2

2

s

16

b

2,0

n

1

8

=

=

=

 

Zatem liczba stopni swobody 

2

2

2

2

(3,79 2, 0)

5, 79

33,52

df

15,96

1, 6 0,5

2,1

3, 79

2,0

9

8

+

=

=

=

=

+

+

 

czyli przyjmujemy liczbę stopni swobody równą 16. 

Z tablic rozkładu Studenta wyznaczamy liczbę k dla której 

df

P( T

k)

= α

 otrzymując k=2,12. 

                                                 

22

 Co moŜna sprawdzić testem do porównywania wariancji – patrz przykład 16.10 

background image

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 

 

51 

Czyli zbiór krytyczny ma postać: K=(-

 ; -1,746>

<1,746 ; 

). 

PoniewaŜ 

n n

1 2

u

 K 

 H

przyjmujemy. 

Wysunięte  hipotezy  moŜna  zweryfikować  korzystając  z  arkusza  kalkulacyjnego  Excel  na  dwa 
sposoby, co ilustrują poniŜsze rysunki 
1.

 

Wykorzystując funkcję statystyczną TEST.T po wpisaniu danych w komórki a1:p1 i a2:p2 oraz 
ustalając parametry testu: Typ = 3 - test dla róŜnych wariancji i Ślady = 2 - test dwustronny. 

 

Wynik  formuły  0,653  jest  równy  jest  równy  granicznemu  poziomowi  istotności  ˆα , 

 

wyznaczonemu  na  podstawie  wartości  wskaźnika  obliczonego 

bez  wykorzystania  programu 

komputerowego

, co zilustrowano poniŜej. 

 

background image

STATYSTYKA MATEMATYCZNA 

 

52 

PoniewaŜ 

ˆα

=0,653  > 0,05 = α hipotezę zerową H

0

 przyjmujemy

23

2.

 

Wykorzystując  narzędzie  pakietu  Analiza  danych: 

Test  t:  z  dwiema  próbami  zakładający 

nierówne wariancje 

 wpisując wcześniej dane w komórki a1:a10 i g1:g9. 

 

Otrzymane wyniki są następujące: 

Test t: z dwiema próbami zakładający nierówne wariancje 

Komentarz 

  

Zmienna 1 

Zmienna 2 

 

Ś

rednia 

182,9 

184 

 

Wariancja 

37,87777778 

18 

 

Obserwacje 

10 

 

RóŜnica średnich wg hipotezy 

0   

 

df 

16   

 

t Stat 

-0,457232151   

Sprawdzian 

P(T<=t) jednostronny 

0,326825607   

Graniczny 
poziom istotności 

Test T jednostronny 

1,745883669   

Granica zbioru 
krytycznego 

P(T<=t) dwustronny 

0,653651213   

Graniczny 
poziom istotności 

Test t dwustronny 

2,119905285    

Granica zbioru 
krytycznego 

Za pomocą otrzymanej tabelki weryfikujemy wysunięte na dwa sposoby, pamiętając, Ŝe hipoteza 
alternatywna jest zaprzeczeniem hipotezy zerowej:    

 

W oparciu o zbiór krytyczny.  
PoniewaŜ  t Stat=--0,457232151 

∉ ∈

 K = 

)

;

2,12

2,12

;

(

<

>

−∞

więc hipotezę H

0

 

przyjmujemy. 

 

W oparciu o graniczny poziom istotności 
PoniewaŜ  

ˆα =

0,653651213

 > 

0,05 = α hipotezę zerową Ho przyjmujemy. 

Na zakończenie zwracamy  uwagę, Ŝe otrzymaliśmy taką samą wartość sprawdzianu t Stat ≈ -0,457 i 
granice zbioru krytycznego ≈ 2,12 jakie wcześniej bez programu komputerowego oraz taką samą 
wartość krytycznego poziomu istotności P(T<=t) dwustronny ≈0,653, jaką otrzymano z wykorzystaniem 
funkcji statystycznej TEST.T.



 

                                                 

23

 Patrz uwaga 2 w punkcie 16.1.4. 

background image

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 

 

53 

Przykład 16.9 

Badano dwa typy samochodów ze względu na maksymalną prędkość. W 100 pomiarach maksymalnej 
prędkości I typu otrzymano średnią maksymalną prędkość 205,4 km/h i odchylenie standardowe 4,5 
km/h,  natomiast  w  144  pomiarach  maksymalnej  prędkości  II  typu  samochodów  otrzymano  średnią 
maksymalną prędkość 207,3 km/h i odchylenie standardowe 6,8 km/h.  
Czy moŜna twierdzić, Ŝe średnia maksymalna prędkość dla obu typów samochodów jest jednakowa, 
czy teŜ naleŜy przyjąć, iŜ dla typu I jest mniejsza niŜ dla II typu? Sprawdź odpowiednie hipotezy na 
poziomie istotności 0,01. 

Rozwiązanie 

X – maksymalna prędkość I typu samochodów. 
Y - maksymalna prędkość II typu samochodów.  
Rozkłady obu cech nie są znane. 

 

Liczebności prób 

n

1

 = 100 

n

2

 = 144 

Ś

rednie z prób 

4

,

205

x =

 

3

,

207

y =

 

Odchylenia standardowe z prób   

s

1

 = 4,5 

s

2

 = 6,8 

Poziom istotności α = 0,01 
Wartości oczekiwane m

1

 = EX m

2

 = EY 

Hipotezy: H

0

 (m

1

 = m

2

), H

1

 (m

1

 < m

2

Z uwagi na duŜą liczebność prób stosujemy test TP-9. 

Sprawdzian U=

2

2

1

2

1

2

X Y

S

S

n

n

+

. Wartość sprawdzianu 

63

,

2

144

8

,

6

100

5

,

4

3

,

207

4

,

205

u

2

2

=

+

=

 

Zbiór krytyczny K = 

>

−∞

k

;

(

, gdzie 

α

=

Φ

1

)

k

(

=0,99 

 k = 2,33 

    

 

   K = 

>

−∞

33

,

2

;

(

  

 

 

   u  = -2,63 

PoniewaŜ 

K

u ∈

,  więc  hipotezę  H

0

  odrzucamy  i  przyjmujemy  hipotezę  alternatywną,  Ŝe  średnia 

maksymalna  prędkość  jest  mniejsza  dla  samochodów  typu  I.  Przy  podjęciu  takiej  decyzji  zagraŜa 
popełnienie  błędu  I  rodzaju,  którego  prawdopodobieństwo  α  =0,01  jest  jak  widać  małe.  Graniczny 
poziom  istotności 

α

ˆ   = 

(u)

( 2, 63) 1

(2, 63) 0, 004

Φ

= Φ −

= − Φ

=

  i  jest  znacznie  mniejszy  od  α,  co 

utwierdza nas jeszcze bardziej o słuszności podjętej decyzji. 

16.3.2. Testy do porównywania wartości oczekiwanych – próby zaleŜne

 

Z populacji losujmy n elementów i mierzymy wartości cechy X w dwóch momentach (np. wartość 
ciśnienia tętniczego przed podaniem leku i w godzinę po podaniu leku). Otrzymujemy dwie próby n 
elementowe dla dwóch cech: cechy X

1

 – wartość badanej cechy w momencie początkowym i cechy 

X

2

  –  wartość  badanej  cechy  w  momencie  końcowym.  Cechy  te  nie  muszą  być  niezaleŜne,  zatem 

próby  są  powiązane.  Aby  sprawdzić  hipotezę,  Ŝe  wartości  oczekiwane  obu  cech  są  równe,  naleŜy 
sprawdzić  hipotezę,  Ŝe  wartość  oczekiwana  zmiennej  losowej  Y  =  X

1

  -  X

2

  jest  równa  zeru  na 

podstawie próby, której wartościami są róŜnice wartości prób dla obu cech. 
Zakładamy, Ŝe cecha Y ma rozkład normalny, co moŜna sprawdzić przy pomocy odpowiedniego testu 
(patrz  rozdział  o  testach  nieparametrycznych).  Wtedy  rozwaŜane  poniŜej  testy  są  szczególnym 
przypadkiem testów TP - 4, 5, 6 

0

(dla m =0). 

Hipoteza zerowa 

)

m

m

(

H

2

1

0

=

background image

STATYSTYKA MATEMATYCZNA 

 

54 

Tabela 16..6 Testy do porównywania wartości oczekiwanych prób powiązanych, rozkład normalny 

Hipoteza 

alternatywna 

Sprawdzian U

n

 

Rozkład sprawdzianu 

Zbiór krytyczny K  Wyznaczanie liczby k 

Nr  

testu 

1

1

2

H (m >m )  

;

(k

n 1

P( T

k) 2

= α

 

TP-10A 

1

1

2

H (m <m )  

)

;

(

k

−∞

 

n 1

P( T

k) 2

= α

 

TP-10B 

1

1

2

H (m

m )

 

Y

Y

n-1

S

Rozkład Studenta z 

n – 1 stopniami swobody 

)

;

(

)

;

(

−∞

k

k

 

n 1

P(| T

| k)

= α

 

TP-10C 

T

n-1

- zmienna losowa o rozkładzie Studenta z n-1 stopniami swobody. 

Opisany powyŜej test nosi nazwę 

test Studenta dla prób powiązanych

Przykład 16.10  

W  pewnej  firmie  informatycznej  przed  wprowadzeniem  nowej  technologii  projektowania 
oprogramowania sprawdzono jej skuteczność przez porównanie czasów projektowania róŜnorodnych 
modułow  z  wykorzystaniem  dotychczasowej  i  nowej  technologii.  Sprawdzenia  tego  dokonano  na 
podstawie  próby  16-elementowej.  Elementy  tej  próby  określone  w  minutach  podano  poniŜej.  X1  – 
czas  projektowania  modułu  z  wykorzystaniem  dotychczasowej  technologii,  a  X2  –  czas 
projektowania modułu z wykorzystaniem nowej tetechnologii. 

X1 

405 

125 

540 

100 

200 

30 

1200  265 

90 

206 

18 

489 

590 

310 

995 

75 

X2 

334 

150 

520 

95 

212 

30 

1055  200 

85 

129 

14 

440 

610 

208 

880 

25 

Rozwiązanie 

Przyjmując załoŜenie, Ŝe czasy projektowania modułów podelgaja rozkładom normalnym będziemy 
weryfikować hipotezę zerową, Ŝe nowa technologia nie zmienia czasu projektowania wobec hipotezy 
alternatywnej, Ŝe go skraca.  
Wysuwamy hipotezy H

0

(m

1

 = m

2

), H

1

(m

1

 > m

2

), które zweryfikujemy na poziomie istotności 0,05. 

Zastosujemy test Studenta dla prób powiązanych TP-10B.  

Sprawdzian: 

n

Y

Y

U

n 1

S

=

, gdzie 

Y

 jest średnią Y = X

2

 – X

1, 

rozkład sprawdzianu 

n

1

2

U / m

m

=

 

jest rozkładem Studenta z n-1 stopniami swobody 

Na podstawie próby otrzymujemy, Ŝe 

2
y

y= 40,69 s =2493,59

. PoniewaŜ n=16 zatem 

16

2

y

y

40,6875

u

n 1

16 1

0,8147 3,87

3,15

49,94

s

=

− =

− = −

= −

 

Dla określenia zbioru krytycznego  K=

>

−∞

k

;

(

 wyznaczamy liczbę k: 

n-1

P(| T | k) 2α

=

  

15

P(| T | k) 0,1

k 1,753

=

⇒ =

  wykorzystano  tablice  rozkładu  Studenta  dla  15  stopni  swobody  i 

prawdopodobieństwa  0.1  (funkcja  dotyczy  rozkładu  dwustronnego,  a  nam  potrzebny  jest  zbiór 
jednostronny). Zatem zbiór krytyczny K=

>

−∞

753

,

1

;

(

 

PoniewaŜ 

16

u

K

,  więc hipotezę  zerową odrzucamy, co  oznacza,  Ŝe  nowa technologia skraca  czas 

projektowania modułów.  
Wysunięte  hipotezy  moŜna  zweryfikować  korzystając  z  arkusza  kalkulacyjnego  Excel  na  dwa 
sposoby. 
1.

 

Wykorzystując funkcję statystyczną TEST.T po wpisaniu danych w komórki a1:p1 i a2:p2 oraz 
ustalając parametry testu: Typ = 1 - test dla prób powiązanych (test sparowany) i Ślady = 1 - test 
jednostronny. 

background image

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 

 

55 

 

Wynik  formuły  0,0033  jest  równy  jest  równy  granicznemu  poziomowi  istotności  ˆα , 

 

wyznaczonemu  na  podstawie  wartości  wskaźnika  obliczonego  bez  wykorzystania  programu 
komputerowego, co zilustrowano poniŜej. 

 

PoniewaŜ  ˆα =0,0033  < 0,05 = α hipotezę zerową H

0

 odrzucamy

24

                                                 

24

 Patrz uwaga 2 w punkcie 16.1.4. 

background image

STATYSTYKA MATEMATYCZNA 

 

56 

2.

 

Wykorzystując  narzędzie  pakietu  Analiza  danych: 

Test  t:  par  skojarzonych  z  dwiema  próbami 

dla średniej

 wpisując wcześniej dane w komórki a1:a16 i b1:b16. 

 

Otrzymane wyniki były następujące: 

  

Zmienna 1 

Zmienna 2 

Komentarz 

Ś

rednia 

352,375 

311,6875 

 

Wariancja 

118367,7167 

97734,3625 

 

Obserwacje 

16 

16 

 

Korelacja Pearsona 

0,992224891   

 

RóŜnica średnich wg hipotezy 

0   

 

df 

15   

 

t Stat 

-3,155688486   

Sprawdzian 

P(T<=t) jednostronny 

0,00326497   

Graniczny poziom 
istotności 

Test T jednostronny 

1,753050325   

Granica zbioru 
krytycznego 

P(T<=t) dwustronny 

0,006529939   

Graniczny poziom 
istotności 

Test T dwustronny 

2,131449536    

Granica zbioru 
krytycznego 

Za pomocą otrzymanej tabelki weryfikujemy wysunięte hipotezy na dwa sposoby, pamiętając, Ŝe 
hipoteza alternatywna jest jest jednostronna:   

 

W oparciu o zbiór krytyczny.  
PoniewaŜ  t Stat=- 3,155688486

∉ ∈

 K =

(

; 1,175>

−∞ −

  więc hipotezę H

0

 odrzucamy. 

 

W oparciu o graniczny poziom istotności 
PoniewaŜ  

ˆα =

0,00326497

 <  

0,05 = α hipotezę zerową Ho odrzucamy. 

Na zakończenie zwracamy uwagę, Ŝe otrzymaliśmy taką samą wartość sprawdzianu t Stat ≈ 3,15 i 
granicę zbioru krytycznego ≈ 1,75 jakie otrzymano wcześniej bez programu komputerowego oraz taką 
samą wartość krytycznego poziomu istotności P(T<=t) jednostronny ≈0,003, jaką otrzymano z 
wykorzystaniem funkcji statystycznej TEST.T



 

 
 
 
 

background image

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 

 

57 

16.3.3. Testy do porównywania wariancji 

Badane  są  dwie  populacje:  pierwsza  ze  względu  na  cechę  X,  druga  ze  względu  na  cechę  Y. 
Zakładamy, Ŝe cechy te są niezaleŜne o rozkładach normalnych odpowiednio N(m

1

1

), N(m

2

2

).  

Hipoteza zerowa H

0

 

(

)

2

2

1

2

σ = σ

  

Tabela 16.7. Testy do porównywania wariancji, N(m

1

,σ

σ

σ

σ

1

) N(m

2

,σ

σ

σ

σ

2

Hipoteza 

alternatywna 

Sprawdzian 

1 2

n n

U

 

Rozkład sprawdzianu 

Zbiór krytyczny K 

Wyznaczanie liczby 

k

1

 i k

Nr testu 

2

2

1

1

2

H (σ >σ )  

2

k ;

<

2

P(F k )

= α

 

TP-11A 

2

2

1

1

2

H (σ <σ )  

1

(0 ; k

>

 

1

P(F k ) 1

= − α

  TP-11B 

2

2

1

1

2

H (σ

σ

)

 

1

1

2

2

2
n

n ,n

2
n

ˆS

U

ˆS

=

 

Rozkład Snedecora z 

parą (n

1

-1, n

2

 –1) stopni 

swobody. 

1

2

(0 ; k

k ; )

> ∪ <

 

2

P(F k )

/ 2

= α

 

1

P(F k ) 1

/ 2

= − α

 

TP-11C 

F - zmienna losowa o rozkładzie Snedecora z parą (n

1

-1, n

2

 –1) stopni swobody. 

Przykład 16.11 

Porównywano  czas  rozwiązywania  pewnego  testu  przez  członków  dwóch  zespołów  analityków  
(w minutach).  

Z1 

188 

192 

187 

178 

179 

175 

177 

178 

185 

190 

Z2 

190 

179 

185 

186 

183 

184 

179 

180 

190 

 

Chcemy sprawdzić hipotezę o równości wariancji przy załoŜeniu, Ŝe czasy rozwiązywania testu mają 
rozkłady normalne i przyjmując poziom istotności 0,05. 

Rozwiązanie 

 

Z1 

Z2 

Ś

rednie z prób 

7

,

182

=

x

 

0

,

184

=

y

 

Wariancje z prób 

2

1

s

34, 09

=

 

2

2

s

16, 0

=

 

Sprawdzimy hipotezy 

a) 

(

)

2

2

0

1

2

H σ = σ

(

)

2

2

1

1

2

H σ > σ

  

Do weryfikacji hipotez stosujemy test TP-11A., wartość sprawdzianu 

11,10

34,09

u

2,1306

16,0

=

=

  

Zbiór krytyczny K = 

2

k ; )

<

, przy czym 

2

P(F k )

= α

, gdzie F to zmienna losowa o rozkładzie 

Snedecora z parą (n

1

-1, n

2

-1) stopni swobody, w rozwiązywanym przykładzie z parą  

(9, 8) stopni swobody. Zatem 

2

2

P(F k ) 0,05

k

3,39

=

=

, czyli 

)

;

39

,

3

=<

K

.  

PoniewaŜ 

),

;

13

,

3

1306

,

2

10

,

11

=<

=

K

u

  więc  hipotezę  H

0

,  Ŝe  wariancje  (a  takŜe  odchylenia 

standardowe) są sobie równe przyjmujemy. 
Wysunięte  hipotezy  moŜna  zweryfikować  korzystając  z  arkusza  kalkulacyjnego  Excel  na  dwa 
sposoby, co ilustrują poniŜsze rysunki 
1.

 

Wykorzystując funkcję statystyczną TEST.F po wpisaniu danych w komórki a22:j22 i a23:i23. 

background image

STATYSTYKA MATEMATYCZNA 

 

58 

 

Wynik  formuły  0,30816  jest  równy  jest  równy  granicznemu  poziomowi  istotności  ˆα , 

 

wyznaczonemu  na  podstawie  wartości  wskaźnika  obliczonego  bez  wykorzystania  programu 
komputerowego, co zilustrowano poniŜej. 

 

Otrzymano dwa razy mniejszy wynik, poniewaŜ w funkcji TEST.F przyjęty jest dwustronny zbiór 
krytyczny.   
W przypadku testu jednostronnego 

ˆα

=0,150 > 0,05 = α więc hipotezę zerową H

0

 przyjmujemy. 

2.

 

Wykorzystując  narzędzie  pakietu  Analiza  danych: 

Test  F:  z  dwiema  próbami  dla  wariancji

 

wpisując wcześniej dane w komórki a1:p1 i a2:p2. 

background image

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 

 

59 

 

Otrzymane wyniki są następujące: 

Test F: z dwiema próbami dla wariancji 

Komentarz 

 

Zmienna 1 

Zmienna 2 

 

Ś

rednia 

182,9 

184 

 

Wariancja 

37,877778 

18 

 

Obserwacje 

10 

 

df 

 

2,104321 

 

Sprawdzian 

P(F<=f) jednostronny 

0,154081 

 

Graniczny poziom 
istotności 

Test F jednostronny 

3,3881302 

 

Granica zbioru 
krytycznego 

Za pomocą otrzymanej tabelki weryfikujemy wysunięte hipotezy na dwa sposoby, pamiętając, Ŝe 
hipoteza alternatywna jest jest jednostronna:   

 

W oparciu o zbiór krytyczny.  
PoniewaŜ  t Stat=

2,104321

K =

3,39; )

<

  więc hipotezę H

0

 przyjmujemy. 

 

W oparciu o graniczny poziom istotności 
PoniewaŜ   ˆα

=

0,154081

 >  

0,05 = α hipotezę zerową Ho przyjmujemy. 

Na zakończenie zwraca się uwagę, Ŝe otrzymaliśmy taką samą wartość sprawdzianu F ≈ 2,1, taką samą 
wartość krytycznego poziomu istotności P(T<=t) jednostronny ≈0,15 oraz granicę zbioru krytycznego 
Test F jednostronny ≈ 3,39 jakie otrzymano wcześniej bez programu komputerowego.



 

16.3.4. Testy do porównywania wskaźników struktury 

Badane są dwie cechy X i Y róŜnych populacji o rozkładach zerojedynkowych, 

,

p

1

)

0

X

(

P

,

p

)

1

X

(

P

1

1

=

=

=

=

,

p

1

)

0

Y

(

P

,

p

)

1

Y

(

P

2

2

=

=

=

=

 

Cechy X i Y są zmiennymi losowymi niezaleŜnymi. 
Z  populacji,  której  badana  jest  cecha  X  pobrano  próbę 

1

n   elementową,  natomiast  

z drugiej populacji pobrano próbę 

2

n  elementową. Obie próby są liczne n

1

, n

100. 

Hipoteza zerowa: 

)

p

p

(

H

2

1

0

=

  

background image

STATYSTYKA MATEMATYCZNA 

 

60 

Tabela 16.8. Testy do porównywania wskaźników struktury, próby liczne 

Hipoteza 

alternatywna 

Sprawdzian 

n n

1 2

U

 

Rozkład sprawdzianu 

Zbiór krytyczny K 

Wyznaczanie 

liczby k 

Nr testu 

1

1

2

H (p >p )  

<

;

k

α

=

Φ

1

)

k

(

 

TP-12A 

1

1

2

H (p <p )  

>

−∞

k

;

(

 

α

=

Φ

1

)

k

(

 

TP-12B 

1

1

2

H (p

p )

 

2

1

2

1

2

1

n

n

n

n

)

W

1

(

W

W

W

+

 

Rozkład asymptotycznie 

normalny N(0,1) 

(

; k

k; )

−∞ − > ∪

∪ <

 

(k) 1

2

α

Φ

= −

 

TP-12C 

W

1

,  W

2

  wskaźniki  struktury  z  obu  prób, 

2

1

2

2

2

1

1

1

r

,

r

,

n

/

r

w

,

n

/

r

w

=

=

  -  liczby  jedynek  

w próbach o liczebnościach n

1

 i n

2

 

2

1

2

1

n

n

r

r

w

+

+

=

 

Φ

 – dystrybuanta rozkładu normalnego N(0,1). 

Przykład 16.12 

Porównywano  wadliwość  dwu  partii  towaru.  Z  pierwszej  partii  pobrano  próbę  200  elementową  i 
zanotowano w niej 10 sztuk wadliwych. Z drugiej partii pobrano próbę 150 elementową. Było w niej 
12 sztuk wadliwych. Czy wadliwości obu partii są takie same, czy teŜ naleŜy przyjąć, Ŝe wadliwość 
pierwszej partii jest mniejsza niŜ drugiej? Sprawdź odpowiednie hipotezy na poziomie istotności 0,06. 

Rozwiązanie 

X  –  zmienna  losowa  przyjmująca  wartość  1,  gdy  z  pierwszej  partii  wybrano  sztukę  wadliwą  lub 
wartość 0, gdy wybrano sztukę dobrą. 
Y – zmienna losowa przyjmująca wartość 1, gdy z drugiej partii wybrano sztukę wadliwą lub wartość 
0, gdy wybrano sztukę dobrą. 
Zmienne  losowe  X  i  Y  są  niezaleŜne  i  mają  rozkłady  zerojedynkowe  z  parametrami  odpowiednio 
p

1

 , p

Wskaźniki struktury p

1

 i p

2

 są wadliwościami partii pierwszej i drugiej.  

,

p

1

)

0

X

(

P

,

p

)

1

X

(

P

1

1

=

=

=

=

2

2

P(Y=1)=p , P(Y=0)=1-p .  

Liczebności prób n

1

=200 n

2

=150. Liczby sztuk wadliwych w próbach r

1

=10  r

2

=12.  

Hipotezy H

0

 (p

1

 = p

2

),  H

1

  (p

1

 < p

2

). Poziom istotności α = 0,06 

Stosujmy test TP-35. Wadliwości w próbach (wskaźniki struktury)  

05

,

0

200

10

n

r

w

1

1

1

=

=

=

08

,

0

150

12

n

r

w

2

2

2

=

=

=

 

063

,

0

350

22

150

200

12

10

n

n

r

r

w

2

1

2

1

=

=

+

+

=

+

+

=

 

Sprawdzian 

2

1

2

1

2

1

n

n

n

n

)

W

1

(

W

W

W

U

+

=

 

Wartość sprawdzianu  

14

,

1

150

200

150

200

932

,

0

063

,

0

08

,

0

05

,

0

n

n

n

n

)

w

1

(

w

w

w

u

2

1

2

1

2

1

=

+

=

+

=

 

Zbiór krytyczny  K =

>

−∞

k

;

(

 

=

α

=

Φ

1

)

k

(

 0,94 

55

,

1

k =

 K = (-

; -1,55> 

PoniewaŜ 

,

K

u

10

  więc  hipotezę  H

0

  przyjmujemy.  MoŜna  twierdzić,  Ŝe  wadliwości  obu  partii  są 

sobie równe. 

background image

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 

 

61 

Uwagi

: W przypadku konieczności zweryfikowania hipotez dotyczących wskaźników struktury 

 

przy próbach niepowiązanych o małych liczebnosciach naleŜy zastosować test dokładny 
Fishera

25

 

 

przy próbach powiązanych naleŜy zastosować test Mc Nemary

26

16.4. Testy nieparametryczne dla jednej próby 

16.4.1. Ocena losowości próby 

Istotne  znaczenie  ma  sprawdzenie,  czy  próba  jest  losowa,  bowiem  losowość  jest  podstawowym 
załoŜeniem zdecydowanej większości metod estymacji i testów statystycznych. 
Wysuwamy hipotezy H

( Pobrana próba jest losowa) 

                                   H

1

 (Pobrana próba nie jest losowa) 

Hipotezy te weryfikujemy przy pomocy testu serii.  
1. Wyznaczamy medianę z próby i transformujemy próbę wg zasady: 
    - jeśli element próby ma wartość mniejszą od mediany, to przyporządkowujemy mu liczbę 0, 
    - jeśli element próby ma wartość większą od mediany, to przyporządkowujemy mu liczbę 1, 
    - jeśli element próby ma wartość równą medianie, to odrzucamy go z próby. 
2. Sprawdzian: statystyka U

n

 oznaczająca liczbę serii w transformowanej próbie. 

3.  Rozkład  sprawdzianu  zaleŜy  od  liczebności  n

0

  oraz  n

1

  zer    lub  jedynek  w  transformowanej                

próbie i jest stablicowany (pkt 8 części VII „Tablice statystyczne”). Z tablic tych moŜna odczytać 
liczbę u

α

 taką, Ŝe 

P(Un ≤ u

α

) = α. 

4. Zbiór krytyczny dwustronny K = (0; k

1

>  

 (k

2

 ; ∞) 

    Liczby k

i k

2

 wyznaczamy z tablicy rozkładu ilości serii   

P(U

n

 ≤ k

1

) = α/2 

P(U

n

 > k

2

) = α/2 

5.  Obliczamy  na  podstawie  próby  wartość  u

n

  statystyki  U

n

,  czyli  obliczamy  liczbę  serii  

w próbie transformowanej. 

6. Podejmujemy decyzje 
      - jeśli u

n

 

 K, to H

0

 przyjmujemy, 

      - jeśli u

n

 

 K, to H

0

 nie przyjmujemy. 

Uzasadnienie  

Jeśli hipoteza zerowa jest prawdziwa, to w transformowanej próbie powinna być umiarkowana liczba 
serii.  Gdyby  bowiem  serii  było  mało  np.  byłyby  tylko  dwie  serie,  to  oznaczałoby,  Ŝe  w  próbie 
najpierw  kolejno  występują  elementy  o  wartościach  mniejszych  od  mediany,  a  następnie  kolejno 
elementy większe od mediany ( lub na odwrót). Próba taka z oczywistego powodu nie byłaby losowa. 
Gdyby  serii  było  duŜo  np.  tyle  ile jest  elementów  próby,  to  oznaczałoby, Ŝe  na  przemian w  próbie 
występują elementy większe i mniejsze od mediany. Taką próbę teŜ byłoby trudno uznać za losową. 
Zatem  duŜa  i  mała  liczba  serii  w  próbie  transformowanej  przemawia  za  odrzuceniem  hipotezy 
zerowej,  natomiast  umiarkowana  liczba  serii  przemawia  za  przyjęciem  tej  hipotezy.  Dlatego  zbiór 
krytyczny przyjmujemy dwustronny. 

Przykład 17.1 

W  celu  zbadania  struktury  wieku  pracowników  duŜej  firmy  pobrano  próbę  16  pracowników  
i zbadano ich wiek (liczbę lat ukończonych). Otrzymano następującą próbę. 

38  34  30  42  27  38  41  20  21  23  18  42  28  40  31  43 

Czy próba ta jest losowa? 

                                                 

25

 Zostanie opisany w II części podręcznika 

26

 Zostanie opisany w II części podręcznika

 

background image

STATYSTYKA MATEMATYCZNA 

 

62 

Rozwiązanie 

1. Sortujemy dane niemalejąco  

18  20  21  23  27   28  30  31   34  38  38  40  41  42  42  43 

Mediana wieku jest równa  

e

31 34

m

32,5

2

+

=

=

 

PoniŜej przedstawiono poszczególne elementy próby przed i po transformacji 

38  34  30  42  27  38  41  20  21  23  18  42  28  40  31  43 

1  1  0  1  0  1  1  0  0  0  0  1  0  1  0  1 

2. Sprawdzian: statystyka U

n

 oznaczająca liczbę serii w transformowanej próbie. 

3. Poziom istotności  α = 0,05 
4. Zbiór krytyczny dwustronny K = (0; k

1

>  

 (k

2

 ; ∞) 

    Liczby k

1

 i k

wyznaczmy z tablicy rozkładu ilości serii (pkt 8 części VII „Tablice statystyczne”)  

n

1

n

2

P(U

k )=0,05/2 =0,025

P(U >k )=1-α/2 =0,975

 

      dla n

0

 = n

1

 = 8    (liczby zer i jedynek w próbie transponowanej) mamy k

1

 = 4,  k

=13 

      Zatem K = (0; 4>  

 <13 ; ∞) 

5.   Liczba serii w próbie transponowanej u

n

 =11 

6.   PoniewaŜ u

n

 

 K, to hipotezę zerową H

0

,  Ŝe próba jest losowa przyjmujemy. 



 

Uwaga  

Jeśli  próba  jest  liczna,  to  statystka  U

n

  –  liczna  serii  w  transponowanej  próbie  ma  rozkład 

asymptotycznie normalny o parametrach  

0 1

0 1

0 1

2

2n n

2n n (2n n -n)

m=

+1, σ=

n

n (n-1)

 

16.4.2. Test zgodności chi kwadrat  

Dana jest dystrybuanta F(x). 
Hipoteza zerowa H

0

 (Cecha X populacji ma rozkład określony dystrybuantą F(x)) 

Hipoteza alternatywna H

(Cecha X populacji nie ma rozkładu określonego dystrybuantą F(x)). 

Weryfikacja powyŜszych hipotez za pomocą tzw. testu 

χ

2

 przebiega następująco: 

1.

 

Pobieramy  liczną  próbę  (n  ≥80).  Prezentujemy  ją  w  szeregu  rozdzielczym  przedziałowym  

w r klasach, przy czym: 

 

Pierwsza i ostatnia klasa szeregu rozdzielczego powinny mieć postać A

1

 = (-∞; a

1

),  

A

= <a

r

; ∞)  i do kaŜdej z nich powinno naleŜeć co najmniej 5 elementów próby.  

 

Do pozostałych klas powinno naleŜeć co najmniej 10 elementów próby.  

 

Klas nie moŜe być mniej niŜ 4. 

2.

 

Obliczamy  na  podstawie  próby  oceny  parametrów  wchodzących  w  skład  dystrybuanty  F(x) 

uzyskane metodą największej wiarygodności. 

3.

 

Przyjmujemy, Ŝe hipoteza H

jest prawdziwa tzn., Ŝe rozkład cechy X jest określony dystrybuantą 

F(x), przy czym parametry dystrybuanty są równe ocenom uzyskanym w punkcie 2. 

4.

 

Dla kaŜdego przedziału klasowego A

i

 = <a

i

; a

i+1

) obliczamy prawdopodobieństwa 

i

i

i

i+1

i+1

i

p =P(X A )=P(a

X<a )=F(a )-F(a )

   dla i =1, ... , r 

background image

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 

 

63 

5. Obliczamy  

2

r

i

i

n

i=1

i

(n -np )

u =

np

 

gdzie n

i

 jest liczebnością  klasy A

i

6.  Wyznaczamy  zbiór  krytyczny  prawostronny  K  =  <k;  ∞),  k  wyznaczamy  z  tablicy  rozkładu 

χ

2

  

z  r-s-1stopniami  swobody  i  dla  prawdopodobieństwa 

α

  równemu  poziomowi  istotności  –  pkt  5 

części  VII  „Tablice  statystyczne”,  s  jest  liczbą  parametrów  szacowanych  na  podstawie  próby 
metodą największej wiarygodności. 

7. Podejmujemy decyzję: 

 

odrzucamy hipotezę H

0

,  gdy u

n

 

 

przyjmujemy hipotezę H

0

, gdy u

n

Test 

χ

2

 opiera się na twierdzeniu: 

Statystyka 

2

r

i

i

n

i=1

i

(N -np )

U =

np

 

gdzie: N

i

 - zmienna losowa oznaczająca liczebność klasy A

i

, której wartością jest liczbą u

określona 

w punkcie 5  

ma  dla  licznej  próby  rozkład  w  przybliŜeniu 

χ

2

  z  r-s-1  stopniami  swobody,  gdzie  s  jest  liczbą 

parametrów szacowanych na podstawie próby metodą największej wiarygodności. 

Uzasadnienie postępowania 

n

i

 - liczba elementów próby naleŜących do klasy A

i

 (liczebność empiryczna klasy A

i

np

i

  -  oczekiwana  liczba  elementów  naleŜących  do  klasy  A

i

,  przy  załoŜeniu  prawdziwości  hipotezy 

zerowej (liczebność teoretyczna klasy A

i

).  

Jeśli hipoteza H

0

 jest prawdziwa, to róŜnica n

i

 - np

i

 powinna być mała dla i = 1, ... , r, zatem liczba u

n

 

powinna być takŜe mała. Dlatego zbiór krytyczny przyjmujemy prawostronny K = <k; ∞). Jeśli u

n

 

 

K  tzn.  u

n

  ≥  k,  to  uznajemy,  Ŝe  u

n

  jest  duŜe  i  H

odrzucamy,  w  przeciwnym  przypadku  H

0

 

przyjmujemy. 

Przykład 17.3 

Za pomocą arkusza kalkulacyjnego Exel wygenerowano 120 liczb losowych z rozkładu jednostajnego 
z  przedziału  (0 ; 1).  Otrzymano  następujące  liczby,  po  uporządkowaniu  ich  niemalejąco  
(kolumnami). 

0,002  0,090  0,188  0,297  0,385  0,472  0,587  0,702  0,829  0,922 
0,003  0,090  0,189  0,301  0,387  0,473  0,600  0,721  0,830  0,927 
0,006  0,095  0,217  0,317  0,393  0,480  0,605  0,724  0,851  0,927 
0,017  0,115  0,227  0,323  0,395  0,483  0,610  0,726  0,855  0,944 
0,022  0,136  0,236  0,332  0,403  0,489  0,610  0,747  0,864  0,946 
0,036  0,141  0,251  0,333  0,407  0,490  0,611  0,759  0,867  0,962 
0,046  0,148  0,253  0,341  0,411  0,496  0,633  0,770  0,870  0,967 
0,053  0,154  0,254  0,349  0,422  0,511  0,638  0,776  0,885  0,983 
0,055  0,157  0,256  0,356  0,425  0,516  0,655  0,807  0,899  0,989 
0,061  0,163  0,261  0,360  0,426  0,537  0,661  0,810  0,910  0,996 
0,064  0,166  0,265  0,369  0,459  0,540  0,663  0,825  0,918  0,998 
0,079  0,176  0,286  0,381  0,472  0,542  0,667  0,827  0,921  0,998 

Sprawdzimy, przy pomocy testu chi kwadrat, na poziomie istotności 0,05, czy  rzeczywiście pochodzą 
z tego rozkładu. 

background image

STATYSTYKA MATEMATYCZNA 

 

64 

Rozwiązanie 

Cecha X – liczba losowa 
Wysuwamy hipotezy 
 

H

0

 (Cecha X ma rozkład jednostajny w przedziale ( 0;1))

27

  

 

H

(Cecha X nie ma rozkładu jednostajnego) 

1.

 

Prezentujemy dane w szeregu rozdzielczym przedziałowym w 10 klasach 

A

i

 

n

i

 

(-∞ ; 0,1)  15 

<0,1 ; 0,2)  11 
<0,2 ; 0,3)  11 
<0,3 ; 0,4)  15 
<0,4 ; 0,5)  15 
<0,5 ; 0,6) 

<0,6 ; 0,7)  11 
<0,7 ; 0,8) 

<0,8 ; 0,9)  13 

<0,9 ; ∞) 

15 

Razem 

120 

2.

 

Nie ma parametrów wchodzących w skład  dystrybuanty rozkładu jednostajnego w przedziale (0;1) 
(patrz gęstość (17.1)). 

3.

 

Przyjmujemy, Ŝe hipoteza H

jest prawdziwa. 

4.

 

PoniewaŜ gęstość jest stała więc 

i

p

const 0,1

=

=

 oraz np

i

 = 12 

5.           

A

i

 

n

i

 

p

i

  n p

i

 

i

i

i

(n

np )2

np

 

(-∞ ; 0,1)  15  0,1  12 

0,75 

<0,1 ; 0,2)  11  0,1  12 

0,08 

<0,2 ; 0,3)  11  0,1  12 

0,08 

<0,3 ; 0,4)  15  0,1  12 

0,75 

<0,4 ; 0,5)  15  0,1  12 

0,75 

<0,5 ; 0,6) 

0,1  12 

3,00 

<0,6 ; 0,7)  11  0,1  12 

0,08 

<0,7 ; 0,8) 

0,1  12 

1,33 

<0,8 ; 0,9)  13  0,1  12 

0,08 

<0,9 ; ∞) 

15  0,1  12 

0,75 

Razem 

120  1,0  120 

u

n

 =7,95 

6. Wyznaczamy zbiór krytyczny prawostronny K = <k; ∞). Liczbę k wyznaczamy z tablicy rozkładu 

chi  kwadrat  z    r – s – 1 = 10 – 0 – 1 = 9  stopniami  swobody  i  poziomu  istotności  0,05. 
Otrzymujemy k =16,916, zatem K =<16,016; ∞). 

7. 

n

0

u

K

H

przyjmujemy. 



 

                                                 

27

 t

zn. jej gęstość wyraŜa się wzorem

 

(

)

1

dla x (0,1)

f (x)

0 dla x

0,1

=

  (17.1) 

 

background image

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 

 

65 

16.4.3. Ocena normalności rozkładu  

Posiadanie  informacji,  Ŝe  rozkład  cechy  populacji  jest  normalny  ma  podstawowe  znaczenie  
w  statystyce,  bowiem  przy  tym  załoŜeniu  prawdziwa  jest  przewaŜająca  liczba  twierdzeń,  teoria 
statystyki jest najprostsza i do zastosowań praktycznych nie potrzeba zwykle pobierać licznych prób. 
Podamy  wersję  testu  zgodności 

χ

dostosowaną  do  sprawdzania  hipotezy,  Ŝe  cecha  populacji  ma 

rozkład normalny. Stosujemy go, gdy próba jest liczna (n ≥ 80)

28

Hipoteza zerowa H

0

 (Cecha X populacji ma rozkład normalny). 

Hipoteza alternatywna H

1

 (Cecha X populacji nie ma rozkładu normalnego). 

Weryfikacja powyŜszych hipotez za pomocą testu 

χ

2

 przebiega następująco: 

1.

 

Pobieramy liczną próbę (n ≥80). Prezentujemy ją w szeregu rozdzielczym klasowym w r klasach. 

2.

 

Obliczamy:  x - średnią z próby i s - odchylenie standardowe z próby według wzorów 

r

r

2

i i

i

i

i=1

i=1

1

1

x=

n x ,

s=

n (x -x)

n

n

%

%

 

i

x~

  - środek klasy  A

i

 

3.

 

Przyjmujemy, Ŝe cecha X ma rozkład normalny N( x , s). 

4.

 

Dla kaŜdego przedziału klasowego 

i

i

i 1

A

a ;a )

+

=<

 obliczamy prawdopodobieństwo 

i

i+1

i+1

i

i

i

i

i+1

a -x

a -x

a -x

a -x

X-x

p =P(X A )=P(a

X<a )=P(

<

)=Φ(

)-Φ(

)

s

s

s

s

s

 

5.

 

Obliczamy 

2

r

i

i

n

i=1

i

(n -np )

u =

np

, gdzie n

i

 jest liczebnością  klasy A

i

6.

 

Wyznaczamy zbiór krytyczny prawostronny 

K

k; )

=<

, gdzie k wyznaczamy z tablicy rozkładu 

χ

2

 dla r – 3 stopniami swobody i dla prawdopodobieństwa 

α

 (równemu poziomowi istotności) – 

pkt 5 części VII „Tablice statystyczne”.  

7.

 

Podejmujemy decyzję: 

 

odrzucamy hipotezę H

0

,   gdy u

n

 

 K  

 

przyjmujemy  hipotezę H

0

,   gdy u

n

 

K  

Przykład 17.4  

Badano  wynagrodzenie  (w  zł)  pracowników  pewnego  przedsiębiorstwa  (cecha  X  populacji).  
Z  grupy  pracowników  pobrano  próbę  200  elementową.  Otrzymane  wyniki  prezentowane  są  
w poniŜszym szeregu rozdzielczym przedziałowym 

Nr klasy 

Wynagrodzenie  

<a

i

, a

i+1

Liczebność 

n

i

 

<600   ; 800) 

<800   ; 1000) 

10 

<1000 ; 1200) 

20 

<1200 ; 1400) 

30 

<1400 ; 1600) 

56 

<1600 ; 1800) 

42 

<1800 ; 2000) 

21 

<2000 ; 2200) 

13 

<2200 ; 2400) 

10 

<2400 ;2600) 

 

Suma 

200 

                                                 

28

  W  przypadku  konieczności  zweryfikowania  hipotez  o  podleganiu  cechy  rozkładowi  normalnemu  w  oparciu  o  próbę  

o małej liczebnosci naleŜy zastosować test Shapiro-Wilka. Zostanie on opisany w drugiej części podręcznika 

background image

STATYSTYKA MATEMATYCZNA 

 

66 

Na poziomie istotności 

α

 = 0,05 sprawdzimy hipotezy: H

0

 (Cecha X populacji ma rozkład normalny) i 

H

(Cecha X populacji nie ma rozkładu normalnego). 

Obliczenia 

x

 i s 

Nr 

klasy 

Wynagrodzenie 

<a

i

; a

i+1

Liczebność 

ni 

Ś

rodek 

klasy 

i

x~  

i

i

n

x~

 

2

i

i

)

x

x~

(

n

 

<600   ; 800) 

700 

1400 

1411200 

<800   ; 1000) 

10 

900 

9000 

4096000 

<1000 ; 1200) 

20 

1100 

22000 

3872000 

<1200 ; 1400) 

30 

1300 

39000 

1728000 

<1400 ; 1600) 

56 

1500 

84000 

89600 

<1600 ; 1800) 

42 

1700 

71400 

1075200 

<1800 ; 2000) 

21 

1900 

39900 

2721600 

<2000 ; 2200) 

13 

2100 

27300 

4076800 

<2200 ; 2400) 

2300 

11500 

2888000 

10 

<2400 ;2600) 

2500 

2500 

921600 

 

Suma 

200 

 

308000 

22880000 

1540

200

308000

x

=

=

 [zł],  

2

22880000

s

114400

200

=

=

 [zł],    s

114400 338, 2

=

=

[zł] 

Obliczenia  u

200

 

PoniewaŜ do kaŜdej ze skrajnych klas powinno naleŜeć co najmniej 5 elementów łączymy w jedną 
klasę  klasy  pierwszą  i  drugą  danego  szeregu  rozdzielczego  -  otrzymujemy  pierwszą  klasę  nowego 
szeregu,  którą  ze  względu  na  wymagania,  jaką  postać  ma  mieć  ta  klasa  zapisujemy  
(-∞;1000). Z tych samych powodów łączymy klasy 8, 9 i 10 w jedną klasę i zapisujmy ją w postaci 
<2000; ∞ ). 

<a

i

; a

i+1

 

n

i

 

a

i

 

a

i+1

 

i

a -x

s

 

i+1

a -x

s

 

Φ

i

a -x

s

 

Φ

i+1

a -x

s

 

p

i

 

np

i

 

2

i

1

i

(n -np )

np

 

1  (

  ; 1000)  12 

  1000 

 

-1,60 

0,0552 

0,05517  11,03 

0,084659 

2  <1000 ; 1200)  20  1000  1200  -1,60 

-1,01 

0,05517 

0,1574 

0,10220  20,44 

0,009499 

3  <1200 ; 1400)  30  1200  1400  -1,01 

-0,41 

0,15737 

0,3395 

0,18208  36,42 

1,130557 

4  <1400 ; 1600)  56  1400  1600  -0,41 

0,18 

0,33945 

0,5704 

0,23095  46,19 

2,083142 

5  <1600 ; 1800)  42  1600  1800  0,18 

0,77 

0,57041 

0,779 

0,20858  41,72 

0,001933 

6  <1800 ; 2000)  21  1800  2000  0,77 

1,36 

0,77899 

0,9131 

0,13412  26,82 

1,264544 

7  <2000 ;     

)  19  2000 

 

1,36 

 

0,91311 

0,08689  17,38 

0,151291 

 

 

 

 

 

 

 

 

Suma 

1,00000  200,00 

4,73 

u

200

= 4,73. Wyznaczamy zbiór krytyczny  prawostronny K = <k; ∞). Liczbę k odczytujemy z tablicy 

rozkładu 

2

χ

dla r – 3 = 7 – 3 = 4 stopni swobody i prawdopodobieństwa 

α

 = 0,05. (pkt 5 części VII 

„Tablice  statystyczne”).  Mamy  k  =  9,488,  więc  K  =  <9,488;  ∞).  PoniewaŜ  u

200

=  4,73 

  K  ,  więc 

hipotezę, Ŝe cecha ma rozkład normalny przyjmujemy. 
Hipotezę  tę  moŜna  dopiero  odrzucić  na  poziomie  istotności  0,32,  gdyŜ  zbiór  krytyczny  
K = <4,73; ∞) otrzymujemy właśnie na tym poziomie. 



   

W  powyŜszym  przykładzie  dane  statystyczne  były  pogrupowane  w  przedziałach  o  jednakowej 
długości (z wyjątkiem pierwszego i ostatniego). Test chi kwadrat moŜna stosować takŜe przy innych 
sposobach  grupowania  danych,  na  przykład  przy  grupowaniu  w  przedziały  o  jednakowych 
prawdopodobieństwach teoretycznych p

i

 przyjęcia wartości z tych przedziałów. Prawdopodobieństwa 

te są obliczane, przy załoŜeniu, iŜ prawdziwa jest hipoteza, Ŝe rozkład cechy jest normalny. Przy tej 
metodzie grupowania liczebności np

i

 są jednakowe dla kaŜdego przedziału. 

background image

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 

 

67 

Przykład 17. 5 

Padano zuŜycie surowca na jednostkę produkcji (Cecha X populacji). Pobrano próbę 100 elementową 
i otrzymano wyniki: 

35  72  91  23  49  12  69  52  41  23  32  74  91  12  58  68  34  16  50  38 
43  96  35  67  73  28  38  62  17  30  81  46  51  63  43  54  50  24  18  34 
25  51  40  63  89  45  66  25  63  84  15  34  82  49  60  74  29  34  45  67 
65  48  76  84  21  38  49  60  48  32  69  54  38  68  41  32  55  41  63  47 
28  80  80  20  31  90  57  40  77  56  51  49  53  48  63  51  69  31  40  24 

Sprawdzimy hipotezy H

(X ma rozkład normalny), H

1

 (X nie ma rozkładu normalnego), stosując test 

chi-kwadrat,  dla  danych  pogrupowanych  w  przedziały  o  równych  liczebnościach  teoretycznych.  
Rozwiązanie 
Pogrupujemy dane w r = 10 klasach, a więc teoretyczna liczebność klasy wynosi takŜe 10, gdyŜ próba 
liczy 100 elementów, prawdopodobieństwo przyjęcia wartości przez X z danej klasy wynosi p = 0,1.  
Na  podstawie  próby  wyznaczamy  x =  50  i  s  =20,5.  Zakładamy,  Ŝe  cecha  X  ma  rozkład  normalny 

N(50;20,5), czyli zmienna losowa 

5

,

20

50

X

Y

=

 ma rozkład normalny N(0, 1). 

Przedziały (klasy) wyznaczamy następująco: 

A

= <a

i-1 

;a

i

Prawy koniec a

i

 klasy o numerze i spełnia związek P(X < a

i

) = ip = 0,1i, zatem 

i

i

i

a -50

a -50

X-50

P(X<a )=P

<

=0,1i

20,5

20,5

20,5

 

Z tablicy dystrybuanty rozkładu normalnego (pkt 4 części VII „Tablice statystyczne”) wyznaczamy 

liczbę k

i

, taką, Ŝe 

i

i

a -50

=k

20,5

 

a stąd 

a

i

 =50 + 20,5k

i

 

dla 

i = 1, 2, ..., 9 

Prawe końce klas zostały wyznaczone, a to wystarcza do wyznaczenia klas, gdyŜ lewy koniec klasy 
jest równy prawemu poprzedniej klasy, zaś koniec lewy pierwszej klasy jest równy -∞.  
Sortujemy próbę niemalejącą i wyznaczamy liczebności klas.  

12  12  15  16  17  18  20  21  23  23  24  24  25  25  28  28  29  30  31  31 
32  32  32  34  34  34  34  35  35  38  38  38  38  40  40  40  41  41  41  43 
43  45  45  46  47  48  48  48  49  49  49  49  50  50  51  51  51  51  52  53 
54  54  55  56  57  58  60  60  62  63  63  63  63  63  65  66  67  67  68  68 
69  69  69  72  73  74  74  76  77  80  80  81  82  84  84  89  90  91  91  96 

Dalej postępujemy jak w poprzednim przykładzie: obliczmy wartość sprawdzianu, który dla danych  

w tym przykładzie przyjmuje postać 

r

2

n

i

i=1

1

u =

(n -10)

10

.  

background image

STATYSTYKA MATEMATYCZNA 

 

68 

Otrzymane wyniki przedstawia poniŜsza tabela. 

0,1i 

k

i

 

a

i

=20,5k

i

+50 

KlasyA

i

 

Liczebności 

n

i

 

(n

i

 -10)

2

 

0, 1 

-1,28 

23,7 

(- ∞ ; 23,7) 

10 

0,2 

-0,84 

32,7 

<23,7 ; 32,7) 

13 

0,3 

-0,52 

39,2 

<32,7 ; 39,2) 

10 

0,4 

-0,25 

44,8 

<39,2  ; 44,8) 

0,5 

0,00 

50,0 

<44,8 ; 50,0) 

11 

0,6 

0,25 

55,2 

<50,0 ; 55,2) 

11 

0,7 

0,52 

60,8 

<55,2 ; 60,8) 

25 

0,8 

0,84 

67,5 

<60,8 ; 67,5) 

10 

0,9 

1,28 

76,3 

<67,5 ; 76,3) 

10 

10 

1,0 

 

 

<76,3 ;  ∞) 

12 

 

 

 

 

Suma 

100 

44 

Zatem  wartość  sprawdzianu 

n

44

u

4, 4

10

=

=

.  Zbiór  krytyczny  prawostronny  K  =  <k  ;  ∞).  Liczbę  k 

wyznaczmy  z  tablicy  rozkładu  chi  kwadrat  dla  r-3  =  10  -3  =  7  stopni  swobody  
i poziomu istotności 0,05. Otrzymujemy k = 14,067, zatem K = <14,067 ; ∞). PoniewaŜ u

n

 

 K więc 

przyjmujemy  hipotezę,  cecha  X  ma  rozkład  normalny.  Wyznaczymy  jeszcze  graniczny  poziom 
istotności, 

)

4

,

4

Y

(

P

ˆ

7

=

α

, gdzie Y

7

 ma rozkład chi kwadrat z 7 stopniami swobody. Na podstawie 

programu  komputerowego  otrzymujemy 

73

,

0

ˆ

=

α

  (tablice  są  za  mało  dokładne),  co  świadczy  o 

bardzo dobrej zgodności rozkładu w próbie z rozkładem hipotetycznym. 



 

16.4.4. Test niezaleŜności chi kwadrat 

Populację  badamy  ze  względu  na  dwie  cechy  X  i  Y  ,  czyli  ze  względu  na  zmienną  losową 
dwuwymiarową  (X,  Y).  Ze  względu  na  cechę  X  populację  dzielimy  na  r  grup,  zaś  ze  względu  na 
cechę  Y  na  s  grup,  zatem  ze  względu  na  obie  cechy  na  r

s  grup.  Cechy  X  i  Y  wyraŜone  są  więc  

w  skali  nominalnej.  Zmienna  losowa  dwuwymiarowa  jest  skokowa  o  funkcji  prawdopodobieństwa  
P(X = i, Y = j) = p

ij 

  dla i = 1, 2, … , r; j = 1, 2, … , s. 

Podamy teraz test, oparty na teście chi kwadrat, do weryfikacji hipotez o niezaleŜności cech X i Y 
populacji. 
Jak  wiemy  z  rachunku  prawdopodobieństwa  zmienne  losowe  skokowe  są  niezaleŜne  wtedy  
i  tylko  wtedy,  gdy    P(X  =  i,  Y  =  j)  =  P(X  =  i)  P(Y  =  j)  lub  w  innym  zapisie    p

ij

  =  p

i.

p

.j

  

dla i = 1, 2, … , r; j = 1, 2, … , s.  
Zatem hipoteza H

0

 (Cechy X i Y są niezaleŜne) moŜe być zastąpiona hipotezą: 

H

(Rozkład zmiennej losowej dwuwymiarowej (X, Y) jest skokowy o funkcji prawdopodobieństwa 

P(X = i, Y = j)  = p

i

. p.

j

  dla i = 1, 2, … , r; j = 1, 2, … , s).  

Pobieramy z populacji próbę i klasyfikujemy ją ze względu na obie cechy.  

Oznaczenia: 

n

ij

 - liczba elementów próby naleŜących do grupy o numerze i ze względu na cechę X oraz do grupy o 

numerze j ze względu na cechę Y, 

n

i.

 – liczba elementów próby naleŜących do grupy o numerze i ze względu na cechę X, 

n

.j

 - liczba elementów próby naleŜących do grupy o numerze j ze względu na cechę Y, 

n

i.

,  n

.j

   -  liczebności brzegowe. 

i.

i1

i2

is

n =n +n +…+n

        

.j

1j

2j

rj

n =n +n +…+n

 

s

.

2

.

1

.

.

r

.

2

.

1

n

n

n

n

n

n

n

+

+

+

=

+

+

+

=

K

K

background image

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 

 

69 

Liczebności te moŜna przedstawić w postaci podanej poniŜej tabeli korelacyjnej   

    Y  

2  …  s  n

i.

 

n

11

  n

12

  …  n

1s

  n

1.

 

n

21

  n

22

 

 

n

2s

  n

2.

 

…  …  …  …  … 

n

r1

  n

r2

  …  n

rs

  n

r.

 

n

.j

 

n.

1

  n.

2

  …  n.

s

  n

.

 

Oszacowaniem metodą największej wiarygodności parametru p

i.

 jest 

n

n

i⋅

, zaś parametru p

.j

 jest 

n

.

n

j

.  

Wzór  na  wartość  sprawdzianu  w  teście  chi  kwadrat 

2

r

i

i

n

i=1

i

(n -np )

u =

np

  przybiera  teraz  postać 

2

r

s

ij

ij

n

i=1 j=1

ij

ˆ

(n -n )

u =

ˆn

∑∑

, gdzie   

i. .j

ij

n n

ˆn =

n

Wielkość  u

n

  jest  wartością  statystyki  U

n

  o  rozkładzie  w  przybliŜeniu  chi  kwadrat  z  liczbą  stopni 

swobody  równą  liczbie  wszystkich  grup  ze  względu  na  obie  cechy  minus  liczba  parametrów 
szacowanych metodą największej wiarygodności minus jeden. 
Wszystkich  grup  jest  r·s.  Parametrów  p

jest  r,  ale  naleŜy  oszacować  tylko  r  -1  parametrów,  gdyŜ 

r

i.

i-1

p =1

  i  z  tej  równości  wyznaczmy  r-ty  parametr,  z  tego  samego  powodu  szacujemy  tylko  s-1 

parametrów  p

.j

.  Zatem statystyka U

n

  ma  rozkład w  przybliŜeniu chi  kwadrat o  (r-1)(s-1)   stopniach 

swobody, gdyŜ  

r s (r 1) (s 1) 1 rs r s 1 r(s 1) (s 1) (r 1)(s 1)

⋅ −

− =

− − − =

=

 

Przyjmujemy  zbiór  krytyczny  prawostronny  K  =  <  k;  ∞).  Liczbę    k  odczytujemy  z    rozkładu  chi 
kwadrat    dla  (r-1)(s-1)  stopni  swobody.  Jeśli  wartość  sprawdzianu  u

n

 

  K,  to  odrzucamy  hipotezę 

zerową H

0

, Ŝe cechy są niezaleŜne, w przeciwnym przypadku przyjmujemy H

0

Przykład 17. 7 

W  trzech  grupach  A,  B  i  C  pewnej  uczelni  przeprowadzono  egzamin  ze  statystyki.  Postanowiono 
zbadać,  czy  istnieje  zaleŜność  między  przynaleŜnością  studenta  do  danego  wydziału,  a  wynikiem 
egzaminu? 
Wprowadzamy zmienną losową X przyjmującą wartość 1, gdy student jest z grupy A, liczbę 2, gdy z 
grupy B oraz liczbę 3, gdy jest z grupy C oraz zmienną losową Y przyjmującą wartość 1, gdy student 
zdał egzamin lub wartość 0, gdy nie zdał egzaminu. 
Wysuwamy hipotezy 
 

 H

0

 (Cechy X i Y są niezaleŜne) 

 

 H

1

 (Cechy X i Y są zaleŜne) 

Wyniki  badania  przedstawione  są  w  6  klasach.  Liczebności  tych  klas  oraz  liczebności  brzegowe 
zawiera poniŜsza tabela. 

         Y 

n

i.

 

35 

40 

45 

15 

60 

20 

10 

30 

n

.j

 

100 

30 

130 

 

background image

STATYSTYKA MATEMATYCZNA 

 

70 

Obliczamy: 
- tabelę wartości 

ij

ˆn    

          j     

30,77 

9,23 

46,15 

13,85 

23,08 

6,92 

- tabelę wartości 

2

ij

ij

ij

ˆ

(n -n )

ˆn

 

           j 

0,58 

1,94 

0,03 

0,10 

0,41 

1,37 

Wartość sprawdzianu to suma zawartości komórek powyŜszej tabeli, jest ona równa u

n

 = 4,43.  

Przyjmujemy poziom istotności α = 0,01. 
Zbiór  krytyczny  dla  tego  testu  jest  prawostronny  K  =  <  k  ;  ∞)  .  Liczbę  k  odczytujemy  z  tablicy 
rozkładu chi kwadrat dla (r-1)(s-1) = (3-1)(2-1) = 2 i poziomu prawdopodobieństwa α = 0,01. Mamy 
k = 9,210, zatem K = < 9,210 ; ∞). PoniewaŜ  u

n

K, więc brak jest podstaw do odrzucenia hipotezy 

zerowej, co oznacza Ŝe wynik egzaminu nie zaleŜy od grupy, do której student jest zapisany.  
Hipotezy moŜna zweryfikować bezpośrednio wykorzystując funkcję statystyczną TEST.CHI arkusza 
Excel. Dane dotyczą liczebności klas n

ij 

 oraz   wartości 

ij

ˆn , które naleŜy wcześniej obliczyć.  

 

Wynik formuły 0,10937 jest równy jest równy granicznemu poziomowi istotności 

ˆα

, wyznaczonemu 

na  podstawie  wartości  wskaźnika  u

n

  =  4,43  obliczonego  bez  wykorzystania  programu 

komputerowego, co zilustrowano poniŜej. 
PoniewaŜ  ˆα =0,109 > 0,05 = α więc hipotezę zerową H

0

 przyjmujemy. 

 

background image

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 

 

71 

 

Na zakończenie zweryfikujemy wysunięte hipotezy korzystając z pakietu IBM SPSS Statistics 
wybierając po wpisaniu danych do 2 kolumn (do pierwszej oznaczenie wydziałow , a do drugiej 
oznaczenie wyniku egzaminu – dane sa zapisane w 2 kolumnach i 130 wierszach) w kolejności: 
Analiza → Opis statystyczny → Tabele krzyŜowe i wybierając statystykę Chi-kwadrat: 

 

 
 
 
 
 
 
 

background image

STATYSTYKA MATEMATYCZNA 

 

72 

Otrzymane wyniki są następujące: 
 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Otrzymaliśmy  taką  samą  wartość  statystyki  chi-kwadrat  =  4,424  jak  obliczoną  bez  wykorzystania 
programu komputerowego i taką samą  graniczną wartość poziomu istotności 0,110 jaką obliczono z 
wykorzystaniem arkusza Excel.



 

Uwaga  

KaŜda teoretyczna liczebność 

ij

ˆn

 powinna wynosić co najmniej 5. Jeśli tak nie jest, to naleŜy dodać 

do siebie dwa sąsiednie wiersze lub kolumny. 
Sprawdzian  moŜna  łatwo  obliczyć  w  przypadku    r  =  s  =  2.  Wtedy  dane  zapisane  są  w  tzw.  tabeli 
czteropolowej 

          Y 

 

A+B 

C+D 

 

A+C 

B+D 

Wtedy sprawdzian przyjmuje postać 

2

n

n(AD-BC)

U =

(A+B)(A+C)(B+D)(C+D)

 

i  ma  rozkład  (przy  załoŜeniu  prawdziwości  hipotezy  zerowej)  asymptotycznie  chi  kwadrat  
z jednym stopniem swobody. 
Uwaga 
W częśći II podręcznika opisano kolejny test do badania niezaleŜności cech populacji oparty na teorii 
serii.  

background image

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 

 

73 

Przykład 17.8 

Badano wyniki egzaminu końcowego wśród absolwentów gimnazjów duŜych miast (powyŜej 100 tys. 
mieszkańców)  i  małych  miast  (do  100  tys.  mieszkańców).  Wprowadzamy  cechy  X  
i Y, X = 1, gdy absolwent zdawał egzamin w duŜym mieście, X=0, gdy  zdawał w małym mieście, 
natomiast Y =1, gdy absolwent zdał egzamin, Y = 0, gdy nie zdał egzaminu. 
Wysuwamy  hipotezy  H

0

  (Cechy  X  i  Y  są  niezaleŜne),  H

(Cechy  X  i  Y  są  zaleŜne).Wyniki  próby 

przedstawione są w tabeli    

          Y    

n

i.

 

360 

40 

400 

280 

20 

300 

n

.j

 

640 

60 

700 

Obliczamy wartość sprawdzianu 

2

n

700 (360 20 40 260)

u

2, 43

400 640 60 300

=

=

 

Zbiór  krytyczny  K  =  <k  ;  ∞).  Przyjmujemy  poziom  istotności  0,05.  Liczbę  k  wyznaczamy  
z tablicy rozkładu chi kwadrat dla jednego stopnia swobody i poziomu istotności 0,05, otrzymujemy k 
=  3,841,  zatem  K  =  <3,841  ;  ∞).  PoniewaŜ  u

n

K,  więc  hipotezę  zerową,  Ŝe  wynik  egzaminu  nie 

zaleŜy od tego, czy absolwent zdawał egzamin w duŜym czy w małym mieście naleŜy przyjąć. 

16.5. Testy nieparametryczne dla dwóch prób 

16.5.1. Test zgodności rozkładów dla prób niepowiązanych (test Wilcoxona) 

RozwaŜamy  cechy  X  i  Y  dwóch  populacji.  Z  kaŜdej  populacji  pobierany  próbę  o  liczebności 
odpowiednio równej n

1

 i n

2

 (liczebność mniejszej próby oznaczamy n

1

). Wysuwamy hipotezę zerową, 

Ŝ

e rozkłady obu cech są jednakowe. PoniewaŜ rozkład zmiennej losowej określa jej dystrybuanta więc 

hipotezę zerową moŜna zapisać w postaci 

H

0

( F

X

 = F

Y

)

29

 

gdzie: F

i  F

Y

 są dystrybuantami zmiennych losowych X oraz Y, F

X

(u) = P(X < u), F

Y

(u) = P(Y < u).  

Równość F

=F

Y

 oznacza, Ŝe dla kaŜdej liczby rzeczywistej u mamy F

X

(u) = F

Y

(u). 

Hipotezę alternatywną przyjmujemy w jednej z trzech postaci: 

H

1

( F

X

 >F

Y

) lub H

1

( F

X

 <F

Y

) lub H

1

( F

X

 ≠F

Y

Nierówność  F

X

  >F

Y

  oznacza,  Ŝe  dla  kaŜdej  liczby  rzeczywistej  u  mamy  F

X

(u) >  F

Y

(u),  podobnie 

rozumiemy nierówność F

X

 <F

Y

. Natomiast wyraŜenie F

X

 ≠ F

Y

 oznacza, Ŝe istnieje liczba rzeczywista 

u taka, Ŝe F

X

 (u) ≠ F

Y

(u). 

Aby  sprawdzić  hipotezy  zerową  i  alternatywną  łączymy  obie  próby  w  jedną  próbę  o  liczebności  
n =  n

1

  +  n

2

  i  porządkujemy ją  niemalejąco.  Następnie  rangujemy  elementy  uporządkowanej  próby, 

tzn.  numerujemy  jej  elementy  kolejnymi  liczbami  naturalnymi,  poczynając  od  liczby  1.  Jeśli  
w uporządkowanej próbie występują elementy jednakowe, to kaŜdemu z nich przypisujemy tę samą 
rangę, równą średniej arytmetycznej rang tych elementów, gdyby były one róŜne np. gdyby elementy 
o numerach 10, 11 i 12 były sobie równe, to kaŜdemu z nich przypisujemy rangę 11, gdyby elementy 
15 i 16 były sobie równe, to kaŜdemu z nich przypisujemy rangę 15,5. 

                                                 

29

 

Patrz pkt 28.1

 

background image

STATYSTYKA MATEMATYCZNA 

 

74 

Sprawdzianem testu do weryfikacji wysuniętych hipotez (testu Wilcoxona) jest statystyka 

U

n

 = suma rang elementów próby o mniejszej liczebności. 

Rozkład  sprawdzianu,  przy  załoŜeniu  prawdziwości  hipotezy  zerowowej  jest  dla  niewielkich 
liczebności prób stablicowany (pkt 11 części VII „Tablice statystyczne”. Natomiast, gdy min(n

1

, n

2

) ≥ 

4 i n

+ n

 20, to rozkład sprawdzianu jest w przybliŜeniu N(m, σ), gdzie 

(

)

1

1

2

n n +n +1

m=

2

(

)

1 2

1

2

n n n +n +1

σ

=

12

.

 

Przykład 16.10 

Analizujemy czas wykonania pewnego zadania przez dwie grupy pracowników.   
Otrzymane wyniki były następujące: 
Grupa 1 – cecha X 

77,0 

54,6 

99,9 

94,1 

98,6 

99,9 

99,9 

72,0 

90,2 

77,6 

100,0  100,0 

96,0 

92,9 

97,2 

100,0 

Grupa 2 – cecha Y 

60,5 

86,2 

66,3 

100,0 

Wysunięto hipotezy 
H

0

 (Rozkłady cech X i Y mają jednakowe rozkłady), czyli H

0

(F

X

=F

Y

). 

H

1

 (Rozkłady cech X i Y nie mają jednakowych rozkładów), H

1

( F

X

F

Y

). 

Hipotezy te zweryfikujemy za pomocą testu Wilcoxona na poziomie istotności 0,05. 
Wyniki  obu  prób  oraz  ich  łączenie  i  rangowanie  elementów  próby  połączonej  przedstawione  są  w 
poniŜszej tabeli. 
Obliczamy rangi elementów obu prób.  

I próba 

II próba 

Lp. 

wynik  Ranga  wynik  ranga 

54,6 

 

 

 

 

60,5 

 

 

66,3 

72,0 

 

 

77,0 

 

 

77,6 

 

 

 

 

86,2 

90,2 

 

 

92,2 

 

 

10 

94,1 

10 

 

 

11 

96,0 

11 

 

 

12 

97,2 

12 

 

 

13 

98,6 

13 

 

 

14 

99,9 

15 

 

 

15 

99,9 

15 

 

 

16 

99,9 

15 

 

 

17 

 

 

100,0 

18,5 

18 

100,0 

18,5 

 

 

19 

100,0 

18,5 

 

 

20 

100,0 

18,5 

 

 

Uwzględniając, Ŝe n

1

 = 4, n

2

 =16 wyznaczamy wartość sprawdzianu u

n

 = suma rang elementów próby 

o mniejszej liczności u

n

 =

5

.

30

5

.

18

7

3

2

=

+

+

+

   

background image

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 

 

75 

Skorzystamy  z  asymptotycznej  własności  statystyki  U

n

:  U

n

  ma  rozkład  w  przybliŜeniu  normalny  

N(m, σ), gdzie 

(

)

1

1

2

n n +n +1

m=

=42

2

(

)

1 2

1

2

n n n +n +1

σ

=

=10,58

12

Czyli  statystyka   

*

n

n

U - 42

U =

10,58

  ma  rozkład  w  przybliŜeniu  normalny  N(0,1),  przy  załoŜeniu 

prawdziwości hipotezy zerowej. 
Przyjmujemy zbiór krytyczny dwustronny, na poziomie istotności 0,05  

K = (-∞ ; -k> 

<k ; ∞). Liczba k spełnia związek Φ(k) = 1 –α/2 =0,975 

 k = 1,96 

K= (-∞ ; -1,96> 

<1,96 ; ∞) 

*

n

n

u -42 30,5-42

u =

=

=-1,09

10,58

10,58

  

PoniewaŜ u

n

,K, więc nie ma podstaw, by twierdzić, Ŝe cechy X i Y mają róŜne rozkłady, co 

oznacza, Ŝe .przyjmujemy hipotezę zerową. 
Obliczymy jeszcze krytyczny poziom istotności  

Spełnia on związek 

ˆ

(1, 09) 1

2

α

Φ

= −

 Stąd  ˆ

2(1

(1,09)) 2(1 0,8621) 0, 2758

α =

− Φ

=

=

.  

Na zakończenie zweryfikujemy wysunięte hipotezy korzystając z pakietu IBM SPSS Statistics 
wybierając po wpisaniu danych do 2 kolumn (do pierwszej wyniki pomiarów , a do drugiej określenie 
której grupy dotyczą) w kolejności: Analiza → Testy nieparametryczne → Próby niezaleŜne

30

 oraz 

określając Testowane zmienne i Zmienną grupującą. 
 

 

Otrzymany wynik Istotność = 0,275 jest taki sam jak wyznaczony bez wykorzystania programu 
komputerowego graniczny poziom istotności.



 

16.5.2. Test zgodności rozkładów dla prób powiązanych (test rangowanych znaków) 

Z populacji losujemy n elementów i badamy wartości cechy X w dwóch momentach początkowym  
i  końcowym.  Niech  X

1

  będzie  cechą  oznaczającą  wartości  cechy  X  w  momencie  początkowym,  

a  X

2

  cechą  oznaczającą  wartości  cechy  X  w  momencie  końcowym.  Otrzymujemy  dwie  próby 

(powiązane) n elementowe, pierwsza próba (x

11

, x

12

, … , x

1n

), druga próba (x

21

, x

22

, … , x

2n

).  

Obliczamy  róŜnice  x

1i

  –  x

2i

  między elementami I  i  II  próby,  sortujemy  je  niemalejąco  i  rangujemy 

(numerujemy) liczbami od 1 do n. 
Przyjmujemy sprawdzian U

n

 = 

suma rang róŜnic dodatnich 

Dla liczności  

3 n 20

 rozkład dokładny statystyki U

n

 jest stablicowany (pkt 12 części VII „Tablice 

statystyczne”). Dla n > 20 statystyka ta ma rozkład asymptotycznie normalny N(m, σ), gdzie 

(

)

n n+1

m =

4

(

)(

)

n n+1 2n+1

σ

 =

24

                                                 

30

 

W pakiecie IBM SPSS Statistics test ten nosi nazwę Test U Manna-Whitney’a dla prób niezaleznych

  

background image

STATYSTYKA MATEMATYCZNA 

 

76 

Przykład 16.11 

Na  poziomie  istotności 

α

=0,001  weryfikuje  się  hipotezę  o  równości  stochastycznej  czasu 

wykonywania pewnego zadania przed i po szkoleniu.  
Uwzględnia  się,  Ŝe  dotychczasowe  badania  wykazały  skrócenie  czasu  wykonywania  zadania  na 
skutek szkolenia. 
Zatem weryfikowane hipotezy mają postać: 

(

)

1

2

0

X

X

H F = F

                 

1

2

1

X

X

H (F > F )  

X

1

 – czas wykonania zadania przed szkoleniem, 

X

- czas wykonania zadania po szkoleniu. 

Przebieg wyznaczania rang przedstawiono w poniŜszej tabeli: 

x

1i

 

x

2i

 

x

1i

-x

i2

 

Uporządkowane 

róŜnice 

Rangi 

róŜnic 

0,71 

0,20 

0,51 

-0,24 

2,2 

0,11 

2,09 

0,38 

2,12 

0,17 

1,95 

0,51 

1,40 

0,12 

1,28 

0,63 

3,24 

0,36 

2,88 

1,02 

2,79 

0,21 

2,58 

1,09 

3,59 

0,53 

3,06 

1,28 

1,90 

0,13 

1,77 

1,71 

0,81 

0,18 

0,63 

1,77 

10 

2,54 

0,19 

2,35 

1,95 

10 

11 

0,60 

0,22 

0,38 

2,09 

11 

12 

1,31 

0,29 

1,02 

2,35 

12 

13 

1,28 

0,19 

1,09 

2,58 

13 

14 

1,93 

0,22 

1,71 

2,88 

14 

15 

3,84 

0,49 

3,35 

3,06 

15 

16 

0,08 

0,32 

-0,24 

3,35 

16 

Z podanej tabeli otrzymuje się sumę rang dla róŜnic dodatnich U

n

  =  135.   

Przyjmujemy  zbiór  krytyczny  prawostronny  K  =  <k  ;  ∞).  Z  tablicy  wyznaczamy  k  =  122,  zatem 
hipotezę zerową H

0

, Ŝe cechy mają jednakowy rozkład naleŜy odrzucić. 

Na zakończenie zweryfikujemy wysunięte hipotezy korzystając z pakietu IBM SPSS Statistics 
wybierając po wpisaniu danych do 2 kolumn (do pierwszej wyniki pomiarów z I okresu , a do drugiej 
z II okresu) w kolejności: Analiza → Testy nieparametryczne → Testy tradycyjne → Dwie próby 
zaleŜne → Test Wilcoxona

31

                                                 

31

 W pakiecie IBM SPSS Statistics test ten nosi nazwę Test znaków rangowanych Wilcoxona 

background image

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 

 

77 

Otrzymane wyniki są następujące: 
 

 

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Otrzymano taką samą wartość statystyki Suma rang dodatnich = 135



 

16.6. Algorytmizacja obliczeń 

16.6.1. Wykorzystanie arkusza Excel 

Lp 

Zakres analizy statystycznej 

Funkcje 

statystyczne 

Narzędzia statystyczne 

1.

 

Weryfikacja hipotezy o wartości 
oczekiwanej przy znanej i nieznanej 
wariancji 

TEST.Z 

2.

 

Weryfikacja  hipotezy  o  równości  wartości 
oczekiwanych przy równych wariancjach 

TEST.T 

Test t: z dwiema próbami 

zakładający równe 

wariancje 

3.

 

Weryfikacja  hipotezy  o  równości  wartości 
oczekiwanych przy róŜnych wariancjach 

TEST.T 

Test t: z dwiema próbami 

zakładający nierówne 

wariancje 

4.

 

Weryfikacja  hipotezy  o  równości  wartości 
oczekiwanych przy próbach powiązanych 

TEST.T 

Test t: par skojarzonych  

z dwiema próbami dla 

ś

redniej 

5.

 

Weryfikacja hipotezy o równości wariancji 

TEST.F 

Test F: z dwiema próbami 

dla wariancji 

6.

 

Weryfikacja hipotezy o niezaleŜności cech 

TEST.CHI 

background image

STATYSTYKA MATEMATYCZNA 

 

78 

16.6.2.Zasady wyboru testu przy dwóch próbach

 

Na  poniŜszym  rysunku  przedstawiono  schemat  blokowy  wyboru  testów  do  oceny  istotności  róŜnic 
rozkładu określonej cechy w dwóch warunkach. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

 

 

 

 
 
 
 
 
 
 
 
 

 

 

Rys.  18.1. Schemat blokowy wyboru testów statystycznych do oceny istotności róŜnic rozkładu cechy  

w dwóch róŜnych warunkach 

Wszystkie te testy zostały opisane lub wspomniane

32

 w dotychczasowych rozwaŜaniach. 

                                                 

32

 W zaleŜności od liczebności póby stosuje się test zgodności chi-kwadrat lub test Shapiro-Wilka. 

Test  McNemary  i  test  dokładny  Fishera,  a  takŜe  test  Shapiro-Wilka  umoŜliwiający  ocenę  normalności  rozkładu  na 

podstawie prób o małych liczebnościach zostały opisane w części drugiej podręcznika. 

Początek 

Czy próby powiązane 

NIE 

TAK 

Skala cechy 

PRZEDZ. 

PORZĄDK. 

NOMINALNA 

Skala cechy 

NOMINALNA 

PRZEDZ. 

PORZĄDK. 

Czy cecha ma rozkład 

normalny

18 

 

TAK 

NIE 

Małe liczności prób 

NIE 

TAK 

Czy cecha ma rozkład 

normalny

18

 

TAK 

NIE 

Czy wariancje cechy 

przy 2 warunkach równe 

TAK 

NIE 

Czy próby powiązane 

TAK 

NIE 

Test 

Studenta 

dla prób 

niepo-

wiąza-

nych 

Test 

Cochrana

- Coxa 

Test 

Wilco-

xona 

Test 

McNe-

mara 

Test chi 
kwadrat 

Test 

dokładny 

Fishera

 

Test 

Studenta 

dla prób 

powiąza-

nych 

Test 

rango-

wanych 
znaków 

Koniec 

background image

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 

 

79 

 

17. ANALIZA KORELACJI I REGRESJI DWÓCH ZMIENNYCH 

17.1. Wprowadzenie 

Badamy populację ze względu na dwie cechy, które modelujemy zmiennymi losowymi X i Y.  
Mówimy  wówczas,  Ŝe  populacja  jest  badana  ze  względu  na  zmienną  losową  dwuwymiarową  
(X, Y), zaś populację nazywamy 

populacją dwuwymiarową.

 

Próba z populacji dwuwymiarowej

 jest to ciąg n wyrazowy zmiennych losowych dwuwymiarowych 

                                                          

1

1

2

2

n

n

(X ,Y ),(X ,Y ), ...,(X ,Y )                                           (17.1) 

niezaleŜnych  (dwuwymiarowo)

33

  o  jednakowym  rozkładzie  takim  jak  rozkład  zmiennej  losowej 

dwuwymiarowej (X, Y).  
KaŜdy ciąg 
                                                            

1

1

2

2

n

n

(x ,y ),(x ,y ), ...,(x ,y )        

                              (17.2) 

będący wartością próby (17.1) nazywamy realizacją próby z populacji dwuwymiarowej. 
Przedmiotem  rozwaŜań  w  tym  rozdziale  będą  następujące  zagadnienia  oparte  o  próbę  z  populacji 
dwuwymiarowej: 

 

Analiza korelacji, tzn. wywnioskowanie o sile związku liniowego między cechami X i Y.  

 

Analiza regresji (prowadzona, jeŜeli siła związku liniowego jest duŜa) aproksymowanie związku 

między cechami zaleŜnością liniową. 

Podstawą rozwaŜań będą statystyki z próby dwuwymiarowej 

1

1

2

2

n

n

(X ,Y ),(X ,Y ), ...,(X ,Y )  

n

n

i

i

i=1

i=1

1

1

X=

X ,

Y=

Y

n

n

 - średnie z próby odpowiednio cechy X i cechy Y 

n

n

2

2

2

2

i

i

i=1

i=1

1

1

X =

X ,

Y =

Y

n

n

 - momenty rzędu 2 z próby odpowiednio cechy X i cechy Y 

n

n

2

2

2

2

X

i

Y

i

i=1

i=1

1

1

S =

(X -X) , S =

(Y -Y)

n

n

 - wariancje z próby odpowiednio cechy X i Y 

n

i

i

i=1

1

(XY) =

X Y

n

 - moment rzędu 2 z próby mieszany cech X i Y 

n

n

2

2

2

2

X

i

Y

i

i=1

i=1

1

1

S =

(X -X) , S =

(Y -Y)

n

n

 - odchylenia standardowe z próby cechy X i Y 

n

XY

i

i

i=1

1

COV =

(X -X)(Y -Y)

n

- kowariancja z próby cech X i Y 

Y

X

XY

S

S

COV

R =

 - współczynnik korelacji Pearsona z próby cech X i Y. 

Związki między statystykami 

2

2

2

2

2

2

X

Y

S =X -(X) ,

S =Y -(Y)

 

XY

COV =(XY)-XY  

2

2

2

2

(XY)-XY

R=

X -(X)

Y -(Y)

 

                                                 

33

 

Zmienne losowe dwuwymiarowe (X

1

,Y

1

) i (X

2

,Y

2

) są niezaleŜne (dwuwymiarowo) jeśli dystrybuanta zmiennej losowej 

czterowymiarowej (X

1

,Y

1

,X

2

,Y

2

) jest równa iloczynowi dystrybuant zmiennych losowych dwuwymiarowych (X

1

,Y

1

) i 

(X

2

,Y

2

).

 

background image

STATYSTYKA MATEMATYCZNA 

 

80 

17.2. Analiza korelacji

 

17.2.1. Uwagi wstępne 
Jak ju

Ŝ

 było powiedziane, w dziale statystyki zwanym analiz

ą

 korelacji bada si

ę

 czy istnieje zale

Ŝ

no

ść

 

mi

ę

dzy cechami populacji i jaka jest siła tej zale

Ŝ

no

ś

ci. Ograniczymy si

ę

 do badania istnienia i siły 

zwi

ą

zku  liniowego.  Jak  ju

Ŝ

  wiemy  do  tego  celu  słu

Ŝ

y  współczynnik  korelacji  ρ   badanych  cech 

populacji. Rzecz jednak w tym, 

Ŝ

e w zagadnieniach praktycznych warto

ść

 tego współczynnika nie jest 

znana. Nale

Ŝ

y zatem wnioskowa

ć

 o  ρ  na podstawie próby. St

ą

d nazwa działu statystyki, który podaje 

reguły wnioskowania o tym parametrze. 
Analiza  korelacji  opiera  si

ę

  na  poni

Ŝ

szych  twierdzeniach,  które  s

ą

  prawdziwe  przy  zało

Ŝ

eniu, 

Ŝ

zmienna  losowa  dwuwymiarowa  (X,  Y)  ze  wzgl

ę

du  na  któr

ą

  badana  jest  populacja  ma  rozkład 

normalny o współczynniku korelacji  ρ . 

Tw.17.1. Współczynnik korelacji z próby R ma rozkład asymptotycznie normalny 

2

1-

ρ

N

ρ

,

n

(Zgodno

ść

 rozkładu R z rozkładem normalnym jest dobra dopiero dla wielkich prób n 

 500). 

Tw.17.2. Statystyka 

n

1 1+R

U = ln

2

1-R

 ma rozkład asymptotycznie normalny  

1 1+

ρ

1

N

ln

,

2

1-

ρ

n-3

(Zgodno

ść

  rozkładu  U

n

  z  rozkładem  normalnym  jest  dobra  nawet  dla  niewielkich  prób    

 20). 

Tw.17.3.  Je

ś

li  cechy  X  i  Y  s

ą

  nieskorelowane  (

ρ

  =  0),  to  statystyka 

n

2

R

U =

n-2

1-R

  ma  rozkład 

Studenta z n –2 stopniami swobody. 
 
Uwaga: Poniewa

Ŝ

 zało

Ŝ

ono, 

Ŝ

e (X,Y) ma rozkład normalny i 

ρ

 = 0, wi

ę

c cechy X i Y s

ą

 niezale

Ŝ

ne. 

17.2.2. Estymacja współczynnika korelacji cech populacji 
Przyjmujemy, 

Ŝ

e  estymatorem  współczynnika  korelacji 

ρ

  cech  X  i  Y  populacji  jest  współczynnik 

korelacji R z próby

34

. Jego warto

ść

 wyznaczana na podstawie próby 

1

1

n

n

(x , y ),...,(x , y ) wynosi 

n

i

i

xy

i 1

n

n

2

2

2

2

x y

2

2

i

i

i 1

i 1

1

(x

x)(y

y)

cov

x y x y

n

r

s s

1

1

x

(x)

y

(y)

(x

x)

(y

y)

n

n

=

=

=

⋅ − ⋅

=

=

=

 

Estymator R jest estymatorem zgodnym i asymptotycznie nieobci

ąŜ

onym współczynnika 

ρ

Do wyznaczania oceny r estymatora R wygodnie jest korzysta

ć

 ze wzoru 

n

n

n

i i

i

i

i=1

i=1

i=1

2

2

n

n

n

n

2

2

i

i

i

i

i=1

i=1

i=1

i=1

n

x y -

x

y

r=

n

x -

x

n

y -

y

 

 

 

 

                                                 

34

 Współczynnik ten nazywany jest często współczynnikiem korelacji Pearsona. Jest on estymatorem uzyskanym metodą 

momentów oraz przy załoŜeniu, Ŝe (X, Y) ma rozkład normalny - metodą największej wiarogodności.

 

background image

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 

 

81 

A. Je

ś

li cechy X i Y populacji maj

ą

 ł

ą

czny rozkład normalny o współczynniku korelacji ρ i liczebno

ść

  

próby   n 20

, to przedziałem ufno

ś

ci dla ρ , na poziomie ufno

ś

ci 1− 

α

 jest przedział 

 

 

 

2A

2B

2A

2B

e

1

e

1

;

e

1

e

1

+

+

,   gdzie 

u

1

1 R

A

ln

2 1 R

n 3

α

+

=

,  

u

1

1 R

B

ln

2 1 R

n 3

α

+

=

+

 

u

α

 wyznaczamy z równo

ś

ci   (u ) 1

2

α

α

Φ

= −

 

W konstrukcji tego przedziału ufno

ś

ci korzystamy z tw. 17.2. 

Przykład 17.1 
Przy  badaniu zale

Ŝ

no

ś

ci cech X i Y otrzymano na podstawie próby 25 elementowej współczynnik 

korelacji  0,63. Na poziomie ufno

ś

ci 0,98 oszacujemy przedziałem ufno

ś

ci współczynnik korelacji 

ρ

 

obu cech. Zakładamy, 

Ŝ

e cechy te maj

ą

 ł

ą

czny rozkład normalny. 

Rozwiązanie  

 

(u ) 1

0,99

u

2,33

2

u

1

1 r

1

1 0, 63

2,33

a

ln

ln

0, 245

2 1 r

2 1 0, 63

n 3

25 3

u

1

1 r

1

1 0, 63

2,33

b

ln

ln

1, 238

2

1 r

2

1 0, 63

n 3

25 3

α

α

α

α

α

Φ

= −

=

=

+

+

=

=

=

+

+

=

+

=

+

=

 

 

2a

2a

2 0,245

21,238

2a

2a

2 0,245

2 1238

e

1

e

1

e

1 e

1

;

;

0, 24 ; 0,83

e

1

e

1

e

1

e

1

=

=<

>

+

+

+

+

 

   
Odp.  <0,24 ;  0,83> 



 

B. Je

ś

li  cechy  X  i  Y  populacji  maj

ą

  ł

ą

czny  rozkład  normalny  o  współczynniku  korelacji  ρ ,  to 

przedziałem ufno

ś

ci dla  ρ , na poziomie ufno

ś

ci 1 – 

α

 jest przedział 

 

n

R

1

u

R

;

n

R

1

u

R

2

2

+

α

α

, gdzie 

α

(u ) 1

2

α

Φ

= −

, dla licznej próby n 

 500 

Przy konstrukcji tego przedziału ufno

ś

ci korzystamy z tw. 17.1. 

Przykład 17.2 
Badano zale

Ŝ

no

ść

 mi

ę

dzy pr

ę

dko

ś

ci

ą

 samochodu (cecha X) a jego drog

ą

 zatrzymania (cecha Y). Na 

podstawie próby 900 elementowej otrzymano współczynnik korelacji 0,85. Zakładaj

ą

c, 

Ŝ

e (X, Y) ma 

rozkład normalny, oszacuj współczynnik korelacji cech X i Y na poziomie ufno

ś

ci 0,96. 

Rozwiązanie 

n = 900 r = 0,85,  1 – 

α

 = 0,96 

α

(u ) 1

2

α

Φ

= −

= 1 – 0,04/2= 0,98  ⇒  u 

α

 =2,05 

r-

ε

: r+

ε

 

2

2

α

1-r

1-0,85

ε

 = u

=2,05

=

n

900

0,019 

<0,85 – 0,019; 0,85 + 0,019> = <0,831; 0,869> 
Odp. <0,831; 0,869>



 

background image

STATYSTYKA MATEMATYCZNA 

 

82 

17.2.3. Weryfikacja hipotez o współczynniku korelacji

  

Badana  jest  populacja  ze  wzgl

ę

du  na  zmienn

ą

  losow

ą

  dwuwymiarow

ą

  (X,  Y)  o  rozkładzie 

normalnym  i  współczynniku  korelacji 

ρ

,  którego  warto

ść

  nie  jest  znana.  O  współczynniku 

ρ

 

wysuwamy hipotezy: zerow

ą

 

0

0

H (

ρ

=

ρ

)   i  alternatywn

ą

  w  postaci 

1

1

H (

ρ

=

ρ

)   lub 

1

0

H (

ρ

>

ρ

)   lub 

1

0

H (

ρ

 < 

ρ

)   lub 

1

0

H (

ρ

ρ

)

.  Powy

Ŝ

sze  hipotezy  zerow

ą

  i  alternatywn

ą

  nale

Ŝ

y  zweryfikowa

ć

  na 

poziomie istotno

ś

ci 

α

Przyjmujemy, 

Ŝ

e sprawdzianem jest statystyka 

0

n

0

1+

ρ

1 1+R 1

U =

ln

- ln

n-3

2

1-R 2

1-

ρ

 

Rozkład  statystyki 

n

0

U /

ρ

  dla  n 

  20  mało  ró

Ŝ

ni  si

ę

  od  rozkładu  normalnego  N(0,  1)  (tw.  17.2). 

Powy

Ŝ

sze informacje i sposób wyznaczenia zbioru krytycznego przedstawiamy w tabeli 

Tabela 17.1. Testy do weryfikacji hipotezy o współczynniku korelacji 

Przykład 17.3 
Badano zale

Ŝ

no

ść

 mi

ę

dzy cen

ą

 jednostkow

ą

 towaru (cecha X) a popytem na ten towar (cecha Y). Na 

podstawie  próby  28  elementowej  otrzymano  współczynnik  korelacji  -  0,86.  Na  poziomie  istotno

ś

ci 

0,03  sprawdzimy  hipotezy:  zerow

ą

Ŝ

e  współczynnik  korelacji  w  populacji  jest  równy  -0,90  

i alternatywn

ą

Ŝ

e jest wi

ę

kszy od - 0,90. 

Rozwiązanie 
n = 28,  r =  -0,86,   

α

 = 0,03,    

0

H (

ρ

 = -0,90) ,    

1

H (

ρ

 > -0,90)  

Stosujemy test nr KR-1. Obliczamy warto

ść

 sprawdzianu 

u

n

 = 

0

0

1+

ρ

1 1+r 1

ln

- ln

n-3

2

1-r 2

1-

ρ

=

1

1-0,86 1

1-0,90

ln

- ln

28-3=0,89

2 1+0,86 2 1+0,90

 

Wyznaczamy zbiór krytyczny 
K =  k ;

<

∞ ),    (k) 1 α

Φ

= − = 1 – 0,03 = 0, 97  ⇒  k =  1,88  K = 

<

;

88

,

1

)     

Podejmujemy decyzj

ę

: poniewa

Ŝ

 

K

u

n

, wi

ę

c hipotez

ę

 zerow

ą

 przyjmujemy. 



 

Na zako

ń

czenie rozwa

Ŝ

a

ń

 zajmiemy si

ę

 weryfikacj

ą

 hipotez o istotno

ś

ci współczynnika korelacji.  

Badana  jest  populacja  ze  wzgl

ę

du  na  zmienn

ą

  losow

ą

  dwuwymiarow

ą

  (X,  Y)  o  rozkładzie 

normalnym,  o  współczynniku  korelacji 

ρ

,  którego  warto

ść

  nie  jest  znana.  O  współczynniku 

ρ

 

wysuwamy hipotez

ę

 zerow

ą

 

0

H (

ρ

 = 0)  

tzn., 

Ŝ

e warto

ść

 współczynnika korelacji jest nieistotna i jedn

ą

 z poni

Ŝ

szych hipotez alternatywnych 

 

)

(

H

1

1

ρ

=

ρ

 - warto

ść

 współczynnika korelacji jest istotna i równa 

1

ρ

 

)

0

(

H

1

>

ρ

   - warto

ść

 współczynnika korelacji jest istotnie dodatnia, 

 

)

0

(

H

1

<

ρ

   - warto

ść

 współczynnika korelacji jest istotnie ujemna, 

 

)

0

(

H

1

ρ

   - warto

ść

 współczynnika korelacji jest istotna. 

Powy

Ŝ

sze hipotezy zerow

ą

 i alternatywn

ą

 nale

Ŝ

y zweryfikowa

ć

 na poziomie istotno

ś

ci 

α

Uwaga: Hipoteza  zerowa 

0

H (

ρ

 = 0) oznacza, 

Ŝ

e  zmienne  losowe  s

ą

  nieskorelowane,  a  poniewa

Ŝ

  

z zało

Ŝ

enia maj

ą

 dwuwymiarowy rozkład normalny, wi

ę

c s

ą

 niezale

Ŝ

ne. 

H

1

 

Sprawdzian U

Rozkład sprawdzianu 

Zbiór krytyczny K 

Wyznaczanie 

liczby k 

Nr 

testu 

1

0

H (

ρ

>

ρ

)  

k ;

<

∞ ) 

(k) 1

Φ

= − α  

KR-1 

1

0

H (

ρ

 < 

ρ

)  

(

; k

−∞ − >  

(k) 1

Φ

= − α  

KR-2 

1

0

H (

ρ

ρ

)

 

0

0

1+

ρ

1 1+R 1

ln

- ln

n-3

2

1-R 2

1-

ρ

 

W przybli

Ŝ

eniu N(0,1) dla 

liczebno

ś

ci próby n > 20 

(

; k

−∞ − > ∪

k ;

<

∞ ) 

(k) 1 α / 2

Φ

= −

  KR-3 

background image

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 

 

83 

Przyjmujemy, 

Ŝ

e sprawdzianem jest statystyka 

n

2

R

U =

n-2

1-R

 

Rozkład  statystyki 

0

/

U

n

=

ρ

  ma  rozkład  Studenta  z  n-2  stopniami  swobody  (tw.17.3).  Powy

Ŝ

sze 

informacje i sposób wyznaczenia zbioru krytycznego przedstawiamy w tabeli.  

Tabela17.2. Testy do weryfikacji hipotezy o istotności współczynnika korelacji 

T

n-2

 - zmienna losowa o rozkładzie Studenta z n – 2 stopniami swobody. 

Przykład 17.4. 
Z  populacji  dwuwymiarowej  o  rozkładzie  normalnym  pobrano  prób

ę

  11  elementow

ą

  

i obliczono, 

Ŝ

e współczynnik korelacji z tej próby wynosi 0,2. Na poziomie istotno

ś

ci 0,01 sprawd

ź

 

czy współczynnik w populacji badanych cech jest istotny. 

Rozwiązanie 
n =11,  r = 0,2,  

α

 = 0,01,  

0

H (

ρ

 = 0) ,   

1

H (

0)

ρ ≠

 

Stosujemy test KR-6. Warto

ść

 sprawdzianu na podstawie próby  

n

2

2

r

0,2

u =

n-2=

11-2=0,61

1-r

1-0,2

 

Zbiór krytyczny K = (

; k

−∞ − > ∪

k ;

<

∞ ) 

Wyznaczanie k: 

(

)

9

P T

k

0, 01

=

   ⇒  k = 3,25,  K =

>

−∞

25

,

3

;

(

<

;

25

,

3

Decyzja: poniewa

Ŝ

 

K

u ∉

α

, wi

ę

c hipotez

ę

 zerow

ą

 

0

H (

ρ

 = 0)  przyjmujemy. 

Odp. Nie ma podstaw do twierdzenia, 

Ŝ

e współczynnik korelacji jest istotny. 



 

1

H  

Sprawdzian U

Rozkład sprawdzianu 

Zbiór krytyczny K 

Wyznaczanie 

liczby k 

Nr 

testu 

1

H (

ρ

 > 0)  

K =

< ;

k

(

)

n-2

P T

k

=

  KR-4 

1

H (

ρ

 < 0)  

K =

>

−∞

k

;

(

 

(

)

n-2

P T

k

=

  KR-5 

1

H (

ρ

0)

 

 

2

n

R

1

R

U

2

n

=

 

Studenta z n – 2 stopniami 

swobody 

K=

>

−∞

k

;

(

< ;

k

(

)

n-2

P T

k = α

 

KR-6 

background image

STATYSTYKA MATEMATYCZNA 

 

84 

Przykład 17.4a 
Na zako

ń

czenie obliczymy współczynnik korelacji dla danych  z przykładu 2.24 podanego w cz

ęś

ci 

„Statystyka opisowa” korzystaj

ą

c z pakietu IBM SPSS Statistics wybieraj

ą

c po wpisaniu danych do 2 

kolumn (do pierwszej wyniki egzaminu z matematyki, a do drugiej wyniki egzaminu ze statystyki) w 
kolejno

ś

ci: Analiza 

 Korelacje parami 

 Współczynnik korelacji Pearsona. 

Otrzymane wyniki s

ą

 nast

ę

puj

ą

ce: 

 

Otrzymali

ś

my oczywi

ś

cie taki sam wynik z dodatkow

ą

 ocen

ą

Ŝ

e współczynnik korelacji jest istotnie 

Ŝ

ny od zera na poziomie istotno

ś

ci 0,01.  

17.2.4. Współczynnik korelacji Spearmana 
Współczynnik  korelacji  Spearmana  słu

Ŝ

y  do  badania  siły  zwi

ą

zku  liniowego  mi

ę

dzy  cechami 

niemierzalnymi  w  skali  porz

ą

dkowej.  Losujemy  z  populacji  n  elementów.  Porz

ą

dkujemy  je  wg 

wariantów pierwszej cechy i rangujemy, nast

ę

pnie porz

ą

dkujemy wg wariantów drugiej cechy, tak

Ŝ

rangujemy.  W  ten  sposób  otrzymujemy  ci

ą

g  n  wyrazowy  par  liczb  rzeczywistych,  który  jest  prób

ą

  

z populacji dwuwymiarowej, badanej ze wzgl

ę

du na zmienn

ą

 losow

ą

 dwuwymiarow

ą

 (X, Y), gdzie X 

i  Y s

ą

  modelami cech.  

Współczynnik korelacji Spearmana cech w skali porz

ą

dkowej jest to współczynnik korelacji Pearsona 

rang tych cech i wyra

Ŝ

a si

ę

 wzorem 

(

)

2

6su

r'=1-

n n -1

gdzie: su - suma kwadratów ró

Ŝ

nic pomi

ę

dzy rangami elementów próby, tzn. 

n

2

i

i

i=1

su=

[k -l ]

, przy czym 

i i

(k ,l )  - rangi elementu próby o numerze i. 

Poniewa

Ŝ

  współczynnik  Spearmana    r’  jest  szczególnym  przypadkiem  współczynnika  korelacji 

(Pearsona), wi

ę

c ma wszystkie jego własno

ś

ci i tak: 

  -1 

 r’ 

 1 

  r

1

′ =

⇔ ,  gdy  ka

Ŝ

dy element próby ma rangi obu cech jednakowe 

  r

1

′ = −

⇔ , gdy suma rang obu cech populacji jest stała 

  Je

ś

li rangi k

i

 i s

i

 w ka

Ŝ

dej parze rang 

i i

(k ,l ) s

ą

 warto

ś

ciami zmiennych losowych niezale

Ŝ

nych, to 

r

0

′ = . 

background image

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 

 

85 

W  wypadku  wyst

ę

powania  takich  samych  elementów  próby,  czego  konsekwencj

ą

  jest 

przyporz

ą

dkowanie  im  takich  samych  rang  (równych 

ś

redniej  arytmetycznej  rang  przy  ró

Ŝ

nej 

warto

ś

ci  elementów)  nie  mo

Ŝ

na  oblicza

ć

  współczynnika  korelacji  Spearmana,  gdy

Ŝ

  wzór  na  ten 

współczynnik został wyprowadzony przy zało

Ŝ

eniu, i

Ŝ

 wszystkie rangi k

i

 s

ą

 ró

Ŝ

ne i wszystkie rangi l

i

 

s

ą

 ró

Ŝ

ne. Mo

Ŝ

na wprawdzie w tej sytuacji wprowadza

ć

 pewne poprawki, w rezultacie czego wzór na 

współczynnik  ulega  zmianie,  wydaje  si

ę

  jednak, 

Ŝ

e  pro

ś

ciej  jest  obliczy

ć

  wówczas  współczynnik 

korelacji Pearsona. 
Współczynnik  korelacji  Spearmana  mo

Ŝ

na  tak

Ŝ

e  stosowa

ć

  do  badania  siły  korelacji  liniowej  cech  

w skali przedziałowej, nale

Ŝ

y jednak najpierw przetransformowa

ć

 prób

ę

 na skal

ę

 porz

ą

dkow

ą

Przykład 17.5 
Z populacji pracowników pewnej firmy pobrano prób

ę

 16 elementow

ą

, w celu zbadania siły korelacji 

liniowej mi

ę

dzy wiekiem - X, a wag

ą

 - Y.  

X  28  34 

30 

42 

27 

38 

41 

20  21 

23 

18 

42 

28 

40 

31 

43 

Y  77  54,6  99,9  94,1  98,6  99,9  99,9  72  90,2  77,6  100  100  96.0  92,9  97,2  100 

 

Próby posortowane wg 

wieku 

 

Próby posortowane 

wg wagi 

Wiek 

Waga 

Rangi 
wieku 

 

Wiek 

Waga 

Rangi 
wieku 

Rangi wagi 

Kwadrat 

róŜnicy rang 

18 

100 

 

34 

54,6 

10 

81 

20 

72 

 

20 

72 

21 

90,2 

 

28 

77 

6,5 

12,25 

23 

77,6 

 

23 

77,6 

27 

98,6 

 

21 

90,2 

28 

77 

6,5 

 

40 

92,9 

12 

36 

28 

96.0 

6,5 

 

42 

94,1 

14,5 

56,25 

30 

99,9 

 

28 

96 

6,5 

2,25 

31 

97,2 

 

31 

97,2 

34 

54,6 

10 

 

27 

98,6 

10 

25 

38 

99,9 

11 

 

30 

99,9 

12 

16 

40 

92,9 

12 

 

38 

99,9 

11 

12 

41 

99,9 

13 

 

41 

99,9 

13 

12 

42 

94,1 

14,5 

 

18 

100 

15 

196 

42 

100 

14,5 

 

42 

100 

14,5 

15 

0,25 

43 

100 

16 

 

43 

100 

16 

15 

 

 

 

   

 

 

Suma 

432 

 

 

Zatem su = 432, czyli współczynnik korelacji Spearmana  

(

)

2

6su

6 432

r'=1-

1

0,364706

26 255

n n -1

= −

=

 

Współczynnik korelacji rang r

1

 = 0,360004, współczynnik korelacji w próbie r = 0,30568. 

Na zako

ń

czenie zweryfikujemy wysuni

ę

te hipotezy korzystaj

ą

c z pakietu IBM SPSS Statistics 

wybieraj

ą

c po wpisaniu danych do 2 kolumn (do pierwszej wyniki pomiarów wagi , a do drugiej 

wyniki pomiarów wzrostu) w kolejno

ś

ci: Analiza 

 Korelacje parami 

 Współczynnik korelacji 

Spearman. 

background image

STATYSTYKA MATEMATYCZNA 

 

86 

 

Otrzymane wyniki s

ą

 nast

ę

puj

ą

ce: 

 
 
 

Otrzymany warto

ść

 współczynnika = 0,36 jest taka sama jak wyznaczona wyznaczony. Dodatkowo 

został wyznaczony graniczny poziom istotno

ś

ci.



 

background image

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 

 

87 

17.2.5. Współczynnik korelacji Cramera 
Badamy sił

ę

 zale

Ŝ

no

ś

ci stochastycznej dwóch cech populacji X i Y. Cech

ę

 X dzielimy na r grup, za

ś

 

Y na s grup, zatem wszystkich grup otrzymujemy rs. Stosuj

ą

c oznaczenia z punktu 17.6 obliczamy 

warto

ść

 sprawdzianu z testu chi kwadrat zastosowanego do badania niezale

Ŝ

no

ś

ci cech  

                                                                     

2

r

s

ij

ij

n

i=1 j=1

ij

ˆ

(n -n )

u =

ˆn

∑∑

                                                (17.3) 

gdzie:  

i.

ij

n n.j

ˆn =

n

 

Współczynnik korelacji Cramera

 jest to parametr v okre

ś

lony wzorem 

n

u

v =

w

 

gdzie: u

n

 - jest okre

ś

lone wzorem (17.3), a  w = n min (r-1,s-1)

Współczynnik  Cramera przyjmuje warto

ś

ci z przedziału <0,1>. 

Interpretacja  
Z  rozwa

Ŝ

a

ń

  przeprowadzonych  w  punkcie 

17.6

  wynika, 

Ŝ

e  gdy  u

n

  jest  równe  zeru,  to  cechy  s

ą

 

niezale

Ŝ

ne, natomiast, gdy ma warto

ść

 maksymaln

ą

, to mo

Ŝ

na wykaza

ć

 i

Ŝ

 zale

Ŝ

no

ść

 mi

ę

dzy cechami 

jest  funkcyjna.  Zatem  współczynnik  Cramera  im  bli

Ŝ

szy  jest  zeru,  tym    bardziej  zale

Ŝ

no

ść

 

stochastyczna cech słabnie, im bli

Ŝ

szy jest 1, tym zale

Ŝ

no

ść

 ta staje si

ę

 mocniejsza, aby w przypadku 

v  =1  sta

ć

  si

ę

  zale

Ŝ

no

ś

ci

ą

  funkcyjn

ą

.  Zatem:  współczynnik  Cramera  cech  X  i  Y  jest  miarą  siły 

zaleŜności stochastycznej cech X i Y populacji. 

Przykład 17.6 
Obliczymy  współczynnik  Cramera  cechy  X  -  skuteczno

ść

  leczenia  i  cechy  Y  -  płe

ć

  pacjenta,  na 

podstawie danych przedstawionych w tabeli kontygencyjnej  

Skuteczno

ść

 leczenia 

Płe

ć

 

Razem 

12 

15 

Razem 

16 

23 

Obliczenia 

ij

ˆn  

5,6 

1,4 

1,0 

10,4 

2,6 

2,0 

Poniewa

Ŝ

 kolumny druga i trzecia s

ą

 mało liczne, ł

ą

czymy je w jedn

ą

 kolumn

ę

 

             j             

n

i.

 

12 

15 

n

.j

 

16 

23 

Poniewa

Ŝ

 dane zgrupowane s

ą

 w 4 klasach, wi

ę

c stosujemy wzór ( patrz punkt 17.6) 

2

2

n

n(ad-bc)

23 (4 3 4 12)

u =

2, 22

(a+b)(a+c)(b+d)(c+d)

8 16 15 7

⋅ − ⋅

=

=

 

2, 22

v

0,32

23 1

=

=

background image

STATYSTYKA MATEMATYCZNA 

 

88 

17.3. Analiza regresji 

17.3.1. Uwagi wstępne  
Je

ś

li  w  analizie  korelacji  stwierdzono, 

Ŝ

e  siła  zale

Ŝ

no

ś

ci  liniowej  cech  populacji  jest  du

Ŝ

(współczynnik  korelacji 

ρ

  ma  moduł  bliski  jedno

ś

ci),  to  zale

Ŝ

no

ść

  stochastyczn

ą

  cech  mo

Ŝ

na 

aproksymowa

ć

 zale

Ŝ

no

ś

ci

ą

 liniow

ą

, czyli wyznaczy

ć

 regresj

ę

 linow

ą

 cechy Y wzgl

ę

dem cechy X (lub 

odwrotnie) i prost

ą

 regresji. Jak ju

Ŝ

 wiemy regresja liniowa wyra

Ŝ

a si

ę

 wzorem 

       

Y

Y

X

Y

β

+

α

=

)

 

regresja liniowa (teoretyczna) cechy Y względem cechy

 

Y

Y

x

y

β

+

α

=

)

  

równanie prostej regresji cechy Y względem cechy X 

Współczynniki regresji 

Y

Y

i β

α

s

ą

 wyznaczone zgodnie z zasad

ą

 najmniejszych kwadratów, tzn. tak, 

by funkcja g(

α

,

β

) = E[Y – (

α

X + 

β

)]

2

  miała w punkcie (

α

Y

 , 

β

Y

) warto

ść

 najmniejsz

ą

Na podstawie tej zasady obliczamy, 

Ŝ

e  

10

Y

01

Y

X

Y

Y

m

m

,

α

=

β

ρ

σ

σ

=

α

(pkt 4.5) 

Jednak  w  zagadnieniach  praktycznych  nie  s

ą

  znane  warto

ś

ci 

Y

Y

i β

α

  współczynników  regresji. 

Dlatego musz

ą

 by

ć

 one oszacowane na postawie próby. 

17.3.2. Estymatory współczynników regresji  

Wyznaczymy estymatory A

Y

 oraz B

współczynników regresji

Y

Y

i β

α

Metoda m om entów 
Jak  ju

Ŝ

  wiemy  metoda  momentów  estymacji  parametrów  polega  na  przyj

ę

ciu, 

Ŝ

e  estymatorem 

momentu  populacji  jest  b

ę

d

ą

cy  jego  odpowiednikiem  moment  z  próby,  natomiast  estymatorem 

funkcji  momentów  w  populacji  jest  ta  sama  funkcja  momentów  z  próby.  Stosuj

ą

c  t

ą

  metod

ę

 

stwierdzamy, 

Ŝ

e  estymatorem  parametru 

Y

α   jest  statystyka 

Y

Y

X

S

A

R

S

=

,  za

ś

  estymatorem 

współczynnika 

Y

β  jest statystyka 

Y

Y

B

Y A X

=

Metoda największej wiarygod ności

 

Zakładamy dodatkowo, 

Ŝ

e cecha Y ma rozkład normalny N(

Y

Y

x

, )

α

+ β

σ ), dla ka

Ŝ

dego x. Mo

Ŝ

na 

wykaza

ć

Ŝ

e estymatory współczynników regresji maj

ą

 posta

ć

Y

Y

Y

Y

Y

s

r,

y

x

s

α

=

β = − α

Zatem s

ą

 one s

ą

 identyczne z estymatorami otrzymanymi metod

ą

 momentów.  

Metoda najm niejszych kwadratów

 

Metoda  najmniejszych  kwadratów  znajdowania  estymatorów  współczynników  regresji 

Y

Y

i

α

β  

polega na wyznaczeniu takich ocen tych parametrów, by funkcja  

n

2

Y

Y

i

Y i

Y

i 1

K(

,

)

(y

x

)

=

α

β

=

− α

− β

 

dla tych ocen miała warto

ść

 najmniejsz

ą

. Porównuj

ą

c t

ę

 funkcj

ę

 z funkcj

ą

 

Y

Y

S(

,

)

α

β

 stwierdzamy, 

Ŝ

funkcja    K  ma  warto

ść

  najmniejsz

ą

  w  tym  punkcie,    w  którym  funkcja  S  ma  warto

ść

  najwi

ę

ksz

ą

,  

a  wi

ę

c  oceny  i  estymatory  współczynników  regresji  uzyskane  metod

ą

  najmniejszych kwadratów s

ą

 

identyczne, jak w metodzie najwi

ę

kszej wiarygodno

ś

ci. 

Podsumowanie 
Estymatorami współczynników regresji s

ą

 

  współczynnika 

Y

α

statystyka  

Y

Y

X

S

A

R

S

=

                                                                     (17.4) 

  współczynnika 

Y

β statystyka  

Y

Y

B

Y A X

=

 

                                                        (17.5) 

background image

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 

 

89 

Regresja lini owa z próby

 

Zmienn

ą

 losow

ą

 

Y

Y

b

X

a

Y

+

=

)

 

nazywamy regresj

ą

 liniow

ą

  z próby (empiryczn

ą

) cechy Y wzgl

ę

dem cechy X, za

ś

 równanie

 

Y

Y

b

x

a

y

+

=

)

 

równaniem prostej regresji z próby cechy Y wzgl

ę

dem cechy X,  

gdzie  a

    

b

Y  

 s

ą

 warto

ś

ciami (obliczonymi na podstawie próby) statystyk  (17.4) i (17.5). 

W poni

Ŝ

szej tabeli w pierwszej kolumnie podane s

ą

 wzory na współczynniki regresji liniowej oraz na 

niektóre  parametry  zwi

ą

zane  z  t

ą

  regresj

ą

,  druga  kolumna  zawiera  estymatory  parametrów  

z pierwszej kolumny, natomiast trzecia kolumna zawiera oceny tych parametrów.  

Tabela 17.3. Podstawowe wzory w analizie regresji liniowej 

Nazwa parametru z populacji 

Wzór na parametr 

Nazwa parametru z próby 

Wzór na parametr 

Wzór na realizację parametru 

Współczynnik regresji 

Y

α

cechy Y 

względem cechy X 

Y

Y

X

σ

α =

ρ

σ

 

Współczynnik regresji 

Y

A

 

z próby cechy Y względem 

cechy X 

Y

A

=

Y

X

S

R

S

 

Y

XY

Y

2

X

X

n

n

n

i i

i

i

i 1

i 1

i 1

2

n

n

2

i

i

i 1

i 1

s

cov

a

r

s

s

n

x y

x

y

n

x

x

=

=

=

=

=

=

=

=

=

 

Współczynnik regresji 

Y

β

 

cechy Y względem cechy X 

Y

01

Y 10

m

m

β =

− α

 

Współczynnik regresji 

Y

B

 

z próby cechy Y względem 

cechy X 

Y

Y

B

Y A X

=

 

Y

Y

b

y a x

= −

 

Wariancja resztowa cechy 

Y względem cechy X 

2

2

2

r

2

2

Y

D (Y Y) E(Y Y)

(1

)

σ =

=

=

= σ

− ρ

)

)

 

Wariancja resztowa z próby 
cechy Y względem cechy X 

n

2

2

r

i

i

i 1

1

S

(Y Y )

n 2

=

=

)

35

 

n

2

2

r

i

i

i 1

1

s

(y

y )

n 2

=

=

)

=

2

2

2

2

Y

Y

n

(1 r )s

(1 r )s

n 2

 

Odchylenie standardowe resztowe 

cechyY względem cechy X 

2

r

Y

D(Y Y)

1

σ =

= σ

− ρ

)

 

Odchylenie standardowe 

resztowe z próby  cechy Y 

względem cechy X 

n

2

r

i

i

i 1

1

S

(Y Y )

n 2

=

=

)

 

=

=

n

i

i

i

r

y

y

n

s

1

2

)

(

2

1

)

=

2

2

Y

Y

n

(1 r )s

1 r s

n 2

 

Współczynnik determinacji 

2

ν

cechy 

Y względem cechy X 

2

2

Y

2

Y

σ

υ =

σ

)

=

2

r

2

Y

1

σ

σ

2

r

=

 

Współczynnik 

2

V

determinacji z próby 

cechy Y względem cechy X 

n

2

i

2

2

i 1

n

2

i

i 1

ˆ

(y

y)

v

r

(y

y)

=

=

=

=

 

n

n

2

2

i

i

i

2

2

i 1

i 1

n

n

2

2

i

i

i 1

i 1

ˆ

(y

y)

(y

y )

v

1

r

(y

y)

(y

y)

=

=

=

=

=

= −

=

)

 

 

                                                 

35

 

Podzielenie  sumy 

n

2

i

i

i 1

(Y

Y )

=

)

  przez  n-2,  a  nie  przez  n  powoduje,  Ŝe  statystyka 

2

r

S

 

jest  estymatorem

 

nieobciąŜonym 

wariancji resztowej 

2

r

σ

w populacji

 

background image

STATYSTYKA MATEMATYCZNA 

 

90 

Przykład 17.7  
Chcemy zbada

ć

, czy zysk pewnej firmy zalezy od wielko

ś

ci produkcji na podstawie danych 

przedstawionych w poni

Ŝ

szej tabeli. 

 

Produkcja x

i

 

19,2  19,0  19,5 

21,4 

19,6 

21,6 

23,7 

24,2 

26,5 

28,3 

Zysk y

i

 

73,1  86,2  104,7  121,2  161,5  142,5  172,2  196,0  207,1  227,5 

Rozwiązanie 

Z wykorzystaniem arkusza Excel wykonujemy obliczenia pomocnicze 
 

Lp 

i

x

 

i

y

 

2

i

(x )

 

2

i

(y )

 

i

i

x y

 

19,2 

73,1 

368,64 

5343,61 

1403,52 

19 

86,2 

361 

7430,44 

1637,8 

19,5 

104,7 

380,25 

10962,09 

2041,65 

21,4 

121,2 

457,96 

14689,44 

2593,68 

19,6 

161,5 

384,16 

26082,25 

3165,4 

21,6 

142,5 

466,56 

20306,25 

3078 

23,7 

172,2 

561,69 

29652,84 

4081,14 

24,2 

196 

585,64 

38416 

4743,2 

26,5 

207,1 

702,25 

42890,41 

5488,15 

10 

28,3 

227,5 

800,89 

51756,25 

6438,25 

Suma 

223 

1492 

5069,04  247529,6  34670,79 

Parametry próby wynosza wi

ę

 

Produkcja 

Zysk 

Ś

rednia 

10

i

i 1

x

223

x

22,3

10

10

=

=

=

=

 

10

i

i 1

y

1492

y

149, 2

10

10

=

=

=

=

 

Wariancja 

10

2

2

2

x

i

i 1

1

s

(x )

(x)

10

=

=

=

 

2

506,904 (22,3)

506,904 497, 29 9,614

=

=

=

 

10

2

2

2

y

i

i 1

1

s

(y )

(y)

10

=

=

=

 

2

24752,96 (149, 2)
24752,96 22260,64 2492,32

=

=

=

=

 

Kowariancja 

XY

1

cov =x

x y=

34670,79 22,3 149, 2 3467,079 3327,16 139,919

10

− ⋅

=

=

y

 

Współczynniki regresji 

XY

Y

2

X

cov

139,919

a

14,554

9, 614

s

=

=

=

 

Y

Y

b

y a x 149, 2 14,554 22,3 149, 2 324,55

175,35

= −

=

=

= −

 

 

Współczynnik korelacji  

background image

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 

 

91 

XY

2

2

x

y

cov

139,919

139,919

139,919

r

0,904

3,1 49,931

154, 76

9, 614 2492,32

s

s

=

=

=

=

=

 

Wariancja resztowa cechy Y wzgl

ę

dem cechy X 

2

2

2

2

r

Y

n

10

10

s

(1 r )s

(1 0,904 ) 2492,32

0,183 2492,32 570,12

n 2

8

8

=

=

=

=

 

Odchylenie standardowe resztowe cechyY wzgl

ę

dem cechy X

  

2

r

Y

n

s

(1 r )s

23,88

n 2

=

=

   

Współczynnik determinacji 

2

ν cechy Y wzgl

ę

dem cechy X 

2

2

2

v

r

0,904

0,817

=

=

=

 

Powy

Ŝ

sze wynki mo

Ŝ

na otrzyma

ć

 z wykorzystaniem narz

ę

dzia Regresja pakietu Analiza danych 

arkusza Excel. 

 

Wyniki składaj

ą

 si

ę

 z kilku cz

ęś

ci. Poni

Ŝ

ej zamieszczono cz

ęść

 zawieraj

ą

c

ą

 wyniki obliczone  

w niniejszym przykładzie.  

  

Współczynniki 

Przecięcie 

-175,3468796 

Zmienna X1 

14,55367173 

 

Statystyki regresji 

Wielokrotność R 

0,903905245 

R kwadrat 

0,817044693 

Dopasowany R kwadrat 

0,794175279 

Błąd standardowy 

23,87422264 

Obserwacje 

10 

 

Narz

ę

dzie  oblicza tak

Ŝ

e warto

ś

ci funkcji  regresji  oraz róznice pomi

ę

dzy  uzyskanymi i obliczonymi 

warto

ś

ciami zmiennej zale

Ŝ

nej. Podano je poni

Ŝ

ej uzupełniaj

ą

c o warto

ś

ci  uzyskane oraz o sumy w/w 

Ŝ

nic – patrz uzupełnienie podane na ko

ń

cu cz

ęś

ci „Statystyka opisowa”. 

background image

STATYSTYKA MATEMATYCZNA 

 

92 

i

y

 

i

ˆy

 

i

y

-

i

ˆy

 

i

y

-

i

ˆy

>0 

i

y

-

i

ˆy

<0 

73,1 

104,08 

-30,98 

-30,98 

86,2 

101,17 

-14,97 

-14,97 

104,7 

108,45 

-3,75 

-3,75 

121,2 

136,10 

-14,90 

-14,90 

161,5 

109,91 

51,59 

51,59 

142,5 

139,01 

3,49 

3,49 

172,2 

169,58 

2,62 

2,62 

196 

176,85 

19,15 

19,15 

207,1 

210,33 

-3,23 

-3,23 

227,5 

236,52 

-9,02 

-9,02 

 

Razem 

0,0 

76,85 

-76,85 



 

 

17.3.3. Rozkłady estymatorów współczynników regresji 
Analiza  regresji  opiera  si

ę

  na  poni

Ŝ

szych  twierdzeniach,  które  s

ą

  prawdziwe  przy  zało

Ŝ

eniu, 

Ŝ

zmienna  losowa  dwuwymiarowa  (X,Y)  ze  wzgl

ę

du  na  któr

ą

  badana  jest  populacja  ma  rozkład 

normalny o współczynniku korelacji 

ρ

Tw. 17.4. Estymatory 

Y

Y

A i B  współczynników regresji liniowej 

Y

Y

i

α

β  maj

ą

 rozkłady normalne 

Y

Y

1

A : N(

,

)

α

σ  oraz  

Y

Y

2

B : N(

,

)

β

σ

,  s

ą

  wi

ę

c  estymatorami  nieobci

ąŜ

onymi  tych 

parametrów. (Mo

Ŝ

na wykaza

ć

Ŝ

e s

ą

 tak

Ŝ

e estymatorami zgodnymi tych parametrów) 

Tw. 17.5.  Estymatorem  odchylenia  standardowego 

1

σ   estymatora 

Y

A   jest  statystyka 

r

1

n

2

2

i

i 1

S

S

X

nX

=

=

 (tzw. bł

ą

d standardowy oceny 

Y

α ), za

ś

 estymatorem odchylenia  standardowego 

2

σ  estymatora 

Y

B jest statystyka 

n

2

r

i

i 1

2

n

2

2

i

i 1

S

X

S

n

X

nX

=

=

=

(tzw. bł

ą

d standardowy oceny 

Y

β ).  

Tw. 17.6. Statystyki 

Y

Y

n

1

A

U

S

− α

=

 oraz 

Y

Y

n

2

B

U

S

− β

=

 maj

ą

 rozkłady Studenta z n – 2 stopniami 

swobody. 
17.3.4. Estymacja przedziałowa współczynników regresji 
Zajmiemy si

ę

 teraz wyznaczeniem przedziałów ufno

ś

ci dla współczynników regresji. Mamy: 

y

Y

β

α

ˆ

+

=

x

y

 -  prosta regresji z populacji cechy Y wzgl

ę

dem cechy X 

Y

Y

b

x

a

+

=

 -  prosta regresji z próby, 

Y

a

 

- jest ocen

ą

 na podstawie próby 

Y

α  

Y

b  

- jest ocen

ą

 na podstawie próby współczynnika 

Y

β  

Y

Y

ˆy a x b

=

+

 - prosta regresji z próby jest ocen

ą

 prostej regresji populacji

Y

Y

ˆy a x

=

+ β .  

background image

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 

 

93 

Przedział ufności dla współczynnika 

Y

α

 na poziomie ufno

ś

ci 1− α  

1

Y

1

Y

S

u

A

;

S

u

A

α

α

+

 

Przedział ufności dla współczynnika 

Y

β  na poziomie ufno

ś

ci 1− α  

2

Y

2

Y

S

u

B

;

S

u

B

α

α

+

 

Liczba  u

α

spełnia w obu przypadkach zwi

ą

zek 

n 2

P( T

u )

α

= α  

gdzie: 

n 2

T

  - zmienna losowa o rozkładzie Studenta z n –2 stopniami swobody.  

Powy

Ŝ

sze przedziały konstruujemy w typowy sposób na podstawie twierdzenia 17.4 – 17.6.  

Przykład 17.8  
Na poziomie ufno

ś

ci 1− α wyznaczymy przedziały ufno

ś

ci dla współczynników regresji obliczonych 

w przykładzie 17.7. 
Korzystaj

ą

c z wyników obliczonych w przykładzie otrzymujemy warto

ś

ci statystyk S

1

 i S

2

  

r

1

n

2

2

2

i

i 1

s

23,88

23,88

23,88

23,88

s

2, 44

9,8

5069, 04 4972,9

96,14

5069, 04 10 22,3

x

nx

=

=

=

=

=

=

=

 

n

2

r

i

i 1

2

n

2

2

i

i 1

s

x

23,88 5069,04

23,88 71,197 1700,19

s

54,83

31,01

10 96,14

961, 4

n

x

nx

=

=

=

=

=

=

=

 

Wyznaczamy liczbe 

0,05

u

z warunku 

8

0,05

P( T

u

) 0,05

=

otrzymuj

ą

0,05

u

=2,306 

Zatem połowy przedziałow ufno

ś

ci s

ą

 równe 

1

u s

2,306 2, 44 5,62

α

=

=

 

2

u s

2,306 54,83 126, 43

α

=

=

  

Wykorzystuj

ą

c powy

Ŝ

sze wyniki cz

ęś

ciowe otrzymujemy przedziały ufno

ś

ci w postaci: 

Współczynnik 

Y

α

 

1

1

;

s

u

a

s

u

a

Y

Y

α

α

+

= 14,55 5,62;14,55 5, 62

8,83; 20,17

<

+

>=<

>  

Współczynnik 

Y

β  

2

2

;

s

u

b

s

u

b

Y

Y

α

α

+

=

175,35 126, 43; 175,35 126, 43

301, 78; 48,92

< −

+

>=< −

>  

Korzystaj

ą

c z narz

ę

dzia Regresja pakietu Analiza danych arkusza Excel – patrz przykład 5.17, 

otrzymujemy bezpo

ś

rednio granice przedziałów ufno

ś

ci: 

  

Dolne 95% 

Górne 95% 

Przecięcie 

-301,76232 

-48,931439 

Zmienna X 1 

8,93883332 

20,1685101 

  

background image

STATYSTYKA MATEMATYCZNA 

 

94 

17.3.5. Weryfikacja hipotez o współczynnikach regresji 

Wysuwamy  hipotezy  o  współczynniku  regresji 

Y

α

  z  populacji.  Hipoteza  zerowa: 

0

Y

0

H (

)

α = α   

i hipoteza alternatywna w jednej z trzech postaci przedstawionej w poni

Ŝ

szej tabeli. 

                                                                     Tabela 17.4. Testy do weryfikacji hipotezy o współczynniku regresji α

α

α

α

n 2

T

oznacza zmienn

ą

 losow

ą

 o rozkładzie Studenta z n-2 stopniami swobody.

 

Uwaga. Hipoteza 

0

Y

H (

0)

α =

 jest równowa

Ŝ

na hipotezie 

0

H (

0)

ρ =

, bo 

Y

Y

Y

σ

α =

ρ

σ

 

Wysuwamy  hipotezy  o  współczynniku  regresji 

Y

β z  populacji.  Hipoteza  zerowa: 

0

Y

0

H (

)

β = β

  

i hipoteza alternatywna w jednej z trzech postaci przedstawionej w poni

Ŝ

szej tabeli. 

                                                                      Tabela 17.5. Testy do weryfikacji hipotezy o współczynniku regresji β

β

β

β

n 2

T

oznacza zmienn

ą

 losow

ą

 o rozkładzie Studenta z n-2 stopniami swobody. 

Informacje  zawarte  w  powy

Ŝ

szych  dwóch  tabelach  wynikaj

ą

  z  ogólnej  zasady  weryfikacji  hipotez  

i z tw. 17.6. 
Przykład 17.9  
Na poziomie istotno

ś

ci 

α

=0,05 zweryfikujemy hipotezy dotycz

ą

ce zerowej warto

ś

ci współczynników 

regresji obliczonych w przykładzie 17.7., wzgl

ę

dem hipotez alternatywnych bed

ą

cych zaprzeczeniem 

hipotezy zerowej. 

Współczynnik regresji 

Y

α

 

Hipotezy 

Sprawdzian 

Zbiór krytyczny 

0

Y

H (

0)

α =

 

1

Y

H (

0)

α ≠

 

Y

10

1

a

u

s

=

 

K= = (

; k

−∞ − > ∪

< ;

k

(

)

8

P T

k

0, 05

=

 

Wykorzystuj

ą

c wyniki z przykładów 17.7 i 17.8 otrzymujemy 

Warto

ść

 sprawdzianu 

Y

10

1

a

14,554

u

5,96

s

2, 44

=

=

=

 

Zbiór krytyczny K= = (

; k

−∞ − > ∪

< ;

k

) = <-

;-2,306> ∪ <2,306; ,306> 

Poniewa

Ŝ

 

10

u

K

hipotez

ę

 zerow

ą

 nale

Ŝ

y odrzuci

ć

 co dowodzi istotno

ś

ci współczynnika regresji 

Y

α

 

1

H  

Sprawdzian 

n

U  

Rozkład sprawdzianu 

Zbiór krytyczny K 

Wyznaczanie 

liczby k 

Nr 

testu 

1

Y

0

H (

)

α > α

 

K = k ;

<

∞ ) 

(

)

n 2

P T

k

2

= α  

KR-7 

1

Y

0

H (

)

α < α

 

K =

(

; k

−∞ − >  

(

)

n 2

P T

k

2

= α

  KR-8 

1

Y

0

H (

)

α ≠ α

 

Y

0

n

1

A

U

S

− α

=

 

Studenta z 

n

-2 stopniami 

swobody 

K= 

=

(

; k

−∞ − > ∪

k ;

<

(

)

n 2

P T

k

= α

  KR-9 

1

H  

Sprawdzian 

n

U  

Rozkład sprawdzianu 

Zbiór krytyczny K 

Wyznaczanie 

liczby k 

Nr 

testu 

1

Y

0

H (

)

β > β

 

K =

k ;

<

(

)

n 2

P T

k

2

= α

  KR-10 

1

Y

0

H (

)

β < β

 

K =

(

; k

−∞ − >

 

(

)

n 2

P T

k

2

= α

  KR-11 

1

Y

0

H (

)

β ≠ β

 

Y

0

n

2

B

U

S

− β

=

 

Studenta z 

n

-2 stopniami 

swobody 

K= 

=

(

; k

−∞ − > ∪

< ;

k

(

)

n 2

P T

k

= α

  KR-12 

background image

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 

 

95 

Współczynnik regresji 

Y

β  

Hipotezy 

Sprawdzian 

Zbiór krytyczny 

0

Y

H (

0)

α =

 

1

Y

H (

0)

α ≠

 

Y

10

2

b

u

s

=

 

K= =

(

; k

−∞ − > ∪

< ;

k

(

)

8

P T

k

0, 05

=

 

 
Wykorzystując wyniki z przykładów 17.7 i 17.8 otrzymujemy 

Wartość sprawdzianu 

Y

10

10

2

b

175,35

u

u

3,198

s

54,83

=

=

=

= −

 

Zbiór krytyczny K= =

(

; k

−∞ − > ∪

< ;

k

) = <-∞;-2,306>

<2,306; ,306> 

PoniewaŜ 

10

u

K

brak jest podstaw do odrzucenia hipotezy zerowej. 

Korzystając z narzędzia Regresja pakietu Analiza danych arkusza Excel – patrz przykład 5.17, 
otrzymujemy bezpośrednio wartości sprawdzianów: 

  

t Stat 

Przecięcie 

-3,198585777 

Zmienna X 1 

5,977167056 



 

 

background image

STATYSTYKA MATEMATYCZNA 

 

96 

18. WPROWADZENIE DO ZAAWANSOWANYCH METOD 

STATYSTYCZNYCH 

18.1. Charakterystyka zaawansowanych metod statystycznych

 

Zaawansowane  metody  statystyczne  są  metodami  wielowymiarowymi,  tzn.  analizują  próby 
wielowymiarowe, składające się z wyników pomiaru określonej liczby zmiennych.  
Pojęcie próby wielowymiarowej jest uogólnieniem pojęcia próby dwuwymiarowej. 

Model I 

Populacja  jest  badana  ze  względu  na  k  cech  X

1

,  X

2

,  …,X

k

,  czyli  ze  względu  na  zmienną  losową  

k-wymiarową (X

1

, X

2

, …,X

k

). Taką populację nazywamy 

populacją k-wymiarową

.  

Próba z populacji k-wymiarowej jest to macierz 

                                                     

11

12

1k

21

22

2k

n1

n2

nk

X

X

.

.

.

X

X

X

.

.

. X

.

.

.

.

.

.

.

.

.

X

X

.

.

. X

=

X

                                         (20.1) 

gdzie  zmienne  losowe  k-wymiarowe  wyst

ę

puj

ą

ce  w  poszczególnych  wierszach  s

ą

  k-wymiarowo 

niezale

Ŝ

ne. 

36

 

Ka

Ŝ

d

ą

 macierz  

                                                     

11

12

1k

21

22

2k

n1

n2

nk

x

x

.

.

.

x

x

x

.

.

. x

.

.

.

.

.

.

.

.

.

x

x

.

.

. x

=

x

                                            (20.2) 

b

ę

d

ą

c

ą

 warto

ś

ci

ą

 próby (20.1) nazywa si

ę

 realizacją próby z populacji k-wymiarowej albo macierzą 

danych (wyników)

Wiersze  macierzy  (20.2)  s

ą

  warto

ś

ci

ą

  cechy  (X

1

,  X

2

,  …,X

k

)  kolejnych  elementów  populacji 

wybranych  do  próby,  natomiast  kolumny  s

ą

  realizacjami  prób  jednowymiarowych  ze  wzgl

ę

du  na 

kolejne zmienne X

j

, j=1,2,…,k. Element x

ij

 oznacza warto

ść

 cechy X

elementu próby o numerze i.  

Przyjmujemy oznaczenia: 

                  

1j

2j

.j

n j

j

x

x

.
.
.

x

x

=

 - 

realizacja próby jednowymiarowej ze względu na cechę Xj 

     (20.3) 

[

]

i.

i1

i2

ik

x , x , , x

=

x

K

 - 

realizacja próby wielowymiarowej dla elementu próby o numerze i,                       

(20.4)

  

 

                                                 

36

 

Pojęcie to jest prostym uogólnieniem pojęcia niezaleŜności dwuwymiarowej – patrz odnośnik 12 z punktu 18.1.

 

background image

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 

 

97 

Wektor x

.j

 okre

ś

lony wzorem (20.3) jest realizacj

ą

 próby jednowymiarowej ze wzgl

ę

du na cech

ę

 X

j

.  

Wektor x

i. 

okre

ś

lony wzorem (20.4)

 

nazywamy obserwacją. 

Wprowadzone poj

ę

cia obrazuje rysunek 20.1.  

 

 

Cechy 

 

 

X

1

  X

2

  …  X

j

  …  X

k

 

     Obserwacja 

 

 

 

 

 

… 

 

 

 

 

 

 

 

x

ij

   

 

… 

 

 

 

 

 

Numery 
elementu 
próby 
 

 

 

 
ó 
 

 

 

 

 

 

 

 

                            Rys. 18.1. Ilustracja macierzy danych

 

Macierz danych mo

Ŝ

na przedstawi

ć

 jako tabel

ę

 z liczb

ą

 wierszy równ

ą

 liczbie elementów oraz liczb

ą

 

kolumn równ

ą

 liczbie cech. 

W ramach obserwacji mog

ą

 wyst

ę

powa

ć

 wszystkie badane cechy lub okre

ś

lony ich podzbiór. Mog

ą

 

by

ć

 tak

Ŝ

e utworzone nowe cechy jako zadane funkcje cech mierzonych.  

Macierz  danych  mo

Ŝ

e  zosta

ć

  okre

ś

lona  przez  podanie  jej  obiektów  składowych  lub  okre

ś

lona 

warunkami  nało

Ŝ

onymi  na  wybrane  cechy  obserwacji.  W  tym  wypadku  liczba  obiektów  w  grupie 

danych nie jest ustalona a priori. 
Macierz danych mo

Ŝ

e by

ć

  przedstawiona w postaci: 

                                                              

1.

2.

.1

.2

.

n.

[ ,

,...,

]

k

x

x

x

x x

x

x

=

=

M

                                          

(20.5) 

Przedstawiony  model  mo

Ŝ

e  dotyczy

ć

  tak

Ŝ

e  jednej  cechy  X  rozpatrywanej  w  k  momentach  

lub  w  k  warunkach,  czyli  analogicznie  jak  poprzednio  zmiennej  losowej  k-wymiarowej  
(X

1

, X

2

, …,X

k

).  Analizie podlegaj

ą

 warto

ś

ci tej zmiennej uzyskane u uzyskane kolejnych elementów 

populacji wybranych do próby. 
Mo

Ŝ

e wyst

ę

powa

ć

 tak

Ŝ

e przypadek mieszany w którym wyst

ę

puj

ą

 zarówno cechy rozpatrywane tylko 

w  jednym  momencie  lub  w  jednym  warunku,  jak  i  te  same  cechy  rozpatrywane  w  ró

Ŝ

nych 

momentach, jak i w ró

Ŝ

nych warunkach.  

W ka

Ŝ

dym z opisanych przypadków analizowane  próby nazywane s

ą

 próbami powiązanymi

background image

STATYSTYKA MATEMATYCZNA 

 

98 

Model II 
Model  II  jest  rozszerzeniem  modelu  I.  Badanych  jest  J  populacji  ze  wzgl

ę

du  na  k  cech  

X

1

,  X

2

,  …,X

k

,  czyli  ze  wzgl

ę

du  na  zmienn

ą

  losow

ą

  k-wymiarow

ą

  (X

1

,  X

2

,  …,X

k

).    Przedmiotem 

analizy  jest  J  macierzy  danych,  ka

Ŝ

d

ą

  z  których  tworz

ą

  próby  n

j

  elementowe.  Przykładowo  przy 

dwóch populacjach macierze te maj

ą

 posta

ć

                       

11

12

1k

21

22

2k

n 1

n 2

n k

1

1

1

a

a

.

.

.

a

a

a

.

.

.

a

.

.

.

.

.

.

.

.

.

a

a

.

.

. a

a

= 

   

11

12

1k

21

22

2k

n 1

n 2

n k

2

2

2

b

b

.

.

.

b

b

b

.

.

.

b

.

.

.

.

.

.

.

.

.

b

b

.

.

. b

b

= 

 

Przykładowo a

11

 to warto

ść

 cechy X

1

 uzyskana u 1 elementu pierwszej populacji, b

11

 to warto

ść

 tej 

samej cechy X

1

 uzyskana u pierwszego elementu drugiej populacji. 

W tym przypadku mo

Ŝ

na wprowadzi

ć

 wszystkie analogiczne poj

ę

cia jak w modelu I.  

W  modelu  II  analizowane  próby  dotycz

ą

ce  tej  samej  zmiennej  losowej,  pochodz

ą

ce  z  ró

Ŝ

nych 

populacji,  nazywane  s

ą

  próbami  niepowi

ą

zanymi.  Tylko  przypadkowo  próby  te  maj

ą

  takie  same 

liczebno

ś

ci.  

Poni

Ŝ

ej  krótko  scharakteryzowano  opisane  w  niniejszej  cz

ęś

ci  podr

ę

cznika  zaawansowane 

metody statystyczne. 
Ocena istotności róŜnic rozkładu w więcej niŜ dwóch warunkach. Dla rozwi

ą

zania tego problemu 

przeznaczonych jest szereg metod. Jedn

ą

 z nich jest analiza wariancji, stanowi

ą

ca rozszerzenie testu 

Studenta. 
Analiza  regresji  wykorzystywana  jest  do  szukania  zwi

ą

zku  funkcyjnego  pomi

ę

dzy  tzw.  zmienn

ą

 

zale

Ŝ

n

ą

 i okre

ś

lon

ą

 liczb

ą

 tzw. zmiennych niezale

Ŝ

nych. Najcz

ęś

ciej przyjmuje si

ę

 zwi

ą

zek liniowy. 

W  przypadku  małej  liczby  zmiennych  niezale

Ŝ

nych  szuka  si

ę

  te

Ŝ

  zwi

ą

zku  w  postaci  wielomianu. 

Mo

Ŝ

liwe 

jest 

ustalenie 

priori 

zmiennych 

niezale

Ŝ

nych, 

które 

ujmowane 

s

ą

  

w równaniu regresji lub te

Ŝ

 okre

ś

lenie tylko ich zbioru. W tym przypadku do równania wprowadzane 

s

ą

  tylko  te  zmienne,  które  charakteryzuje  okre

ś

lony  współczynnik  korelacji  cz

ą

stkowej  ze  zmienn

ą

 

zale

Ŝ

n

ą

Analiza  czynnikowa  pozwala  na  podział  analizowanych  zmiennych  na  okre

ś

lon

ą

  liczb

ę

  grup,  

z których ka

Ŝ

da kształtowana jest samoistnie przez oddzielny czynnik. 

Analiza korelacji kanonicznej wykorzystywana jest do wyznaczania zwi

ą

zku  liniowego  pomi

ę

dzy 

dwoma grupami zmiennych. Mo

Ŝ

na traktowa

ć

 j

ą

 wi

ę

c jako uogólnienie analizy regresji. 

Analiza skupień wykorzystywana jest do podziału zbioru okre

ś

lonych elementów na grupy, których 

obiekty s

ą

 podobne do siebie w okre

ś

lonym sensie. Obiektami mog

ą

 by

ć

 zarówno dowolne elementy 

materialne, opisane wybranymi cechami, jak i cechy opisuj

ą

ce rozpatrywane elementy materialne. 

Wielowymiarowa  analiza  wariancji  (MANOVA)  wykorzystywana  jest  do  weryfikacji  hipotez  
o  równo

ś

ci  kilku  wektorów  warto

ś

ci  oczekiwanych.  Jest  ona  rozszerzeniem  analizy  wariancji 

(ANOVA) albowiem rozpatruje ona powy

Ŝ

sz

ą

 hipotez

ę

 dla kilku warto

ś

ci oczekiwanych. MANOVA 

stosowana jest w powi

ą

zaniu z analizą dyskryminacji, której wa

Ŝ

nym krokiem jest zast

ą

pienie wielu 

cech  naturalnych  mał

ą

  liczb

ą

  zmiennych  abstrakcyjnych  bez  zmniejszenia  zró

Ŝ

nicowania  grup. 

Mo

Ŝ

liwe  jest  te

Ŝ

  wybranie  cech  najbardziej  ró

Ŝ

nicuj

ą

cych.  W  ramach  tej  analizy  prowadzona  jest 

klasyfikacja na podstawie cech abstrakcyjnych. Stopie

ń

 jej zgodno

ś

ci z podziałem a priori 

ś

wiadczy 

pogl

ą

dowo o wyst

ę

puj

ą

cym zró

Ŝ

nicowaniu grup. 

Nale

Ŝ

y podkre

ś

li

ć

 wyj

ą

tkowo du

Ŝ

e znaczenie analiz wielowymiarowych, wykorzystuj

ą

cych naturalne 

powi

ą

zania pomi

ę

dzy poszczególnymi cechami. Wła

ś

nie to stanowi o ich bardzo istotnym znaczeniu. 

Mo

Ŝ

na zilustrowa

ć

 ten fakt nast

ę

puj

ą

cymi przykładami: 

background image

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 

 

99 

  Warto

ś

ci  współczynników  korelacji  cz

ą

stkowej  ró

Ŝ

ni

ą

  si

ę

  na  ogół  w  znacznym  stopniu  od 

warto

ś

ci współczynników korelacji Pearsona; 

  Cechy  ró

Ŝ

ni

ą

ce  dwie  populacje  wielowymiarowe  nie  musz

ą

  podlega

ć

  istotnie  zró

Ŝ

nicowanym 

rozkładom przy ocenie wyizolowanej; 

  Posta

ć

  zwi

ą

zku  pomi

ę

dzy  dwoma  zbiorami  cech  w  wielu  przypadkach  jest  sprzeczna  

z warto

ś

ciami współczynników korelacji pomi

ę

dzy parami cech uwzgl

ę

dnianych zbiorów. 

W  ramach  tych  analiz  mo

Ŝ

na  dokonywa

ć

  porównania  rozkładów  cech,  ocenia

ć

  korelacje  oraz 

budowa

ć

 i weryfikowa

ć

 modele matematyczne analizowanych zjawisk. 

Poszczególne  metody  umo

Ŝ

liwiaj

ą

  przeprowadzenie  analiz  z  ró

Ŝ

nych  punktów  widzenia.  

W  wielu  przypadkach  dopiero  ł

ą

czne  ich  zastosowanie  powoduje  otrzymanie  warto

ś

ciowych 

wniosków. Przykładowo: 

  Ł

ą

czne  zastosowanie  analizy  regresji  i  analizy  korelacji  kanonicznej  pozwala  na  identyfikacj

ę

 

nieznanych zale

Ŝ

no

ś

ci pomi

ę

dzy rozpatrywanymi cechami; 

  W  analizie  dyskryminacji  przedmiotem  oblicze

ń

  s

ą

  zbiory  danych  dotycz

ą

ce  grup  okre

ś

lonych 

elementów  wyró

Ŝ

nionych  a  priori.  Analiza  skupie

ń

  prowadzona  dla  tych  elementów  mo

Ŝ

e  by

ć

 

wykorzystana do zweryfikowania takiego podziału; 

  W  analizie  czynnikowej  uzyskuje  si

ę

  podział  rozpatrywanych  cech  na  podzbiory  kształtowane 

oddzielnie  przez  poszczególne  czynniki.  Analiza  skupie

ń

  prowadzona  dla  tych  cech  mo

Ŝ

e  by

ć

 

wykorzystana do weryfikacji otrzymanego podziału. 

Dwuwymiarowe  i  wielowymiarowe  analizy  statystyczne  umo

Ŝ

liwiaj

ą

  rozwi

ą

zywanie  3  rodzajów 

problemów: 
1.

  Ocena istotno

ś

ci zale

Ŝ

no

ś

ci statystycznej pomi

ę

dzy cechami; 

2.

  Skupianie elementów (obiektów lub cech); 

3.

  Ocena istotno

ś

ci ró

Ŝ

nic rozkładu cechy. 

W  pierwszej  z  poni

Ŝ

szych  tabel  podano  metody  statystyczne  i  klasy  testów  statystycznych 

umo

Ŝ

liwiaj

ą

ce rozwi

ą

zywanie powy

Ŝ

szych problemów.  

Podane w tabeli metody oznaczone numerami 1, 9 i 10 dotycz

ą

 klas testów statystycznych.  

                                                                            Tabela 18.1.Metody statystyczne i klasy testów statystycznych 

Ocena istotności zaleŜności 

statystycznej pomiędzy cechami 

Skupianie elementów 

(obiektów i cech) 

Ocena istotności róŜnic 

rozkładu cechy 

1.

  Ocena istotności korelacji 

dwóch cech 

6.

  Analiza skupień dla obiektów  9.  Ocena istotności róŜnic 

rozkładu cechy w dwóch 
warunkach 

2.

  Regresja wielomianowa jednej 

cechy 

7.

  Analiza czynnikowa 

10.

  Ocena istotności róŜnic 

rozkładu cechy w wielu 
warunkach 

3.

  Regresja liniowa kilku cech 

8.

  Analiza skupień dla cech 

11.

  Wielowymiarowa analiza 

wariancji i analiza 
dyskryminacji 

4.

  Regresja wielomianowa kilku 

cech 

 

 

5.

  Korelacja kanoniczna 

 

 

Wszystkie wska

ź

niki i metody statystyczne przedstawiono w kolejnej tabeli.   

background image

STATYSTYKA MATEMATYCZNA 

 

100 

                                                                                   Tabela 18.2. Wskaźniki i metody statystyczne 

Liczba cech 

Liczba 

macierzy 

danych 

 2 

ANALIZA 

JEDNOWYMIAROWA 

Błędy grube 
Centyle 
Estymacja parametrów 
rozkładu 
Ocena normalności 
Ocena losowości 

ANALIZA 

DWYWYMIAROWA 

Test niezaleŜności 
Współczynnik Pearsona 
Współczynnik Spearmana 
Współczynnik Cramera 

ANALIZA 

WIELOWYMIAROWA 

Regresja liniowa, 
wielomianowa i potęgowa 
Analiza czynnikowa 
Analiza skupień dla cech i 
obiektów 
Korelacja kanoniczna 

ANALIZA 

DWUWYMIAROWA 

Testy Studenta 
Test Cochrana-Coxa 
Test rangowanych znaków 
Test Wilcoxona 
Test dokładny Fishera 
Test McNemara 
Test chi kwadrat 

 2 

ANALIZA 

WIELOWYMIAROWA 

Analiza wariancji 
Test q

x

 

Test Kruskala-Wallisa 
Test Friedmana 
Test Góralskiego 
Test Cochrana 

ANALIZA WIELOWYMIAROWA 

Wielowymiarowa analiza wariancji  

i analiza dyskryminacji 

18.2. Algorytmizacja wyboru metod statystycznych 

Na poni

Ŝ

szym rysunku przedstawiono algorytm wyboru metod statystycznych z zakresu okre

ś

lanego 

na podstawie charakterystyk analizowanych danych.  

background image

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 

 

101 

POCZĄTEK

 

 

 

 

 

 

 

 

 

 

CZY OBLICZAĆ CENTYLE

TAK

NIE

LICZBA MACIERZY  

DANYCH K=1

TAK

NIE

LICZBA CECH

M=1

TAK

NIE

LICZBA CECH

M=1

TAK

NIE

LICZBA MACIERZY  

DANYCH 

K=2

NIE

TAK

PODAJ PRZEDMIOT 

ANALIZY

L1 - liczba macierzy danych
L2 - liczba cech

LICZBA MACIERZY 

DANYCH

DO ANALIZY L1=2

NIE

TAK

LICZBA MACIERZY 

DANYCH

DO ANALIZY L1=2

TAK

NIE

LICZBA CECH DANYCH

DO ANALIZY L2=1

TAK

NIE

LICZBA CECH DANYCH

DO ANALIZY L2=1

NIE

TAK

 

 

 

KONIEC OCENY 

ISTOTNOŚCI

TAK

NIE

PODAJ ZAKRES ANALIZY

1 - ocena zaleŜności
2 - skupianie elementów

1

2

PODAJ PRZEDMIOT 

ANALIZY

L1 - liczba grup danych

LICZBA CECH

M=2

TAK

NIE

PODAJ PRZEDMIOT 

ANALIZY

L1 - liczba cech I zbioru
L2 - liczba cech II zbioru

LICZBA CECH I ZBIORU

L1=1

TAK

NIE

LICZBA CECH II ZBIORU

L2=1

TAK

NIE

LICZBA CECH II ZBIORU

L2=1

TAK

NIE

PODAJ RODZAJ ANALIZY

1 - korelacje
2 - regresja potęgowa
3 - koniec analizy

PODAJ RODZAJ ANALIZY

1 - regresja liniowa dla poanych cech
2 - regresja liniowa z wyborem cech
3 - regresja wielomianowa
0 - koniec analizy regresji

1

2

0

0

1

2

3

 

 

 

 

KONIEC OCENY

ZALEśNOŚCI

NIE

TAK

LICZBA CECH 

M  3

NIE

TAK

LICZEBNOŚĆ PRÓB

N  3

NIE

TAK

LICZEBNOŚĆ PRÓB

N  3

TAK

NIE

PODAJ PRZEDMIOT 

ANALIZY

1 - obiekty
2 - cechy

1

2

PODAJ RODZAJ ANALIZY

1 - analiza skupień
2 - analiza czynnikowa

1

2

KONIEC SKUPIANIA

CECH

TAK

NIE

KONIEC SKUPIANIA

ELEMENTÓW

TAK

NIE

KONIEC ANALIZY
STATYSTYCZNEJ

NIE

TAK

KONIEC

ZAUTOMATYZOWANY WYBÓR ZAKRESU, PRZEDMIOTU I RODZAJU ANALIZY STATYSTYCZNEJ

OZNACZENIA:

Metody statystyczne, oznaczone zgodnie 
z poniŜszym wykazem:

A - Wyznaczanie parametrów rozkładu
B - Wyznaczanie centyli
C - Ocena istotności róŜnic rozkładu w 2 warunkach
D - Ocena istotoności korelacji dwóch cech
E - Regresja liniowa dla podanych cech

 

F - Regresja liniowa z wyborem cech
G - Regresja potęgowa
H - Regresja wielomianowa
I - Analiza czynnikowa
J - Analiza korelacji kanonicznej
K - Analiza skupień dla cech
L - Analiza skupień dla obiektów
M - Ocena istotności róŜnic rozkładu w wielu warunkach
N - Manova i analiza dyskryminacji

 

 

Rysunek 20.2. Algorytm wyboru zakresu, przedmiotu i rodzaju analizy statystycznej