background image

Wykład 2:

Wprowadzenie do wnioskowania 

statystycznego: zmienna losowa, rozkłady 

graniczne i statystyki z próby

Statystyka: kurs podstawowy

Semestr Letni 2007/2008

dr Krzysztof Tymicki

Instytut Statystyki i Demografii

Szkoła Główna Handlowa

background image

Probabilistyczne podstawy wnioskowania 

statystycznego

Pojęcia podstawowe

• Definicje prawdopodobieństwa: klasyczna vs. częstościowa 
• Zmienna losowa
• Funkcja prawdopodobieństwa/gęstość prawdopodobieństwa
• Rozkład prawdopodobieństwa
• Dystrybuanta

Rozkłady prawdopodobieństwa zmiennych losowych

• Zmienna skokowa: rozkład dwumianowy 
• Zmienna ciągła: rozkład normalny

background image

Zmienna losowa

Klasyczna vs. stochastyczna (częstościowa) definicja prawdopodobieństwa



w ujęciu klasycznym prawdopodobieństwo znane jest a priori (czyli przed wykonaniem 

eksperymentu)



w statystyce zakładamy prawdopodobieństwo a posteriori (czyli jako rezultat doświadczenia 

– na podstawie częstości pojawienia się zdarzeń elementarnych)

Definicja

Niech  E  będzie  zbiorem  zdarzeń elementarnych  danego  doświadczenia.  Funkcję

X(e) przyporządkowującą kaŜdemu zdarzeniu elementarnemu                 jedną i tylko 

jedną liczbę X(e)=x nazywamy zmienną losową

E

e

Przykład: rzut monetą



zdarzenia losowe (elementarne): „pojawienie się orła” oraz „pojawienie się reszki”



kaŜdemu zdarzeniu losowemu przypisane jest prawdopodobieństwo

Zmienna losowa a cecha statystyczna



kaŜda cecha statystyczna jest zmienną losową



Prawdopodobieństwa  wystąpienia  zdarzeń elementarnych  będą określane  za  pomocą

funkcji matematycznych

background image

Prawdopodobieństwo wystąpienia wartości cech statystycznych określane jest na podstawie 

tzw. definicji częstościowej.
Przy  duŜej  liczbie  zdarzeń maleją prawdopodobieństwa  występowania  duŜych  róŜnic 

między  częstością a  prawdopodobieństwem.  Rośnie  prawdopodobieństwo  występowania 

róŜnic małych. Mówi o tym tzw. złote twierdzenie Bernoulli’ego

1

lim

=





<

ε

p

n

k

P

n

Złote twierdzenie mówi:

„Jest  mało  prawdopodobne  aby  to  co  mało  prawdopodobne  zdarzało  się często. 

Jednocześnie,  jest  mało  prawdopodobne  aby  to  co  jest  bardzo  prawdopodobne 

zdarzało się rzadko”.

Twierdzenie  to  naleŜy  do  grupy  twierdzeń zwanych 

prawami  wielkich  liczb

oraz 

twierdzeniami  granicznymi

.  Twierdzenia  te  określają co  się dzieje  z 

prawdopodobieństwami zdarzeń gdy liczba doświadczeń jest bardzo duŜa. 

Prawa wielkich liczb oraz rozkłady graniczne: 

zbieŜność stochastyczna

background image

Funkcja  prawdopodobieństwa pozwala  określić prawdopodobieństwa  wystąpienia 

wartości skokowej zmiennej losowej:
Rozkład  dwumianowy jako  przykład  funkcji  generującej  prawdopodobieństwa 

zmiennej skokowej:

i

i

p

x

X

P

=

=

)

(

Zmienna losowa skokowa: rozkład dwumianowy

k

n

k

p

p

k

n

k

X

P





=

=

)

1

(

)

(

)!

(

!

!

k

n

k

n

k

n

=





Parametrami rozkładu dwumianowego są: 
liczba prób –

n

prawdopodobieństwo sukcesu -

p

Parametry  te  umoŜliwiają

generowanie 

prawdopodobieństwa 

k-sukcesów

n-próbach

przy załoŜonym prawdopodobieństwie 

p

Przykłady:  prawdopodobieństwo  wyrzucenia  6  szóstek  w  10  rzutach, 

prawdopodobieństwo urodzenia 3 synów z rzędu

background image

Funkcja  gęstości  prawdopodobieństwa pozwala  określić prawdopodobieństwo 

przyjęcia przez zmienną ciągłą wartości z przedziału a,b:

+

=

+∞

<

=

<

<

=

1

b

a

dowolnych 

 

dla

 

)

(

)

(

)

X

P(

f(x)dx

b

X

a

P

dx

x

f

b

a

f(x)

x

a

b

=

<

b

a

dx

x

f

b

X

a

P

)

(

)

(

Zmienna losowa ciągła: rozkład normalny

background image

2

2

2

)

(

2

1

)

(

σ

π

σ

m

x

e

x

f

=

Zmienna losowa X ma rozkład normalny o parametrach średnia -

m

oraz odchylenie 

standardowe  -

σ

co  zapisujemy  w  skrócie 

X:  N(m

σ) 

jeśli  funkcja  gęstości  ma 

następującą postać:

Własności krzywej rozkładu normalnego:
1) Symetria wzg. średniej 

m

2) Maksimum w punkcie
3) Punkty przegięcia ramion rozkładu to: 

m-σ

oraz

m+σ

π

σ

2

1

Zmienna losowa ciągła: rozkład normalny

0

0,01

0,02

0,03

0,04

0,05

0,06

150 156 161 167 172 178 184 189 195 200 206

G

ęs

to

ść

 p

ra

w

do

po

do

bi

st

w

a

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

1,1

D

ys

tr

yb

ua

nt

a

N(178, 7)

background image

Standaryzowany rozkład normalny: wyznaczanie 

prawdopodobieństwa

Prawdopodobieństwo  w  rozkładzie  normalnym  wyznaczamy  za  pomocą

standaryzowanego rozkładu normalnego. 

σ

m

X

U

=

Tak  przekształcony  rozkład  jest 

rozkładem  standaryzowanym  o 

parametrach N(0,1). 

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

-4

-3

-2

-2

-1

0

1

2

2

3

4

G

ęs

to

ść

 p

ra

w

do

p

od

o

bi

e

ńs

tw

a

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

1,1

D

ys

tr

yb

ua

nt

a

Wartości  prawdopodobieństwa  dla  dystrybuanty  standaryzowanego  rozkładu 

normalnego odczytujemy z 

tablicy

.

)

(

1

)

(

 

oraz

 

)

(

)

(

u

F

u

F

u

f

u

f

=

=

PoniewaŜ f-cja gęstości jest symetryczna względem u=0 w tablicach mamy podane 

wartości obu funkcji tylko dla dodatnich u. Korzystamy zatem z własności:

W  celu  uzyskania  rozkładu 

standaryzowanego  przekształcamy 

wartości  zmiennej  za  pomocą

wyraŜenia:

background image

=

<

=

<

=

<

σ

σ

σ

σ

σ

σ

σ

m

a

F

m

b

F

m

b

U

m

a

P

m

b

m

X

m

a

P

b

X

a

P

)

(

Prawdopodobieństwo określamy z relacji:

Standaryzowany rozkład normalny: wyznaczanie 

prawdopodobieństwa

Przykład:

wyznaczyć prawdopodobieństwo  tego,  Ŝe  zmienna  „wzrost” o 

parametrach rozkładu N(178,7) przyjmie wartość z przedziału 170-180.

(

)

(

)

( )

(

)

(

)

487

,

0

8729

,

0

1

6141

,

0

14

,

1

1

29

,

0

29

,

0

14

,

1

7

178

180

7

178

170

)

180

170

(

=

=

=

=

<

=

<

=

<

F

F

U

P

m

x

P

x

P

σ

0

0,01

0,02

0,03

0,04

0,05

0,06

146 154

162 170 178 186

194 202 210

P(x<170)=0,127

P(170<x

180)=0,487

P(x>180)=0,386

background image

Tablica wartości dystrybuanty standaryzowanego 

rozkład normalnego

F(0,29)

F(1,14)

(

)

(

)

( )

(

)

(

)

487

,

0

8729

,

0

1

6141

,

0

14

,

1

1

29

,

0

29

,

0

14

,

1

7

178

180

7

178

170

)

180

170

(

=

=

=

=

=

<

=

=

<

=

=

<

F

F

U

P

m

x

P

x

P

σ

background image

Standaryzowany rozkład normalny: reguła trzech sigm

x

min

-1

x

max

1

P(x<x

min

)

15,87%

P(x>x

max

)

15,87%

P(x

min

<x<x

max

)

68,27%

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

-6

-4

-2

0

2

4

6

x

min

-2

x

max

2

P(x<x

min

)

2,28%

P(x>x

max

)

2,28%

P(x

min

<x<x

max

)

95,45%

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

-6

-4

-2

0

2

4

6

x

min

-3

x

max

3

P(x<x

min

)

0,13%

P(x>x

max

)

0,13%

P(x

min

<x<x

max

)

99,73%

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

-6

-4

-2

0

2

4

6

P(-1<U<1)=0,68
średnia

±

1 odchylenie 

standardowe

P(-2<U<2)=0,68
średnia

±

2 odchylenie 

standardowe

P(-3<U<3)=0,68
średnia

±

2 odchylenie 

standardowe

background image

Twierdzenia graniczne

Prawa wielkich liczb

mówią o zbieŜności stochastycznej ciągu zmiennych losowych. 

Twierdzenie  Bernoulli’ego jest  właśnie  takim  prawem  gdyŜ określa  ono  granicę

stochastyczną ciągu zmiennych losowych, jaką tworzą częstości występowania 

k

-liczby

sukcesów w serii 

n

doświadczeń.

Twierdzenia graniczne

określają co się dzieje z prawdopodobieństwami zdarzeń

(opisywanymi przez funkcję prawdopodobieństwa, funkcję gęstości lub dystrybuantę) 

gdy liczba doświadczeń jest bardzo duŜa.



Lokalne twierdzenia graniczne: dotyczą zmian w funkcji prawdopodobieństwa, 

funkcji gęstości) 



Integralne twierdzenia graniczne: dotyczą zmian w wartościach dystrybuanty

Twierdzenia graniczne:

 de  Moivre’a-Laplace’a:

o zbieŜności stochastycznej rozkładu dwumianowego do 

rozkładu normalnego 



Lindeberga-Levy’ego: 

o zbieŜności stochastycznej sumy n-niezaleŜnych zmiennych losowych 

do rozkładu normalnego

background image

Jest dystrybuantą graniczną rozkładu dwumianowego o parametrach 

n

p

.

Gdy  prawdopodobieństwo  pojedynczego  sukcesu  jest  stałe  niezaleŜne  od  liczby 

doświadczeń, natomiast liczba doświadczeń jest duŜa wówczas dystrybuantę rozkładu 

dwumianowego moŜemy przybliŜać dystrybuantą rozkładu normalnego z parametrami 

określonymi przez rozkład dwumianowy.

Twierdzenie de Moivre’a-Laplace’a

(

)

p

np

np

m

N

=

=

1

(

 ,

σ

Twierdzenie to mówi Ŝe dystrybuanta rozkładu normalnego o parametrach:

Przykładowe zadanie

Wiadomo,  Ŝe  prawdopodobieństwo  zgłoszenia  reklamacji  wynosi  0,1.  Które  z 

poniŜszych zdarzeń jest bardziej prawdopodobne:

a) spośród 4 klientów przynajmniej 1 zgłosi reklamację,

b) spośród 400 klientów reklamację zgłosi co najmniej 38 osób?

background image

Twierdzenie de Moivre’a-Laplace’a: przykładowe 

zadanie

Przykładowe zadanie

Wiadomo,  Ŝe  prawdopodobieństwo  zgłoszenia  reklamacji  wynosi  0,1.  Które  z 

poniŜszych zdarzeń jest bardziej prawdopodobne:

a) spośród 4 klientów przynajmniej 1 zgłosi reklamację,

b) spośród 400 klientów reklamację zgłosi co najmniej 38 osób?

Zdarzenie a) n=4; p=0,1

34

,

0

66

,

0

1

)

1

(

66

,

0

9

,

0

1

)!

0

4

(

!

0

!

4

)

1

,

0

1

(

1

,

0

0

4

)

0

(

4

0

4

0

=

=

=

=

=





=

=

X

P

X

P

Zdarzenie b) n=400; p=0,1

(

)

(

)

(

)

6293

,

0

)

33

,

0

(

33

,

0

6

40

38

)

38

(

6

,

40

1

,

0

1

(

1

,

0

400

 

1

,

0

400

=

=

=

=

=

=

=

F

u

u

x

P

N

m

N

σ

background image

(

)

σ

n

m

n

N

 ,

Twierdzenie  to  dotyczy  sytuacji  gdy  mamy  do  czynienia  z  sumą zmiennych  o 

identycznych  rozkładach  normalnych  (jednakowych  średnich  i  jednakowych 

odchyleniach standardowych):

Taka  zmienna  która  jest  sumą n niezaleŜnych  zmiennych  losowych  ma 

asymptotyczny rozkład normalny z parametrami:

=

=

n

i

i

n

X

T

1

Twierdzenie Lindeberga-Levy’ego

Przykładowe zadanie

Czas obsługi klienta na poczcie w mieście stołecznym jest  zmienną losową, której 

rozkład  charakteryzuje  wartość oczekiwana  4,5  min.  i  odchylenie  standardowe  0,6 

min. Jakie jest prawdopodobieństwo, Ŝe czas obsługi 100 klientów będzie dłuŜszy niŜ

450 min.

background image

Twierdzenie Lindeberga-Levy’ego: przykładowe 

zadanie

Przykładowe zadanie

Czas obsługi klienta na poczcie w mieście stołecznym jest  zmienną losową, której 

rozkład  charakteryzuje  wartość oczekiwana  4,5  min.  i  odchylenie  standardowe  0,6 

min. Jakie jest prawdopodobieństwo, Ŝe czas obsługi 100 klientów będzie dłuŜszy niŜ

450 min.

X:N(4,5 ; 0,6) n=100 P(T

n

>450)

(

)

(

)

5

,

0

)

0

(

0

6

450

450

)

450

(

)

6

;

450

(

6

,

0

100

 

;

5

,

4

100

:

=

=

=

=

=

=

F

u

u

T

P

N

m

N

T

n

n

σ

background image

Rozkłady statystyk z próby: Próba jako realizacja 

procesu losowego

Nie  tylko  cechy  statystyczne  takie  jak  wzrost  czy  dochód  moŜemy 

scharakteryzować jako  zmienne  losowe.  Zmiennymi  losowymi  mogą być takŜe 

tzw. statystyki z próby czyli średnia, wariancja czy frakcja (częstość). 

1. Jeśli próba ma charakter losowy to do próby będą miały szanse trafić jednostki 

najczęściej występujące w populacji: czyli struktura próby będzie odzwierciedlała 

strukturę populacji.

2. Najbardziej  prawdopodobne  będą próby  zbliŜone  swoją strukturą do  struktury 

populacji. Są to tzw. próby wiarygodne. Inne próby będą mało prawdopodobne 

czyli mało wiarygodne. 

3. Próby nie odzwierciedlające dobrze struktury populacji są mało prawdopodobne 

ale nie są niemoŜliwe.

4. Z populacji moŜemy wylosować nieskończoną ilość prób
5. Próby  losowe  moŜemy  charakteryzować za  pomocą znanych  miar  takich  jak 

średnia, wariancja czy częstość

background image

1. PoniewaŜ z kaŜdej populacji moŜemy wylosować nieskończoną ilość prób kaŜda 

z  tych  prób  moŜe  charakteryzować się innymi  parametrami  czyli  róŜnymi 

średnimi, odchyleniami standardowymi (wariancjami), medianami…….itp

2. Takie parametry nazywamy statystykami z próby
3. PoniewaŜ to jakie wartości te statystyki przyjmą będzie generowane przez proces 

losowy  (losowanie  próby)  moŜemy  je  traktować jako  zmienne  losowe  o 

określonych rozkładach.

4. Pytanie: Jak zdefiniujemy te rozkłady i jakie będą ich parametry

Rozkłady statystyk: wnioski

Statystyki z próby: 



Średnia, róŜnica średnich, 



Frakcja (częstość), róŜnica frakcji, 



Iloraz wariancji

background image

Rozkład  średniej  arytmetycznej

z  próby  jest  rozkładem  normalnym  o 

parametrach (wtedy gdy znamy odchylenie standardowe w populacji) :

Rozkład średniej arytmetycznej z próby ma rozkład t-Studenta

gdy nie znamy 

odchylenia  standardowego  w  populacji.  PoniewaŜ rozkłady  t-Studenta oraz 

normalny  są zbliŜone  dla 

n>30 

moŜna  korzystać z  rozkładu  normalnego  i 

wykorzystywać rozkład normalny o powyŜszych parametrach.

=

=

n

x

D

m

x

E

N

σ

)

(

,

)

(

Rozkład średniej arytmetycznej z próby

background image

Próba 1 – z parametrami 

m

2

σ

2

i  liczebnością

n

1

Próba 2 – z parametrami 

m

2

σ

2

i liczebnością

n

2

Statystyka mierząca rozbieŜność połoŜenia obu tych prób będzie róŜnica średnich 

arytmetycznych z tych prób czyli               ma rozkład normalny o parametrach:

2

1

x

x

(

)

(

)

1

2

1

1

2

1

2

1

2

1

2

1

 

n

n

x

x

D

oraz 

m

m

x

x

E

σ

σ

+

=

=



+

1

2

1

1

2

1

2

1

;

n

n

m

m

N

σ

σ

Rozkład róŜnicy średnich arytmetycznych z prób 

losowych

background image

Jak  widzieliśmy  wcześniej  rozkładem  granicznym  dla  liczby  elementów 

wyróŜnionych,  czyli  frakcji,  jest  rozkład  normalny  (na  mocy  tw.  De  Moivre’a-

Laplace’a). Jeśli zmienna losowa ma rozkład dwumianowy o ustalonym parametrze 

p

jakim jest prawdopodobieństwo pojedynczego sukcesu to przy liczbie doświadczeń

równej 

n

częstość występowania liczby sukcesów 

m

czyli frakcja 

w=m/n 

ma rozkład 

dwumianowy o parametrach:

n

p)

-

p(1

D(w)

oraz 

p

w

E

=

=

 

)

(





n

p)

-

p(1

p

N

 

;

 

Jeśli liczba doświadczeń wzrasta do n>120 to frakcja posiada rozkład asymptotycznie 

normalny o analogicznych parametrach

Rozkład frakcji (częstości) z próby

background image

Jeśli mamy dwie niezaleŜne zmienne losowe o rozkładzie dwumianowym i róŜnych 

parametrach 

p

1

i  p

to  przy  liczbie  doświadczeń odpowiednio 

n

1

oraz 

n

2

róŜnica 

między częstościami względnymi  liczby sukcesów w obu doświadczeniach mierzona 

róŜnicą frakcji (

w

1

-w

2

) ma rozkład graniczny normalny o parametrach:

2

2

2

1

1

1

n

)

p

-

(1

p

n

)

p

-

(1

p

D(w)

oraz   

p

p

w

E

=

=

   

-

)

(

2

1



2

2

2

1

1

1

n

)

p

-

(1

p

n

)

p

-

(1

p

p

p

N

;

 

-

2

1

Rozkład róŜnicy frakcji (częstości) z prób losowych

background image

Rozkład ilorazu wariancji z prób losowych

Próba 1 – z parametrami 

m

2

σ

2

i  liczebnością

n

1

Próba 2 – z parametrami 

m

2

σ

2

i liczebnością

n

2

Statystyka mierząca rozbieŜność dyspersji obu tych prób będzie iloraz o postaci:
Po przekształceniu:

)

(

)

(

2

2

2

1

x

S

x

S

)

1

(

)

1

(

)

(

)

(

)

(

)

1

(

)

(

)

1

(

1

2

2

1

2

1

2

2

2

2

2

1

2

2

2

2

2

2

2

1

2

1

1

1

=

=

n

n

n

n

x

S

x

S

x

S

n

n

x

S

n

n

F

σ

σ

σ

σ

Ma  rozkład  F-Snedecora o  liczbie  stopni  swobody  określanej  przez  v

1

=n

1

-1  oraz 

v

2

=n

2

-1

background image

Waga netto pudełka proszku do prania jest zmienną losową o rozkładzie normalnym 

ze  średnią równą 1  kg  i  odchyleniem  standardowym  równym  10  gram.  Kontrola 

przyjmuje  partię towaru,  jeśli  dla  losowo  wybranych  9  opakowań średnia  waga  nie 

będzie  się róŜniła  od  1  kg  o  więcej  niŜ 5  gram.  Jakie  jest  prawdopodobieństwo 

przyjęcia partii towaru?

Przykład wykorzystania rozkładów statystyk z próby 

=

=

n

x

D

m

x

E

N

σ

)

(

,

)

(

(

)

33

,

3

;

1000

9

10

;

1000

N

N

(

)

(

) ( )

( )

(

)

(

)

8664

,

0

9332

,

0

1

9332

,

0

5

,

1

1

5

,

1

5

,

1

5

,

1

33

,

3

1000

1005

33

,

3

1000

995

1005

995

=

=

=

=

<

=

=

<

=

<

F

F

u

P

u

P

x

P

Jest  to  p-stwo przyjęcia  partii  towaru  lub 

inaczej:  p-stwo wylosowania  próby  dla 

której średnia z próby będzie mieściła się

w przedziale 1000

±

5 gramów