2 WNIOSKOWANIE ZM LOSOWA

background image

Wykład 2:

Wprowadzenie do wnioskowania

statystycznego: zmienna losowa, rozkłady

graniczne i statystyki z próby

Statystyka: kurs podstawowy

Semestr Letni 2007/2008

dr Krzysztof Tymicki

Instytut Statystyki i Demografii

Szkoła Główna Handlowa

background image

Probabilistyczne podstawy wnioskowania

statystycznego

Pojęcia podstawowe

• Definicje prawdopodobieństwa: klasyczna vs. częstościowa
• Zmienna losowa
• Funkcja prawdopodobieństwa/gęstość prawdopodobieństwa
• Rozkład prawdopodobieństwa
• Dystrybuanta

Rozkłady prawdopodobieństwa zmiennych losowych

• Zmienna skokowa: rozkład dwumianowy
• Zmienna ciągła: rozkład normalny

background image

Zmienna losowa

Klasyczna vs. stochastyczna (częstościowa) definicja prawdopodobieństwa



w ujęciu klasycznym prawdopodobieństwo znane jest a priori (czyli przed wykonaniem

eksperymentu)



w statystyce zakładamy prawdopodobieństwo a posteriori (czyli jako rezultat doświadczenia

– na podstawie częstości pojawienia się zdarzeń elementarnych)

Definicja

Niech E będzie zbiorem zdarzeń elementarnych danego doświadczenia. Funkcję

X(e) przyporządkowującą każdemu zdarzeniu elementarnemu jedną i tylko

jedną liczbę X(e)=x nazywamy zmienną losową

E

e

Przykład: rzut monetą



zdarzenia losowe (elementarne): „pojawienie się orła” oraz „pojawienie się reszki”



każdemu zdarzeniu losowemu przypisane jest prawdopodobieństwo

Zmienna losowa a cecha statystyczna



każda cecha statystyczna jest zmienną losową



Prawdopodobieństwa wystąpienia zdarzeń elementarnych będą określane za pomocą

funkcji matematycznych

background image

Prawdopodobieństwo wystąpienia wartości cech statystycznych określane jest na podstawie

tzw. definicji częstościowej.
Przy dużej liczbie zdarzeń maleją prawdopodobieństwa występowania dużych różnic

między częstością a prawdopodobieństwem. Rośnie prawdopodobieństwo występowania

różnic małych. Mówi o tym tzw. złote twierdzenie Bernoulli’ego

1

lim

=





<

ε

p

n

k

P

n

Złote twierdzenie mówi:

„Jest mało prawdopodobne aby to co mało prawdopodobne zdarzało się często.

Jednocześnie, jest mało prawdopodobne aby to co jest bardzo prawdopodobne

zdarzało się rzadko”.

Twierdzenie to należy do grupy twierdzeń zwanych

prawami wielkich liczb

oraz

twierdzeniami granicznymi

. Twierdzenia te określają co się dzieje z

prawdopodobieństwami zdarzeń gdy liczba doświadczeń jest bardzo duża.

Prawa wielkich liczb oraz rozkłady graniczne:

zbieżność stochastyczna

background image

Funkcja prawdopodobieństwa pozwala określić prawdopodobieństwa wystąpienia

wartości skokowej zmiennej losowej:
Rozkład dwumianowy jako przykład funkcji generującej prawdopodobieństwa

zmiennej skokowej:

i

i

p

x

X

P

=

=

)

(

Zmienna losowa skokowa: rozkład dwumianowy

k

n

k

p

p

k

n

k

X

P





=

=

)

1

(

)

(

)!

(

!

!

k

n

k

n

k

n

=





Parametrami rozkładu dwumianowego są:
liczba prób –

n

prawdopodobieństwo sukcesu -

p

Parametry te umożliwiają

generowanie

prawdopodobieństwa

k-sukcesów

w

n-próbach

przy założonym prawdopodobieństwie

p

Przykłady: prawdopodobieństwo wyrzucenia 6 szóstek w 10 rzutach,

prawdopodobieństwo urodzenia 3 synów z rzędu

background image

Funkcja gęstości prawdopodobieństwa pozwala określić prawdopodobieństwo

przyjęcia przez zmienną ciągłą wartości z przedziału a,b:

+

=

+∞

<

=

<

<

=

1

b

a

dowolnych

dla

)

(

)

(

)

X

P(

f(x)dx

b

X

a

P

dx

x

f

b

a

f(x)

x

a

b

=

<

b

a

dx

x

f

b

X

a

P

)

(

)

(

Zmienna losowa ciągła: rozkład normalny

background image

2

2

2

)

(

2

1

)

(

σ

π

σ

m

x

e

x

f

=

Zmienna losowa X ma rozkład normalny o parametrach średnia -

m

oraz odchylenie

standardowe -

σ

co zapisujemy w skrócie

X: N(m

,

σ)

jeśli funkcja gęstości ma

następującą postać:

Własności krzywej rozkładu normalnego:
1) Symetria wzg. średniej

m

2) Maksimum w punkcie
3) Punkty przegięcia ramion rozkładu to:

m-σ

oraz

m+σ

π

σ

2

1

Zmienna losowa ciągła: rozkład normalny

0

0,01

0,02

0,03

0,04

0,05

0,06

150 156 161 167 172 178 184 189 195 200 206

G

ęs

to

ść

p

ra

w

do

po

do

bi

st

w

a

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

1,1

D

ys

tr

yb

ua

nt

a

N(178, 7)

background image

Standaryzowany rozkład normalny: wyznaczanie

prawdopodobieństwa

Prawdopodobieństwo w rozkładzie normalnym wyznaczamy za pomocą

standaryzowanego rozkładu normalnego.

σ

m

X

U

=

Tak przekształcony rozkład jest

rozkładem standaryzowanym o

parametrach N(0,1).

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

-4

-3

-2

-2

-1

0

1

2

2

3

4

G

ęs

to

ść

p

ra

w

do

p

od

o

bi

e

ńs

tw

a

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

1,1

D

ys

tr

yb

ua

nt

a

Wartości prawdopodobieństwa dla dystrybuanty standaryzowanego rozkładu

normalnego odczytujemy z

tablicy

.

)

(

1

)

(

oraz

)

(

)

(

u

F

u

F

u

f

u

f

=

=

Ponieważ f-cja gęstości jest symetryczna względem u=0 w tablicach mamy podane

wartości obu funkcji tylko dla dodatnich u. Korzystamy zatem z własności:

W celu uzyskania rozkładu

standaryzowanego przekształcamy

wartości zmiennej za pomocą

wyrażenia:

background image

=

<

=

<

=

<

σ

σ

σ

σ

σ

σ

σ

m

a

F

m

b

F

m

b

U

m

a

P

m

b

m

X

m

a

P

b

X

a

P

)

(

Prawdopodobieństwo określamy z relacji:

Standaryzowany rozkład normalny: wyznaczanie

prawdopodobieństwa

Przykład:

wyznaczyć prawdopodobieństwo tego, że zmienna „wzrost” o

parametrach rozkładu N(178,7) przyjmie wartość z przedziału 170-180.

(

)

(

)

( )

(

)

(

)

487

,

0

8729

,

0

1

6141

,

0

14

,

1

1

29

,

0

29

,

0

14

,

1

7

178

180

7

178

170

)

180

170

(

=

=

=

=

<

=

<

=

<

F

F

U

P

m

x

P

x

P

σ

0

0,01

0,02

0,03

0,04

0,05

0,06

146 154

162 170 178 186

194 202 210

P(x<170)=0,127

P(170<x

180)=0,487

P(x>180)=0,386

background image

Tablica wartości dystrybuanty standaryzowanego

rozkład normalnego

F(0,29)

F(1,14)

(

)

(

)

( )

(

)

(

)

487

,

0

8729

,

0

1

6141

,

0

14

,

1

1

29

,

0

29

,

0

14

,

1

7

178

180

7

178

170

)

180

170

(

=

=

=

=

=

<

=

=

<

=

=

<

F

F

U

P

m

x

P

x

P

σ

background image

Standaryzowany rozkład normalny: reguła trzech sigm

x

min

-1

x

max

1

P(x<x

min

)

15,87%

P(x>x

max

)

15,87%

P(x

min

<x<x

max

)

68,27%

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

-6

-4

-2

0

2

4

6

x

min

-2

x

max

2

P(x<x

min

)

2,28%

P(x>x

max

)

2,28%

P(x

min

<x<x

max

)

95,45%

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

-6

-4

-2

0

2

4

6

x

min

-3

x

max

3

P(x<x

min

)

0,13%

P(x>x

max

)

0,13%

P(x

min

<x<x

max

)

99,73%

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

-6

-4

-2

0

2

4

6

P(-1<U<1)=0,68
średnia

±

1 odchylenie

standardowe

P(-2<U<2)=0,68
średnia

±

2 odchylenie

standardowe

P(-3<U<3)=0,68
średnia

±

2 odchylenie

standardowe

background image

Twierdzenia graniczne

Prawa wielkich liczb

mówią o zbieżności stochastycznej ciągu zmiennych losowych.

Twierdzenie Bernoulli’ego jest właśnie takim prawem gdyż określa ono granicę

stochastyczną ciągu zmiennych losowych, jaką tworzą częstości występowania

k

-liczby

sukcesów w serii

n

doświadczeń.

Twierdzenia graniczne

określają co się dzieje z prawdopodobieństwami zdarzeń

(opisywanymi przez funkcję prawdopodobieństwa, funkcję gęstości lub dystrybuantę)

gdy liczba doświadczeń jest bardzo duża.



Lokalne twierdzenia graniczne: dotyczą zmian w funkcji prawdopodobieństwa,

funkcji gęstości)



Integralne twierdzenia graniczne: dotyczą zmian w wartościach dystrybuanty

Twierdzenia graniczne:

 de Moivre’a-Laplace’a:

o zbieżności stochastycznej rozkładu dwumianowego do

rozkładu normalnego



Lindeberga-Levy’ego:

o zbieżności stochastycznej sumy n-niezależnych zmiennych losowych

do rozkładu normalnego

background image

Jest dystrybuantą graniczną rozkładu dwumianowego o parametrach

n

i

p

.

Gdy prawdopodobieństwo pojedynczego sukcesu jest stałe niezależne od liczby

doświadczeń, natomiast liczba doświadczeń jest duża wówczas dystrybuantę rozkładu

dwumianowego możemy przybliżać dystrybuantą rozkładu normalnego z parametrami

określonymi przez rozkład dwumianowy.

Twierdzenie de Moivre’a-Laplace’a

(

)

p

np

np

m

N

=

=

1

(

,

σ

Twierdzenie to mówi że dystrybuanta rozkładu normalnego o parametrach:

Przykładowe zadanie

Wiadomo, że prawdopodobieństwo zgłoszenia reklamacji wynosi 0,1. Które z

poniższych zdarzeń jest bardziej prawdopodobne:

a) spośród 4 klientów przynajmniej 1 zgłosi reklamację,

b) spośród 400 klientów reklamację zgłosi co najmniej 38 osób?

background image

Twierdzenie de Moivre’a-Laplace’a: przykładowe

zadanie

Przykładowe zadanie

Wiadomo, że prawdopodobieństwo zgłoszenia reklamacji wynosi 0,1. Które z

poniższych zdarzeń jest bardziej prawdopodobne:

a) spośród 4 klientów przynajmniej 1 zgłosi reklamację,

b) spośród 400 klientów reklamację zgłosi co najmniej 38 osób?

Zdarzenie a) n=4; p=0,1

34

,

0

66

,

0

1

)

1

(

66

,

0

9

,

0

1

)!

0

4

(

!

0

!

4

)

1

,

0

1

(

1

,

0

0

4

)

0

(

4

0

4

0

=

=

=

=

=





=

=

X

P

X

P

Zdarzenie b) n=400; p=0,1

(

)

(

)

(

)

6293

,

0

)

33

,

0

(

33

,

0

6

40

38

)

38

(

6

,

40

1

,

0

1

(

1

,

0

400

1

,

0

400

=

=

=

=

=

=

=

F

u

u

x

P

N

m

N

σ

background image

(

)

σ

n

m

n

N

,

Twierdzenie to dotyczy sytuacji gdy mamy do czynienia z sumą zmiennych o

identycznych rozkładach normalnych (jednakowych średnich i jednakowych

odchyleniach standardowych):

Taka zmienna która jest sumą n niezależnych zmiennych losowych ma

asymptotyczny rozkład normalny z parametrami:

=

=

n

i

i

n

X

T

1

Twierdzenie Lindeberga-Levy’ego

Przykładowe zadanie

Czas obsługi klienta na poczcie w mieście stołecznym jest zmienną losową, której

rozkład charakteryzuje wartość oczekiwana 4,5 min. i odchylenie standardowe 0,6

min. Jakie jest prawdopodobieństwo, że czas obsługi 100 klientów będzie dłuższy niż

450 min.

background image

Twierdzenie Lindeberga-Levy’ego: przykładowe

zadanie

Przykładowe zadanie

Czas obsługi klienta na poczcie w mieście stołecznym jest zmienną losową, której

rozkład charakteryzuje wartość oczekiwana 4,5 min. i odchylenie standardowe 0,6

min. Jakie jest prawdopodobieństwo, że czas obsługi 100 klientów będzie dłuższy niż

450 min.

X:N(4,5 ; 0,6) n=100 P(T

n

>450)

(

)

(

)

5

,

0

)

0

(

0

6

450

450

)

450

(

)

6

;

450

(

6

,

0

100

;

5

,

4

100

:

=

=

=

=

=

=

F

u

u

T

P

N

m

N

T

n

n

σ

background image

Rozkłady statystyk z próby: Próba jako realizacja

procesu losowego

Nie tylko cechy statystyczne takie jak wzrost czy dochód możemy

scharakteryzować jako zmienne losowe. Zmiennymi losowymi mogą być także

tzw. statystyki z próby czyli średnia, wariancja czy frakcja (częstość).

1. Jeśli próba ma charakter losowy to do próby będą miały szanse trafić jednostki

najczęściej występujące w populacji: czyli struktura próby będzie odzwierciedlała

strukturę populacji.

2. Najbardziej prawdopodobne będą próby zbliżone swoją strukturą do struktury

populacji. Są to tzw. próby wiarygodne. Inne próby będą mało prawdopodobne

czyli mało wiarygodne.

3. Próby nie odzwierciedlające dobrze struktury populacji są mało prawdopodobne

ale nie są niemożliwe.

4. Z populacji możemy wylosować nieskończoną ilość prób
5. Próby losowe możemy charakteryzować za pomocą znanych miar takich jak

średnia, wariancja czy częstość

background image

1. Ponieważ z każdej populacji możemy wylosować nieskończoną ilość prób każda

z tych prób może charakteryzować się innymi parametrami czyli różnymi

średnimi, odchyleniami standardowymi (wariancjami), medianami…….itp

2. Takie parametry nazywamy statystykami z próby
3. Ponieważ to jakie wartości te statystyki przyjmą będzie generowane przez proces

losowy (losowanie próby) możemy je traktować jako zmienne losowe o

określonych rozkładach.

4. Pytanie: Jak zdefiniujemy te rozkłady i jakie będą ich parametry

Rozkłady statystyk: wnioski

Statystyki z próby:



Średnia, różnica średnich,



Frakcja (częstość), różnica frakcji,



Iloraz wariancji

background image

Rozkład średniej arytmetycznej

z próby jest rozkładem normalnym o

parametrach (wtedy gdy znamy odchylenie standardowe w populacji) :

Rozkład średniej arytmetycznej z próby ma rozkład t-Studenta

gdy nie znamy

odchylenia standardowego w populacji. Ponieważ rozkłady t-Studenta oraz

normalny są zbliżone dla

n>30

można korzystać z rozkładu normalnego i

wykorzystywać rozkład normalny o powyższych parametrach.

=

=

n

x

D

m

x

E

N

σ

)

(

,

)

(

Rozkład średniej arytmetycznej z próby

background image

Próba 1 – z parametrami

m

2

,

σ

2

i liczebnością

n

1

Próba 2 – z parametrami

m

2

,

σ

2

i liczebnością

n

2

Statystyka mierząca rozbieżność położenia obu tych prób będzie różnica średnich

arytmetycznych z tych prób czyli ma rozkład normalny o parametrach:

2

1

x

x

(

)

(

)

1

2

1

1

2

1

2

1

2

1

2

1

n

n

x

x

D

oraz

m

m

x

x

E

σ

σ

+

=

=



+

1

2

1

1

2

1

2

1

;

n

n

m

m

N

σ

σ

Rozkład różnicy średnich arytmetycznych z prób

losowych

background image

Jak widzieliśmy wcześniej rozkładem granicznym dla liczby elementów

wyróżnionych, czyli frakcji, jest rozkład normalny (na mocy tw. De Moivre’a-

Laplace’a). Jeśli zmienna losowa ma rozkład dwumianowy o ustalonym parametrze

p

jakim jest prawdopodobieństwo pojedynczego sukcesu to przy liczbie doświadczeń

równej

n

częstość występowania liczby sukcesów

m

czyli frakcja

w=m/n

ma rozkład

dwumianowy o parametrach:

n

p)

-

p(1

D(w)

oraz

p

w

E

=

=

)

(





n

p)

-

p(1

p

N

;

Jeśli liczba doświadczeń wzrasta do n>120 to frakcja posiada rozkład asymptotycznie

normalny o analogicznych parametrach

Rozkład frakcji (częstości) z próby

background image

Jeśli mamy dwie niezależne zmienne losowe o rozkładzie dwumianowym i różnych

parametrach

p

1

i p

2

to przy liczbie doświadczeń odpowiednio

n

1

oraz

n

2

różnica

między częstościami względnymi liczby sukcesów w obu doświadczeniach mierzona

różnicą frakcji (

w

1

-w

2

) ma rozkład graniczny normalny o parametrach:

2

2

2

1

1

1

n

)

p

-

(1

p

n

)

p

-

(1

p

D(w)

oraz

p

p

w

E

=

=

-

)

(

2

1



2

2

2

1

1

1

n

)

p

-

(1

p

n

)

p

-

(1

p

p

p

N

;

-

2

1

Rozkład różnicy frakcji (częstości) z prób losowych

background image

Rozkład ilorazu wariancji z prób losowych

Próba 1 – z parametrami

m

2

,

σ

2

i liczebnością

n

1

Próba 2 – z parametrami

m

2

,

σ

2

i liczebnością

n

2

Statystyka mierząca rozbieżność dyspersji obu tych prób będzie iloraz o postaci:
Po przekształceniu:

)

(

)

(

2

2

2

1

x

S

x

S

)

1

(

)

1

(

)

(

)

(

)

(

)

1

(

)

(

)

1

(

1

2

2

1

2

1

2

2

2

2

2

1

2

2

2

2

2

2

2

1

2

1

1

1

=

=

n

n

n

n

x

S

x

S

x

S

n

n

x

S

n

n

F

σ

σ

σ

σ

Ma rozkład F-Snedecora o liczbie stopni swobody określanej przez v

1

=n

1

-1 oraz

v

2

=n

2

-1

background image

Waga netto pudełka proszku do prania jest zmienną losową o rozkładzie normalnym

ze średnią równą 1 kg i odchyleniem standardowym równym 10 gram. Kontrola

przyjmuje partię towaru, jeśli dla losowo wybranych 9 opakowań średnia waga nie

będzie się różniła od 1 kg o więcej niż 5 gram. Jakie jest prawdopodobieństwo

przyjęcia partii towaru?

Przykład wykorzystania rozkładów statystyk z próby

=

=

n

x

D

m

x

E

N

σ

)

(

,

)

(

(

)

33

,

3

;

1000

9

10

;

1000

N

N

(

)

(

) ( )

( )

(

)

(

)

8664

,

0

9332

,

0

1

9332

,

0

5

,

1

1

5

,

1

5

,

1

5

,

1

33

,

3

1000

1005

33

,

3

1000

995

1005

995

=

=

=

=

<

=

=

<

=

<

F

F

u

P

u

P

x

P

Jest to p-stwo przyjęcia partii towaru lub

inaczej: p-stwo wylosowania próby dla

której średnia z próby będzie mieściła się

w przedziale 1000

±

5 gramów


Wyszukiwarka

Podobne podstrony:
dwuwym zm losowa dwuwym r emp
dwuwym zm losowa dwuwym r emp
zm losowa z2
dwuwym zm losowa dwuwym r emp
Dz U 2013poz 1013 zm w sprawie wniosku o pozwolenie na budowę
Monitoring ZM Pierzchala
CZEPITA SOCZEWKA ZM
7 Szkolenie bhp zm 01 11
078c rozp zm rozp min gosp w spr szkolenia w dziedzinie bhp
Wniosek 21, Łódź, Budżet 2012 (wnioski)
wywłaszczenie nieruchomości, Nieruchomości, Wnioski, rozpożądzenia, dok
wniosek urlopowy, ☻PISMA, WNIOSKI itp. ✍, ✔Wnioski, Rezygnacje, Pisma
inst pneumatyczna su-22 wnioski przemek, PWR [w9], W9, 5 semestr, aaaOrganizacja SEM5, Od sebka, Wyp
Wnioski do spr z elektry 3, PW SiMR, Inżynierskie, Semestr V, syf, laborki, Lab. Ukł. Napędowych

więcej podobnych podstron