wyklad 3 Funkcje gestosci prawdopodobienstwa PL

background image

Wykład 3: Rozkłady

zmiennych losowych

Biometria i

Biostatystyka

background image

Rozkład częstości

Jakie jest prawdopodobieństwo, że waga

urodzeniowa dziecka będzie w przedziale klasy

2440g?

p=0.0677

background image

Rozkład częstości

Waga urodzeniowa < 3000 g

Jaki procent dzieci?

28.57%

background image

Rozkład częstości

Dokonujemy pomiaru wagi urodzeniowej
dziecka losowo wybranego z nieznanej populacji
i ma ono wagę urodzeniową równą 6000 g.

Czy ta nieznana populacja ma rozkład częstości
taki sam jaka nasza?

background image

Rozkład częstości

P(Birthweight~6000) →
0

background image

Rozkład częstości

Najprawdopodobniej odrzucilibyśmy hipotezę, iż

nieznana populacja ma rozkład taki sam jak

nasza, gdyż prawdopodobieństwo przynależności

do klasy 6000 g jest prawie równe zeru (mniejsze

niż 10

-12

).

Wnioskowalibyśmy, że nieznana populacja ma

prawdopodobnie inną wartość średnią i/albo

wariancję.

background image

Rozkład częstości

Wykorzystaliśmy empiryczny rozkład częstości
do oceny i wnioskowania o przynależności do
naszej populacji. W wielu przypadkach
będziemy się jednak opierać nie na rozkładach
empirycznych, lecz na teoretycznych
założeniach. Często mamy przesłanki, by
założyć iż dane powinny mieć ściśle określony
rozkład częstości. Jeśli nasze przypuszczenia się
nie potwierdzą eksperymentalnie, powinniśmy
ponownie zastanowić się nad tymi założeniami i
wnioskami wyciągniętymi na ich podstawie.

background image

Funkcja gęstości
prawdopodobieństwa

Rozkład teoretyczny częstości
nazywamy

funkcją gęstości

prawdopodobieństwa.

background image

Funkcje gęstości dyskretnych
zmiennych losowych

Rozkład dwumianowy

Rozkład geometryczny

Rozkład hipergeometryczny

Rozkład Poissona

background image

Rozkład dwumianowy

Załóżmy, że przeprowadzono n
niezależnych eksperymentów lub prób (n
jest znaną liczbą) i w każdej z prób wynik
jest

„sukcesem”

z prawdopodobieństwem

p

a

„porażką”

z prawdopodobieństwem

q=1-p

.

Całkowita liczba sukcesów w n próbach, X,
jest zmienną losową o rozkładzie
dwumianowym o parametrach n i p.

background image

Rozkład dwumianowy

Prawdopodobieństwo, że X=k, oznaczane

jako p(k), można wyliczyć w następujący
sposób:

Konkretna konfiguracja niezależnych k
sukcesów i (n-k) porażek wystąpi z
prawdopodobieństwem

Całkowita liczba takich konfiguracji

k

n

k

p

p

 )

1

(

k

n

k

n

k

k

n

k

p

p

k

n

k

n

p

p

k

n

k

p

)

1

(

)!

(

!

!

)

1

(

)

(

background image

Rozkład dwumianowy

Wartość średnia to:

p

n

)

x

(

p

x

)

X

(

E

x

n

1

i

i

i

Wariancja:

q

p

n

)

x

(

p

)

x

x

(

)

X

(

Var

s

n

1

i

i

2

i

2

background image

Rozkład dwupunktowy
(Bernoulliego) z
prawdopodobieństwem sukcesu
p

Zmienna losowa przyjmuje tylko dwie różne wartości a i b (np.
pojedynczy rzut monetą, n=1). Oznaczmy prawdopodobieństwo
przyjęcia wartości a przez p, a prawdopodobieństwo przyjęcia
wartości b przez q = 1 – p. Kodując zmienną losową w postaci:
‘sukces’ – wartość a – jako 1 a ‘porażka’ – wartość b – jako 0
wyliczamy wartość średnią:

p

p

1

q

0

)

x

(

p

x

)

X

(

E

x

1

0

i

i

i

natomiast wariancja znaleziona być może jako:

pq

)

q

p

(

pq

p

q

q

p

p

)

p

1

(

q

)

p

0

(

s

2

2

2

2

2

background image

Rozkład dwumianowy

Wartość średnia i wariancja
rozkładu dwumianowego przy n
próbach to

n-krotność

wartości

średniej i wariancji w pojedynczej
próbie (rozkładu Bernoulliego)

background image

Rozkład dwumianowy

n=10, p=0.5

n=10, p=0.1

background image

Przykład

Choroba Tay-Sachsa jest rzadką chorobą

o podłożu genetycznym ujawniającą się

w wieku niemowlęcym i

wczesnodziecięcym. Jeśli matka i ojciec

są nosicielami mutacji genetycznej Tay-

Sachsa, ich dziecko będzie chore z

prawdopodobieństwem równym 0.25.

Jeśli taka para ma czworo dzieci, jaka jest

funkcja rozkładu prawdopodobieństwa

liczby dzieci chorych w rodzinie?

background image

Rozkład dwumianowy

0.31
6

0.42
2

0.21
1

0.04
7

0.00
4

background image

Rozkład geometryczny jest również
konstruowany w oparciu o próby
Bernoulliego, jednak ich liczba jest
nieskończona. W każdej próbie sukces
występuje z prawdopodobieństwem p a
zmienna losowa X określa liczbę całkowitą
prób do osiągnięcia pierwszego sukcesu –
czas oczekiwania na sukces. Aby X=k,
musi być k-1 porażek a potem sukces w k-
tej próbie. Stąd

Rozkład geometryczny

p

p

k

p

k 1

)

1

(

)

(

background image

Rozkład geometryczny

Wartość oczekiwana:

p

X

E

1

)

(

a wariancja:

2

1

)

(

p

p

X

Var

background image

Przykład

background image

Rozkład
hipergeometryczny

Załóżmy, że w słoju znajduje się n kul,
przy czym r jest czarnych a n-r białych.

Zmienna losowa X określa liczbę kul
czarnych spośród m wylosowanych w
jednej próbie (losowanie bez zwracania).
Zatem

m

n

k

m

r

n

k

r

k

p

k

X

P

)

(

)

(

background image

Rozkład
hipergeometryczny

Wybranie jednej kuli czarnej możliwe jest z
prawdopodobieństwem r/n.

Prawdopodobieństwo wybrania drugiej jest już inne i
wynosi (r-1)/(n-1). Byłoby r/n gdybyśmy losowali ze
zwracaniem.

Rozkład dwumianowy jest poprawnym modelem tylko
dla przypadków losowań ze zwracaniem i/lub
nieskończenie dużych liczności n.

background image

Rozkład
hipergeometryczny

Wartość średnia:

mp

)

X

(

E

Wariancja:

1

n

m

n

mpq

)

X

(

Var

background image

Przykład

Załóżmy, iż w pudle jest 100
dyskietek, z których 20 jest
uszkodzonych.
Wybieramy losowo 10 dyskietek.
Jakie jest prawdopodobieństwo, że
co najwyżej dwie będą uszkodzone?
n=100 r=20 m=10

background image

Przykład

background image

Rozkład Poissona

Rozkład Poissona jest aproksymacją
rozkładu dwumianowego, gdy liczba
prób n jest bardzo duża oraz
prawdopodobieństwo sukcesu w każdej
próbie, oznaczone symbolem p, jest
bardzo małe. Oznaczmy np=λ, wówczas

!

)

(

k

e

k

p

k

background image

Rozkład Poissona

Zazwyczaj uznaje się, że warunki te są spełnione
gdy p<0.1 oraz np<5.

Jeśli tak jest, zmienna będzie miała rozkład
Poissona pod warunkiem, że każde wystąpienie
‘sukcesu’ jest niezależne od pozostałych
‘sukcesów’ – dlatego sprawdzając zgodność z
rozkładem Poissona pośrednio możemy
sprawdzić niezależność prób.

background image

Rozkład Poissona

Wartość oczekiwana:

)

(X

E

Wariancja:

)

(X

Var

background image

Rozkład Poissona

background image

Przykład

Rzucamy kostką 100 razy i zliczamy liczbę
wystąpień dwóch szóstek równocześnie –
zmienna losowa X.

Zmienna losowa ma rozkład dwumianowy,
przy czym n=100 a p=1/36=0.0278.

Ponieważ n jest duże a p bardzo małe
(np<5), możemy przybliżyć rozkład
dwumianowy rozkładem Poissona z
λ=np=2.78

background image

Przykład

background image

Inny przykład

Załóżmy, iż liczba telefonicznych
zgłoszeń awarii ma rozkład Poissona o
parametrze lambda równym λ=0.5 na
godzinę.

Jakie jest prawdopodobieństwo, że nie
będzie żadnych zgłoszeń w ciągu 5
godzin?

background image

Inny przykład

Zatem liczba zgłoszeń w przeciągu 5
godzin ma rozkład Poissona z
parametrem ω=5λ=2.5.
Prawdopodobieństwo, iż nie będzie
żadnych zgłoszeń w ciągu 5 godzin
można obliczyć jako

082

.

0

)

0

(

5

.

2

e

k

p

!

)

(

k

e

k

p

k

background image

Rozkłady ciągłych zmiennych
losowych

W przypadku ciągłych

zmiennych losowych rolę

funkcji częstości przejmuje

funkcja gęstości f(x), która ma

następujące właściwości:



1

)

(

and

0

)

(

dx

x

f

x

f

b

a

dx

x

f

b

X

a

P

)

(

)

(

oraz

background image

Rozkłady ciągłych zmiennych
losowych

Rozkład równomierny
(jednostajny)

Rozkład wykładniczy

Rozkład normalny

background image

Funkcja gęstości rozkładu
równomiernego

Dystrybucja, która przyjmuje stałą wartość w
całym zakresie zmienności zmiennej losowej
jest nazywana rozkładem równomiernym.

Ma ona postać

x

b

for

b

x

a

for

a

b

a

x

for

X

P

0

1

0

)

(

background image

Rozkład równomierny

x

dx

x

f

x

X

P

X

F

)

(

)

(

)

(

Dystrybuant
a

background image

Funkcja gęstości rozkładu
wykładniczego

Zmienna losowa o rozkładzie wykładniczym
używana jest najczęściej do opisu czasu
życia maszyn, części czy osób bądź innych
organizmów żywych. Używa się jej również
do opisu czasu oczekiwania do
zrealizowania zamówienia.

Funkcja gęstości prawdopodobieństwa (pdf)
dla konkretnej wartości parametru λ:

0

and

x

0

for

,

)

(

1

x

e

x

f

background image

Rozkład wykładniczy

Wartość oczekiwana:

wariancja:

0

1

)

(

dx

e

x

X

E

x

2

0

2

1

)

(

dx

e

x

X

Var

x

background image

Rozkład wykładniczy

15

background image

Rozkład wykładniczy

0

1

)

(

0

x

e

x

X

P

0

)

(

1

)

(

)

(

0

0

0

x

e

x

X

P

x

X

P

x

S

a
funkcja

nazywana jest krzywą
przeżywalności.

Możemy
wyznaczyć

background image

Rozkład wykładniczy

background image

Przykład

Niech zmienna losowa X oznacza
‘czas życia’ pralki. Zgodnie z
informacjami producenta średni
użytkowania takiej pralki to 15 lat.

Jakie jest prawdopodobieństwo, że
pralka będzie mogła być używana
jedynie przez okres krótszy niż 6 lat?

Jakie jest prawdopodobieństwo, że
pralka posłuży swojemu właścicielowi
co najmniej 18 lat?

background image

Przykład

0.0447

0.0667

P(X≤6) ≈ 0.0447·6+(0.0667-0.0447)·6/2

=

0.3342

background image

Przykład

0.3297

1

)

6

(

15

6

e

X

P

3012

.

0

)

18

(

15

18

e

X

P

background image

Podsumowując, dla tego modelu
pralki istnieje około 30% szansa,
że pralka będzie działa zarówno
bardzo długo jak i relatywnie
krótko w stosunku do średniego
czasu pracy tych pralek.

Przykład

background image

Niech Y będzie zmienną losową o rozkładzie
Poissona, określającą liczbę wystąpień w
jednostce czasu

gdzie μ jest średnią liczbą wystąpień w
jednostce czasu. Wtedy, jeśli X określa czas do
pierwszego wystąpienia, wówczas ta zmienna
losowa ma rozkład wykładniczy o średniej

Poisson i wykładniczy ...

,

!

)

(

k

e

k

Y

P

u

k

1

)

(X

E

background image

Przykład

Przeciętnie na pewnym odcinku
autostrady odnotowuje się 8
wypadków drogowych w ciągu
dwóch dni.

Jakie jest prawdopodobieństwo, że
nie będzie żadnego wypadku w
ciągu 3 dni lub więcej?

background image

Przykład

Średnia liczba wystąpień wypadków

samochodowych w ciągu dnia to 4. Zatem

średni czas oczekiwania na wypadek to 0.25

(dnia).

Niech Y będzie zmienną losową o rozkładzie

Poissona o średniej 4, reprezentującą liczbę

wypadków na dzień.

Wtedy X będzie zmienną losową o rozkładzie

wykładniczym i średniej reprezentującej czas

oczekiwania do wystąpienia pojedynczego

wypadku.

background image

Przykład

P(brak wypadku przez 3 lub więcej dni) =
P(czas do pierwszego wypadku ≥ 3)

0

)

3

(

12

25

.

0

3

e

e

X

P

background image

Rozkład normalny

Funkcja gęstości rozkładu normalnego

pełni

bardzo ważną rolę w probabilistyce i
statystyce. Nazywa się ją również funkcją
gaussowską, gdyż Carl Friedrich Gauss,
zaproponował ją jako model błędów
pomiarowych (w roku 1809).

Funkcja gęstości rozkładu normalnego jest
używana jako model zmienności takich
wielkości jak wzrost osób, IQ, czy prędkość
molekuł gazu.

background image

Rozkład normalny

Funkcja gęstości rozkładu normalnego
zależy od dwóch parametrów, μ -
średniej oraz σ – odchylenia
standardowego (przy czym -∞< μ< ∞ i σ
> 0):

2

2

2

)

(

2

1

)

(

x

e

x

f

background image

Rozkład normalny

μ=0

μ=4

background image

Rozkład normalny

σ=2

σ=3

σ=1

background image

Rozkład normalny

Krzywa jest symetryczna wokół wartości

średniej. Wartość średnia, mediana i

moda są takie same.

Nastepujące części pomiarów zmiennej

o rozkładzie normalnym znajdują się

wewnatrz przedziałów:
μ ± σ zawiera 68.72 % pomiarów
μ ± 2σ zawiera 95.45 % pomiarów
μ ± 3σ zawiera 99.73% pomiarów

background image

Rozkład normalny

68.27%

95.45%

99.73%

background image

Rozkład normalny

Dystrybuanta

Funkcja gęstości
prawdopodobieństwa

2.28%

5.87%

50.00%

34.13%

13.59%

2.14%

background image

Standardowy rozkład
normalny

Przypadek szczególny, gdy =0

oraz =1 określa tzw. standardową

normalną dystrybucję.

Dystrybuanta rozkładu
standardowego oznaczana jest
symbolem  a jego funkcja

gęstości .

background image

Standardowy rozkład
normalny

Prawdopodobieństwo dla określonej
realizacji zmiennej losowej o dowolnym
rozkładzie normalnym może być
wyznaczone z użyciem rozkładu
standardowego.

Wykorzystuje się tutaj następującą
właściwość:

)

a

,

b

a

(

N

~

Y

then

,

b

aX

Y

and

)

,

(

N

~

X

If

background image

Standardowy rozkład
normalny

Załóżmy, że X~N(,) a my chcemy znaleźć

prawdopodobieństwo, że P(x

0

<X<x

1

) dla

zadanych liczb x

0

i x

1

. Rozważmy

następującą zmienną losową:

X

X

Z

gdzie a=1/ a b=-/. Wówczas

)

1

,

0

(

N

)

)

(

,

(

N

)

a

,

b

a

(

N

~

Z

1

background image

Standardowy rozkład
normalny

Zatem

)

(

)

(

)

(

)

(

)

(

x

x

x

X

X

Z

P

P

x

X

P

x

F

Więc

)

(

)

(

)

(

)

(

)

(

0

1

0

1

1

0

x

x

X

X

x

F

x

F

x

X

x

P

background image

Przykład

Wyniki standaryzowanego testu na
inteligencję, IQ, mają w przybliżeiu
rozkład normalny o średniej =100

oraz odchyleniu standardowym
=15.

Wybieramy losowo jedną osobę.
Jakie jest prawdopodobieństwo, że
uzyska ona wynik 120 < X < 130?

background image

Przykład

Możemy wyznaczyć interesujące nas
prawdopodobieństwo dokonując
standaryzacji zmiennej losowej:

069

.

0

9082

.

0

9772

.

0

)

33

.

1

(

)

2

(

)

2

33

.

1

(

)

(

)

130

120

(

15

100

130

15

100

15

100

120

Z

P

P

X

P

X

background image

Symetria i kurtoza

Często obserwujemy odstępstwa
od rozkładu normalnego.
Statystyki, które pozwolą to ocenić
ilościowo bardzo użyteczne.

Zajmiemy się dwoma najczęściej
pojawiającymi się odstępstwami
rozkładów od normalności:

skośnością

i

kurtozą

.

background image

Skośność

Skośność

, inaczej zwana asymetrią, ocenia

na ile jeden z końców krzywej rozkładu
prawdopodobieństwa jest niesymetryczny
w stosunku do drugiego końca.

W takim przypadku brak jest zgodności
wartości średniej i mediany.

W zależności od deformacji, krzywe
określa się mianem prawo- i
lewoskośności.

background image

Skośność

background image

Kurtoza

Jeśli symetryczny rozkład ma
środek, dwa ramiona i dwa końce,
kurtoza opisuje stosunek między
częścią środkową i końcami w
odniesieniu do ramion.

Definiujemy leptokurtozę
(wyostrzenie krzywej) i platykurtozę
(spłaszczenie krzywej).

background image

Kurtoza

O leptokurtozie (wyostrzeniu)
mówimy, gdy krzywa ma więcej
obserwacji blisko środka i na końcach a
mniej w ramionach w porównaniu do
rozkładu normalnego, z tą samą średnią i
wariancją

.

background image

Kurtoza

O platykurtozie (spłaszczeniu)
mówimy, gdy krzywa ma mniej
elementów w środku i końcach, za to
więcej w ramionach niż krzywa
normalna.

background image

Skośność i kurtoza

Przykładowe statystyki mierzące skośność i
kurtozę są zapisywane jako g

1

and g

2

i służą do

reprezentowania parametrów populacji γ

1

i γ

2

.

3

3

1

)

2

)(

1

(

)

(

s

n

n

X

X

n

g

i

4

2

2

4

1

)

1

(

2

)

3

)(

2

(

)

(

3

)

(

s

n

n

X

X

X

X

g

i

i

n

n

n

background image

Skośność i kurtoza

W normalnym rozkładzie częstości γ

1

i

γ

2

są równe zero.

Ujemne g

1

wskazuje na lewoskośność,

a dodatnie g

1

- prawoskośność.

Ujemne g

2

mówi o wyostrzeniu, zaś

dodatnie g

2

- o spłaszczeniu.

Wartości bezwzględne z g

1

and g

2

nie

mają wielkiego znaczenia.

background image

Ocena skośności i kurtozy za
pomocą kwantyli

Oznaczając i-ty kwartyl jako Q

i

, możemy

zdefiniować współczynnik skośności
Bowley’a (Bowley, 1920):

1

3

2

1

3

2

Q

Q

Q

Q

Q

skewness

wielkość, która może przyjmować wartości od
-1 dla rozkładu ekstremalnie lewoskośnego,
przez 0 dla rozkładu symetrycznego, do 1 dla
rozkładu prawoskośnego

background image

Ocena skośności i kurtozy za
pomocą kwantyli

Pomiar kurtozy (wyostrzenia) na podstawie
oktyli O

i

(12.5%, 25%, 37.5% itd.) został

zaproponowany przez Moors’a w 1988

1

3

1

3

5

7

)

(

)

(

Q

Q

O

O

O

O

kurtosis

Dla skrajnie spłaszczonego rozkładu ta
wartość wynosi 0; 1.233 dla normalnego;
nieskończoność dla skrajnie wyostrzonego.

background image

Graficzny test na kształt
rozkładu

Wykresy kwantylowe (Q-Q) są
użyteczne, gdy ogólnie porównujemy
funkcje rozkładów. Na wykresach Q-
Q, rysuje się i porównuje kwantyle
obu rozkładów.

background image

Graficzny test na kształt
rozkładu

background image

Graficzny test na kształt
rozkładu


Document Outline


Wyszukiwarka

Podobne podstrony:
Wyklad 3 Funkcje gestosci prawdopodobienstwa
Wyklad 6 Testy zgodnosci dopasowania PL
wyklad 6 Testy zgodnosci dopasowania PL
wyklad ii www przeklej pl
Wykład VII mechanizacja antastic pl
Wykład III mechanizacja antastic pl
funkcje przywodcy-Notatek.pl, Przywództwo jest szczególną postacią władzy
WYKŁADY GENETYKA Genetyka diagnostyka pl. 21.11.09r
C i c++ wykłady, Funkcje
wyklad 8 Nieparametryczne metody statystyczne PL
wykład 3 funkcje wielu zmiennych
LLD wyklad 1 2012 [ www potrzebujegotowki pl ]
Matematyka Sem 2 Wykład Funkcje Uwikłane
12 wyklad funkcje dwu zmiennych
Wykres rozrzutów nośności z poszczególnych prób oraz odpowiadających im funkcji gęstości, Domumenty,
Wykład IX dobrostan antastic pl

więcej podobnych podstron