background image

 

Wykład 3: Rozkłady 

zmiennych losowych

Biometria i 

Biostatystyka

background image

Zmienne losowe

Zmienna losowa jest to funkcja 
przyporządkowująca każdemu 
zdarzeniu losowemu wartość 
liczbową.

Zmienną losową oznacza się 
zwykle literami alfabetu greckiego 
lub dużymi literami alfabetu 
łacińskiego.

background image

Rozkład częstości

Jakie jest prawdopodobieństwo, że waga 

urodzeniowa dziecka będzie w przedziale klasy 

2440g?

p=0.0677

background image

Rozkład częstości

Waga urodzeniowa < 3000 g

Jaki procent dzieci?

28.57%

background image

Rozkład częstości

Dokonujemy pomiaru wagi urodzeniowej 
dziecka losowo wybranego z nieznanej populacji 
i ma ono wagę urodzeniową równą 6000 g. 

Czy ta nieznana populacja ma rozkład częstości 
taki sam jaka nasza?

 

background image

Rozkład częstości

P(Birthweight~6000) → 

background image

Rozkład częstości

Najprawdopodobniej odrzucilibyśmy hipotezę, iż 

nieznana populacja ma rozkład taki sam jak 

nasza, gdyż prawdopodobieństwo przynależności 

do klasy 6000 g jest prawie równe zeru (mniejsze 

niż 10

-12

). 

Wnioskowalibyśmy, że nieznana populacja ma 

prawdopodobnie inną wartość średnią i/albo 

wariancję. 

background image

Rozkład częstości

Wykorzystaliśmy empiryczny rozkład częstości 
do oceny i wnioskowania o przynależności do 
naszej populacji. W wielu przypadkach 
będziemy się jednak opierać nie na rozkładach 
empirycznych, lecz na teoretycznych 
założeniach. Często mamy przesłanki, by 
założyć iż dane powinny mieć ściśle określony 
rozkład częstości. Jeśli nasze przypuszczenia się 
nie potwierdzą eksperymentalnie, powinniśmy 
ponownie zastanowić się nad tymi założeniami i 
wnioskami wyciągniętymi na ich podstawie.

background image

Funkcja rozkładu 
prawdopodobieństwa (gęstość 
prawdopodobieństwa)

Rozkład teoretyczny częstości nazywamy 

funkcją gęstości prawdopodobieństwa.

Funkcją rozkładu prawdopodobieństwa 
zmiennej losowej ξ nazywa się 
prawdopodobieństwo zdarzenia 
polegającego na tym, że zmienna przyjmie 
jedną wartości należących do pewnego 
przedziału. Oznacza się ją zwykle symbolem 

)

(

2

1

x

x

P

background image

Gęstość zmiennej losowej 
ciągłej

Gęstością prawdopodobieństwa zmiennej 
losowej ciągłej nazywa się granicę: 

Ich graficzną reprezentację nazywamy 
krzywymi gęstości.

)

(

}

{

}

{

lim

0

x

f

x

x

P

x

x

P

x

background image

Dystrybuanta

Dystrybuantą zmiennej losowej ξ 
nazywa się prawdopodobieństwo 
zdarzenia polegającego na tym, że 
zmienna losowa ξ przyjmie wartość 
mniejszą od ustalonej rzeczywistej 
wartości x. Zwykle 
prawdopodobieństwo to oznacza się w 
następujący sposób:  

)

(

}

{

x

F

x

P

background image

Funkcje gęstości dyskretnych 
zmiennych losowych

Rozkład dwumianowy

Rozkład geometryczny

Rozkład hipergeometryczny

Rozkład Poissona

background image

Rozkład dwumianowy

Załóżmy, że przeprowadzono n 
niezależnych eksperymentów lub prób (n 
jest znaną liczbą) i w każdej z prób wynik 
jest 

„sukcesem”

 z prawdopodobieństwem 

p

 a 

„porażką”

 z prawdopodobieństwem 

q=1-p

.

Całkowita liczba sukcesów w n próbach, X,  
jest zmienną losową o rozkładzie 
dwumianowym o parametrach n i p. 

background image

Rozkład dwumianowy

Prawdopodobieństwo, że X=k, oznaczane 

jako p(k), można wyliczyć w następujący 
sposób:

Konkretna konfiguracja niezależnych k 
sukcesów i (n-k) porażek wystąpi z 
prawdopodobieństwem 

Całkowita liczba takich konfiguracji

k

n

k

p

p

 )

1

(

k

n

k

n

k

k

n

k

p

p

k

n

k

n

p

p

k

n

k

p

)

1

(

)!

(

!

!

)

1

(

)

(

background image

Rozkład dwumianowy

Wartość średnia to:

p

n

)

x

(

p

x

)

X

(

E

x

n

1

i

i

i

Wariancja:

q

p

n

)

x

(

p

)

x

x

(

)

X

(

Var

s

n

1

i

i

2

i

2

background image

Rozkład dwupunktowy 
(Bernoulliego) z 
prawdopodobieństwem sukcesu 
p

Zmienna losowa przyjmuje tylko dwie różne wartości a i b (np. 
pojedynczy rzut monetą, n=1). Oznaczmy prawdopodobieństwo 
przyjęcia wartości a przez p, a prawdopodobieństwo przyjęcia 
wartości b przez q = 1 – p. Kodując zmienną losową w postaci: 
‘sukces’ – wartość a – jako 1 a ‘porażka’ – wartość b – jako 0 
wyliczamy wartość średnią:

p

p

1

q

0

)

x

(

p

x

)

X

(

E

x

1

0

i

i

i

natomiast wariancja znaleziona być może jako:

pq

)

q

p

(

pq

p

q

q

p

p

)

p

1

(

q

)

p

0

(

s

2

2

2

2

2

background image

Rozkład dwumianowy

Wartość średnia i wariancja 
rozkładu dwumianowego przy n 
próbach to 

n-krotność

 wartości 

średniej i wariancji w pojedynczej 
próbie (rozkładu Bernoulliego)

background image

Rozkład dwumianowy

n=10, p=0.5

n=10, p=0.1

background image

Przykład

Choroba Tay-Sachsa jest rzadką chorobą 

o podłożu genetycznym ujawniającą się 

w wieku niemowlęcym i 

wczesnodziecięcym. Jeśli matka i ojciec 

są nosicielami mutacji genetycznej Tay-

Sachsa, ich dziecko będzie chore z 

prawdopodobieństwem równym 0.25. 

Jeśli taka para ma czworo dzieci, jaka jest 

funkcja rozkładu prawdopodobieństwa 

liczby dzieci chorych w rodzinie?

background image

Rozkład dwumianowy

0.31
6

0.42
2

0.21
1

0.04
7

0.00
4

background image

Rozkład geometryczny jest również 
konstruowany w oparciu o próby 
Bernoulliego, jednak ich liczba jest 
nieskończona. W każdej próbie sukces 
występuje z prawdopodobieństwem p a 
zmienna losowa X określa liczbę całkowitą 
prób do osiągnięcia pierwszego sukcesu – 
czas oczekiwania na sukces. Aby X=k, 
musi być  k-1 porażek a potem sukces w k-
tej próbie. Stąd

Rozkład geometryczny

p

p

k

p

1

)

1

(

)

(

background image

Rozkład geometryczny

Wartość oczekiwana:

p

X

E

1

)

(

a wariancja:

2

1

)

(

p

p

X

Var

background image

Przykład

background image

Rozkład 
hipergeometryczny

Załóżmy, że w słoju znajduje się n kul, 
przy czym r jest czarnych a n-r białych.

Zmienna losowa X określa liczbę kul 
czarnych spośród m wylosowanych w 
jednej próbie (losowanie bez zwracania). 
Zatem 

m

n

k

m

r

n

k

r

k

p

k

X

P

)

(

)

(

background image

Rozkład 
hipergeometryczny

Wybranie jednej kuli czarnej możliwe jest z 
prawdopodobieństwem r/n. 

Prawdopodobieństwo wybrania drugiej jest już inne i 
wynosi (r-1)/(n-1). Byłoby r/n gdybyśmy losowali ze 
zwracaniem.

Rozkład dwumianowy jest poprawnym modelem tylko 
dla przypadków losowań ze zwracaniem i/lub 
nieskończenie dużych liczności n.

background image

Rozkład 
hipergeometryczny

Wartość średnia:

n

r

m

X

E

)

(

Wariancja:

 

n

r

n

r

n

m

n

m

X

Var

1

1

)

(

)

(

background image

Przykład

Załóżmy, iż w pudle jest 100 
dyskietek, z których 20 jest 
uszkodzonych. 
Wybieramy losowo 10 dyskietek. 
Jakie jest prawdopodobieństwo, że 
co najwyżej dwie będą uszkodzone?
n=100   r=20   m=10

background image

Przykład

background image

Rozkład Poissona

Rozkład Poissona jest aproksymacją 
rozkładu dwumianowego, gdy liczba 
prób n jest bardzo duża oraz 
prawdopodobieństwo sukcesu w każdej 
próbie, oznaczone symbolem p, jest 
bardzo małe. Oznaczmy np=λ, wówczas

!

)

(

k

e

k

p

k

background image

Rozkład Poissona

Zazwyczaj uznaje się, że warunki te są spełnione 
gdy p<0.1 oraz np<5.

Jeśli tak jest, zmienna będzie miała rozkład 
Poissona pod warunkiem, że każde wystąpienie 
‘sukcesu’ jest niezależne od pozostałych 
‘sukcesów’ – dlatego sprawdzając zgodność z 
rozkładem Poissona pośrednio możemy 
sprawdzić niezależność prób.

background image

Rozkład Poissona

Wartość oczekiwana:

)

(X

E

Wariancja:

)

(X

Var

background image

Rozkład Poissona

background image

Przykład

Rzucamy kostką 100 razy i zliczamy liczbę 
wystąpień dwóch szóstek równocześnie – 
zmienna losowa X.

Zmienna losowa ma rozkład dwumianowy, 
przy czym n=100 a p=1/36=0.0278. 

Ponieważ n jest duże a p bardzo małe 
(np<5), możemy przybliżyć rozkład 
dwumianowy rozkładem Poissona z 
λ=np=2.78

background image

Przykład

background image

Inny przykład

Załóżmy, iż liczba telefonicznych 
zgłoszeń awarii ma rozkład Poissona o 
parametrze lambda równym λ=0.5 na 
godzinę. 

Jakie jest prawdopodobieństwo, że nie 
będzie żadnych zgłoszeń w ciągu 5 
godzin?

background image

Inny przykład

Zatem liczba zgłoszeń w przeciągu 5 
godzin ma rozkład Poissona z 
parametrem ω=5λ=2.5. 
Prawdopodobieństwo, iż nie będzie 
żadnych zgłoszeń w ciągu 5 godzin 
można obliczyć jako 

082

.

0

)

0

(

5

.

2

e

k

p

!

)

(

k

e

k

p

k

background image

Rozkłady ciągłych zmiennych 
losowych

W przypadku ciągłych 

zmiennych losowych rolę 

funkcji częstości przejmuje 

funkcja gęstości f(x), która ma 

następujące właściwości:



1

)

(

   

and

   

0

)

(

dx

x

f

x

f

b

a

dx

x

f

b

X

a

P

)

(

)

(

oraz

background image

Rozkłady ciągłych zmiennych 
losowych

Rozkład równomierny 
(jednostajny)

Rozkład wykładniczy

Rozkład normalny

background image

Funkcja gęstości rozkładu 
równomiernego

Dystrybucja, która przyjmuje stałą wartość w 
całym zakresie zmienności zmiennej losowej 
jest nazywana rozkładem równomiernym.

Ma ona postać

x

b

for

b

x

a

for

a

b

a

x

for

X

P

0

1

0

)

(

background image

Rozkład równomierny

x

dx

x

f

x

X

P

X

F

)

(

)

(

)

(

Dystrybuant
a

background image

Funkcja gęstości rozkładu 
wykładniczego

Zmienna losowa o rozkładzie wykładniczym 
używana jest najczęściej do opisu czasu 
życia maszyn, części czy osób bądź innych 
organizmów żywych. Używa się jej również 
do opisu czasu oczekiwania do 
zrealizowania zamówienia. 

Funkcja gęstości prawdopodobieństwa (pdf) 
dla konkretnej wartości parametru λ:

0

   

and

   

x

0

for   

    

,

)

(

1

x

e

x

f

background image

Rozkład wykładniczy

Wartość oczekiwana:

wariancja:

0

1

)

(

dx

e

x

X

E

x

2

0

2

1

)

(

dx

e

x

X

Var

x

background image

Rozkład wykładniczy

15

background image

Rozkład wykładniczy

0

1

)

(

0

x

e

x

X

P

0

)

(

1

)

(

)

(

0

0

0

x

e

x

X

P

x

X

P

x

S


funkcja

nazywana jest krzywą 
przeżywalności.

Możemy 
wyznaczyć

background image

Rozkład wykładniczy

background image

Przykład

Niech zmienna losowa X oznacza 
‘czas życia’ pralki. Zgodnie z 
informacjami producenta średni 
użytkowania takiej pralki to 15 lat. 

Jakie jest prawdopodobieństwo, że 
pralka będzie mogła być używana 
jedynie przez okres krótszy niż 6 lat?

Jakie jest prawdopodobieństwo, że 
pralka posłuży swojemu właścicielowi 
co najmniej  18 lat?

background image

Przykład

0.0447

0.0667

P(X≤6) ≈ 0.0447·6+(0.0667-0.0447)·6/2

0.3342

background image

Przykład

  

0.3297

 

1

)

6

(

15

6

e

X

P

3012

.

0

)

18

(

15

18

e

X

P

background image

Podsumowując, dla tego modelu 
pralki istnieje około 30% szansa, 
że pralka będzie działa zarówno 
bardzo długo jak i relatywnie 
krótko w stosunku do średniego 
czasu pracy tych pralek. 

Przykład

background image

Niech Y będzie zmienną losową o rozkładzie 
Poissona, określającą liczbę wystąpień w 
jednostce czasu 

gdzie μ jest średnią liczbą wystąpień w 
jednostce czasu. Wtedy, jeśli X określa czas do 
pierwszego wystąpienia, wówczas ta zmienna 
losowa ma rozkład wykładniczy o średniej 

Poisson i wykładniczy ...

,

!

)

(

k

e

k

Y

P

u

1

)

(X

E

background image

Przykład

Przeciętnie na pewnym odcinku 
autostrady odnotowuje się 8 
wypadków drogowych w ciągu 
dwóch dni.

Jakie jest prawdopodobieństwo, że 
nie będzie żadnego wypadku w 
ciągu 3 dni lub więcej?

background image

Przykład

Średnia liczba wystąpień wypadków 

samochodowych w ciągu dnia to 4. Zatem 

średni czas oczekiwania na wypadek to 0.25 

(dnia).

Niech Y będzie zmienną losową o rozkładzie 

Poissona o średniej 4, reprezentującą liczbę 

wypadków na dzień. 

Wtedy X będzie zmienną losową o rozkładzie 

wykładniczym i średniej reprezentującej czas 

oczekiwania do wystąpienia pojedynczego 

wypadku. 

background image

Przykład

P(brak wypadku przez 3 lub więcej dni) =
P(czas do pierwszego wypadku ≥ 3)

0

)

3

(

12

25

.

0

3

e

e

X

P

background image

Rozkład normalny

Funkcja gęstości rozkładu normalnego

 pełni 

bardzo ważną rolę w probabilistyce i 
statystyce. Nazywa się ją również funkcją 
gaussowską, gdyż Carl Friedrich Gauss, 
zaproponował ją jako model błędów 
pomiarowych (w roku 1809). 

Funkcja gęstości rozkładu normalnego jest 
używana jako model zmienności takich 
wielkości jak wzrost osób, IQ, czy prędkość 
molekuł gazu. 

background image

Rozkład normalny

Funkcja gęstości rozkładu normalnego 
zależy od dwóch parametrów, μ - 
średniej oraz σ – odchylenia 
standardowego (przy czym -∞< μ< ∞ i σ 
> 0):

2

2

2

)

(

2

1

)

(

x

e

x

f

background image

Rozkład normalny

μ=0

μ=4

background image

Rozkład normalny

σ=2

σ=3

σ=1

background image
background image

Rozkład normalny

Krzywa jest symetryczna wokół wartości 

średniej. Wartość średnia, mediana i 

moda są takie same.

Nastepujące części pomiarów zmiennej 

o rozkładzie normalnym znajdują się 

wewnatrz przedziałów:
μ ± σ zawiera 68.72 % pomiarów
μ ± 2σ zawiera 95.45 % pomiarów
μ ± 3σ zawiera 99.73% pomiarów

background image

Reguła trzech sigm – 68-95-
99.7

68.27%

95.45%

99.73%

background image

Rozkład normalny

Dystrybuanta

Funkcja gęstości 
prawdopodobieństwa

2.28%

5.87%

50.00%

34.13%

13.59%

2.14%

background image

Standardowy rozkład 
normalny

Przypadek szczególny, gdy =0 

oraz =1 określa tzw. standardową 

normalną dystrybucję. 

Dystrybuanta rozkładu 
standardowego oznaczana jest 
symbolem  a jego funkcja 

gęstości .

background image

Dystrybuanta standardowego 
rozkładu normalnego – tabela. 
Przykład 1

Jaka część obserwacji 
standardowej  zmiennej normalnej 
Z przyjmuje wartości mniejsze niż 
1.4?

background image

Dystrybuanta standardowego 
rozkładu normalnego – tabela. 
Przykład 1

background image
background image

Znajdź część obserwacji ze 
standardowego rozkładu 
normalnego które są mniejsze niż –
2.15.

Dystrybuanta standardowego 
rozkładu normalnego – tabela. 
Przykład 2

background image

Dystrybuanta standardowego 
rozkładu normalnego – tabela. 
Przykład 2

background image
background image

Standaryzacja zmiennej 
losowej

Prawdopodobieństwo dla określonej realizacji 
zmiennej losowej o dowolnym rozkładzie 
normalnym może być wyznaczone z użyciem 
rozkładu standardowego.

Wykorzystuje się tutaj następującą 
właściwość:

)

,

(

~

  

to

   

,

  

oraz

  

)

,

(

~

  

a

b

a

N

Y

b

aX

Y

N

X

Jezeli

background image

Standaryzacja zmiennej 
losowej 

Załóżmy, że X~N(,) a my chcemy znaleźć 

prawdopodobieństwo, że  P(x

0

<X<x

1

) dla 

zadanych liczb x

0

 i x

1

. Rozważmy 

następującą zmienną losową:

X

X

Z

gdzie a=1/ a b=-/. Wówczas 

)

1

,

0

(

N

)

)

(

,

(

N

)

a

,

b

a

(

N

~

Z

1

background image

Standaryzacja obserwacji

Standaryzując pomiar, odejmij 
średnią i podziel przez odchylenie 
standardowe

Jeśli x jest obserwacją z rozkładu o 
średnią μ i odchyleniu 
standardowym σ, 
standardyzowaną wartością x jest

x

z

background image

Z-scores

Mówią nam ile krotności 
odchylenia standardowego 
obserwacje leżą od średniej i w 
którym kierunku

Mogą być dodatnie lub ujemne

Kiedy?

background image

Standardowy rozkład 
normalny

Zatem

)

(

)

(

)

(

)

(

)

(

x

x

x

X

X

Z

P

P

x

X

P

x

F

Więc

)

(

)

(

)

(

)

(

)

(

0

1

0

1

1

0

x

x

X

X

x

F

x

F

x

X

x

P

background image

Przykład

Wyniki standaryzowanego testu na 
inteligencję, IQ, mają w przybliżeiu 
rozkład normalny o średniej =100 

oraz odchyleniu standardowym 
=15. 

Wybieramy losowo jedną osobę. 
Jakie jest prawdopodobieństwo, że 
uzyska ona wynik 120 < X < 130?

background image

Przykład

Możemy wyznaczyć interesujące nas 
prawdopodobieństwo dokonując 
standaryzacji zmiennej losowej:

069

.

0

9082

.

0

9772

.

0

)

33

.

1

(

)

2

(

)

2

33

.

1

(

)

(

)

130

120

(

15

100

130

15

100

15

100

120

Z

P

P

X

P

X

background image

Rozkłady normalne – 
przykład obliczeniowy

NCAA wymaga 820 punktów zdobytych w 

trakcie egzaminu SAT. Rozkład liczby 

punktów w 2000r był w przybliżeniu 

rozkładem N(1019, 209).

Jaki procent wszystkich studentów miał 

liczbę punktów SAT co najmniej 820?

X = punkty z egzaminu SAT

X należy do rozkładu N(1019, 209)

Znajdź Z (standardowe).

Z = (820 – 1019)/209 = -0.95

P(Z > -0.95) = 1 – 0.1711 = 0.8289

background image
background image

Rozkłady normalne – 
przykład obliczeniowy

Jaki procent wszystkich studentów miał 

liczbę punktów SAT między 720 a 820?

Z

2

 = (720 – 1019)/209 = -1.43

P (-0.95 > Z > -1.43) 
= P ( Z < -0.95 ) – P (Z < -1.43) = 
= 1 – P (Z < 0.95) – { 1 – P (Z < 1.43)} =
= 1 – 0.8289 – (1 – 0.9236) = 
= 0.1711 – 0.0764 = 0.0947

background image
background image

Zadanie domowe

Wartość średnia egzaminu 
kompetencji szóstoklasistów w 
rejonie Górnego Śląska wynosiła 39 
punkty a odchylenie standardowe 
4 punkty. Jakie wyniki uzyskało 
10% najlepszych uczniów?   

background image

Document Outline