Wykład 3: Rozkłady
zmiennych losowych
Biometria i
Biostatystyka
Zmienne losowe
Zmienna losowa jest to funkcja
przyporządkowująca każdemu
zdarzeniu losowemu wartość
liczbową.
Zmienną losową oznacza się
zwykle literami alfabetu greckiego
lub dużymi literami alfabetu
łacińskiego.
Rozkład częstości
Jakie jest prawdopodobieństwo, że waga
urodzeniowa dziecka będzie w przedziale klasy
2440g?
p=0.0677
Rozkład częstości
Waga urodzeniowa < 3000 g
Jaki procent dzieci?
28.57%
Rozkład częstości
Dokonujemy pomiaru wagi urodzeniowej
dziecka losowo wybranego z nieznanej populacji
i ma ono wagę urodzeniową równą 6000 g.
Czy ta nieznana populacja ma rozkład częstości
taki sam jaka nasza?
Rozkład częstości
P(Birthweight~6000) →
0
Rozkład częstości
Najprawdopodobniej odrzucilibyśmy hipotezę, iż
nieznana populacja ma rozkład taki sam jak
nasza, gdyż prawdopodobieństwo przynależności
do klasy 6000 g jest prawie równe zeru (mniejsze
niż 10
-12
).
Wnioskowalibyśmy, że nieznana populacja ma
prawdopodobnie inną wartość średnią i/albo
wariancję.
Rozkład częstości
Wykorzystaliśmy empiryczny rozkład częstości
do oceny i wnioskowania o przynależności do
naszej populacji. W wielu przypadkach
będziemy się jednak opierać nie na rozkładach
empirycznych, lecz na teoretycznych
założeniach. Często mamy przesłanki, by
założyć iż dane powinny mieć ściśle określony
rozkład częstości. Jeśli nasze przypuszczenia się
nie potwierdzą eksperymentalnie, powinniśmy
ponownie zastanowić się nad tymi założeniami i
wnioskami wyciągniętymi na ich podstawie.
Funkcja rozkładu
prawdopodobieństwa (gęstość
prawdopodobieństwa)
Rozkład teoretyczny częstości nazywamy
funkcją gęstości prawdopodobieństwa.
Funkcją rozkładu prawdopodobieństwa
zmiennej losowej ξ nazywa się
prawdopodobieństwo zdarzenia
polegającego na tym, że zmienna przyjmie
jedną wartości należących do pewnego
przedziału. Oznacza się ją zwykle symbolem
)
(
2
1
x
x
P
Gęstość zmiennej losowej
ciągłej
Gęstością prawdopodobieństwa zmiennej
losowej ciągłej nazywa się granicę:
Ich graficzną reprezentację nazywamy
krzywymi gęstości.
)
(
}
{
}
{
lim
0
x
f
x
x
P
x
x
P
x
Dystrybuanta
Dystrybuantą zmiennej losowej ξ
nazywa się prawdopodobieństwo
zdarzenia polegającego na tym, że
zmienna losowa ξ przyjmie wartość
mniejszą od ustalonej rzeczywistej
wartości x. Zwykle
prawdopodobieństwo to oznacza się w
następujący sposób:
)
(
}
{
x
F
x
P
Funkcje gęstości dyskretnych
zmiennych losowych
Rozkład dwumianowy
Rozkład geometryczny
Rozkład hipergeometryczny
Rozkład Poissona
Rozkład dwumianowy
Załóżmy, że przeprowadzono n
niezależnych eksperymentów lub prób (n
jest znaną liczbą) i w każdej z prób wynik
jest
„sukcesem”
z prawdopodobieństwem
p
a
„porażką”
z prawdopodobieństwem
q=1-p
.
Całkowita liczba sukcesów w n próbach, X,
jest zmienną losową o rozkładzie
dwumianowym o parametrach n i p.
Rozkład dwumianowy
Prawdopodobieństwo, że X=k, oznaczane
jako p(k), można wyliczyć w następujący
sposób:
Konkretna konfiguracja niezależnych k
sukcesów i (n-k) porażek wystąpi z
prawdopodobieństwem
Całkowita liczba takich konfiguracji
k
n
k
p
p
)
1
(
k
n
k
n
k
k
n
k
p
p
k
n
k
n
p
p
k
n
k
p
)
1
(
)!
(
!
!
)
1
(
)
(
Rozkład dwumianowy
Wartość średnia to:
p
n
)
x
(
p
x
)
X
(
E
x
n
1
i
i
i
Wariancja:
q
p
n
)
x
(
p
)
x
x
(
)
X
(
Var
s
n
1
i
i
2
i
2
Rozkład dwupunktowy
(Bernoulliego) z
prawdopodobieństwem sukcesu
p
Zmienna losowa przyjmuje tylko dwie różne wartości a i b (np.
pojedynczy rzut monetą, n=1). Oznaczmy prawdopodobieństwo
przyjęcia wartości a przez p, a prawdopodobieństwo przyjęcia
wartości b przez q = 1 – p. Kodując zmienną losową w postaci:
‘sukces’ – wartość a – jako 1 a ‘porażka’ – wartość b – jako 0
wyliczamy wartość średnią:
p
p
1
q
0
)
x
(
p
x
)
X
(
E
x
1
0
i
i
i
natomiast wariancja znaleziona być może jako:
pq
)
q
p
(
pq
p
q
q
p
p
)
p
1
(
q
)
p
0
(
s
2
2
2
2
2
Rozkład dwumianowy
Wartość średnia i wariancja
rozkładu dwumianowego przy n
próbach to
n-krotność
wartości
średniej i wariancji w pojedynczej
próbie (rozkładu Bernoulliego)
Rozkład dwumianowy
n=10, p=0.5
n=10, p=0.1
Przykład
Choroba Tay-Sachsa jest rzadką chorobą
o podłożu genetycznym ujawniającą się
w wieku niemowlęcym i
wczesnodziecięcym. Jeśli matka i ojciec
są nosicielami mutacji genetycznej Tay-
Sachsa, ich dziecko będzie chore z
prawdopodobieństwem równym 0.25.
Jeśli taka para ma czworo dzieci, jaka jest
funkcja rozkładu prawdopodobieństwa
liczby dzieci chorych w rodzinie?
Rozkład dwumianowy
0.31
6
0.42
2
0.21
1
0.04
7
0.00
4
Rozkład geometryczny jest również
konstruowany w oparciu o próby
Bernoulliego, jednak ich liczba jest
nieskończona. W każdej próbie sukces
występuje z prawdopodobieństwem p a
zmienna losowa X określa liczbę całkowitą
prób do osiągnięcia pierwszego sukcesu –
czas oczekiwania na sukces. Aby X=k,
musi być k-1 porażek a potem sukces w k-
tej próbie. Stąd
Rozkład geometryczny
p
p
k
p
k 1
)
1
(
)
(
Rozkład geometryczny
Wartość oczekiwana:
p
X
E
1
)
(
a wariancja:
2
1
)
(
p
p
X
Var
Przykład
Rozkład
hipergeometryczny
Załóżmy, że w słoju znajduje się n kul,
przy czym r jest czarnych a n-r białych.
Zmienna losowa X określa liczbę kul
czarnych spośród m wylosowanych w
jednej próbie (losowanie bez zwracania).
Zatem
m
n
k
m
r
n
k
r
k
p
k
X
P
)
(
)
(
Rozkład
hipergeometryczny
Wybranie jednej kuli czarnej możliwe jest z
prawdopodobieństwem r/n.
Prawdopodobieństwo wybrania drugiej jest już inne i
wynosi (r-1)/(n-1). Byłoby r/n gdybyśmy losowali ze
zwracaniem.
Rozkład dwumianowy jest poprawnym modelem tylko
dla przypadków losowań ze zwracaniem i/lub
nieskończenie dużych liczności n.
Rozkład
hipergeometryczny
Wartość średnia:
n
r
m
X
E
)
(
Wariancja:
n
r
n
r
n
m
n
m
X
Var
1
1
)
(
)
(
Przykład
Załóżmy, iż w pudle jest 100
dyskietek, z których 20 jest
uszkodzonych.
Wybieramy losowo 10 dyskietek.
Jakie jest prawdopodobieństwo, że
co najwyżej dwie będą uszkodzone?
n=100 r=20 m=10
Przykład
Rozkład Poissona
Rozkład Poissona jest aproksymacją
rozkładu dwumianowego, gdy liczba
prób n jest bardzo duża oraz
prawdopodobieństwo sukcesu w każdej
próbie, oznaczone symbolem p, jest
bardzo małe. Oznaczmy np=λ, wówczas
!
)
(
k
e
k
p
k
Rozkład Poissona
Zazwyczaj uznaje się, że warunki te są spełnione
gdy p<0.1 oraz np<5.
Jeśli tak jest, zmienna będzie miała rozkład
Poissona pod warunkiem, że każde wystąpienie
‘sukcesu’ jest niezależne od pozostałych
‘sukcesów’ – dlatego sprawdzając zgodność z
rozkładem Poissona pośrednio możemy
sprawdzić niezależność prób.
Rozkład Poissona
Wartość oczekiwana:
)
(X
E
Wariancja:
)
(X
Var
Rozkład Poissona
Przykład
Rzucamy kostką 100 razy i zliczamy liczbę
wystąpień dwóch szóstek równocześnie –
zmienna losowa X.
Zmienna losowa ma rozkład dwumianowy,
przy czym n=100 a p=1/36=0.0278.
Ponieważ n jest duże a p bardzo małe
(np<5), możemy przybliżyć rozkład
dwumianowy rozkładem Poissona z
λ=np=2.78
Przykład
Inny przykład
Załóżmy, iż liczba telefonicznych
zgłoszeń awarii ma rozkład Poissona o
parametrze lambda równym λ=0.5 na
godzinę.
Jakie jest prawdopodobieństwo, że nie
będzie żadnych zgłoszeń w ciągu 5
godzin?
Inny przykład
Zatem liczba zgłoszeń w przeciągu 5
godzin ma rozkład Poissona z
parametrem ω=5λ=2.5.
Prawdopodobieństwo, iż nie będzie
żadnych zgłoszeń w ciągu 5 godzin
można obliczyć jako
082
.
0
)
0
(
5
.
2
e
k
p
!
)
(
k
e
k
p
k
Rozkłady ciągłych zmiennych
losowych
W przypadku ciągłych
zmiennych losowych rolę
funkcji częstości przejmuje
funkcja gęstości f(x), która ma
następujące właściwości:
1
)
(
and
0
)
(
dx
x
f
x
f
b
a
dx
x
f
b
X
a
P
)
(
)
(
oraz
Rozkłady ciągłych zmiennych
losowych
Rozkład równomierny
(jednostajny)
Rozkład wykładniczy
Rozkład normalny
Funkcja gęstości rozkładu
równomiernego
Dystrybucja, która przyjmuje stałą wartość w
całym zakresie zmienności zmiennej losowej
jest nazywana rozkładem równomiernym.
Ma ona postać
x
b
for
b
x
a
for
a
b
a
x
for
X
P
0
1
0
)
(
Rozkład równomierny
x
dx
x
f
x
X
P
X
F
)
(
)
(
)
(
Dystrybuant
a
Funkcja gęstości rozkładu
wykładniczego
Zmienna losowa o rozkładzie wykładniczym
używana jest najczęściej do opisu czasu
życia maszyn, części czy osób bądź innych
organizmów żywych. Używa się jej również
do opisu czasu oczekiwania do
zrealizowania zamówienia.
Funkcja gęstości prawdopodobieństwa (pdf)
dla konkretnej wartości parametru λ:
0
and
x
0
for
,
)
(
1
x
e
x
f
Rozkład wykładniczy
Wartość oczekiwana:
wariancja:
0
1
)
(
dx
e
x
X
E
x
2
0
2
1
)
(
dx
e
x
X
Var
x
Rozkład wykładniczy
15
Rozkład wykładniczy
0
1
)
(
0
x
e
x
X
P
0
)
(
1
)
(
)
(
0
0
0
x
e
x
X
P
x
X
P
x
S
a
funkcja
nazywana jest krzywą
przeżywalności.
Możemy
wyznaczyć
Rozkład wykładniczy
Przykład
Niech zmienna losowa X oznacza
‘czas życia’ pralki. Zgodnie z
informacjami producenta średni
użytkowania takiej pralki to 15 lat.
Jakie jest prawdopodobieństwo, że
pralka będzie mogła być używana
jedynie przez okres krótszy niż 6 lat?
Jakie jest prawdopodobieństwo, że
pralka posłuży swojemu właścicielowi
co najmniej 18 lat?
Przykład
0.0447
0.0667
P(X≤6) ≈ 0.0447·6+(0.0667-0.0447)·6/2
=
0.3342
Przykład
0.3297
1
)
6
(
15
6
e
X
P
3012
.
0
)
18
(
15
18
e
X
P
Podsumowując, dla tego modelu
pralki istnieje około 30% szansa,
że pralka będzie działa zarówno
bardzo długo jak i relatywnie
krótko w stosunku do średniego
czasu pracy tych pralek.
Przykład
Niech Y będzie zmienną losową o rozkładzie
Poissona, określającą liczbę wystąpień w
jednostce czasu
gdzie μ jest średnią liczbą wystąpień w
jednostce czasu. Wtedy, jeśli X określa czas do
pierwszego wystąpienia, wówczas ta zmienna
losowa ma rozkład wykładniczy o średniej
Poisson i wykładniczy ...
,
!
)
(
k
e
k
Y
P
u
k
1
)
(X
E
Przykład
Przeciętnie na pewnym odcinku
autostrady odnotowuje się 8
wypadków drogowych w ciągu
dwóch dni.
Jakie jest prawdopodobieństwo, że
nie będzie żadnego wypadku w
ciągu 3 dni lub więcej?
Przykład
Średnia liczba wystąpień wypadków
samochodowych w ciągu dnia to 4. Zatem
średni czas oczekiwania na wypadek to 0.25
(dnia).
Niech Y będzie zmienną losową o rozkładzie
Poissona o średniej 4, reprezentującą liczbę
wypadków na dzień.
Wtedy X będzie zmienną losową o rozkładzie
wykładniczym i średniej reprezentującej czas
oczekiwania do wystąpienia pojedynczego
wypadku.
Przykład
P(brak wypadku przez 3 lub więcej dni) =
P(czas do pierwszego wypadku ≥ 3)
0
)
3
(
12
25
.
0
3
e
e
X
P
Rozkład normalny
Funkcja gęstości rozkładu normalnego
pełni
bardzo ważną rolę w probabilistyce i
statystyce. Nazywa się ją również funkcją
gaussowską, gdyż Carl Friedrich Gauss,
zaproponował ją jako model błędów
pomiarowych (w roku 1809).
Funkcja gęstości rozkładu normalnego jest
używana jako model zmienności takich
wielkości jak wzrost osób, IQ, czy prędkość
molekuł gazu.
Rozkład normalny
Funkcja gęstości rozkładu normalnego
zależy od dwóch parametrów, μ -
średniej oraz σ – odchylenia
standardowego (przy czym -∞< μ< ∞ i σ
> 0):
2
2
2
)
(
2
1
)
(
x
e
x
f
Rozkład normalny
μ=0
μ=4
Rozkład normalny
σ=2
σ=3
σ=1
Rozkład normalny
Krzywa jest symetryczna wokół wartości
średniej. Wartość średnia, mediana i
moda są takie same.
Nastepujące części pomiarów zmiennej
o rozkładzie normalnym znajdują się
wewnatrz przedziałów:
μ ± σ zawiera 68.72 % pomiarów
μ ± 2σ zawiera 95.45 % pomiarów
μ ± 3σ zawiera 99.73% pomiarów
Reguła trzech sigm – 68-95-
99.7
68.27%
95.45%
99.73%
Rozkład normalny
Dystrybuanta
Funkcja gęstości
prawdopodobieństwa
2.28%
5.87%
50.00%
34.13%
13.59%
2.14%
Standardowy rozkład
normalny
Przypadek szczególny, gdy =0
oraz =1 określa tzw. standardową
normalną dystrybucję.
Dystrybuanta rozkładu
standardowego oznaczana jest
symbolem a jego funkcja
gęstości .
Dystrybuanta standardowego
rozkładu normalnego – tabela.
Przykład 1
Jaka część obserwacji
standardowej zmiennej normalnej
Z przyjmuje wartości mniejsze niż
1.4?
Dystrybuanta standardowego
rozkładu normalnego – tabela.
Przykład 1
Znajdź część obserwacji ze
standardowego rozkładu
normalnego które są mniejsze niż –
2.15.
Dystrybuanta standardowego
rozkładu normalnego – tabela.
Przykład 2
Dystrybuanta standardowego
rozkładu normalnego – tabela.
Przykład 2
Standaryzacja zmiennej
losowej
Prawdopodobieństwo dla określonej realizacji
zmiennej losowej o dowolnym rozkładzie
normalnym może być wyznaczone z użyciem
rozkładu standardowego.
Wykorzystuje się tutaj następującą
właściwość:
)
,
(
~
to
,
oraz
)
,
(
~
a
b
a
N
Y
b
aX
Y
N
X
Jezeli
Standaryzacja zmiennej
losowej
Załóżmy, że X~N(,) a my chcemy znaleźć
prawdopodobieństwo, że P(x
0
<X<x
1
) dla
zadanych liczb x
0
i x
1
. Rozważmy
następującą zmienną losową:
X
X
Z
gdzie a=1/ a b=-/. Wówczas
)
1
,
0
(
N
)
)
(
,
(
N
)
a
,
b
a
(
N
~
Z
1
Standaryzacja obserwacji
Standaryzując pomiar, odejmij
średnią i podziel przez odchylenie
standardowe
Jeśli x jest obserwacją z rozkładu o
średnią μ i odchyleniu
standardowym σ,
standardyzowaną wartością x jest
x
z
Z-scores
Mówią nam ile krotności
odchylenia standardowego
obserwacje leżą od średniej i w
którym kierunku
Mogą być dodatnie lub ujemne
Kiedy?
Standardowy rozkład
normalny
Zatem
)
(
)
(
)
(
)
(
)
(
x
x
x
X
X
Z
P
P
x
X
P
x
F
Więc
)
(
)
(
)
(
)
(
)
(
0
1
0
1
1
0
x
x
X
X
x
F
x
F
x
X
x
P
Przykład
Wyniki standaryzowanego testu na
inteligencję, IQ, mają w przybliżeiu
rozkład normalny o średniej =100
oraz odchyleniu standardowym
=15.
Wybieramy losowo jedną osobę.
Jakie jest prawdopodobieństwo, że
uzyska ona wynik 120 < X < 130?
Przykład
Możemy wyznaczyć interesujące nas
prawdopodobieństwo dokonując
standaryzacji zmiennej losowej:
069
.
0
9082
.
0
9772
.
0
)
33
.
1
(
)
2
(
)
2
33
.
1
(
)
(
)
130
120
(
15
100
130
15
100
15
100
120
Z
P
P
X
P
X
Rozkłady normalne –
przykład obliczeniowy
NCAA wymaga 820 punktów zdobytych w
trakcie egzaminu SAT. Rozkład liczby
punktów w 2000r był w przybliżeniu
rozkładem N(1019, 209).
Jaki procent wszystkich studentów miał
liczbę punktów SAT co najmniej 820?
X = punkty z egzaminu SAT
X należy do rozkładu N(1019, 209)
Znajdź Z (standardowe).
Z = (820 – 1019)/209 = -0.95
P(Z > -0.95) = 1 – 0.1711 = 0.8289
Rozkłady normalne –
przykład obliczeniowy
Jaki procent wszystkich studentów miał
liczbę punktów SAT między 720 a 820?
Z
2
= (720 – 1019)/209 = -1.43
P (-0.95 > Z > -1.43)
= P ( Z < -0.95 ) – P (Z < -1.43) =
= 1 – P (Z < 0.95) – { 1 – P (Z < 1.43)} =
= 1 – 0.8289 – (1 – 0.9236) =
= 0.1711 – 0.0764 = 0.0947
Zadanie domowe
Wartość średnia egzaminu
kompetencji szóstoklasistów w
rejonie Górnego Śląska wynosiła 39
punkty a odchylenie standardowe
4 punkty. Jakie wyniki uzyskało
10% najlepszych uczniów?