Biometria i Biostatystyka
Wykład 3: Rozkłady zmiennych
losowych
Zmienne losowe
Zmienna losowa jest to funkcja
przyporządkowująca każdemu zdarzeniu
losowemu wartość liczbową.
losowemu wartość liczbową.
Zmienną losową oznacza się zwykle
literami alfabetu greckiego lub dużymi
literami alfabetu łacińskiego.
Jakie jest prawdopodobieństwo, że waga urodzeniowa
dziecka będzie w przedziale klasy 2440g?
Rozkład częstości
p=0.0677
Waga urodzeniowa < 3000 g
Jaki procent dzieci?
Rozkład częstości
28.57%
28.57%
Rozkład częstości
Dokonujemy pomiaru wagi urodzeniowej
dziecka losowo wybranego z nieznanej
dziecka losowo wybranego z nieznanej
populacji i ma ono wagę urodzeniową równą
6000 g.
Czy ta nieznana populacja ma rozkład
częstości taki sam jaka nasza?
Rozkład częstości
P(Birthweight~6000) 0
Rozkład częstości
Najprawdopodobniej odrzucilibyśmy hipotezę,
iż nieznana populacja ma rozkład taki sam jak
iż nieznana populacja ma rozkład taki sam jak
nasza, gdyż prawdopodobieństwo
przynależności do klasy 6000 g jest prawie
równe zeru (mniejsze niż 10-12).
Wnioskowalibyśmy, że nieznana populacja ma
prawdopodobnie inną wartość średnią i/albo
wariancję.
Rozkład częstości
Wykorzystaliśmy empiryczny rozkład częstości do
oceny i wnioskowania o przynależności do naszej
populacji. W wielu przypadkach będziemy się
jednak opierać nie na rozkładach empirycznych,
jednak opierać nie na rozkładach empirycznych,
lecz na teoretycznych założeniach. Często mamy
przesłanki, by założyć iż dane powinny mieć ściśle
określony rozkład częstości. Jeśli nasze
przypuszczenia się nie potwierdzą
eksperymentalnie, powinniśmy ponownie
zastanowić się nad tymi założeniami i wnioskami
wyciągniętymi na ich podstawie.
Funkcja rozkładu prawdopodobieństwa
(gęstość prawdopodobieństwa)
Rozkład teoretyczny częstości nazywamy funkcją
gęstości prawdopodobieństwa.
Funkcją rozkładu prawdopodobieństwa zmiennej
Funkcją rozkładu prawdopodobieństwa zmiennej
losowej nazywa się prawdopodobieństwo
zdarzenia polegającego na tym, że zmienna
przyjmie jedną wartości należących do pewnego
przedziału. Oznacza się ją zwykle symbolem
P(x1 < < x2)
Gęstość zmiennej losowej
ciągłej
Gęstością prawdopodobieństwa zmiennej
losowej ciągłej nazywa się granicę:
P{ < x + "x}- P{ < x}
P{ < x + "x}- P{ < x}
lim = f (x)
"x0
"x
Ich graficzną reprezentację nazywamy
krzywymi gęstości.
Dystrybuanta
Dystrybuantą zmiennej losowej nazywa się
prawdopodobieństwo zdarzenia polegającego
na tym, że zmienna losowa przyjmie
na tym, że zmienna losowa przyjmie
wartość mniejszą od ustalonej rzeczywistej
wartości x. Zwykle prawdopodobieństwo to
oznacza się w następujący sposób:
P{ < x} = F(x)
Funkcje gęstości dyskretnych zmiennych
losowych
Rozkład dwumianowy
Rozkład geometryczny
Rozkład geometryczny
Rozkład hipergeometryczny
Rozkład Poissona
Rozkład dwumianowy
Załóżmy, że przeprowadzono n
niezależnych eksperymentów lub prób (n
jest znaną liczbą) i w każdej z prób wynik
jest znaną liczbą) i w każdej z prób wynik
jest sukcesem z prawdopodobieństwem p
a porażką z prawdopodobieństwem q=1-
p.
Całkowita liczba sukcesów w n próbach, X,
jest zmienną losową o rozkładzie
dwumianowym o parametrach n i p.
Rozkład dwumianowy
Prawdopodobieństwo, że X=k, oznaczane jako
p(k), można wyliczyć w następujący sposób:
Konkretna konfiguracja niezależnych k
Konkretna konfiguracja niezależnych k
sukcesów i (n-k) porażek wystąpi z
pk (1- p)n-łknł
prawdopodobieństwem
łk ł
Całkowita liczba takich konfiguracji
ł łł
n!
n
ł ł
p(k) = pk (1- p)n-k = pk (1- p)n-k
łk ł
ł łł k!(n - k)!
Rozkład dwumianowy
Wartość średnia to:
n
n
x = E( X ) = xi p( xi ) = n " p
= = = "
"
"
i=1
Wariancja:
n
s2 =Var( X ) =
"( xi - x )2 p( xi ) = n " p " q
i=1
Rozkład dwupunktowy (Bernoulliego)
z prawdopodobieństwem sukcesu p
Zmienna losowa przyjmuje tylko dwie różne wartości a i b (np. pojedynczy rzut
monetą, n=1). Oznaczmy prawdopodobieństwo przyjęcia wartości a przez p, a
prawdopodobieństwo przyjęcia wartości b przez q = 1 p. Kodując zmienną
losową w postaci: sukces wartość a jako 1 a porażka wartość b jako 0
wyliczamy wartość średnią:
wyliczamy wartość średnią:
1
x = E( X ) = xi p( xi ) = 0 " q + 1" p = p
"
i=0
natomiast wariancja znaleziona być może jako:
s2 = ( 0 - p )2 " q + ( 1- p )2 " p = p2q + q2 p =
= pq( p + q ) = pq
Rozkład dwumianowy
Wartość średnia i wariancja rozkładu
dwumianowego przy n próbach to n-
krotność wartości średniej i wariancji
krotność wartości średniej i wariancji
w pojedynczej próbie (rozkładu
Bernoulliego)
Rozkład dwumianowy
n=10, p=0.1
n=10, p=0.5
Przykład
Choroba Tay-Sachsa jest rzadką chorobą o
podłożu genetycznym ujawniającą się w
wieku niemowlęcym i wczesnodziecięcym.
Jeśli matka i ojciec są nosicielami mutacji
Jeśli matka i ojciec są nosicielami mutacji
genetycznej Tay-Sachsa, ich dziecko będzie
chore z prawdopodobieństwem równym 0.25.
Jeśli taka para ma czworo dzieci, jaka jest
funkcja rozkładu prawdopodobieństwa liczby
dzieci chorych w rodzinie?
Rozkład dwumianowy
0.422
0.316
0.211
0.047
0.004
Rozkład geometryczny
Rozkład geometryczny jest również
konstruowany w oparciu o próby
Bernoulliego, jednak ich liczba jest
nieskończona. W każdej próbie sukces
nieskończona. W każdej próbie sukces
występuje z prawdopodobieństwem p a
zmienna losowa X określa liczbę całkowitą
prób do osiągnięcia pierwszego sukcesu
czas oczekiwania na sukces. Aby X=k, musi
być k-1 porażek a potem sukces w k-tej
próbie. Stąd
p(k) = (1- p)k -1 p
Rozkład geometryczny
Wartość oczekiwana:
1
1
E(X ) =
p
a wariancja:
1- p
Var(X ) =
p2
Przykład
Rozkład hipergeometryczny
Załóżmy, że w słoju znajduje się n kul,
przy czym r jest czarnych a n-r białych.
Zmienna losowa X określa liczbę kul
Zmienna losowa X określa liczbę kul
czarnych spośród m wylosowanych w
jednej próbie (losowanie bez
zwracania). Zatem
r n - r
ł łł
łk łłm - k ł
ł
ł łłł łł
P(X = k) = p(k) =
n
ł
łmł
ł
ł łł
Rozkład hipergeometryczny
Wybranie jednej kuli czarnej możliwe
jest z prawdopodobieństwem r/n.
Prawdopodobieństwo wybrania drugiej
Prawdopodobieństwo wybrania drugiej
jest już inne i wynosi (r-1)/(n-1). Byłoby
r/n gdybyśmy losowali ze zwracaniem.
Rozkład dwumianowy jest poprawnym
modelem tylko dla przypadków losowań
ze zwracaniem i/lub nieskończenie
dużych liczności n.
Rozkład hipergeometryczny
Wartość średnia:
r
r
E(X ) = m
n
Wariancja:
m(n - m) r r
ł1- ł
Var(X ) =
ł ł
n -1 n n
ł łł
Przykład
Załóżmy, iż w pudle jest 100 dyskietek,
z których 20 jest uszkodzonych.
Wybieramy losowo 10 dyskietek.
Wybieramy losowo 10 dyskietek.
Jakie jest prawdopodobieństwo, że co
najwyżej dwie będą uszkodzone?
n=100 r=20 m=10
Przykład
Rozkład Poissona
Rozkład Poissona jest aproksymacją
rozkładu dwumianowego, gdy liczba
prób n jest bardzo duża oraz
prób n jest bardzo duża oraz
prawdopodobieństwo sukcesu w każdej
próbie, oznaczone symbolem p, jest
bardzo małe. Oznaczmy np=, wówczas
ke-
p(k) =
k!
Rozkład Poissona
Zazwyczaj uznaje się, że warunki te są
spełnione gdy p<0.1 oraz np<5.
Jeśli tak jest, zmienna będzie miała
Jeśli tak jest, zmienna będzie miała
rozkład Poissona pod warunkiem, że
każde wystąpienie sukcesu jest
niezależne od pozostałych sukcesów
dlatego sprawdzając zgodność z
rozkładem Poissona pośrednio możemy
sprawdzić niezależność prób.
Rozkład Poissona
Wartość oczekiwana:
E(X ) =
Wariancja:
Var(X ) =
Rozkład Poissona
Przykład
Rzucamy kostką 100 razy i zliczamy liczbę
wystąpień dwóch szóstek równocześnie
zmienna losowa X.
Zmienna losowa ma rozkład dwumianowy,
Zmienna losowa ma rozkład dwumianowy,
przy czym n=100 a p=1/36=0.0278.
Ponieważ n jest duże a p bardzo małe
(np<5), możemy przybliżyć rozkład
dwumianowy rozkładem Poissona z
=np=2.78
Przykład
Inny przykład
Załóżmy, iż liczba telefonicznych zgłoszeń
awarii ma rozkład Poissona o parametrze
lambda równym =0.5 na godzinę.
Jakie jest prawdopodobieństwo, że nie będzie
żadnych zgłoszeń w ciągu 5 godzin?
Inny przykład
Zatem liczba zgłoszeń w przeciągu 5 godzin
ma rozkład Poissona z parametrem
=5=2.5. Prawdopodobieństwo, iż nie
będzie żadnych zgłoszeń w ciągu 5 godzin
będzie żadnych zgłoszeń w ciągu 5 godzin
można obliczyć jako
ke-
p(k = 0) = e-2.5 = 0.082
p(k) =
k!
Rozkłady ciągłych zmiennych losowych
W przypadku ciągłych zmiennych
losowych rolę funkcji częstości
przejmuje funkcja gęstości f(x),
przejmuje funkcja gęstości f(x),
która ma następujące właściwości:
+"
f (x) e" 0 and f (x)dx =1
+"
-"
oraz
b
P(a < X < b) = f (x)dx
+"
a
Rozkłady ciągłych zmiennych losowych
Rozkład równomierny (jednostajny)
Rozkład wykładniczy
Rozkład wykładniczy
Rozkład normalny
Funkcja gęstości rozkładu równomiernego
Dystrybucja, która przyjmuje stałą
wartość w całym zakresie zmienności
zmiennej losowej jest nazywana
zmiennej losowej jest nazywana
rozkładem równomiernym.
Ma ona postać
0 for x < a
ńł
ł
1
P(X ) =
łb - a for a < x < b
ł0
for b < x
ół
Rozkład równomierny
x
Dystrybuanta
F(X ) = P(X d" x) = f (x)dx
+"
-"
Funkcja gęstości rozkładu wykładniczego
Zmienna losowa o rozkładzie wykładniczym
używana jest najczęściej do opisu czasu życia
maszyn, części czy osób bądz innych
organizmów żywych. Używa się jej również
organizmów żywych. Używa się jej również
do opisu czasu oczekiwania do zrealizowania
zamówienia.
Funkcja gęstości prawdopodobieństwa (pdf)
dla konkretnej wartości parametru :
x
1
f (x) = e- , for 0 d" x d" " and e" 0
Rozkład wykładniczy
Wartość oczekiwana:
" - x
" - x
1
1
E(X ) = x " "e dx =
+"
0
wariancja:
" - x
1
2
Var(X ) =
+"(x - ) " "e dx = 2
0
Rozkład wykładniczy
= 15
Rozkład wykładniczy
Możemy wyznaczyć
- x0
P(X d" x0 ) = 1- e
a funkcja
-x0
S(x0) = P(X e" x0) = 1- P(X < x0) = e
nazywana jest krzywą przeżywalności.
Rozkład wykładniczy
Przykład
Niech zmienna losowa X oznacza czas życia
pralki. Zgodnie z informacjami producenta
średni użytkowania takiej pralki to 15 lat.
Jakie jest prawdopodobieństwo, że pralka
będzie mogła być używana jedynie przez okres
krótszy niż 6 lat?
Jakie jest prawdopodobieństwo, że pralka
posłuży swojemu właścicielowi co najmniej 18
lat?
Przykład
P(Xd"6) H" 0.04476+(0.0667-0.0447)6/2
= 0.3342
0.0667
0.0447
0.0447
Przykład
-6
P(X d" 6) = 1- e15 = 0.3297
P(X d" 6) = 1- e15 = 0.3297
-18
15
P(X e" 18) = e = 0.3012
Przykład
Podsumowując, dla tego modelu pralki
Podsumowując, dla tego modelu pralki
istnieje około 30% szansa, że pralka będzie
działa zarówno bardzo długo jak i
relatywnie krótko w stosunku do średniego
czasu pracy tych pralek.
Poisson i wykładniczy ...
Niech Y będzie zmienną losową o rozkładzie Poissona,
określającą liczbę wystąpień w jednostce czasu
e
ke-u
P(Y = k) = ,
P(Y = k) = ,
k!
gdzie jest średnią liczbą wystąpień w jednostce czasu.
Wtedy, jeśli X określa czas do pierwszego wystąpienia,
wówczas ta zmienna losowa ma rozkład wykładniczy o
średniej
1
E(X ) = =
Przykład
Przeciętnie na pewnym odcinku
autostrady odnotowuje się 8 wypadków
drogowych w ciągu dwóch dni.
drogowych w ciągu dwóch dni.
Jakie jest prawdopodobieństwo, że nie
będzie żadnego wypadku w ciągu 3 dni
lub więcej?
Przykład
Średnia liczba wystąpień wypadków samochodowych w
ciągu dnia to 4. Zatem średni czas oczekiwania na
wypadek to 0.25 (dnia).
wypadek to 0.25 (dnia).
Niech Y będzie zmienną losową o rozkładzie Poissona o
średniej 4, reprezentującą liczbę wypadków na dzień.
Wtedy X będzie zmienną losową o rozkładzie
wykładniczym i średniej reprezentującej czas
oczekiwania do wystąpienia pojedynczego wypadku.
Przykład
P(brak wypadku przez 3 lub więcej dni) =
P(czas do pierwszego wypadku e" 3)
P(czas do pierwszego wypadku e" 3)
-3
P(X e" 3) = e0.25 = e-12 H" 0
Rozkład normalny
Funkcja gęstości rozkładu normalnego pełni
bardzo ważną rolę w probabilistyce i
statystyce. Nazywa się ją również funkcją
gaussowską, gdyż Carl Friedrich Gauss,
gaussowską, gdyż Carl Friedrich Gauss,
zaproponował ją jako model błędów
pomiarowych (w roku 1809).
Funkcja gęstości rozkładu normalnego jest
używana jako model zmienności takich
wielkości jak wzrost osób, IQ, czy prędkość
molekuł gazu.
Rozkład normalny
Funkcja gęstości rozkładu normalnego zależy
od dwóch parametrów, - średniej oraz
odchylenia standardowego (przy czym -"<
< " i > 0):
< " i > 0):
-( x-)2
1
22
f (x) = e
2Ą
Rozkład normalny
=0
=4
Rozkład normalny
=1
=1
=2
=3
Rozkład normalny
Krzywa jest symetryczna wokół wartości
średniej. Wartość średnia, mediana i moda są
takie same.
Nastepujące części pomiarów zmiennej o
Nastepujące części pomiarów zmiennej o
rozkładzie normalnym znajdują się wewnatrz
przedziałów:
ą zawiera 68.72 % pomiarów
ą 2 zawiera 95.45 % pomiarów
ą 3 zawiera 99.73% pomiarów
Reguła trzech sigm 68-95-99.7
99.73%
95.45%
68.27%
Rozkład normalny
Dystrybuanta
Funkcja gęstości
50.00%
prawdopodobieństwa
34.13%
5.87%
13.59%
2.14%
2.28%
Standardowy rozkład normalny
Przypadek szczególny, gdy =0 oraz
=1 określa tzw. standardową
normalną dystrybucję.
normalną dystrybucję.
Dystrybuanta rozkładu
standardowego oznaczana jest
symbolem Ś a jego funkcja gęstości
Ć.
Dystrybuanta standardowego
rozkładu normalnego tabela.
Przykład 1
Jaka część obserwacji standardowej
zmiennej normalnej Z przyjmuje
wartości mniejsze niż 1.4?
wartości mniejsze niż 1.4?
Dystrybuanta standardowego
rozkładu normalnego tabela.
Przykład 1
Dystrybuanta standardowego
rozkładu normalnego tabela.
Przykład 2
Znajdz część obserwacji ze
standardowego rozkładu normalnego
które są mniejsze niż 2.15.
które są mniejsze niż 2.15.
Dystrybuanta standardowego
rozkładu normalnego tabela.
Przykład 2
Standaryzacja zmiennej losowej
Prawdopodobieństwo dla określonej realizacji
zmiennej losowej o dowolnym rozkładzie
normalnym może być wyznaczone z użyciem
normalnym może być wyznaczone z użyciem
rozkładu standardowego.
Wykorzystuje się tutaj następującą
właściwość:
Jezeli X ~ N(, ) oraz Y = aX + b,
to Y ~ N(a + b,a )
Standaryzacja zmiennej losowej
Załóżmy, że X~N(,) a my chcemy znalezć
prawdopodobieństwo, że P(x0
zadanych liczb x0 i x1. Rozważmy następującą
zmienną losową:
zmienną losową:
X - X
Z = = -
gdzie a=1/ a b=-/. Wówczas
1
Z ~ N( a + b,a ) = N( - ,( ) ) = N( 0,1)
Standaryzacja obserwacji
Standaryzując pomiar, odejmij średnią i
podziel przez odchylenie standardowe
Jeśli x jest obserwacją z rozkładu o
Jeśli x jest obserwacją z rozkładu o
średnią i odchyleniu standardowym ,
standardyzowaną wartością x jest
x -
z =
Z-scores
Mówią nam ile krotności odchylenia
standardowego obserwacje leżą od
średniej i w którym kierunku
średniej i w którym kierunku
Mogą być dodatnie lub ujemne
Kiedy?
Standardowy rozkład normalny
Zatem
X - x-
FX (x) = P(X d" x) = P( < ) =
x- x-
- -
= P(Z d" ) = Ś( )
Więc
P(x0 < X < x1) = FX (x1) - FX (x0) =
x1- x0 -
= Ś( ) - Ś( )
Przykład
Wyniki standaryzowanego testu na
inteligencję, IQ, mają w przybliżeiu
rozkład normalny o średniej =100 oraz
rozkład normalny o średniej =100 oraz
odchyleniu standardowym =15.
Wybieramy losowo jedną osobę. Jakie
jest prawdopodobieństwo, że uzyska
ona wynik 120 < X < 130?
Przykład
Możemy wyznaczyć interesujące nas
prawdopodobieństwo dokonując
standaryzacji zmiennej losowej:
standaryzacji zmiennej losowej:
X -100 130-100
P(120 < X < 130) = P(120-100 < < ) =
15 15 15
= P(1.33 < Z < 2) = Ś(2) - Ś(1.33) =
= 0.9772 - 0.9082 = 0.069
Rozkłady normalne przykład
obliczeniowy
NCAA wymaga 820 punktów zdobytych w
trakcie egzaminu SAT. Rozkład liczby
punktów w 2000r był w przybliżeniu
rozkładem N(1019, 209).
rozkładem N(1019, 209).
Jaki procent wszystkich studentów miał liczbę
punktów SAT co najmniej 820?
X = punkty z egzaminu SAT
X należy do rozkładu N(1019, 209)
Znajdz Z (standardowe).
Z = (820 1019)/209 = -0.95
P(Z > -0.95) = 1 0.1711 = 0.8289
Rozkłady normalne przykład
obliczeniowy
Jaki procent wszystkich studentów miał liczbę
punktów SAT między 720 a 820?
Z2 = (720 1019)/209 = -1.43
P (-0.95 > Z > -1.43)
P (-0.95 > Z > -1.43)
= P ( Z < -0.95 ) P (Z < -1.43) =
= 1 P (Z < 0.95) { 1 P (Z < 1.43)} =
= 1 0.8289 (1 0.9236) =
= 0.1711 0.0764 = 0.0947
Zadanie domowe
Wartość średnia egzaminu kompetencji
szóstoklasistów w rejonie Górnego
Śląska wynosiła 39 punkty a odchylenie
Śląska wynosiła 39 punkty a odchylenie
standardowe 4 punkty. Jakie wyniki
uzyskało 10% najlepszych uczniów?
Wyszukiwarka
Podobne podstrony:
Wyklad 7 Nieparametryczne metody statystyczne PL [tryb zgodności]
wyklad 1 Wstepne przetwarzania danych PL [tryb zgodności]
wyklad 9 Wnioskowanie o proporcjach PL [tryb zgodności]
wyklad 5 Testy parametryczne PL [tryb zgodności]
wyklad 2 Prezentacja danych PL [tryb zgodności]
Monitorowanie funkcji oddychania 09 v1 [tryb zgodności]
Blachownica? PL [tryb zgodności] (1)
Wykład 01 właściwości reologiczne asfaltów [tryb zgodności]
TRIAGE PL [tryb zgodności]
Wykład 2 samodzielne funkcje techniczne [tryb zgodności]
Wykład 6 [tryb zgodności]
wykład 7i8 4h podstawy zarządzania m jablonski [tryb zgodności]
WYKŁAD 01 WprowInzynSterowania [tryb zgodności]
USM Automatyka w IS (wyklad 3) regulatory ppt [tryb zgodnosci]
6 Organizowanie jako funkcja zarzdzania [tryb zgodnoci]
wyklad 8 d [tryb zgodności]
wyklad 3 SYGNALIZACJA NR 7 [tryb zgodności]
wyklad 5 d [tryb zgodności]
wyklad 4 d [tryb zgodności]
więcej podobnych podstron