Statystyka w analizie i planowaniu eksperymentu
Wykład 1
Podstawy rachunku prawdopodobieństwa
Przemysław Biecek
Dla 1 roku studentów Biotechnologii
Zasady
Informacje o wykładzie, materiały, ogłoszenia i wyniki kolokwiów
http://www.biecek.pl/statystyka/
W planie jest:
13 wykładów,
2 kolokwia [można zdobyć 2 x 4 punkty],
4 wejściówki [można zdobyć 4 x 1 punkt].
Zaliczenie wykładu już od 5 punktów!
Podstawy rachunku prawdopodobieństwa 2/34
Literatura
1
A. Aomnicki
Wprowadzenie do statystyki dla przyrodników PWN 1999.
2
P. Grzegorzewski, K. Bobecka, A. Dembińska, J. Pusz
Rachunek prawdopodobieństwa i statystyka WSISiZ 2005.
3
J. Koronacki, J. Mielniczuk
Statystyka dla studentów kierunków techniczych i przyrodniczych WNT
2006.
4
M. Jean
Podstawy Matematyki i Statystyki dla biologów lekarzy i
farmaceutów PZWL 1972.
5
J. Jakubowski, R. Sztencel
Wstęp do teorii prawdopodobieństwa SCRIPT 2001.
6
J. Jakubowski, R. Sztencel
Rachunek prawdopodobieństwa dla (prawie) każdego SCRIPT 2002.
7
C.R. Rao
Statystyka i prawda PWT 1994.
Podstawy rachunku prawdopodobieństwa 3/34
Klasyfikacja zmiennych Stevensa
Zmienne jakościowe (nazywane również kategorycznymi,
czynnikowymi), to zmienne przyjmujące określoną liczbę wartości
(najczęściej nie liczbowych),
binarne, np. płeć (kobieta/mężczyzna),
nominalne, np. marka samochodu,
porządkowe, np. wykształcenie (podstawowe / średnie /
wyższe).
Zmienne ilościowe, opisują ilość. Wyróżnia się skale:
licznikową (liczebność wystąpień pewnego zjawiska, opisywana
przez liczby naturalne), np. liczba lat nauki,
przedziałową (nazywana też interwałową), skala w której
zmienna może przyjmować dowolne wartości z określonego
przedziału, np. temperatura w stopniach Celcjusza,
ilorazową, to skala licznikowa, w której dodatkowo zachowane
są proporcje (a więc skala ma zero absolutne), np. temperatura
w stopniach Kelvina, wzrost w centymetrach itp.
Podstawy rachunku prawdopodobieństwa 4/34
Model mechanizmu losowego
Eksperymentem losowym (lub mechanizmem losowym) E
nazywamy eksperyment, który ma następujące właściwości:
wiemy jakie wyniki możemy zaobserwować (zbiór wyników
oznaczamy przez &!),
nie wiemy, jaki wynik zaobserwujemy,
eksperyment możemy wielokrotnie powtarzać w identycznych
warunkach,
wraz ze wzrostem liczby powtórzeń eksperymentu stabilizują
się odpowiednie częstości.
Podstawy rachunku prawdopodobieństwa 5/34
Prawdpodobieństwo i przestrzeń probabilistyczna
Przestrzeń zdarzeń elementarnych
Przestrzenią zdarzeń elementarnych nazywamy zbiór możliwych
wyników eksperymentu losowego &!.
Przestrzeń probabilistycza
Przestrzenią probabilistyczną nazywamy trójkę (&!, F, P), gdzie
&! to przestrzeń zdarzeń elementarnych,
F to przestrzeń zdarzeń (wybranych podzbiorów &!),
P to funkcja określająca prawdopodobieństwo wystąpienia
zdarzeń ze zbioru F.
Podstawy rachunku prawdopodobieństwa 6/34
Definicja prawdopodobieństwa (Kołomogorow)
Prawdopodobieństwo
Prawdopodobieństwo to funkcja określona na przestrzeni zdarzeń
F. Prawdopodobieństwo spełnia trzy aksjomaty:
prawdopodobieństwo każdego zdarzenia jest nieujemne,
P(A) e" 0,
w wyniku przeprowadzenia eksperymentu zdarzy się któreś ze
zdarzeń, P(&!) = 1,
prawdopodobieństwa zdarzeń rozłącznych sumują się,
P(A *" B) = P(A) + P(B) (dla rozłącznych zdarzeń A i B).
Interpretacja częstościowa (najpopularniejsza):
# wystapien zdarzenia A
P(A) =
# liczba prob
Podstawy rachunku prawdopodobieństwa 7/34
Właściwości prawdopodobieństwa
Wybrane właściwości prawdopodobieństwa:
P( ) = 0 oraz P(&!) = 1,
Dla dowolnego zdarzenia A przyjmuje wartości z przedziału
0 d" P(A) d" 1,
Jeżeli A to zdarzenie przeciwne do A
P(A ) = 1 - P(A),
Dla dowolnych dwóch zdarzeń A i B
P(A *" B) = P(A) + P(B) - P(A )" B).
Jeżeli A ‚" B to P(A) d" P(B).
Podstawy rachunku prawdopodobieństwa 8/34
Przykłady
Rzucamy sześciościenną kostką do gry. Kostka jest uczciwa,
wypadnięcie każdej liczby oczek jest równie prawdopodobne.
Określamy odpowiednie przestrzenie i wartości
&! = {1, 2, 3, 4, 5, 6},
F - wszystkie podzbiory na &!,
P(X = 5) = 1/6,
P(X > 4) = P(X = 5) + P(X = 6) = 1/3.
Podstawy rachunku prawdopodobieństwa 9/34
Przykłady
Grupę Rh krwi określa się na podstawie obecności antygenu D
występującego w dwóch allelach, dominującym D i recesywnym d
(to uproszczenie, w rzeczywistości Rh kodowane wielogenowo).
Przyjmuje się, że w rasie białej częstość wstępowania alleli D
wynosi P(D) = 0.61 a d wynosi P(d) = 0.39. Częstość genotypów
odpowiada równowadze HW a więc 85% populacji ma grupę Rh+.
Rozważmy genotyp osobnika wylosowanego z populacji białej.
&! = {DD, Dd, dD, dd},
F - wszystkie podzbiory na &!,
P(DD) = 0.612,
P(DD (" Dd (" dD) = P(DD) + P(Dd) + P(dD) =
0.612 + 2 · 0.61 · 0.39 = 0.85.
Podstawy rachunku prawdopodobieństwa 10/34
Prawdopodobieństwo geometryczne
Zdarzeń elementarnych może być nieskończenie wiele, np.
rozważmy przykład:
Prowadzący umawia się ze studentami na konsultacje pomiędzy 9
a 10. Przychodzi w losowej chwili i czeka 15 min. Jeżeli nie spotka
studentów idzie do domu.
Studenci przychodzą w losowej chwili i czekają 15 min. Jeżeli nie
spotkajÄ… prowadzÄ…cego idÄ… do domu.
Jaka jest przestrzeń &!?
Jakie zdarzenie odpowiada sytuacji w której studenci spotkają
prowadzÄ…cego?
Ile wynosi prawdopodobieństwo wystąpienia tego zdarzenia?
Podstawy rachunku prawdopodobieństwa 11/34
Prawdopodobieństwo geometryczne
Przestrzeń zdarzeń opisuje czasu przyjścia
&! = [9 : 00, ..., 10 : 00] × [9 : 00, ..., 10 : 00]
9.0 9.2 9.4 9.6 9.8 10.0
studenci
Podstawy rachunku prawdopodobieństwa 12/34
wykladowca
9.0
9.2
9.4
9.6
9.8
10.0
Prawdopodobieństwo warunkowe
Prawdopodobieństwo warunkowe
Prawdopodobieństwo warunkowe odpowiada na pytanie jakie jest
prawdopodobieństwo zdarzenia A, jeżeli wiemy, że zaszło zdarzenie
B?
P(A )" B)
P(A|B) =
P(B)
Jeżeli zdarzenia nie zależą od siebie, to
P(A|B) = P(A)
a więc zdarzenia niezależne
P(A )" B) = P(A)P(B).
Podstawy rachunku prawdopodobieństwa 13/34
Prawdopodobieństwo warunkowe
Wróćmy do przykładu z grupą Rh.
Jakie jest prawdopodobieństwo wylosowania osoby z genotypem
DD, jeżeli wylosowaliśmy osobę z grupą Rh+?
P(DD )" Rh+) P(0.612)
P(DD|Rh+) = = = 0.44
P(Rh+) 0.85
A jakie jest prawdopodobieństwo wylosowania osoby z genotypem
dd, jeżeli wylosowaliśmy osobę z grupą Rh+?
Podstawy rachunku prawdopodobieństwa 14/34
Prawdopodobieństwo całkowite
Układ zupełny zdarzeń
Układ zupełny zdarzeń to zbiór parami rozłącznych zdarzeń,
których suma jest równa &!.
Prawdopodobieństwo całkowite
Niech zdarzenia H1, ..., Hk " F będą układem zupełnym. Wtedy
k
P(A) = P(A|Hi)P(Hi)
i=1
Podstawy rachunku prawdopodobieństwa 15/34
Prawdopodobieństwo całkowite
Jak to wyglÄ…da w praktyce?
Grupę Rh+ jak już wiemy ma 85% przedstawicieli rasy białej.
W innych rasach ta grupa występuje z prawdopodobieństwem 99%.
Przyjmując, że 25% ludności świata to przedstawiciele rasy białej,
jakie jest prawdopodobieństwo wylosowania człowieka z grupą
Rh+?
P(Rh+) = P(Rh + |rasa biala)P(rasa biala)+
P(Rh + |rasa inna)P(rasa inna)
= 0.85 " 0.25 + 0.99 " 0.75 = 95.5%
Podstawy rachunku prawdopodobieństwa 16/34
Wzór Bayesa
Wzór Bayesa
Prawdopodobieństwo warunkowe, można również wyznaczyć
z następującego wzoru
P(B )" A) P(A|B)P(B)
P(B|A) = =
P(A) P(A)
Aatwo zapamiętać ten wzór ponieważ
P(B|A)P(A) = P(A|B)P(B) = P(A )" B)
Uwaga (częste pomyłki)!!!
Wartości P(A|B) i P(B|A) nie muszą być równe!
Podstawy rachunku prawdopodobieństwa 17/34
Wzór Bayesa
Wróćmy do naszego przykładu z Rh+ i rasami.
Znamy częstość występowania grupy krwi Rh+ pod warunkiem, że
jest się przedstawicielem rasy białej.
Jak policzyć prawdopodobieństwo bycia przedstawicielem rasy
białej, pod warunkiem, że ma się grupę Rh+?
P(Rh+|rasa biala)P(rasa biala)
P(rasa biala|Rh+) = =
P(Rh+)
0.85"0.25
= = 22%
0.955
P(Rh-|rasa biala)P(rasa biala)
P(rasa biala|Rh-) = =
P(Rh-)
0.15"0.25
= 83%
0.045
Podstawy rachunku prawdopodobieństwa 18/34
Niezależność zdarzeń
Jak pamiętamy zdarzenia są niezależne, jeżeli
P(A )" B) = P(A)P(B).
Czy posiadanie grupy Rh+ i Rh- to zdarzenia niezależne?
Czy posiadanie grupy Rh+ i bycie przedstawicielem rasy białej
to zdarzenia niezależne ?
Czy otrzymanie allela D od matki i allela D od ojca to
zdarzenia niezależne ?
Podstawy rachunku prawdopodobieństwa 19/34
Zmienna losowa
Nie wygodnie jest posługiwać się nazwami zdarzeń. Potrzebujemy
czegoś żeby o zdarzeniach losowych mówić w terminach wartości
liczbowych.
Zmienna losowa
Zmienną losową X nazywamy funkcje przekształcającą zbiór
zdarzeń elementarnych &! na zbiór liczb rzeczywistych R.
Przykład:
Określamy zmienną losową X jako liczbę alleli D w genotypie
wylosowanego osobnika. Taka zmienna losowa może przyjąć
wartości 0, 1 lub 2.
Podstawy rachunku prawdopodobieństwa 20/34
Dystrybuanta rozkładu
Dystrybuanta rozkładu zmiennej losowej X
Rozkład zmiennej losowej można opisać dystrybuantą, czyli funkcją
zmiennej losowej X zdefiniowaną następująco
F (X ) = P(É " &! : X (É) d" x)
Dystrybuanta jest funkcjÄ…:
niemalejÄ…cÄ…,
z przedziału [0, 1],
o wartościach limx-" F (x) = 0 i limx" F (x) = 1,
oraz dla której P(a < X d" b) = F (b) - F (a).
Podstawy rachunku prawdopodobieństwa 21/34
Zmienne skokowe i ciągłe
Zmienne losowe można podzielić na dwie grupy:
Zmienne skokowe (dyskretne), które przyjmują skończoną
(przeliczalną) liczbę wartości. Dla każdej wartości możemy
wyznaczyć prawdopodobieństwo jej wystąpienia (np. liczba
studentów, liczba alleli, liczba oczek na kostce).
Zmienne ciągłe, mogą przyjmować nieskończoną liczbę
wartości (np. ilość wody w wiadrze, waga osobnika,
temperatura za oknem).
Podstawy rachunku prawdopodobieństwa 22/34
Zmienne skokowe i ciągłe
liczba alleli D
-1 0 1 2 3
x
współczynnik BMI
10 15 20 25 30
Podstawy rachunku prawdopodobieństwa 23/34
x
dystrybuanta
0.0
0.2
0.4
0.6
0.8
1.0
dystrybuanta
0.0
0.2
0.4
0.6
0.8
1.0
Zmienne skokowe i ciągłe
liczba alleli D
0 1 2
współczynnik BMI
0 10 20 30 40
Podstawy rachunku prawdopodobieństwa 24/34
x
0.0
0.1
0.2
0.3
0.4
gę stoś ć
0.00
0.02
0.04
0.06
Zmienne o rozkładzie ciągłym
Wybrane rozkłady ciągłe, które pojawią się na kolejnych
wykładach.
Rozkład normalny (najpopularniejszy, często używany, można
go otrzymać z innych rozkładów),
Rozkład jednostajny (intuicyjny równoważnik słowa losowy),
Rozkład F,
RozkÅ‚ad Ç2.
Podstawy rachunku prawdopodobieństwa 25/34
Zmienne o rozkładzie dyskretnym
Wybrane rozkłady dyskretne, które pojawią się na kolejnych
wykładach.
Rozkład Bernoulliego (rzut monetą),
Rozkład dwumianowy (rzut wieloma monetami),
Rozkład Poissona (liczba sygnałów),
Rozkład hipergeometryczny (kule w urnach).
Podstawy rachunku prawdopodobieństwa 26/34
Momenty zwykły i centralny (wzory dla zmiennych
skokowych)
Momenty to charakterystyki rozkładu, opisują jego wybrane
właściwości.
Moment r zwykły
k
r
EX = xir pi.
i=1
Moment r centralny
k
r
EXc = (xi - µ)r pi.
i=1
Podstawy rachunku prawdopodobieństwa 27/34
Wybrane charakterystyki (wzory dla zmiennych skokowych)
Wartość średnia (wartość oczekiwana, parametr położenia)
k
µ = EX = xipi.
i=1
Wariancja (miara rozproszenia, parametr skali)
k
2
Ã2 = EXc = (xi - µ)2pi.
i=1
Skośność
k
Å‚ = (xi - µ)3pi/Ã3.
i=1
Kurtoza (parametr skupienia)
k
· = (xi - µ)4pi/Ã4.
i=1
Podstawy rachunku prawdopodobieństwa 28/34
Różnice w charakerystykach położenia i skali
róż nica w ś redniej
-4 -2 0 2 4
x
róż nica w wariancji
-4 -2 0 2 4
Podstawy rachunku prawdopodobieństwa 29/34
x
gę stoś ć
0.0
0.1
0.2
0.3
0.4
gę stoś ć
0.0
0.1
0.2
0.3
0.4
Różnice w charakerystykach kształtu
róż nica w skoś noś ci
-4 -2 0 2 4
x
róż nica w kurtozie
-4 -2 0 2 4
Podstawy rachunku prawdopodobieństwa 30/34
x
gę stoś ć
0.0
0.1
0.2
0.3
0.4
gę stoś ć
0.0
0.1
0.2
0.3
0.4
Parametry rozkładu, cz. 1
Dla każdego rozkładu wyznaczyć można następujące
charakterystyki:
dziedzina (przedział zmienności), czyli zbiór w jakim wartości
przyjmuje zmienna losowa,
średnia obcięta (Windsordzka),
wariancja Ã2,
odchylenie standardowe Ã,
współczynnik zmiennoÅ›ci CV (coefficient of variance) Ã/µ,
moda (dominanta).
Podstawy rachunku prawdopodobieństwa 31/34
Parametry rozkładu, cz. 2
kwantyl rzędu q, to wartość x dla której dystrybuanta
zmiennej losowej przyjmuje wartość q,
mediana (wartość środkowa), kwantyl rzędu 1/2,
kwartyl dolny to kwantyl rzędu 1/4, kwartyl górny to kwantyl
rzędu 3/4,
percentyl rzędu p to kwantyl rzędu p/100,
rozstęp między kwartylowy (IQR) to różnica pomiędzy q0.75 a
q0.25,
odchylenie medianowe MAD
1.4826 " median(|xi - median(xi)|).
Podstawy rachunku prawdopodobieństwa 32/34
Parametry rozkładu
gestoś ć
2.0
1.5
1.0
0.5
0.0
0.0 0.2 0.4 0.6 0.8 1.0
*
dystrybuanta
1.00
0.90
0.75
0.50
0.25
0.00
0.0 0.2 0.4 0.6 0.8 1.0
Podstawy rachunku prawdopodobieństwa 33/34
moda
Å› rednia
1 kwartyl
mediana
3 kwartyl
kwantyl 90%
Co trzeba zapamiętać?
Co oznaczajÄ… terminy:
prawdopodobieństwo, zdarzenie, zdarzenie elementarne ?
Jakie właściwości ma prawdopodobieństwo?
Co oznacza oraz jak liczyć prawdopodobieństwo warunkowe i
całkowite?
Do czego służy wzór Bayesa?
Co ozancza niezależność zdarzeń?
Co opisuje dystrybuanta a co gęstość?
Jakimi parametrami opisuje się rozkłady?
Podstawy rachunku prawdopodobieństwa 34/34
Wyszukiwarka
Podobne podstrony:
Podstawy rachunku prawdopodobienstwaPodstawy rachunku prawdopodobieństwa01 Podstawowe pojecia rachunku zbiorowRachunek prawdopodobieństwa teoriaPodstawy rachunku dyskonta01 podstawy01 Podstawy języka UML 2 001 podstawowe pojeciaRachunek Prawdop Bolt sciaga p8jurlewicz,rachunek prawdopodobieństwa,całki potrójne zadaniawięcej podobnych podstron