Rachunek prawdopodobieństwa
Zdarzenia losowe i prawdopodobieństwo zdarzeń
Zdarzenie elementarne - pojęcie pierwotne (nie definiuje się go); jest to wynik (każdy z wyników) pewnego doświadczenia, zwykle takiego, w którym pewne właściwości tego wyniku nie są znane z góry. Wszystkie możliwe zdarzenia elementarne ၷi tworzą zbiór zdarzeń elementarnych ၗ.
Zdarzeniem losowym (zdarzeniem) nazywamy dowolny podzbiór A zbioru zdarzeń elementarnych. Zdarzenie losowe składa się zatem z pewnej liczby zdarzeń elementarnych. O zdarzeniach elementarnych składających się na zdarzenie A mówimy, że sprzyjają zdarzeniu A. Szczególnym zdarzeniem losowym jest zdarzenie niemożliwe, tzn. takie, któremu nie sprzyja żadne ze zdarzeń elementarnych (jest zbiorem pustym) oraz zdarzenie pewne, tzn. takie, któremu sprzyjają wszystkie zdarzenia ze zbioru zdarzeń elementarnych ၗ. Dla każdego zdarzenia A zdarzenie ၗ\A, będące dopełnieniem zdarzenia A do zdarzenia pełnego, nazywamy zdarzeniem przeciwnym do zdarzenia A i oznaczamy
.
Borelowskim ciałem (σ-ciałem) zdarzeń nazywamy zbiór B, do którego należą zdarzenia:
zdarzenie pewne ၗ, zdarzenie niemożliwe
oraz w którym dla każdych zdarzeń losowych A1, A2, ... należących do zbioru B należą do niego także zdarzenia:
suma zdarzeń A1 A2,
iloczyn zdarzeń A1 Ⴧ A2,
różnica zdarzeń A1 \ A2.
Klasyczna definicja prawdopodobieństwa:
Jeżeli na zdarzenie pewne ၗ składa się n jednakowo możliwych i wzajemnie się wykluczających zdarzeń elementarnych, spośród których m sprzyja zdarzeniu losowemu A, to prawdopodobieństwem zdarzenia A nazywamy liczbę
.
Aksjomatyczna definicja prawdopodobieństwa:
Prawdopodobieństwem zdarzenia losowego AB nazywamy liczbę P(A) przypisaną w sposób jednoznaczny dowolnemu zdarzeniu A i spełniającą warunki:
0ႣP(A) Ⴃ1,
prawdopodobieństwo zdarzenia pewnego P(ၗ)=1,
prawdopodobieństwo sumy dowolnych, parami wykluczających się zdarzeń A1, A2, ... jest równe sumie ich prawdopodobieństw: P(A1 A2 ...) = P(A1) + P(A2) + ... .
Prawdopodobieństwo P jest zatem funkcją P: ၗ →<0,1>.
Trójkę (ၗ,B, P) nazywamy przestrzenią probabilistyczną.
Własności prawdopodobieństwa:
Prawdopodobieństwo zdarzenia niemożliwego jest równe 0: P()=0,
Prawdopodobieństwo zdarzenia przeciwnego do zdarzenia A:
.
Jeżeli zdarzenie A1 A2, to P(A1) Ⴃ P(A2).
Prawdopodobieństwo zdarzenia B w sytuacji, gdy zaszło zdarzenie A nazywamy prawdopodobieństwem warunkowym zdarzenia B i oznaczamy P(B|A).
Dwa zdarzenia A i B nazywa się niezależnymi, jeżeli zajście jednego z nich nie ma wpływu na zajście drugiego zdarzenia, tzn. P(A) = P(A|B) oraz P(B) = P(B|A).
Prawdopodobieństwo iloczynu dwóch zdarzeń:
P(AჇB) = P(A)P(B|A) = P(B)P(A|B), o ile P(A)≠0 oraz P(B) ≠0. W przeciwnym razie P(AჇB) = 0.
Jeżeli zdarzenia A i B są zdarzeniami niezależnymi, to P(AჇB) = P(A) P(B).
Prawdopodobieństwo sumy dwóch dowolnych zdarzeń: P(A B) = P(A) + P(B)-P(AჇB).
Prawdopodobieństwo całkowite:
Jeżeli zdarzenie A zawiera się w sumie zdarzeń B1, B2, ..., Bn parami wyłączających się, tzn.
A B1 B2... Bn i BiჇBj= dla i≠j, to
P(A)=P(B1)P(A|B1)+ P(B2)P(A|B2)+... P(Bn)P(A| Bn).
Wzór Bayesa:
Jeżeli zdarzenie A zawiera się w sumie zdarzeń B1, B2, ..., Bn parami wyłączających się, tzn.
A B1 B2... Bn i BiჇBj= dla i≠j, to
.
Zmienna losowa i rozkład zmiennej losowej
Zmienną losową X nazywamy każdą funkcję o wartościach liczbowych (rzeczywistych) X: ၗ →R, określoną na zbiorze zdarzeń elementarnych i spełniającą warunek:
კxR { ω: X(ω)<x }B.
Zmienną losową X nazywamy dyskretną (skokową, typu skokowego), jeżeli zbiór wartości X jest zbiorem skończonym lub przeliczalnym (tzn. wartości zmiennej można przedstawić jako ciąg liczbowy).
Zmienną losową X nazywamy ciągłą (typu ciągłego), jeżeli zbiór wartości X można przedstawić jako przedział liczbowy (otwarty lub domknięty, ograniczony lub nieograniczony).
Rozkładem zmiennej losowej (funkcją prawdopodobieństwa zmiennej losowej) X typu skokowego nazywamy funkcję prawdopodobieństwa, przypisującą każdej przyjmowanej przez X wartości xi prawdopodobieństwo tej wartości:
,
gdzie P(xi) jest prawdopodobieństwem wystąpienia wartości xi oraz
dla zmiennych osiągających skończoną liczbę wartości,
dla zmiennych osiągających przeliczalną liczbę wartości.
Funkcją gęstości prawdopodobieństwa zmiennej losowej ciągłej nazywamy funkcję f(x), określoną na zbiorze liczb rzeczywistych i spełniającą następujące warunki:
dla każdego xR
.
Z powyższej definicji wynika ważna własność funkcji gęstości:
.
Funkcją gęstości prawdopodobieństwa może być każda funkcja całkowalna o wartościach nieujemnych i spełniająca powyższy warunek.
Dystrybuantą zmiennej losowej X typu skokowego nazywamy funkcję F(x) określoną dla wszystkich liczb rzeczywistych w następujący sposób:
dla każdego
.
Oczywiście
Przy skończonej liczbie wartości zmiennej dystrybuanta osiąga wartość 1 dla x większych lub równych największej z osiąganych wartości. Przy nieskończonej liczbie wartości zmiennej, wartość dystrybuanty dąży do 1 dla
.
Podstawowe własności dystrybuanty zmiennej losowej dyskretnej:
dla każdego x,
,
F(x) jest funkcją niemalejącą, przedziałami stałą i prawostronnie ciągłą.
Dystrybuantą zmiennej losowej ciągłej nazywamy funkcję
dla każdego
.
Własności dystrybuanty zmiennej losowej ciągłej:
dla każdego x,
,
F(x) jest funkcją niemalejącą i ciągłą.
Na podstawie dystrybuanty zmiennej losowej ciągłej można obliczyć prawdopodobieństwo, że
w następujący sposób:
Podstawowe parametry rozkładu zmiennej losowej
Wartością oczekiwaną (nadzieją matematyczną, wartością przeciętną) zmiennej losowej dyskretnej X nazywamy wartość:
dla zmiennych osiągających skończoną liczbę wartości oraz:
dla zmiennych osiągających przeliczalną liczbę wartości.
Dla zmiennej losowej ciągłej zdefiniujemy wartość oczekiwaną jako:
Wartość oczekiwana odzwierciedla przeciętny poziom osiągany przez zmienną losową. Nie musi to być wartość najbardziej prawdopodobna.
Własności wartości oczekiwanej:
Wartość oczekiwana stałej równa się tej stałej, czyli:
.
Wartość przeciętna sumy dwóch zmiennych losowych X i Y równa się sumie wartości przeciętnych tych zmiennych:
.
Wartość przeciętna iloczynu dwóch niezależnych zmiennych losowych X i Y równa się iloczynowi wartości przeciętnych tych zmiennych:
.
Wariancja i odchylenie standardowe są miarami zróżnicowania (rozrzutu) rozkładu. Im ich wartości są mniejsze, tym rozkład jest bardziej skupiony wokół wartości oczekiwanej.
Wariancją zmiennej losowej X nazywamy wartość:
dla zmiennych losowych typu skokowego oraz:
dla zmiennych losowych typu ciągłego.
Wariancję można również obliczyć jako:
.
Własności wariancji.
Wariancja stałej równa się zeru:
.
Wariancja iloczynu stałej c przez zmienną losową X równa się iloczynowi kwadratu tej stałej przez wariancję zmiennej losowej X:
.
Wariancja sumy dwóch niezależnych zmiennych losowych równa się sumie wariancji tych zmiennych:
.
Wariancja różnicy dwóch niezależnych zmiennych losowych równa się sumie wariancji tych zmiennych:
.
Jako że sama wariancja nie posiada własnej interpretacji, definiuje się na jej podstawie odchylenie standardowe zmiennej.
Odchyleniem standardowym D(X) zmiennej losowej X nazywamy pierwiastek kwadratowy z wariancji:
Rozkład dwupunktowy i zero-jedynkowy
Z rozkładem dwupunktowym mamy do czynienia wówczas, gdy w wyniku doświadczenia możemy uzyskać tylko jedną z dwóch wartości zmiennej losowej: x1 lub x2 z prawdopodobieństwami odpowiednio p oraz 1-p. W szczególnym przypadku, gdy x1 =0 oraz x2 =1 rozkład ten nazywany jest rozkładem zero-jedynkowym. Funkcja prawdopodobieństwa w tym rozkładzie ma postać:
xi |
0 |
1 |
pi |
1-p |
p |
Dystrybuanta rozkładu zero-jedynkowego ma postać:
Rys. Przykładowy wykres funkcji prawdopodobieństwa dla rozkładu zero-jedynkowego
Rys. Przykładowy wykres dystrybuanty dla rozkładu zero-jedynkowego
Wartość oczekiwana zmiennej w rozkładzie zero-jedynkowym wynosi:
,
natomiast wariancja:
.
Rozkład dwumianowy (Bernoulliego)
Rozkład dwumianowy występuje wówczas, gdy przeprowadza się n jednakowych doświadczeń, z których każde może zakończyć się jednym z dwóch wyników: „sukcesem” z prawdopodobieństwem p lub „porażką” z prawdopodobieństwem 1- p. Zmienną losową X w tym eksperymencie jest liczba sukcesów w n próbach. Może ona przyjmować wartości z przedziału <0,n>.
Rozkład prawdopodobieństwa w rozkładzie Bernoulliego jest określony wzorem:
.
Rys. Przykładowy wykres funkcji prawdopodobieństwa zmiennej o rozkładzie Bernoulliego dla n=10 i p=0,2.
Rozkład Bernoulliego jest symetryczny dla p=0,5. Im p jest bliższe 0 lub 1, tym większa jest asymetria rozkładu.
Wartość oczekiwana i wariancja w rozkładzie dwumianowym są równe:
,
.
Rozkład Poissona
Rozkład Poissona jest rozkładem zmiennej losowej skokowej, z którym mamy do czynienia w przypadku określania prawdopodobieństwa zajścia zdarzeń stosunkowo rzadkich i niezależnych od siebie, takich jak np. liczba usterek w produkowanej partii materiału. Rozkład Poissona jest przybliżeniem rozkładu Bernoulliego dla dużych prób i przy małym prawdopodobieństwie zajścia zdarzenia („sukcesu”).
Funkcja prawdopodobieństwa w rozkładzie Poissona o parametrze ၬ jest dana wzorem:
,
gdzie:
e - podstawa logarytmów naturalnych,
ၬ - stała, która jest wartością oczekiwaną i równocześnie wariancją rozkładu, czyli: E(X)=D2(X)=ၬ. Dla partii n elementów, z prawdopodobieństwem zdarzenia p: ၬ=np.
Rys. Przykładowy wykres funkcji prawdopodobieństwa dla rozkładu Poissona.
Rozkład hipergeometryczny
Rozkład hipergeometryczny jest rozkładem charakteryzującym losowanie bez zwracania n elementów spośród N, wśród których R ma cechę wyróżniającą (np. wadę). Dla populacji nieskończonych (N=*) lub losowania ze zwracaniem stosuje się rozkład Bernoulliego lub Poissona.
Prawdopodobieństwo uzyskania k elementów wyróżnionych w n-elementowej próbie wynosi w rozkładzie hipergeometrycznym
.
Kształt wykresu rozkładu hipergeometrycznego jest zbliżony do kształtów rozkładów Bernoulliego oraz Poissona.
Rozkład prostokątny (jednostajny)
Jest to najprostszy z rozkładów zmiennej losowej ciągłej. Mamy z nim do czynienia wtedy, gdy prawdopodobieństwo zajścia zdarzenia jest stałe w pewnym przedziale <a, b>. Funkcja gęstości tego rozkładu jest dana wzorem
Rozkład prostokątny bierze nazwę od kształtu wykresu tej funkcji.
Rys. Wykres przykładowej funkcji gęstości dla rozkładu prostokątnego.
Dystrybuanta zmiennej losowej o rozkładzie jednostajnym wyraża się wzorem:
Rys. Wykres dystrybuanty dla rozkładu prostokątnego.
Wartość oczekiwana i wariancja zmiennej o rozkładzie prostokątnym są równe odpowiednio:
,
.
Rozkład normalny
Rozkład normalny, zwany także rozkładem Gaussa-Laplace'a jest najczęściej spotykanym w naturze rozkładem zmiennej losowej ciągłej. Ciągła zmienna losowa X ma rozkład normalny o wartości oczekiwanej μ i odchyleniu standardowym σ (co oznaczamy
), jeśli jej funkcja gęstości - określona dla wszystkich rzeczywistych wartości x - da się przedstawić za pomocą wzoru:
Przykłady funkcji gęstości dla różnych wartości parametrów ၭ i
przedstawiono na rysunku.
Rys. Funkcje gęstości rozkładu normalnego dla różnych wartości ၭ i ၳ
Funkcja f(x) ma następujące własności:
własność symetryczności - jest symetryczna względem prostej x=ၭ, co oznacza, że spełniona jest zależność (wynika z niej również, że mediana rozkładu wynosi ၭ):
oraz
,
własność jednomodalności - w punkcie x=ၭ osiąga wartość maksymalną (co oznacza, że dominanta rozkładu wynosi ၭ), która wynosi:
,
własność zmienności - ramiona f(x) mają punkty przegięcia dla
.
własność określoności - kształt funkcji gęstości zależy od wartości dwóch parametrów: ၭ i
. Parametr ၭ decyduje o przesunięciu krzywej, natomiast parametr
decyduje o „smukłości” krzywej.
Reguła trzech sigm: w rozkładzie normalnym prawie wszystkie wartości zmiennej X odchylają się od średniej o nie więcej niż o trzy odchylenia standardowe, dokładniej:
.
Standaryzacja:
Obliczanie prawdopodobieństwa zmiennych o rozkładzie normalnym ułatwia fakt, że wartości dystrybuanty Φ zmiennej losowej
zawarte są w specjalnych tablicach statystycznych dla u>0, przy czym wartości dystrybuanty dla u<0 można obliczyć z zależności Φ(-u)=1- Φ(u). Dla każdej zmiennej
X zmienna losowa
ma rozkład N(0,1). Zmienną u nazywa się zmienną standaryzowaną.
Funkcja gęstości rozkładu zmiennej standaryzowanej (tj. rozkładu normalnego standaryzowanego) N(0,1) przyjmuje postać:
Rozkład wykładniczy
O zmienna losowej X mówimy, że ma rozkład wykładniczy z parametrem
, jeżeli jej funkcję gęstości można przedstawić jako:
.
Rys. Funkcja gęstości rozkładu wykładniczego.
Rozkład chi-kwadrat
Jeżeli rozpatrzmy ciąg niezależnych zmiennych standaryzowanych
o rozkładzie N(0;1), to zmienna losowa
(chi-kwadrat) jest sumą kwadratów zmiennej losowej U, tzn.:
,
przy czym zmienna losowa
(dla
>0) ma rozkład funkcji gęstości prawdopodobieństwa określony wzorem:
,
gdzie:
k - liczba stopni swobody ,
- funkcja gamma o argumencie 0,5k:
.
Zmienna losowa
przyjmuje wartości dodatnie i ma rozkład całkowicie określony przez liczbę stopni swobody k. Rozkład ten ma wartość oczekiwaną oraz odchylenie standardowe równe:
.
Dla k=1 oraz k=2 rozkład
jest rozkładem skrajnie asymetrycznym; dla k=3 rozkład jest jeszcze silnie asymetryczny. Przy wzrastającej liczbie stopni swobody staje się bardziej symetryczny, dla k>30 rozkład jest szybko zbieżny do rozkładu normalnego. Wykres funkcji gęstości rozkładu
dla różnej liczby stopni swobody przedstawiono na rysunku .
Rys. Wykres funkcji gęstości rozkładu chi-kwadrat
W tablicach podaje się wartości krytyczne rozkładu
, tzn. dla określonej liczby stopni swobody k i ustalonej wartości ၡ podane są wartości
takie, że
. Jeżeli k>30, korzysta się tablic rozkładu normalnego.
Rozkład t-Studenta
Jeżeli zmienna losowa U ma rozkład N(0;1), zmienna losowa Y ma rozkład
o liczbie stopni swobody k i jeśli zmienne U i Y są niezależne, to zmienna losowa
przyjmuje rozkład t-Studenta o k stopniach swobody. Funkcja gęstości tego rozkładu przyjmuje postać:
gdzie:
k - liczba stopni swobody,
- funkcja gamma o argumencie p:
.
Wartość oczekiwana i odchylenie standardowe zmiennej losowej są odpowiednio równe:
.
Rozkład tego typu po raz pierwszy otrzymał Goosset (pseudonim Student - stąd nazwa rozkładu).
Rozkład t-Studenta posiada następujące własności:
jest symetryczny z osią symetrii w punkcie t=0,
jedynym parametrem tego rozkładu jest liczba stopni swobody k,
jego wykres przypomina standaryzowany rozkład normalny, tzn. jest nieco bardziej spłaszczony (patrz rys.),
dla k>30 jest zbieżny do standaryzowanego rozkładu normalnego.
Rys. Porównanie wykresu funkcji gęstości rozkładu t-Studenta z rozkładem normalnym
Tablica rozkładu t-Studenta jest skonstruowana w ten sposób, że przy danej liczbie stopni swobody k i dla ustalonej wartości ၡ (dla 0<ၡ<1) odczytana wartość
spełnia relację
.
Tablice rozkładu t-Studenta są na ogół budowane dla k<=30. Jeżeli liczba stopni swobody jest większa od 30, korzystamy z rozkładu N(0;1).
Stopień swobody to liczba niezależnych wyników obserwacji pomniejszona o liczbę związków, które łączą wyniki obserwacji ze sobą.
1