Tadeusz Malinowski nr. indeksu 30081
Ewa Malinowska nr. indeksu 30080
grupa 206
Praca semestralna z matematyki- sem.II.
Podstawowe rozkłady prawdopodobieństwa
Podstawowe definicje
Rozkład prawdopodobieństwa to funkcja na zbiorze wartości zmiennej losowej. Mówimy, że znany jest rozkład prawdopodobieństwa, jeśli znana jest :
- dystrybuanta tej zmiennej losowej lub
- funkcja prawdopodobieństwa (w przypadku zmiennej losowej skokowej) lub
- gęstość (dla zmiennej losowej ciągłej).
Zmienna losowa
Przyporządkowanie każdemu zdarzeniu elementarnemu dokładnie jednej liczby rzeczywistej. Jest to więc funkcja, której dziedziną jest zbiór zdarzeń elementarnych, zaś wartościami są liczby rzeczywiste.
Zbiór wartości zmiennej losowej może być:
- skończony
- przeliczalny
- nieprzeliczalny.
Zmienna losowa skokowa i dystrybuanta
Gdy zbiór wartości jest skończony lub przeliczalny, wówczas mówimy o zmiennej losowej skokowej.
Funkcja prawdopodobieństwa zmiennej skokowej X to przyporządkowanie każdej wartości xi tej zmiennej losowej prawdopodobieństwa pi z którym zmienna X tę wartość przyjmuje:
P(X = x1) = pi
Własności funkcji prawdopodobieństwa
Każda funkcja spełniająca warunki:
pi > 0 dla i = 1,2,....
Σ pi = 1
jest funkcją prawdopodobieństwa pewnej zmiennej losowej skokowej.
Dystrybuanta zmiennej losowej skokowej X jest to funkcja F określona wzorem:
F(x) = P(X < x) dla x Є R
Zmienna losowa ciągła i gęstość
Zmienna losowa ciągła to taka zmienna, której dystrybuantę F można przedstawić w postaci:
x
F(x) = ∫ ƒ(t)dt dla x Є R
-∞
gdzie f jest funkcją nieujemną zwaną gęstością prawdopodobieństwa zmiennej losowej X.
Dystrybuanta zmiennej losowej ciągłej jest funkcją górnej granicy całkowania gęstości f, co oznacza, że dystrybuanta tej zmiennej jest funkcją ciągłą i w każdym punkcie x (w którym gęstość f jest ciągła) mamy:
F'(x) = ƒ(x).
Wartość oczekiwana
Wartość oczekiwana zmiennej losowej jest to liczba o symbolu EX , określona wzorem:
Wariancja
Jest to liczba określona wzorem:
gdzie pi oznacza funkcję prawdopodobieństwa zmiennej losowej X przyjmującej wartości xi(i=1,2,...), natomiast f(x) jest funkcją gęstości.
Rozkład jednopunktowy
Z rozkładem jednopunktowym mamy do czynienia wtedy. gdy całe prawdopodobieństwo jest skupione w jednym punkcie.
Zmienna losowa X ma rozkład skokowy jednopunktowy, jeśli jej funkcja prawdopodobieństwa jest postaci:
|
|
|
1 |
Jest to szczególny przypadek zmiennej losowej o rozkładzie równomiernym - wówczas wartość oczekiwana i wariancja wyrażają się wzorami
EX = c , D2X = 0
Zmienna losowa o rozkładzie jednopunktowym jest jedyną zmienną losową o wariancji równej 0 ( nie ma rozproszenia od wartości oczekiwanej).
Rozkład zerojedynkowy
Założenia:
przeprowadzamy doświadczenie, którego rezultatem mogą być dwa wzajemnie wykluczające się zdarzenia losowe A oraz
,
prawdopodobieństwo realizacji zdarzenia A wynosi p, przy czym 0<p<1,
prawdopodobieństwo zdarzenia
wynosi q=1-p,
przyporządkowujemy zdarzeniu A liczbę 1 oraz zdarzeniu
liczbę 0, otrzymując zmienną losową X, której funkcja prawdopodobieństwa ma postać:
;
Zmienna losowa X ma rozkład zerojedynkowy, jeśli przyjmuje wartość 1 z prawdopodobieństwem 0<p<1 oraz wartość 0 z prawdopodobieństwem q=1-p.
Funkcja prawdopodobieństwa rozkładu zerojedynkowego:
xi |
0 |
1 |
pi |
1-p |
p |
Dystrybuanta zmiennej losowej zerojedynkowej:
Wartość oczekiwana i wariancja zmiennej losowej zerojedynkowej:
Rozkład dwumianowy
Rozkład dwumianowy
(zwany czasem błędnie rozkładem Bernoulliego) to dyskretny rozkład prawdopodobieństwa opisujący liczbę sukcesów k w ciągu N niezależnych prób, z których każda ma stałe prawdopodobieństwo sukcesu równe p. Pojedynczy eksperyment nosi nazwę próby Bernoulliego.
gdzie:
to symbol Newtona.
Funkcja charakterystyczna: φX(t) = (peit + q)N
Innym rozkładem, który opisuje ilość sukcesów w ciągu N prób, jest rozkład hipergeometryczny. W tym przypadku jednak próby nie są niezależne (próba bez zwracania).
Jeśli X ~ B(n, p) i Y ~ B(m, p) są dwiema niezależnymi zmiennymi losowymi o rozkładzie dwumianowym, wtedy ich suma X + Y jest zmienną losową o rozkładzie dwumianowym danym wzorem:
B (n+m,p)
W zależności od wartości parametrów rozkład dwumianowy można przybliżać innymi rozkładami:
Jeśli zarówno np, jak i n(1 − p) są większe od 5, wtedy rozkład dwumianowy można przybliżać rozkładem normalnym: N (n p, n p(1- p))
Jeśli n jest duże, a p jest małe (czyli np ma umiarkowanie dużą wartość), dobrym przybliżeniem rozkładu dwumianowego jest rozkład Poissona z parametrem λ = np.
Schemat Bernoulliego:
wykonujemy doświadczenie, którego rezultatem może być zdarzenie A (sukces) z prawdopodobieństwem p lub zdarzenie przeciwne
(porażka) z prawdopodobieństwem q=1-p,
doświadczenie powtarzamy n-krotnie w sposób niezależny co oznacza, że prawdopodobieństwo sukcesu pozostaje w pojedynczych próbach stałe i równe p,
liczba sukcesów jaką zaobserwujemy w wyniku n-krotnego powtórzenia doświadczenia, może być równa k=0,1,2,...,n.
Przykład 1:
Doświadczenie |
Sukces |
Porażka |
Rzut monetą |
Orzeł |
Reszka |
Rzut kością |
Parzysta liczba oczek |
Nieparzysta liczba oczek |
Strzelanie do celu |
Trafienie celu |
Nie trafienie celu |
Urodzenie dziecka |
Dziewczynka |
Chłopiec |
Pobieranie sztuk towaru ze zwracaniem |
Sztuka wadliwa |
Sztuka dobra |
Obserwacja niezawodności urządzenia w czasie T |
Urządzenie niesprawne |
Urządzenie sprawne |
Przykład 2:
Mamy trzy pojemniki typu
, dwa pojemniki typu
i pięć pojemników typu
. Pojemniki typu
zawierają 12 białych kul, 3 zielone, 4 czarne i 1 niebieską. Pojemniki typu
zawierają 3 białe kule, 12 zielonych, 4 czarne i 1 niebieską. Pojemniki typu
zawierają 4 białe kule, 3 zielone, 12 czarnych i 1 niebieską. Losujemy ze zwrotem (zwracamy wylosowaną kulę do pojemnika z którego została wyjęta) 5 kul. Obliczyć prawdopodobieństwo wylosowania 2 kul zielonych.
Losowanie odbywa się ze zwrotem, więc mamy do czynienia z doświadczeniami niezależnymi. Łatwo ustalamy, że
,
i prawdopodobieństwo pojedynczego sukcesu (wylosowania kuli zielonej) obliczymy stosując wzór na prawdopodobieństwo całkowite
, więc
. Stosujemy wzór Bernoulliego
.
Zmienna losowa X ma rozkład skokowy Bernoulliego (rozkład dwumianowy) z parametrami
, gdzie
,
, jeśli jej funkcja prawdopodobieństwa jest postaci
gdzie
,
.
Wówczas wartość oczekiwana i wariancja wyrażają się wzorami
,
.
Rozkład Poissona
Rozkład Poissona to rozkład dyskretny przedstawiający liczbę wystąpień zjawiska w czasie t, w określonej liczbie prób, jeśli wystąpienia te są niezależne od siebie. Rozkład ma zastosowanie do obliczenia przybliżonej wartości prawdopodobieństwa w rozkładzie Bernoulliego przy dużej liczbie prób i niskim prawdopodobieństwie sukcesu.
Rozkład Poissona jest określany przez jeden parametr λ, który ma interpretację wartości oczekiwanej. Parametr ten jest równy prawdopodobieństwu uzyskania sukcesu w pojedynczej próbie pomnożony przez liczbę prób.
Własności rozkładu Poissona:
,
wariancja: λ,
współczynnik skośności: λ − 1 / 2,
kurtoza: λ − 1,
Przykład 1:
Mamy trzy pojemniki typu
, dwa pojemniki typu
i pięć pojemników typu
. Pojemniki typu
zawierają 12 białych kul, 3 zielone, 4 czarne i 1 niebieską. Pojemniki typu
zawierają 3 białe kule, 12 zielonych, 4 czarne i 1 niebieską. Pojemniki typu
zawierają 4 białe kule, 3 zielone, 12 czarnych i 1 niebieską. Losujemy 120 kul ze zwrotem. Obliczyć prawdopodobieństwo wylosowania co najwyżej 1 kuli niebieskiej.
Obliczamy prawdopodobieństwo wylosowania kuli niebieskiej
. Zastosujemy wzór Poissona dla
, więc
. Mamy
,
. Ostatecznie szukane prawdopodobieństwo wynosi
.
Przykład 2:
Ile średnio pieniędzy wypłaciło w ciągu roku towarzystwo ubezpieczeniowe tytułem odszkodowania za nieszczęśliwe wypadki ubezpieczonych, jeśli średnia wypłata za jednego odszkodowanie wynosiła 10000zł?
Rozwiązanie:
X- liczba ubezpieczonych, którzy ulegli wypadkowi (w ciągu roku) Y- wielkość odszkodowania Z- ilość pieniędzy wypłaconych przez towarzystwo ubezpieczeniowe tytułem odszkodowań za nieszczęśliwe wypadki.
Zakładamy, że zmienne losowe X i Y są niezależne.
Z= X*Y
EZ = E(XY)=EXEY
EZ = λ*1000 = 5*10000=50000
Skorzystaliśmy z twierdzenia , że wartość oczekiwana iloczynu zmiennych losowych niezależnych jest równa iloczynowi wartości oczekiwanych.
Odp. 50000
Rozkład normalny
Rozkład normalny, zwany też rozkładem Gaussa, lub krzywą dzwonową, jest jednym z najważniejszych rozkładów prawdopodobieństwa. Odgrywa ważną rolę w statystycznym opisie zagadnień przyrodniczych, przemysłowych, medycznych, socjalnych itp.
Gęstość rozkładu normalnego
Istnieje wiele równoważnych sposobów zdefiniowania rozkładu normalnego. Należą do nich: funkcja gęstości, dystrybuanta, momenty, kumulanty, funkcja charakterystyczna, funkcja tworząca momenty i funkcja tworząca kumulanty. Wszystkie kumulanty rozkładu normalnego wynoszą 0 oprócz pierwszych dwóch.
Funkcja gęstości.
Funkcja gęstości dla rozkładu normalnego ze średnią μ i odchyleniem standardowym σ (równoważnie: wariancją σ2) jest przykładem funkcji Gaussa.
Jeśli zmienna losowa X ma ten rozkład piszemy X ~ N(μ, σ²). Jeśli μ = 0 i σ = 1, rozkład nazywamy standardowym rozkładem normalnym, którego funkcja gęstości opisana jest wzorem:
Przedstawiony wykres odnosi się do funkcji gęstości rozkładu normalnego dla μ = 0 (w jednym przypadku μ=-2) i kilku różnych wartości σ. Im większe σ tym bardziej płaski jest wykres.
We wszystkich rozkładach normalnych funkcja gęstości jest symetryczna względem wartości średniej rozkładu. Około 68% pola pod wykresem krzywej znajduje się w odległości jednego odchylenia standardowego od średniej, około 95,5% w odległości dwóch odchyleń standardowych i około 99,7% w odległości trzech. Punkt przegięcia krzywej znajduje się w odległości jednego odchylenia standardowego od średniej.
Dystrybuanta
Dystrybuanta jest definiowana jako prawdopodobieństwo tego, że zmienna X ma wartości mniejsze bądź równe x i w kategoriach funkcji gęstości wyrażana jest (dla rozkładu normalnego) wzorem:
Całki powyższej nie da się policzyć dokładnie metodą analityczną. W konkretnych zagadnieniach do obliczenia wartości dystrybuanty stosuje się zatem tablice statystyczne (bądź też odpowiednie kalkulatory czy oprogramowanie komputerów). Tablice zawierają dane dla dystrybuanty standardowego rozkładu normalnego, tradycyjnie oznaczanej jako Φ i zdefiniowanej jako rozkład o parametrach μ = 0 i σ = 1:
Związek dystrybuanty Φ i dystrybuanty rozkładu normalnego X o dowolnie zadanych parametrach μ i σ otrzymuje się za pomocą standaryzowania rozkładu (zob. też poniżej).
Dystrybuanta standardowego rozkładu normalnego może być wyrażona poprzez funkcję specjalną (nieelementarną, przestępną), tzw. funkcję błędu jako:
Funkcję charakterystyczną definiuje się jako wartość oczekiwaną eitX.
Własności:
Jeśli X ~ N(μ, σ2) i a i b są liczbami rzeczywistymi, to aX + b ~ N(aμ + b, (aσ)2).
Jeśli X1 ~ N(μ1, σ12) i X2 ~ N(μ2, σ22), i X1 i X2 są niezależne, to X1 + X2 ~ N(μ1 + μ2, σ12 + σ22).
Jeśli X1, ..., Xn są niezależnymi zmiennymi losowymi o standardowym rozkładzie normalnym, to X12 + ... + Xn2 ma rozkład chi-kwadrat z n stopniami swobody.
Parametry rozkładu
Przykład:
Zmienna losowa X ma rozkład normalny N(0,1). Obliczymy prawdopodobieństwa
P(X<-2), P(-1≤X<3), P(X≥6).
Rozwiązanie:
P(X<-2)= φ(-2)=1-φ(2)= 1-0,97725=0,02275
P(-1≤X<3)= φ(3)-φ(-1)= φ(3)+ φ(1)-1=0,9987+0,8413-1=0,8400
P(X≥6)1-P(X<6)=1-φ(6)=1-1=0
Rozkład wykładniczy
Rozkład wykładniczy to rozkład zmiennej losowej opisujący sytuację, w której obiekt może przyjmować stany X i Y, przy czym obiekt w stanie X może ze stałym prawdopodobieństwem przejść w stan Y w jednostce czasu. Prawdopodobieństwo wyznaczane przez ten rozkład to prawdopodobieństwo przejścia ze stanu X w stan Y w czasie δt.
Innymi słowy, jeżeli w jednostce czasu ma zajść 1/λ niezależnych zdarzeń, to rozkład wykładniczy opisuje odstępy czasu pomiędzy kolejnymi zdarzeniami.
Jest on określony jednym parametrem λ - wartością oczekiwaną.
Własności rozkładu wykładniczego:
Poniżej podano przykład rozkładu wykładniczego dla λ=5.
Rozkład logarytmiczno- normalny
Rozkład tego typu jest często wykorzystywany do modelowania rozkładu takich zmiennych jak dochody osobiste lub wiek w momencie zawierania pierwszego małżeństwa. Ogólnie, jeżeli x jest próbą pochodzącą z populacji o rozkładzie normalnym , wówczas y = ex jest próbą o rozkładzie logarytmiczno-normalnym.
Rozkład ten jest zdefiniowany jako:
f(x) = 1/[xσ(2)1/2] * e-[log(x)-]**2/2σ**2, dla 0 < x < , > 0, σ > 0
gdzie
|
oznacza parametr skali, |
σ |
oznacza parametr kształtu, |
e |
oznacza podstawę logarytmu naturalnego, czasami nazywaną stałą Eulera e (o wartości 2,71...).
|
Zamieszczona powyżej animacja pokazuje zmianę kształtu rozkładu logarytmiczno-normalnego przy wartości parametru mi równej 0 oraz wartościach parametru sigma 0,10, 0,30, 0,50, 0,70 oraz 0,90.
Rozkład gamma
Wartość modalna funkcji gęstości w przypadku rozkładu wykładniczego wynosi zero. Jednak w wielu przypadkach a priori wiadomo, że moda rozkładu danej zmiennej losowej nie jest równa zero (np. przy określaniu rozkładu czasu bezawaryjnej pracy żarówki elektrycznej lub czasu obsługi w kasie biletowej na meczu piłkarskim). W takich przypadkach rozkład gamma jest rozkładem bardziej odpowiednim.
Funkcja gęstości w tym rozkładzie jest określona wzorem:
f(x) = {1/[b(c)]}*[x/b]c-1*e-x/b dla0 x, c > 0 ,
Gdzie |
oznacza funkcję Gamma, |
c |
jest tzw. parametrem kształtu, |
b |
jest tzw. parametrem skali, |
e |
oznacza podstawę logarytmu naturalnego, czasami nazywaną stałą Eulera e (o wartości 2,71...). |
Powyższa animacja pokazuje zmianę kształtu rozkładu gamma przy wartości parametru kształtu zmieniającej się od 1 do 6.
Rozkład Pareto
Rozkład Pareto jest rozkładem statystycznym (rozkładem zmiennej losowej) w ścisłym znaczeniu. Można go zapisać powyższą formułą. W pełnym formalnym ujęciu postawienie znaku równości prawej i lewej strony wymaga ustalenia dodatkowych parametrów, w praktyce trudnych do interpretacji, więc dla uproszczenia poniższego wykresu przyjęto, że razem dają one współczynnik = 1.
Wykres rozkładu Pareto
Rozkład Wiebulla
Rozkład Weibulla jest użytecznym, ogólnym rozkładem prawdopodobieństwa, mającym zastosowanie w badaniu niezawodności. Rozkład ten wziął nazwę od nazwiska szwedzkiego profesora Waloddiego Weibulla, który pokazał jego przydatność do modelowania różnych danych (zob. np. Hahn i Shapiro, 1967). Rozkład Weibulla znalazł między innymi zastosowanie w modelowaniu czasu eksploatacji elementów elektronicznych, przekaźników, łożysk kulkowych a nawet czasu istnienia przedsiębiorstw).
Funkcja intensywności uszkodzeń (funkcja ryzyka) i krzywa wanny (rampy). Często wygodne jest posługiwanie się funkcją wyrażającą prawdopodobieństwo uszkodzenia w krótkim przedziale czasu (przy założeniu, że do tej chwili urządzenie pracowało bezawaryjnie). Funkcja ta nazywana jest funkcją intensywności uszkodzeń (czasami również funkcją hazardu, funkcją ryzyka, warunkową funkcją uszkodzeń lub funkcją siły wymierania). Jest ona zdefiniowana jako
h(t) = f(t)/(1-F(t))
gdzie h(t) oznacza funkcję intensywności uszkodzeń zaś f(t) i F(t) są odpowiednio gęstością i dystrybuantą rozkładu Weibulla. Funkcja ryzyka dla większości wyrobów (składników i kompletnych urządzeń) podobna jest kształtem do "wanny". We wczesnym stadium eksploatacji maszyny (okres docierania) intensywność występowania uszkodzeń jest stosunkowo duża ("efekt nowości" lub "umieralność noworodków"). Następnie, po okresie docierania, intensywność uszkodzeń spada i utrzymuje się na jednakowym, niskim poziomie. Pod koniec okresu eksploatacji intensywność awarii znowu rośnie (okres zużycia wyrobu) aż wszystkie urządzenia ulegną awarii.
Na przykład, nowe auta często na początku ulegają drobnym awariom, w okresie bezpośrednio po zakupie. Po okresie "docierania" następuje najczęściej długi okres bezawaryinej eksploatacji a następnie, po pewnym okresie użytkowania intensywność awarii rośnie by wreszcie, po 20 latach i 500 000 kilometrach przebiegu praktycznie wszystkie auta przestały być zdatne do użytku. Typowy kształt krzywej wanny pokazano niżej.
Rozkład Weibulla ma tę zaletę, że jest dostatecznie elastyczny by odtworzyć kluczowe fazy przebiegu funkcji ryzyka o postaci typowej krzywej wanny. Poniżej pokazano funkcje ryzyka dla parametrów kształtu c=0,5, c=1, c=2, c=5.
Wyraźnie widać, że wczesną "fazę" krzywej rampy można dobrze modelować funkcją intensywności uszkodzeń Weibulla z parametrem kształtu c<1, stałą fazę krzywej dobrze opisuje funkcja z parametrem kształtu c=1 a ostatnią "fazę zużycia" funkcja z parametrem kształtu c>1.
Dystrybuanta i funkcje niezawodności.
Kiedy już dopasujemy do danych rozkład Weibulla (z określonymi wartościami parametrów), wtedy możemy obliczyć szereg wskaźników niezawodności. Na przykład, możemy obliczyć dystrybuantę dobranego rozkładu F(t) wraz z błędami dopasowania tej dystrybuanty. Zatem możemy określić percentyle rozkładu zdatności (i uszkodzeń) i na przykład przewidzieć okresy czasu, w których określony odsetek elementów prawdopodobnie ulegnie uszkodzeniu.
Funkcja niezawodności (oznaczana przez R(t); R-reliability) jest dopełnieniem dystrybuanty do jedynki (tzn. R(t)=1-F(t)). Funkcja niezawodności nazywana bywa czasami funkcją przeżycia lub przetrwania (ponieważ wyraża prawdopodobieństwo bezawaryjnej pracy w przedziale czasu t, zob. np. Lee 1992). Poniżej pokazano funkcję niezawodności w przypadku rozkładu Weibulla dla różnych wartości parametrów kształtu.
Dla wartości parametru kształtu mniejszych od 1 niezawodność gwałtownie maleje w początkowym okresie a następnie szybkość spadku zmniejsza się. Dla parametrów kształtu większych od 1 początkowy spadek niezawodności jest mały by następnie zwiększyć się znacznie. Punkt, w którym wszystkie krzywe się przecinają nazywa się zdatnością charakterystyczną . Niezależnie od wartości parametru kształtu, 63,2% populacji ulegnie awarii do tego momentu (tzn. R(t)=1-0,632=0,368). Punkt ten jest jest równy parametrowi skali dla dwuparametrowego rozkładu Weibulla (gdy
= 0; w przeciwnym wypadku jest równy b+
).
1