ROZKŁADY ZMIENNYCH LOSOWYCH SKOKOWYCH
Zmienna losowa - jest odpowiednikiem cechy statystycznej, czyli właściwości danej jednostki statystycznej. Zmienne losowe oznaczamy X, Y, Z.
Rozróżniamy następujące zmienne losowe:
zmienna losowa skokowa (dyskretna) - zmienna, której zbiór wartości jest skończony i przeliczalny. Np. liczba osób w rodzinie, liczba usterek, liczba mieszkańców Legnicy, itd.
Czyli zmienna ta tworzy zbiór wyłącznie liczb całkowitych dodatnich, czyli naturalnych.
Zmienna losowa ciągła - zmienna, której zbiór wartości jest nieskończony i nieprzeliczalny. Np. waga, wzrost, zatrudnienie.
Zbiór wartości tej zmiennej tworzą liczby rzeczywiste.
Każda zmienna losowa jest charakteryzowana za pomocą dystrybuanty.
Dystrybuanta zmiennej losowej X jest to następująca funkcja:
F(x)=P(X<x)
Własności dystrybuanty:
(a)
(b) F(x) jest funkcją niemalejącą
(c)
oraz
Parametry zmiennej losowej skokowej:
1. Wartość oczekiwana (przeciętna):
gdzie:
wartości zmiennej losowej skokowej,
prawdopodobieństwa odpowiadające określonym wartościom zmiennej losowej.
Przy czym:
2. Wariancja:
3. Odchylenie standardowe:
Czyli odchylenie standardowe jest pierwiastkiem z wariancji.
Zadanie:
W tabeli podano liczbę usterek w określonym czasie i odpowiadające tym wartościom prawdopodobieństwa:
Liczba usterek
|
Prawdopodobieństwa
|
0 |
0,15 |
1 |
0,25 |
2 |
0,40 |
3 |
0,15 |
4 |
0,05 |
Suma |
1,00 |
Obliczyć i zinterpretować wartość oczekiwaną, wariancję oraz odchylenie standardowe.
Korzystamy ze wzorów podanych powyżej, czyli:
Liczba usterek
|
Prawdopodobieństwa
|
|
|
|
|
0 |
0,15 |
0 |
-1,7 |
2,89 |
0,4335 |
1 |
0,25 |
0,25 |
-0,7 |
0,49 |
0,1225 |
2 |
0,40 |
0,8 |
0,3 |
0,09 |
0,036 |
3 |
0,15 |
0,45 |
1,3 |
1,69 |
0,2535 |
4 |
0,05 |
0,2 |
2,3 |
5,29 |
0,2645 |
Suma |
1,00 |
1,7 |
- |
- |
1,11 |
Czyli:
Interpretacja: średnia liczba usterek wynosi 1,7 usterki.
Interpretacja: nie interpretuje się, gdyż jednostka występuje w kwadracie.
Interpretacja: liczba usterek różniła się od przeciętnej liczby usterek średnio o 1,05 usterki.
Własności wartości oczekiwanej E(X):
1. E(C)=C C - stała
2. E(C⋅X)=C⋅E(X)
3. E(X-Y)=E(X)-E(Y)
4. E(X+Y)=E(X)+E(Y)
5. E(X⋅Y)=E(X)⋅E(Y) przy czym zmienne X i Y muszą być niezależne
Własności wariancji V(X):
1. V(C)=0
2. V(C⋅X)=C2⋅V(X)
3. V(X+C)=V(X)
4. V(X+Y)=V(X)+V(Y)
5. V(X-Y)=V(X)+V(Y)
Rozróżniamy następujące rozkłady zmiennej losowej skokowej:
zero-jedynkowy,
dwumianowy,
Poissona,
hipergeometryczny.
Rozkład zero-jedynkowy:
Zmienna losowa X ma rozkład zero-jedynkowy, jeśli przyjmuje wartość 0 lub 1:
P(X=1)=p
P(X=0)=q
Gdzie: p+q=1
p- prawdopodobieństwo sukcesu,
q- prawdopodobieństwo porażki.
Dystrybuanta zmiennej losowej o rozkładzie zero-jedynkowym jest następująca:
Zadanie:
Siłę kiełkowania ziaren pewnej rośliny określono na 75%. Obliczyć wartość oczekiwaną, wariancję i odchylenie standardowe zmiennej losowej X określonej następująco:
jeśli ziarno wykiełkuje
jeśli ziarno nie wykiełkuje
|
|
0 |
0,25 |
1 |
0,75 |
Gdzie: p=0,75 oraz q=1-p=0,25
Wartość oczekiwana E(X)=1⋅p+0⋅q=p
Wariancja zmiennej X: V(X)=p⋅q
Czyli: E(X)=0,75 , co oznacza, że średnia (przeciętna) siła kiełkowania ziaren pewnej rośliny wynosi 75%.
V(X)=0,75⋅0,25=0,1875
, co oznacza, że siła kiełkowania różni się od przeciętnego kiełkowania średnio o 43,3%.
Rozkład dwumianowy:
Jest to rozkład oparty o schemat Bernoulliego. W tym rozkładzie doświadczenia są niezależne (losowanie ze zwracaniem kul z urny).
Schemat Bernoulliego:
gdzie:
n - liczba prób (doświadczeń),
k - liczba sukcesów w n próbach,
p - prawdopodobieństwo sukcesu w pojedynczym doświadczeniu,
q - prawdopodobieństwo porażki w pojedynczym doświadczeniu,
przy czym: p+q=1
P(X=k) - prawdopodobieństwo, że zmienna losowa X osiągnie sukces k,
Są to kombinacje k-elementowe z n-elementów.
Definicja silni: n! = 1⋅2⋅3⋅...⋅n 0! = 1
Zadanie 1:
Trzech fotografów wykonuje zdjęcie. Prawdopodobieństwo wykonania dobrej fotografii jest dla każdego z nich jednakowe i wynosi 0,8. Jakie jest prawdopodobieństwo tego, że:
dwie fotografie będą udane,
co najmniej dwie fotografie będą udane,
żadna fotografia nie będzie udana.
Ad.a Dane:
n=3; p=0,8; q=1-p=1-0,8=0,2; k=2.
Prawdopodobieństwo, że dwie fotografie będą udane wynosi 0,384.
Ad. b
czyli należy policzyć P(X=3):
teraz:
Prawdopodobieństwo, że co najmniej dwie fotografie będą udane wynosi 0,896.
Ad. c
Prawdopodobieństwo, że żadna fotografia nie będzie udana wynosi 0,8%.
Zadanie 2:
Pewna pracownia komputerowa jest wyposażona w 6 komputerów. Na podstawie dłuższej obserwacji stopnia wykorzystania komputerów, określono prawdopodobieństwo tego, że w czasie zajęć któryś z komputerów jest wolny (p - takie samo dla wszystkich komputerów = 0,1). Obliczyć prawdopodobieństwo tego, że:
w danej chwili wszystkie komputery są zajęte,
jeden komputer jest wolny,
wolne są przynajmniej dwa komputery.
Dane: n=6; p=0,1; q=0,9 X - liczba wolnych komputerów
Ad. a
Prawdopodobieństwo, że w danej chwili wszystkie komputery są zajęte wynosi 0,531.
Ad. b
Prawdopodobieństwo, że jeden komputer jest wolny wynosi 0,354.
Ad. c
Prawdopodobieństwo, że wolne są przynajmniej dwa komputery wynosi 0,115.
Rozkład Poissona:
Rozkład ten jest szczególnym przypadkiem rozkładu dwumianowego, przy czym:
prawdopodobieństwo sukcesu musi być małe, tzn. p<0,02,
liczba doświadczeń musi być duża, tzn. n >20.
Aby znaleźć odpowiednie prawdopodobieństwo P(X=k) korzystamy z tablic rozkładu Poissona.
Określamy także wartość oczekiwaną
Schemat szukania prawdopodobieństw:
(a)
(b)
(c)
Wszystkie prawdopodobieństwa
należy szukać w tablicach rozkładu Poissona, które znajdują się na końcu żółtej książki do statystyki autorów: Ostasiewicz, Rusnak, Siedlecka pt. „Statystyka” - jest w spisie literatury, który podałam Państwu na pierwszych zajęciach. Proszę sobie odbić tę tablicę (Tablica V).
Jak zbudowana jest ta tablica?
Pierwsza kolumna jest podzielona na dwie części:
k - oznacza liczbę sukcesów (od 0 do 15),
np, czyli lambda: tzn. liczba doświadczeń n razy prawdopodobieństwo sukcesu p równa się lambda, czyli wartość oczekiwana (średnia):
W tablicy podane są wyłącznie prawdopodobieństwa, maksymalnie do 0,999. Puste pola w tablicy oznaczają prawdopodobieństwa równe 1.
Wartości z tej tablicy (czyli prawdopodobieństwa) odczytujemy na przecięciu się dwóch kolumn.
Zadanie (3 z listy 6):
Stwierdzono, że 8% pudełek soku ma za małą wagę. Obliczyć prawdopodobieństwo, że wśród 26 pudełek soku znajdą się więcej niż 3 pudełka, które mają za małą wagę.
Dane: n=26; p=8%=0,08;
P(X>3)=?
Prawdopodobieństwo, że wśród 26 pudełek soku znajdą się więcej niż 3 pudełka, które mają za małą wagę, wynosi 0,143.
Zadanie (5 z listy 6):
W skład złożonej aparatury wchodzi 1000 elementów określonego rodzaju. Prawdopodobieństwo uszkodzenia w ciągu roku każdego z tych elementów wynosi 0,001 i nie zależy od stanu pozostałych elementów. Obliczyć prawdopodobieństwo uszkodzenia w ciągu roku:
dokładnie 2 elementów,
nie mniej niż 2 elementów.
Dane: n=1000; p=0,001;
P(X=2)=?
Prawdopodobieństwo uszkodzenia w ciągu roku dokładnie 2 elementów wynosi 0,184.
(b)
Prawdopodobieństwo uszkodzenia w ciągu roku nie mniej niż 2 elementów wynosi 0,264.
Rozkładu hipergeometrycznego nie będziemy robić na ćwiczeniach.
ROZKŁADY ZMIENNYCH LOSOWYCH CIĄGŁYCH
Rozkład normalny:
Rozkład normalny (rozkład Gaussa) jest rozkładem, który dotyczy zmiennej losowej ciągłej, której zbiór wartości jest nieskończony i nieprzeliczalny. Np. waga, wzrost, wynagrodzenia, wiek.
Zmienna losowa X ma rozkład normalny z wartością oczekiwaną (średnią) równą m i odchyleniem standardowym równym σ :
Wykres funkcji gęstości rozkładu normalnego określany jest jako krzywa normalna, która przyjmuje następującą postać:
Wartość parametru m decyduje o położeniu krzywej normalnej względem osi x. Im średnia przyjmuje większe wartości, tym krzywa jest bardziej przesunięta w prawo. Wartość parametru σ determinuje natomiast „smukłość” krzywej. Im odchylenie standardowe jest większe, tym krzywa jest bardziej spłaszczona.
Istnieje możliwość sprowadzenia dowolnego rozkładu normalnego do postaci standardowego rozkładu normalnego, którego funkcja gęstości i dystrybuanta zostały stablicowane. Standardowym rozkładem normalnym nazywamy rozkład normalny ze średnią równą 0 oraz odchyleniem standardowym równym 1 i oznaczamy N(0,1).
Zmienną losową, która ma standardowy rozkład normalny oznacza się literą T, jej funkcję gęstości φ(t), natomiast dystrybuantę Φ(t).
Wykres funkcji gęstości standardowego rozkładu normalnego przyjmuje następującą postać:
Pole pod wykresem od - ∞ do 0 jest równe 0,5 oraz pole pod wykresem od 0 do + ∞ jest równe 0,5 (suma pól pod wykresem ma być równa 100%, czyli 1).
W celu obliczenia prawdopodobieństwa P(a < X ≤ b) należy skorzystać z operacji nazywanej standaryzacją. Jeśli zmienna losowa X ma rozkład
to zmienna standaryzowana
ma rozkład N(0,1). Na tej podstawie można wyznaczyć:
Wartości
i
odczytuje się z tablic dystrybuanty standardowego rozkładu normalnego.
Z rozkładem normalnym związana jest tzw. reguła trzech sigm, zgodnie z którą praktycznie wszystkie obserwacje dokonywane na zmiennej losowej o rozkładzie normalnym mieszczą się w przedziale (m-3σ, m+3σ):
czyli prawdopodobieństwo, że zmienna losowa ciągła X przyjmuje wartości z tego przedziału, jest równe 1.
Reguła trzech sigm jest wykorzystywana w badaniach statystycznych do eliminacji obserwacji niewiarygodnych. Obserwacje niewiarygodne to obserwacje, których wartość różni się od średniej o więcej niż trzy odchylenia standardowe. Przyjmuje się, iż zmienne, które odbiegają tak znacznie od średniej mogą być skutkiem błędu pomiaru. Dla realizacji zmiennej losowej o dowolnym rozkładzie normalnym około 68,3% obserwacji mieści się w granicach jednego odchylenia standardowego wokół średniej, 95,5% obserwacji mieści się w granicach dwóch odchyleń standardowych i 99,7% w granicach trzech odchyleń standardowych.
Wszystkie prawdopodobieństwa
należy szukać w tablicy rozkładu normalnego, która znajduje się na końcu żółtej książki do statystyki autorów: Ostasiewicz, Rusnak, Siedlecka pt. „Statystyka” - jest w spisie literatury, który podałam Państwu na pierwszych zajęciach. Proszę sobie odbić tę tablicę (Tablica I - Dystrybuanta rozkładu normalnego, s. 379).
Jak zbudowana jest ta tablica?
Pierwsza, trzecia i piąta kolumna są wartościami t, czyli liczbami, dla których odczytujemy odpowiednie wartości prawdopodobieństw w następnej kolumnie
- wartości dystrybuanty.
Dla wszystkich wartości t powyżej 3 (których już nie ma w tej tablicy) wartości prawdopodobieństw wynoszą zawsze 0,5 - reguła trzech sigm.
Funkcja prawdopodobieństwa
jest parzysta, czyli:
Dlatego w tablicach nie ma wartości ujemnych. Jak wyjdzie nam ujemna liczba, wówczas obliczamy tak samo, jak dla dodatniej.
Przykład (zad. 9 z listy 6):
Wydajność pracy w pewnym zakładzie jest zmienną losową X o rozkładzie normalnym z wartością oczekiwaną równą 12 ton/godz. i odchyleniem standardowym 2 tony/godz. Obliczyć prawdopodobieństwo, że:
wydajność jest mniejsza od 15 ton/godz.,
wydajność jest mniejsza od 7 ton/godz.,
wydajność jest zawarta w przedziale (8-16) ton/godz.,
wydajność jest zawarta w przedziale (8-13) ton/godz.,
wydajność przekroczy 19 ton/godz.
X - wydajność pracy
(a) P(X<15)=?
Aby obliczyć to prawdopodobieństwo, należy przeprowadzić operację strandaryzacji:
Aby właściwie wyznaczyć prawdopodobieństwa, można narysować wykres, na którym zaznaczamy wartość t=1,5. Następnie kreskujemy pole pod wykresem mniejsze od tej wartości, zgodnie z zapisem P(T<1,5):
t
0 1,5
Teraz interesuje nas pole pod tym wykresem zakreskowane - trzeba to obliczyć. Wiemy, że pole od - ∞ do 0 wynosi 0,5, natomiast w tablicy znajdują się wartości od zera do jakiejś wartości, np. 1,5. Dlatego obliczamy sumę 0,5+
=0,933.
Odpowiedź: prawdopodobieństwo, że wydajność pracy jest mniejsza od 15 ton/godzinę, wynosi 0,933.
(b) P(X<7)=?
t
-2,5 0
Ponieważ funkcja rozkładu normalnego jest symetryczna i parzysta, więc
i z tablic odczytujemy prawdopodobieństwo dla t=2,5.
Kreskujemy pole pod wykresem mniejsze od -2,5. Aby obliczyć to pole, należy od 0,5 odjąć
.
Odpowiedź: prawdopodobieństwo, że wydajność pracy jest mniejsza od 7 ton/godzinę, wynosi 0,006.
© P(8<X<16)=?
t
-2 0 2
Odpowiedź: prawdopodobieństwo, że wydajność pracy jest zawarta w przedziale od 8 do 16 ton/godzinę, wynosi 0,955.
(d) P(8<X<13)=?
t
-2 0 0,5
Odpowiedź: prawdopodobieństwo, że wydajność pracy jest zawarta w przedziale od 8 do 13 ton/godzinę, wynosi 0,669.
(e) P(X>19)=?
t
0 3,5
Prawdopodobieństwa
nie ma w tablicy, gdyż działa tutaj reguła trzech sigm, tzn. dla t >3
.
Odpowiedź: prawdopodobieństwo, że wydajność pracy przekroczy 19 ton/godzinę, wynosi 0.
STATYSTYKA - ĆWICZENIA
LISTA ZADAŃ NR 6 - ROZKŁADY ZMIENNYCH LOSOWYCH
Zadanie 1. Egzaminator egzaminuje trzech studentów. Każdy ze zdających zna odpowiedzi dokładnie na 50% pytań egzaminacyjnych. Niech X oznacza liczbę studentów, którzy umieli odpowiedzieć na wylosowane pytanie. Obliczyć prawdopodobieństwo, że co najmniej jeden student odpowiedział na wylosowane pytanie.
Zadanie 2. Stwierdzono, że 40% studentów odpowiada poprawnie na pewne pytanie. Obliczyć prawdopodobieństwo, że wśród sześciu studentów dokładnie pięciu odpowie poprawnie na pytanie.
Zadanie 3. Stwierdzono, że 8% pudełek soku ma za małą wagę. Obliczyć prawdopodobieństwo, że wśród 26 pudełek soku znajdą się więcej niż 3 pudełka, które mają za małą wagę.
Zadanie 4. Uznano, że 16% kartonów soku pewnej marki ma za małą wagę. Obliczyć prawdopodobieństwo, że wśród 22 kartoników nie mniej niż jeden, ale mniej niż 4 będzie miało za małą wagę.
Zadanie 5. W skład złożonej aparatury wchodzi 1000 elementów określonego rodzaju. Prawdopodobieństwo uszkodzenia w ciągu roku każdego z tych elementów wynosi 0,001 i nie zależy od stanu pozostałych elementów. Obliczyć prawdopodobieństwo uszkodzenia w ciągu roku:
dokładnie 2 elementów,
nie mniej niż 2 elementów.
Zadanie 6. PZU ocenia, że każdego roku 1% ubezpieczonych mężczyzn traci życie w określonego rodzaju wypadkach. Jakie jest prawdopodobieństwo, że w danym roku PZU będzie musiało wypłacić odszkodowanie więcej niż 3 razy, jeśli ubezpieczyło od wypadków 100 mężczyzn?
Zadanie 7. Przy masowych prześwietleniach małoobrazkowych prawdopodobieństwo trafienia na człowieka chorego na gruźlicę wynosi 0,01. Obliczyć prawdopodobieństwo tego, że wśród 200 ludzi prześwietlonych liczba chorych na gruźlicę jest:
równa 2 osobom,
nie mniejsza niż 3,
równa co najmniej 1 i mniejsza od 3.
Zadanie 8. Zawartość białka w karmie dla psów ma rozkład normalny, przy czym średnia ilość wynosi 12%, a odchylenie standardowe wynosi 3%. Obliczyć prawdopodobieństwo, że w pewnym opakowaniu karmy zawartość białka będzie mniejsza niż 14%.
Zadanie 9. Wydajność pracy w pewnym zakładzie jest zmienną losową X o rozkładzie normalnym z wartością oczekiwaną równą 12 ton/godz. i odchyleniem standardowym 2 tony/godz. Obliczyć prawdopodobieństwo, że:
wydajność jest mniejsza od 15 ton/godz.,
wydajność jest mniejsza od 7 ton/godz.,
wydajność jest zawarta w przedziale (8-16) ton/godz.,
wydajność jest zawarta w przedziale (8-13) ton/godz.,
wydajność przekroczy 19 ton/godz.
Zadania do samodzielnego rozwiązania:
Zad. 1 Wadliwość produkowanych uszczelek wynosi 0,75%. Pobrano losowo 200 uszczelek. Wyznacz prawdopodobieństwo tego, że znaleziono: (1) 2 uszczelki wadliwe, (2) przynajmniej 2 uszczelki wadliwe.
Zad. 2 Oblicz prawdopodobieństwo tego, że wśród 100 elementów znajduje się: co najmniej 4 wadliwe, mniej niż 5 sztuk wadliwych, jeżeli wadliwość elementów w tej partii wynosi 2 %.
Zad. 3 Z akt firmy ubezpieczeniowej wynika, że 30 % posiadaczy polis, którzy przekroczyli 50 lat, zgłasza roszczenia w ciągu jednego roku. Wybrano losowo pięciu posiadaczy polis mających powyżej 50 lat. Jakie jest prawdopodobieństwo, że: 1) roszczenia zgłosi dokładnie dwóch posiadaczy, 2) nie więcej niż trzech posiadaczy zgłosi roszczenia, 3) co najmniej trzech z nich zgłosi roszczenia w ciągu nadchodzącego roku, 4) mniej niż trzech posiadaczy zgłosi roszczenia.
Zad. 4 Do stacji benzynowej, zlokalizowanej przy pewnej ruchliwej drodze, zajeżdżają samochody według rozkładu Poissona ze średnią równą 1 samochód na minutę. Jakie jest prawdopodobieństwo, że w ciągu minuty zgłoszą się co najmniej 2 samochody?
Zad. 5 Na osiedlu znajdują się 4 sklepy spożywcze. Prawdopodobieństwo zamknięcia każdego z nich z powodu choroby pracowników wynosi 0,4. Oblicz prawdopodobieństwo, że: 1. Będzie otwarty tylko jeden sklep, 2. Otwartych będzie co najwyżej dwa sklepy, 3. Otwartych będzie co najmniej 2 sklepy.
Zad. 6 Stwierdzono, że 40% Polaków korzysta z ROR. Jakie jest prawdopodobieństwo, że spośród 10 klientów robiących zakupy: (1) 5 klientów zapłaci czekiem, (2) nie mniej niż 2 zapłaci czekiem, (3) żaden nie zapłaci czekiem, (4) wszyscy zapłacą czekiem.
Zad.7 Czas potrzebny międzynarodowej centrali telefonicznej do zrealizowania połączenia międzykontynentalnego ma rozkład normalny o średniej 45 sekund i odchyleniu standardowym 10.
jakie jest prawdopodobieństwo, że połączenie zostanie zrealizowane w czasie krótszym niż 1 minuta?
jakie jest prawdopodobieństwo uzyskania połączenia w czasie krótszym niż 40 sekund?
jakie jest prawdopodobieństwo, że na połączenie trzeba będzie czekać dłużej niż 70 sekund?
Zad. 8 Liczba głosów na rzecz realizacji projektu ma rozkład w przybliżeniu normalny ze średnią 8000 głosów i odchyleniem standardowym 1000 głosów. Aby projekt przeszedł, musi uzyskać co najmniej 9322 głosy. Jakie jest prawdopodobieństwo, że projekt zostanie zrealizowany?
Zad. 9 Tygodniową wielkość produkcji mikroprocesorów można w przybliżeniu określić rozkładem normalnym o średniej 134 786 szt. i odchyleniu standardowym 13 000 szt. Znajdź prawdopodobieństwo, że tygodniowa produkcja przekroczy 150 000 oraz spadnie poniżej 100 000. Sprawdź, czy spadek produkcji poniżej 80 000 mieści się w granicach dopuszczalnych wahań.
Zad. 10 Wzrost mężczyzn w pewnej populacji ma rozkład normalny N(180; 12). Jaki jest udział w populacji mężczyzn o wzroście:
do 170 cm,
w przedziale 175-180 cm,
powyżej 185 cm.
Zad. 11 Do wypełniania kartonów z sokiem wykorzystywany jest automat. Waga soku w wypełnianych pojemnikach ma rozkład normalny ze średnią 1 kg i odchyleniem standardowym 0,05 kg. Jakie jest prawdopodobieństwo tego, że:
waga losowo wybranego kartonu jest mniejsza niż 1 kg,
waga losowo wybranego kartonu jest zawarta w przedziale 0,95 - 1,05 kg,
waga losowo wybranego kartonu przekroczy 1,05 kg.
Państwowa Wyższa Szkoła Zawodowa im. Witelona w Legnicy
Specjalność: Sterowanie Systemami Przemysłowymi
mgr Iwona Czerska
e-mail: iwona_czerska@op.pl
1