Miernictwo i Techniki Eksperymentu
Oprac. Janusz Frączek
Uwaga: Jest to wersja wstępna wykładu, która może zawierać błędy.
W razie wątpliwości proszę przedyskutować je z prowadzącym przedmiot
Materiał na prawach rękopisu. Prawa zastrzeżone J.Frączek., Kopiowanie bez zgody autora zabronione. W razie wykrycia błędów proszę
o informację na adres fraczek@meil.pw.edu.pl . Wersja 02 Strona 1
Spis treści
1.1 Piśmiennictwo........................................................................................... 3
1.2 Pojęcia wstępne ........................................................................................ 3
2 Zmienna losowa .............................................................................. 9
2.1 Zmienna losowa jednowymiarowa. ........................................................ 9
2.2 Typy zmiennych losowych..................................................................... 10
3 Charakterystyki zmiennej losowej.............................................. 13
3.1 Charakterystyki liczbowe zmiennych losowych ................................. 13
4 Zmienne losowe wielowymiarowe. .............................................. 17
4.1 Zmienna losowa dwuwymiarowa ......................................................... 17
5 Typowe rozkłady zmiennych losowych ...................................... 25
5.1 Rozkłady dyskretne ............................................................................... 25
5.1.1 Rozkład dwupunktowy.................................................................................................................... 25
5.1.2 Rozkład dwumianowy ..................................................................................................................... 25
5.1.3 Rozkład Poissona ............................................................................................................................ 27
5.2 Rozkłady zmiennych typu ciągłego ...................................................... 28
5.2.1 Rozkład jednostajny ........................................................................................................................ 29
5.2.2 Rozkład normalny ........................................................................................................................... 30
5.2.3 Rozkład chi-kwadrat ....................................................................................................................... 32
5.2.4 Rozkład t Studenta .......................................................................................................................... 34
5.3 Addytywność rodziny zmiennych losowych. ....................................... 35
6 Twierdzenia graniczne ................................................................. 37
6.1 Nierówność Czebyszewa ........................................................................ 37
6.2 Twierdzenia graniczne .......................................................................... 38
7 Podstawowe pojęcia statystyki .................................................... 44
7.1 Definicje .................................................................................................. 44
7.2 Estymacja pojęcia podstawowe ............................................................ 45
7.3 Estymacja punktowa. ............................................................................ 45
7.3.1 Zasady tworzenia estymatorów punktowych .................................................................................. 45
7.3.2 Metody uzyskiwania estymatorów metoda momentów (analogii pomiędzy próbką i populacją) 46
7.3.3 Metody uzyskiwania estymatorów metoda największej wiarygodności (MNW) ........................ 49
7.4 Estymacja przedziałowa. ....................................................................... 52
Materiał na prawach rękopisu. Prawa zastrzeżone J.Frączek., Kopiowanie bez zgody autora zabronione. W razie wykrycia błędów proszę
o informację na adres fraczek@meil.pw.edu.pl . Wersja 02 Strona 2
1.1 Piśmiennictwo
" Oderfeld J.: Statystyczne podstawy prac doświadczalnych, Wydawnictwo Politechniki
Warszawskiej, 1990
" Plucińska A., Pluciński E.: Probabilistyka, WNT, Warszawa 2000
" Kordecki W.: Rachunek prawdopodobieństwa i statystyka matematyczna, Oficyna
Wydawnicza GiS, Wrocław 2003
" Gajek L., Kałuszka M.: Wnioskowanie statystyczne, modele i metody. WNT 1996.
" Bobrowski D.: Probabilistyka w zastosowaniach technicznych, WNT 1986
" Majsnerowska Małgorzata: Elementarny wykład z rachunku prawdopodobieństwa
z zadaniami. Skrypt UW, Wrocław 2002.
" Zieliński R.: Tablice statystyczne, PWN, W-wa 1972.
" Pakiety komputerowe: MATLAB Statistical toolbox, Statistica, Statgraphics
1.2 Pojęcia wstępne
Prawdopodobieństwo:
Niech będzie zbiorem możliwych wyników w doświadczeniu losowym czyli
przestrzenią zdarzeń, elementy to zdarzenia elementarne. Podzbiór A " to zdarzenie, a
jego elementy to zdarzenia elementarne " zdarzenie niemożliwe, A' = \A zdarzenie
przeciwne, A )" B - jednocześnie zaszło A i B, A *" B - zaszło co najmniej jedno z nich. Jeśli
A )" B = Ś - zdarzenia się wykluczają.
Definicje:
1. = {1,2,...,n} - skończona przestrzeń zdarzeń
n
Funkcja P :i P(i) i = 1,2,..., n taka, że '" P(i ) e" 0 oraz ) = 1, nazywa się
"P(i
i
i
prawdopodobieństwem dyskretnym skończonym.
Dla dowolnego zdarzenia A " :
P(A)=
"P( )
1
(2.1)
{i:i " A}
Jeżeli
A
1
P(i)= i = 1,2,..., n ! P(A)=
(2.2)
n &!
Jest to klasyczna definicja prawdopodobieństwa.
Sprawdzamy, że:
a) P(A)e" 0
b) Prawdopodobieństwo sumy skończonej liczby zdarzeń parami wykluczających
się jest równe sumie prawdopodobieństw
Materiał na prawach rękopisu. Prawa zastrzeżone J.Frączek., Kopiowanie bez zgody autora zabronione. W razie wykrycia błędów proszę
o informację na adres fraczek@meil.pw.edu.pl . Wersja 02 Strona 3
c) P(&!)= 1
PRZYKAAD 2.1
Zadanie (Bobrowski str. 101)
Dwie radiostacje tego samego typu położone w pewnej odległości od siebie mogą być nastrojone na
jedną z 10 częstotliwości. Jakie jest prawdopodobieństwo, że obie radiostacje nastrojone i włączone niezależnie
będą miały tę samą częstotliwość?
Rozwiązanie
, eij zdarzenie elementarne, że pierwsza radiostacja ma częstotliwość i
&! = {eij ,(i, j) = 1,2,K,10}
a druga ma j.
,
A = {eij ,i = j}
A
10
P(A)= = = 0,1"100% = 10%
&! 100
Przypomnienie wzorów z kombinatoryki:
n
ł ł
Liczba kombinacji (podzbiorów k elementowych zbioru n-elementowego) k z n:
ł ł
łk ł
ł łł
Liczba permutacji (możliwych wszystkich uporządkowań zbioru zbioru n elementowego): n!
Liczba wariacji bez powtórzeń (uporządkowań k elementowych wybranych ze zbioru n-elementowego bez
n
ł ł n!
możliwości powtórzeń):
ł łk!=
łk ł
(n - k)!
ł łł
Liczba wariacji z powtórzeniami (uporządkowań k-elementowych wybranych ze zbiorów n-elementowych z
możliwością powtórzeń) : nk
2. Jeżeli:
"
= {1,2,K} oraz P(i)e" 0 i = 1,2,K,
(2.3)
"P( )= 1.
i
i=1
to P jest prawdopodobieństwem dyskretnym nieskończonym.
3. Definicja nowoczesna
Dana niepusta rodzina F podzbiorów spełniająca warunki:
a) Jeśli: A " F , to A'" F
"
b) Jeśli Ai " F i = 1,2,K, to Ai " F
U
i
nazywa się ciałem.
Jest to więc niepusta rodzina zbiorów (zdarzeń) zamknięta na branie dopełnień i
nieskończonych sum. W przypadku skończonego zbioru , zwykle rozważanym ciałem jest
rodzina wszystkich jego podzbiorów.
Materiał na prawach rękopisu. Prawa zastrzeżone J.Frączek., Kopiowanie bez zgody autora zabronione. W razie wykrycia błędów proszę
o informację na adres fraczek@meil.pw.edu.pl . Wersja 02 Strona 4
Definicja
Funkcja rzeczywista P określona na podzbiorach przestrzeni , tworzących ciało F
mająca własności:
a. P(A)e" 0
" "
b. '"j Ai )" Aj = " i `" j to P( Ai) =
U "P(A )
i
i,
i=1 i=1
c. P(&!)= 1
nazywa się prawdopodobieństwem.
Trójka (,F,P) to przestrzeń probabilistyczna, a własności a, b, c, to aksjomaty
prawdopodobieństwa.
Aatwo wykazać, że definicje 1 i 2 są szczególnym przypadkiem definicji 3.
Własności
a) A " B ! P(A)d" P(B) - monotoniczność
b) P(A')= 1- P(A), P(A)d" 1
c) P(A *" B)= P(A)+ P(B)- P(A )" B)
n n
ł ł
d) Pł Ai ł d"
U "P(A ) - nierówność Boole a
i
ł i=1 łł i=1
Dowody pomijamy (zobacz piśmiennictwo)
Prawdopodobieństwo warunkowe
Rozważmy doświadczenie losowe i zwiążmy z nim przestrzeń (&! ,F,P). Jeśli
interesuje nas wynik doświadczenia należącego do podzbioru B " &! , dla którego P(B)>0 to
możemy zredukować wyjściową przestrzeń probabilistyczną do przestrzeni (B, FB, P(" B) ),
gdzie FB={ A )" B , A" F } oraz
P(A )" B)
P(A | B)= dla A" F
(2.4)
P(B)
Jest to prawdopodobieństwo warunkowe zdarzenia A pod warunkiem, że zaszło B lub
krócej, prawdopodobieństwo A pod warunkiem B.
Zauważmy, że wzór (2.4) jest równoważny zależności:
P(A )" B)= P(A | B)" P(B) o ile P(B)> 0
(2.5)
Prawdopodobieństwo całkowite
Jeżeli ciąg zdarzeń {Bi,i = 1,..., n} tworzy zupełny układ zdarzeń w przestrzeni &!
(tzw. rozbicie przestrzeni) tzn. spełnione są trzy warunki:
n
&! = , P(Bi)>0 oraz '"j Bi )" Bj = Ś
UBi
i`"
i=1
Materiał na prawach rękopisu. Prawa zastrzeżone J.Frączek., Kopiowanie bez zgody autora zabronione. W razie wykrycia błędów proszę
o informację na adres fraczek@meil.pw.edu.pl . Wersja 02 Strona 5
to dla dowolnego A" F zachodzi:
n
P(A)=
(2.6)
"P(A | Bi )"P(Bi )
i=1
Jest to wzór na prawdopodobieństwo całkowite.
PRZYKAAD 2.2
Zadanie (ilustrujące wzór na prawdopodobieństwo warunkowe)
Podpatrzyliśmy , że ktoś wpisuje trzyliterowe hasło do komputera korzystając tylko z klawiszy a oraz
b. Ponadto zauważyliśmy, że pierwszy znak hasła jest litera a. Jaka jest szansa, że trafimy wybierając jako drugą
literę znak b i jako trzecią literę znak b ?
Rozwiązanie:
Zadanie rozwiążemy na dwa sposoby.
1. Zauważmy, że:
&! = {(a,a,a),(a,a,b),(a,b,a),(a,b,b),(b,a,a),(b,a,b),(b,b,a),(b,b,b)}
(a)
Rozważmy nową przestrzeń zdarzeń elementarnych S = {(a,a,a),(a,a,b),(a,b,a),(a,b,b)} i jej podzbiór
zdarzenie DS = {(a,b,b)}. W takim razie:
DS
1
P(DS ) = =
(b)
S 4
2. Wykorzystamy teraz wzór (2.4):
1
P(D )" S)
1
8
P(DS S) = = =
(b)
4
P(S) 4
8
A zatem wynik jest ten sam.
PRZYKAAD 2.3
Zadanie ( prawdopodobieństwo całkowite)
Student na zajęcia dojeżdża rowerem raz na dwa dni (zdarzenie R), autobusem raz na trzy dni
(zdarzenie A) oraz tramwajem raz na sześć dni (zdarzenie T). Jeśli jedzie rowerem spóznia się raz na 60
przypadków, jeśli autobusem raz na 20 przypadków, jeśli tramwajem raz na 10 przypadków. Jakie jest
prawdopodobieństwo spóznienia się studenta (zdarzenie S)?
Rozwiązanie
Drzewo modelu dendryt.
1/2 1/3 1/6
R rower
A autobus
T tramwaj
T
R A
S spóznienie
1/60 1/20 1/10
Z zdążenie
S Z S Z S Z
Materiał na prawach rękopisu. Prawa zastrzeżone J.Frączek., Kopiowanie bez zgody autora zabronione. W razie wykrycia błędów proszę
o informację na adres fraczek@meil.pw.edu.pl . Wersja 02 Strona 6
1 1 1 1 1 1 1
P(S)= P(S | R)" P(R)+ P(S | A)" P(A)+ P(S | T )" P(T )= " + " + " =
60 2 20 3 10 6 24
Wzór Bayesa
Przy założeniach poprzedniego twierdzenia dla dowolnego zdarzenie A" F takiego,
że P(A)> 0 . Zachodzi:
P(A | Bi )" P(Bi )
P(Bi | A)= i = 1,..., n
n
(2.7)
"P(A | Bi )" P(Bi )
i=1
Nomenklatura:
P(Bi|A) - prawdopodobieństwo a'posteriori1
P(Bi) - prawdopodobieństwo a'priori2
Wzór (2.7) nosi nazwę wzoru na prawdopodobieństwo przyczyny
PRZYKAAD 2.4
Zadanie
W magazynie znajdują się monitory komputerowe wyprodukowane w trzech różnych oddziałach firmy,
w tym: 50% z oddziału w Polsce (R), 30% z oddziału w Chinach (C), 20% z oddziału w Japoni (J). Wiadomo, że
prawdopodobieństwo wyprodukowania monitora wadliwego (plamki na ekranie) jest równe 0,05 dla oddziału
(R) i (C) oraz 0,12 dla oddziału w (J). Odbiór odbywa się na podstawie kontroli wyrywkowej. Załóżmy, że
wylosowany wyrywkowo monitor okazał się wadliwy, jakie jest prawdopodobieństwo, że jest to monitor
wyprodukowany w Polsce.
Rozwiązanie
a) a priori,
A - monitor jest wadliwy:
P(R) = 0,5 P(C) = 0,3 P(J) = 0,2
P(A|R) = 0,05 = P(A|C) P(A|J) = 0,12
b) a posteriori:
P(A | R)" P(R) 0,05" 0.5 0,025
P(R | A) = = = = 0,391
P(A | R)" P(R)+ P(A | C)" P(C)+ P(A | J )" P(J ) 0,05" 0.5 + 0,05"0.3 + 0,12"0.2 0,064
Niezależność zdarzeń
Niech A, B " F będą zdarzeniami takimi, że P(A|B) =P(A), czyli zajście B nie zmienia
prawdopodobieństwa zajścia A. Czyli A jest niezależne, od B tzn:
P(A )" B)= P(A)" P(B)
(2.8)
1
a'posteriori na podstawie faktów, z następstwa,
2
a'priori bez zapoznania się z faktami, uprzedzając fakty, przed doświadczeniem, z góry.
Materiał na prawach rękopisu. Prawa zastrzeżone J.Frączek., Kopiowanie bez zgody autora zabronione. W razie wykrycia błędów proszę
o informację na adres fraczek@meil.pw.edu.pl . Wersja 02 Strona 7
Uogólnienie:
Niech C będzie dowolną rodziną zdarzeń. Jeśli dla skończonej podrodziny {A1,A2,...,An}
zdarzeń z C spełniony jest warunek:
n n
ł ł
Pł Ai ł =
(2.9)
I "P(A )
i
ł i=1 łł i=1
to C nazywamy rodziną zdarzeń niezależnych.
Uwaga:
Niezależność wg wzoru (2.9) jest własnością silniejszą, niż niezależność parami.
PRZYKAAD 2.5
Zadanie
Mamy dużą partię uszkodzonych dysków. Dyski są uszkodzone bo ź z nich piszczy, ź pracuje
niestabilnie, 1/4 się grzeje a ź ma wszystkie wymienione wady. Niech: A zdarzenie, że pierwszy losowo
wybrany dysk piszczy a B i C, że pracuje niestabilnie lub się grzeje. Czy zdarzenia A, B i C stanowią rodzinę
zdarzeń wzajemnie niezależnych?
Rozwiązanie
1
P(A)= P(B)= P(C)=
2
1
P(A )" B)= P(A )" C)= P(B )" C)=
4
P(A )" B)= P(A)" P(B); P(A )" C)= P(A)" P(C); P(B )" C)= P(B)" P(C);
1 1
= P(A )" B )" C)`" P(A)" P(B)" P(C)=
4 8
Czyli zdarzenia A, B i C nie stanowią rodziny zdarzeń wzajemnie niezależnych
Materiał na prawach rękopisu. Prawa zastrzeżone J.Frączek., Kopiowanie bez zgody autora zabronione. W razie wykrycia błędów proszę
o informację na adres fraczek@meil.pw.edu.pl . Wersja 02 Strona 8
2 Zmienna losowa
2.1 Zmienna losowa jednowymiarowa.
Wezmy trojkę probabilistyczną ( &! ,F,P). Wprowadzimy definicję:
Funkcję X: R nazywamy zmienną losową jednowymiarową, jeśli dla
-1 -1
każdego a " R zbiór X ((- ",a)) jest zdarzeniem, czyli: X ((- ",a))" F . Realizacją
zmiennej losowej nazywa się wartość funkcji X w punkcie i oznacza małą literą x.
PRZYKAAD 2.1
Zadanie
Wezmy dyski komputerowe. Losujemy z partii jeden i sprawdzamy, czy jest sprawny. Jeśli jest
stawiamy 1 jeśli nie 0.
Rozwiązanie
, a zbiorem wartości jest zbiór {0,1}. Zmienna losowa przyjmuje wartość z pewnym
&! ={sp ,nsp}
prawdopodobieństwem.
W przypadku pomiarów fizycznych obarczonych błędem przypadkowym jako
zmienną losową przyjmuje się wprost funkcję, której realizacjami są wyniki pomiaru.
Rozkładem zmiennej losowej X nazywamy funkcję prawdopodobieństwa
przyporządkowującą zadanemu przedziałowi (- ", x) wartości P ({ : X () < x}), gdzie P
jest funkcją prawdopodobieństwa.
PRZYKAAD 2.2
Zadanie
Dla danych z przykładu 2. zakładamy, że . Należy określic rozkład zmiennej
P(sp)= 0,8 , P(nsp)= 0,2
losowej.
Rozwiązanie
Rozkład zmiennej losowej X definiuje się więc według wzoru:
0 gdy x d" 0
ńł
ł
0,2 gdy 0 < x d" 1
P(X < x) =
ł
ł1 gdy 1 < x
ół
Uwagi
" Zmienne losowe przyjmujące tę samą wartość, ale z różnym prawdopodobieństwem
(o różnych rozkładach) uważamy za różne.
" W niektórych przypadkach wygodne jest posługiwanie się funkcją prawdopodobieństwa,
którą określa się na zbiorach punktowych w następujący sposób:
P(x)= P(X = x) (2.1)
Funkcję taką nazywa się funkcją prawdopodobieństwa zmiennej losowej X.
Materiał na prawach rękopisu. Prawa zastrzeżone J.Frączek., Kopiowanie bez zgody autora zabronione. W razie wykrycia błędów proszę
o informację na adres fraczek@meil.pw.edu.pl . Wersja 02 Strona 9
2.2 Typy zmiennych losowych
W klasycznych wykładach rachunku prawdopodobieństwa i statystyki wyróżniamy zwykle:
1. Zmienne losowe typu skokowego (dyskretną) (oznaczymy ten typ zmiennej SK)
2. Zmienną losową typu ciągłego (albo w skrócie ciągłą) (oznaczymy ten typ zmiennej
C)
3. Zmienne losowe mieszane
Zmienna typu skokowego (SK) przyjmuje ściśle określone, dyskretne wartości liczbowe
xi i = 1,2,3,... (może być skończone, albo nie), czyli P(X = xi ) = pi . Z własności
n "
prawdopodobieństwa pi = 1 dla zmiennej o skończonej liczbie wartości, oraz pi = 1
" "
i=1 i=1
gdy ma nieskończoną liczbę wartości.
Znając pary uporządkowane (xi, pi) mamy pełną informacje o rozkładzie zmiennej losowej
skokowej.
Funkcję prawdopodobieństwa zmiennej losowej typu skokowego można zapisać w postaci:
pi dla x = xi
ńł
P(x)= P(X = xi )=
(2.2)
ł
ół0 poza
Zmienna losowa typu ciągłego (C)
Mówimy, że zmienna losowa jest typu ciągłego jeżeli istnieje nieujemna funkcja f (x)
"
taka, że f (x)e" 0 , całka f (x) = 1 (lub f (x) = 1) i dla każdego przedziału x1, x2
+" +"
R -"
x2
P({ : x1 d" X () d" x2})= f (x)dx
(2.3)
+"
x1
Dystrybuanta
Dla zmiennej losowej X jest to funkcja (zwyczajowo oznaczana dużą literą F albo FX)
F:R 0,1 taka, że:
F(x) = P(X < x)
(2.4)
Własności dystrybuanty:
1. Dystrybuanta jest funkcją niemalejącą tzn: "x1, x2 "R x1 < x2 ! F(x1)d" F(x2)
2. '" x1, x2 " R P(x1 d" X < x2) = F(x2)- F(x1)
3. lim F(x) = 1 lim F(x) = 0
x" x-"
4. Jest funkcją co najmniej lewostronnie ciągłą lim F(x) = F(x0)
-
xx0
Materiał na prawach rękopisu. Prawa zastrzeżone J.Frączek., Kopiowanie bez zgody autora zabronione. W razie wykrycia błędów proszę
o informację na adres fraczek@meil.pw.edu.pl . Wersja 02 Strona 10
PRZYKAAD 2.3
Zadanie
Narysować wykres dystrybuanty zmiennej losowej (SK) z przykładu 2.2
Rozwiązanie
0 gdy x d" 0
ńł
ł0,2 gdy 0 < x d" 1
F(x) =
ł
ł1 gdy 1 < x
ół
F(x)
1
0,8
0,2
x
0.2 1
Na ogół dystrybuanta nie jest w każdym punkcie ciągła prawostronnie, Różne zmienne
losowe mogą tę samą dystrybuantę. Jeśli X jest zmienną losową typu ciągłego to dodatkowo
zachodzą następujące własności dla dystrybuanty:
5. '" x0 lim F(x) = F(x0) prawostronna ciągłość
+
xx0
6. '" x0 " R P(X = x0) = 0
x2
7. '" x1, x2 " R P(x1 d" X d" x2) = f (t)dt = F(x2 ) - F(x1)
+"
x1
8. W każdym punkcie ciągłości gęstości prawdopodobieństwa f(x) dystrybuanta F jest
dF(x)
różniczkowalna i = f (x)
dx
Zwróćmy uwagę, że z uwagi 6 wynika, że fakt iż prawdopodobieństwo zdarzenia jest
równe zero nie oznacza, zdarzenie nie jest możliwe (nie może zajść).
PRZYKAAD 2.4
Zadanie
ńł
cx3 0 d" x d" 1
Zmienna losowa (C) ma funkcję gęstości
f (x) =
ł
ół0 poza
Należy:
1. Obliczyć stałą c
2. Znalezć dystrybuantę
3. Narysować wykres gęstości i dystrybuanty
1 1
ł
4. Znalezć
Pł- d" x d"
ł ł
2 2
ł łł
Materiał na prawach rękopisu. Prawa zastrzeżone J.Frączek., Kopiowanie bez zgody autora zabronione. W razie wykrycia błędów proszę
o informację na adres fraczek@meil.pw.edu.pl . Wersja 02 Strona 11
Rozwiązanie
1
c
Ad 1. Ponieważ
f (x) = 1 to: 3dx = = 1 ! c = 4
+" +"cx 4
R 0
0 dla x d" 0
ńł
x x
ł
Ad 2. 3 4
F(x) = f (x) = dt = dla 0 < x < 1
+" +"4t łx
-" -" ł1 dla x e" 1
ół
Ad 3.
f(x) F(x)
4 1
x x
1 1
1
2
1 1
ł
Ad 4.
1 1 1
Pł - d" X d" = f (x)dx = F(12)- F(- )= =
ł ł
+"
2
24 16
2 2
ł łł
1
-
2
Materiał na prawach rękopisu. Prawa zastrzeżone J.Frączek., Kopiowanie bez zgody autora zabronione. W razie wykrycia błędów proszę
o informację na adres fraczek@meil.pw.edu.pl . Wersja 02 Strona 12
3 Charakterystyki zmiennej losowej
3.1 Charakterystyki liczbowe zmiennych losowych
Rozkład zmiennej losowej może być jednoznacznie określony przez podanie
prawdopodobieństwa każdej możliwej wartości zmiennej losowej, bądz przez podanie
analitycznej postaci dystrybuanty lub gęstości prawdopodobieństwa. W praktyce zamiast
pełnej informacji o rozkładzie prawdopodobieństwa podaje się kilka charakterystycznych
parametrów, które opisują własności zmiennych losowych. Do najważniejszych
charakterystyk należą miary położenia i miary rozrzutu. Do miar położenia należą wartość
oczekiwana i kwantyle (w szczególności mediana i kwartale) natomiast do miar rozrzutu
wariancja i odchylenie standardowe. Ponadto omówimy pojęcia momentów zwykłych i
centralnych.
Wartość oczekiwana ( inaczej nadzieja matematyczna, wartość przeciętna, wartość średnia)
jest to liczba określona wzorem:
ńł
"x pi (SK)
i
ł i
E(X )=
ł (3.1)
xf (x)dx (C)
ł
+"
ółR
o ile szereg i całka są bezwzględnie zbieżne.
Uwaga
W piśmiennictwie wartość oczekiwaną zapisuje się EX, E[X] lub E(X). Przyjmiemy zapis
E(X).
W przypadku jeśli funkcja Y jest funkcją złożoną X tzn. Y = g(X) to wartość oczekiwaną
oblicz się ze wzoru:
ńł
"g(x )pi (SK)
i
ł i
E(Y )= E[g(X )]=
ł (3.2)
g(x)f (x)dx (C)
ł
+"
ółR
PRZYKAAD 3.1
Zadanie
Dana jest zmienna losowa (SK) określona następująco (funkcja prawdopodobieństwa):
1
ńł
dla x1 = 2; x2 = -1; x3= 4; x4 = -5; x5 = 3; x6 = -4
ł
P(X = xi ) =
6
ł
ł0 pozostało
ół
Należy obliczyć wartość oczekiwaną zmiennej losowej X.
Rozwiązanie
6
1 1
E(X ) = xi pi = (2 - 1 + 4 - 5 + 3 - 4) = -
"
6 6
i=1
Wynik można interpretować następująco.
Materiał na prawach rękopisu. Prawa zastrzeżone J.Frączek., Kopiowanie bez zgody autora zabronione. W razie wykrycia błędów proszę
o informację na adres fraczek@meil.pw.edu.pl . Wersja 02 Strona 13
Gramy w kości, jeśli wypadnie 1 to dostajemy 2 zł, jeśli wypadnie 2 to płacimy 1 zł, jeśli wypadnie 3 to
dostajemy 4zł, itd. W grę gramy bardzo długo. Pytanie jaka jest średnia wygrana przypadająca na grę?
n n
(2 -1+ 4 - 5 + 3- 4) -
1
6 6
= = -
n n 6
PRZYKAAD 3.2
Zadanie
Podamy analogię mechaniczną do wartości oczekiwanej.
Pytanie: Jakie jest położenie środka masy układu?
m3
m1
m2
x
x1
x2
Rozwiązanie
Masa układu wynosi ,
M =
"mi
i
mi
Więc położenie środka ciężkości można wyznaczyć jako:
M " xc = xi ! xc = " xi
"mi "
M
i i
mi
Wyrażenie jest odpowiednikiem , bo
pi mi =1
"
M M
i
Własności wartości oczekiwanej
Ponieważ wartość oczekiwana jest określana jako suma lub całka, to ma następujące
własności:
1) gdy X = c (c " R) to
E(X )= E(c)= c
(3.3)
2) Dla dowolnych stałych ai " R i = 1,2,...n
n n
ł
Eł Xi ł = E(Xi )
(3.4)
"a ł "a
i i
ł i=1 łł i=1
Momenty zmiennej losowej
Momentem zwykłym rzędu k (k " N) zmiennej losowej X nazywamy liczbę
k
mk = E(X ) tzn.
ńł
xik pi (SK)
"
ł i
mk =
ł (3.5)
xk f (x)dx (C)
ł
+"
ółR
jeśli suma i całka istnieją
Materiał na prawach rękopisu. Prawa zastrzeżone J.Frączek., Kopiowanie bez zgody autora zabronione. W razie wykrycia błędów proszę
o informację na adres fraczek@meil.pw.edu.pl . Wersja 02 Strona 14
1
Dla k = 1 m1 = E(X )= E(X ) jest momentem rzędu pierwszego. Jest widoczne, że moment
rzędu pierwszego jest wartością oczekiwaną. Czasem stosuje się oznaczenie m1 = .
Momentem centralnym rzędu k zmiennej losowej X nazywamy liczbę:
k k
(3.6)
k = E{[X - E(X )] }= E[(X - ) ]
Moment centralny rzędu 2, 2 nazywamy wariancją i oznaczamy D2(X ), czasem Var(X ).
Pierwiastek kwadratowy z wariancji nazywany odchyleniem standardowym i oznaczamy .
2
= D2(X ) lub = D2(X )
(3.7)
Można zauważyć, że:
k
2 2
2 = = D2(X ) = E[(X - ) ]= E(X - 2X + 2)=
(3.8)
2 2
= E(X )- 2E(X )+ E(2)= m2 - m1
Własności wariancji:
1) Gdy X = c (c " R) to D2(X )= D2(c)= 0
2) Jeżeli c jest dowolną stałą to D2(cX )= c2D2(X )
(3.9)
3) Jeśli c " R to D2(X + c)= D2(X ) (przesunięcie)
Wariancja i odchylenie standardowe są miarą rozproszenia zmiennej losowej.
PRZYKAAD 3.3
Zadanie
W teorii niezawodności i w teorii masowej obsługi stosuje się zmienne losowe o rozkładzie
wykładniczym. Są to zmienne losowe ciągłe o funkcji ciągłości określonej wzorem:
f(x)
x
0
0 x < 0
ńł
f (x) =
łe-x x e" 0 i > 0
ół
Należy obliczyć wartość oczekiwaną i odchylenie standardowe zmiennej losowej o rozkładzie wykładniczym.
Rozwiązanie
Wartość oczekiwana (całkowanie przez części)
T
" "
x 1 1
E(X )= (x)dx = xe-xdx = limł- e-x - e-x łł = =
+"xf +" ł
T "
2 śł 2
ł ł0
0 0
bo:
Materiał na prawach rękopisu. Prawa zastrzeżone J.Frączek., Kopiowanie bez zgody autora zabronione. W razie wykrycia błędów proszę
o informację na adres fraczek@meil.pw.edu.pl . Wersja 02 Strona 15
e-x
u = x e-x x 1
xe-xdx = = - e-x - dx = - e-x - e-x
+" +"
2
v = x
Wariancja:
2 2
2 = = D2(X ) = m2 - m1
T
" " "
ł łł
ł łł
x2 x 2
2
E(X )= m2 = x2 f (x)dx = x2e-xdx = " łlimł- e-x śł + 2 e-xdxśł =
+" +" +"
łT " śł
ł
0 0 ł0 ł 2
0
ł
2
2 1 1
ł ł
2 2
2 = = D2(X ) = m2 - m1 = - ł ł
=
2 2
ł łł
Kwantyle
Liczbę xp (0 < p < 1) nazywamy kwantylem rzędu p zmiennej losowej X, gdy spełnione
są następujące warunki:
P(X d" xp)e" p oraz P(X e" xp)e" 1- p
(3.10)
Nierówności (3.10) nie wyznaczają kwantyli jednoznacznie. Jeżeli zmienna losowa jest
ciągła, to kwantyl rzędu p można wyznaczyć z równania: F(xp )= p .
Kwantyl rzędu nazywa się medianą, a k wn yle rzęd u ź i n aywa się
a t z
kwartylami (czasem kwartylami rzędu 1 i 3).
Graficzna interpretacja kwantyli
f(x)
Pole równe p Pole równe 1-p
x
0
xp
Pole równe p tzn. F(xp)= p = P(X d" xp)
Pole równe 1- p tzn. P(X e" xp)
Rysunek 3.1 Graficzna interpretacja kwantyli
Materiał na prawach rękopisu. Prawa zastrzeżone J.Frączek., Kopiowanie bez zgody autora zabronione. W razie wykrycia błędów proszę
o informację na adres fraczek@meil.pw.edu.pl . Wersja 02 Strona 16
4 Zmienne losowe wielowymiarowe.
4.1 Zmienna losowa dwuwymiarowa
Niech dana będzie trójka probabilistyczną ( &! ,F,P). Zmienna losowa dwuwymiarowa (lub
inaczej dwuwymiarowy wektor losowy) jest to uporządkowana para zmiennych losowych
(X,Y) określona na przestrzeni zdarzeń elementarnych (X ,Y ) : &! R2 . Zmienne X, Y
nazywa się składowymi wektora losowego. Rozkład prawdopodobieństwa zmiennej
dwuwymiarowej (X,Y) nazywa się łącznym rozkładem zmiennych losowych, a rozkłady
składowych wektora losowego nazywa się rozkładami brzegowymi.
Zwykle rozpatrujemy zmienne losowe typu skokowego (dyskretne) i ciągłego.
Zmienna losowa dwuwymiarowa typu skokowego
Jest to zmienna taka, że wszystkie składowe są dyskretnymi zmiennymi losowymi tzn
funkcja prawdopodobieństwa jest określona wzorem:
P(x, y)= P[(X ,Y ) = (x, y)].
(4.1)
Jeśli oznaczymy:
pij = P[(X ,Y )= (xi , yk )], i,k=1,2,&
(4.2)
to funkcję prawdopodobieństwa określa się wzorem:
pij x = xi i y = y
ńł
j
P(x, y)= przy czym pij = 1
ł
"
(4.3)
ij
ół0 poza
Zmienna losowa dwuwymiarowa typu ciągłego
Określa się ja na podstawie nieujemnej funkcji gęstości f(x,y) takiej, że:
f (x, y) e" 0 i f (x, y) = 1
+"+"
(4.4)
R2
Dystrybuanta dwuwymiarowej zmiennej losowej jest to funkcja F : R2 0,1 taka, że:
F(x, y) = P({ : X () < x,Y () < y}) = P(X < x,Y < y)
(4.5)
ńł pij (SK)
" "
ł{i:xi < x }{j: y < y }
j
ł
F(x, y) =
y
ł x
(4.6)
ł
f (u,v)dudv (C)
+" +"
ł
ół-" -"
Dla zmiennej losowej typu ciągłego zachodzą własności:
Materiał na prawach rękopisu. Prawa zastrzeżone J.Frączek., Kopiowanie bez zgody autora zabronione. W razie wykrycia błędów proszę
o informację na adres fraczek@meil.pw.edu.pl . Wersja 02 Strona 17
d b
1. P(a d" X d" b,c d" Y d" d)= f (x, y)dxdy
+" +"
c a
"2F(x, y)
2. Fxy = = f (x, y) tam, gdzie f(x,y) ciągła
"x"y
Rozkład brzegowy
Rozkłady brzegowe zmiennych losowych powstają gdy interesuje nas rozkład jednej ze
składowych wektora losowego.
Definicje dla zmiennej losowej skokowej:
P(X = xi )= pi" = pij , P(Y = y )= p" j = pij
" j "
(4.7)
j i
Dla dwuwymiarowej zmiennej losowej (X,Y) typu ciągłego definiuje się rozkłady brzegowe
zmiennej za pomocą brzegowych gęstości prawdopodobieństwa:
fX (x) = f (x, y)dy
+"
(4.8)
R
analogicznie fY (y):
fY (y) = f (x, y)dx
+"
(4.9)
R
PRZYKAAD 4.1
Zadanie
Znalezć rozkłady brzegowe zmiennej losowej dwuwymiarowej (SK) określonej poniższą tabelką.
Rozwiązanie
Rozkłady brzegowe określono w ostatniej kolumnie i ostatnim wierszu tabeli.
xi
p" j
1 2 3
yj
1 0 1/6 1/6 1/3
2 1/6 0 1/6 1/3
3 1/6 1/6 0 1/3
pi" 1/3 1/3 1/3 1
Materiał na prawach rękopisu. Prawa zastrzeżone J.Frączek., Kopiowanie bez zgody autora zabronione. W razie wykrycia błędów proszę
o informację na adres fraczek@meil.pw.edu.pl . Wersja 02 Strona 18
PRZYKAAD 4.2
Zadanie
Zmienna losowa dwuwymiarowa ciągła określona jest funkcją:
ńł
e- x- y dla x, y > 0
f (x, y)=
ł
ół0 poza
Znalezć rozkłady brzegowe zmiennych X i Y.
Rozwiązanie
" "
-x- y
f (x) = dy = e-x e- ydy = e-x
X
+"e +"
0 0
oraz przez symetrię:
"
- x - y
fY (y) = dx = e- y
+"e
0
PRZYKAAD 4.3
Zadanie
Dwuwymiarowa zmienna losowa ciągła ma funkcję gęstości:
y
ńł1- x - y
6
dla x, y " D
ł
f (x, y)=
6
ł
D
ł0 poza
ół
Należy wyznaczyć funkcje brzegowych gęstości prawdopodobieństwa: x
1
Rozwiązanie
Opis obszaru:
D :{(x, y): 0 d" x d" 1 i 0 d" y d" 6(1- x)}
albo
y
D :{(x, y): 0 d" y d" 6 i 0 d" x d" 1- }
6
Obliczenie rozkładów brzegowych:
6(1-x)
6(1-x) 6(1-x) 6(1-x)
y y ł łł
y2
ł1 łdy = - x)dy - ł łdy = - x)y]6(1-x) 2
[(1 - = 3(1 - x)
f (x) = - x - ł ł ł
ł
X 0
+" +"(1 +" ł12 śł
6 6
ł łł ł łł
ł ł0
0 0 0
y y
1- 1-
2
6 6
y
ł1 łdx = łł y łx x2 łł 1 ł1 y ł
fY (y) = - x - ł - ł - = - ł
ł ł
+" łł1 6 2 śł
6
ł łł
łł łł ł0 2 ł 6 łł
0
Wykresy rozkładów brzegowych:
fX(x) fY(y)
3
x y
1 6
Materiał na prawach rękopisu. Prawa zastrzeżone J.Frączek., Kopiowanie bez zgody autora zabronione. W razie wykrycia błędów proszę
o informację na adres fraczek@meil.pw.edu.pl . Wersja 02 Strona 19
Rozkłady warunkowe zmiennych losowych
Są to rozkłady jednych ze składowych wektora losowego pod warunkiem, że druga przyjęła
określoną wartość.
Dla zmiennej losowej skokowej
pij
P(X = xi | Y = y )= gdzie p" j > 0
j
p" j
(4.10)
pij
P(Y = y | X = xi)= gdzie pi" > 0
j
pi"
Dla zmiennej losowej ciągłej
f (x, y0)
f (x |Y = y0) = fY (y0)> 0
X
fY (y0)
(4.11)
f (x0, y)
f (y | X = x0) = fX (x0)> 0
X
fX (x0)
PRZYKAAD 4.4
Zadanie
Wyznaczyć prawdopodobieństwa warunkowe P(X=xi|Y=yi) dla zmiennych losowych z przykładu 4.1.
Rozwiązanie
xi
1 2 3
yi
1 0 1/2 1/2
2 1/2 0 1/2
3 1/2 1/2 0
p11
Bo np.
P(X = x1 | Y = y1)= = 0
p" 1
p21 1
P(Y = y2 | X = x1)= =
p" 1 2
Niezależność zmiennych losowych
Zmienne losowe są niezależne (NZ) wtedy, gdy:
'"i '" P(X = xi ,Y = y )= P(X = xi )" P(Y = y )= pi" " p" j (SK)
j j j
(4.12)
'"x '"y f (x, y) = f (x)" fY (y) (C)
X
Materiał na prawach rękopisu. Prawa zastrzeżone J.Frączek., Kopiowanie bez zgody autora zabronione. W razie wykrycia błędów proszę
o informację na adres fraczek@meil.pw.edu.pl . Wersja 02 Strona 20
PRZYKAAD 4.5
Zadanie
Zbadać niezależność zmiennych losowych z przykładu 4.1.
Rozwiązanie
Zmienne losowe nie są niezależne, bo np. dla i=j=2 mamy:
p22 = 0
1 1
p" 2 = ; p2" =
3 3
1 1 1
p2" " p" 2 = " = `" 0 = p22
3 3 9
PRZYKAAD 4.6
Zadanie
Do danych z przykładu 4.3 sprawdzić, czy zmienne losowe są niezależne.
Rozwiązanie
1
Sprawdzmy dla i
y =1
x =
2
1 1 1 1
ł
f ,1ł =1- - =
ł ł
2 2 6 3
ł łł
1 3 25
ł ł
f = ; fY (1)=
ł ł
X
2 4 72
ł łł
1 3 25 1
ł ł
f " fY (1) = " `"
ł ł
X
2 4 72 3
ł łł
Czyli:
1 1
ł ł ł
" "y=1 f " fY (1)`" f ,1ł
ł ł ł ł
1 X
x=
2 2
ł łł ł łł
2
Charakterystyki liczbowe zmiennej losowej dwuwymiarowej
Moment zwykły rzędu (k,l) oznaczany symbolem mkl , gdzie k,l " N dwuwymiarowej
zmiennej (X,Y) jest to liczba określona wzorem:
k l
ńł
(y )
""(x ) pij (SK)
i j
ł
i j
k l
mkl = E(X Y ) = jeśli szereg i całka są zbieżne
ł
(4.13)
xk yl f (x, y)dxdy (C)
ł
+"
ółR2
Aatwo zauważyć, że momenty zwykłe rzędu (1,0) oraz (0,1) są to średnie rozkładów
brzegowych
m10 = X
m01 = Y
gdzie X - średnia rozkładu brzegowego zmiennej X i Y to średnia rozkładu brzegowego
zmiennej Y.
Materiał na prawach rękopisu. Prawa zastrzeżone J.Frączek., Kopiowanie bez zgody autora zabronione. W razie wykrycia błędów proszę
o informację na adres fraczek@meil.pw.edu.pl . Wersja 02 Strona 21
Moment centralny
Moment centralny rzędu (k,l) gdzie k,l " N jest to liczba określona następująco:
k l
kl = E[(X - m10) "(Y - m01) ]
(4.14)
Uwaga
2 2
Momenty centralne rzędu (2,0) i (0,2) są to wariancje , Y rozkładów brzegowych
X
zmiennych losowych X i Y.
Kowariancja i współczynnik korelacji
Moment centralny rzędu (1,1) nazywa się kowariancją zmiennych losowych X i Y i oznacza
Cov(X,Y) tzn:
Cov(X ,Y ) = 11 = E[(X - m10)(Y - m01)]
(4.15)
Kowariancję można przedstawić jako funkcję momentów zwykłych:
Cov(X ,Y ) = E[(X - m10)(Y - m01)]= E(XY - Xm01 - m10Y + m10m01) =
(4.16)
= m11 - m10m01 = E(XY ) - E(X )E(Y )
W wyprowadzeniu powyższych zależności wykorzystano własności wartości oczekiwanej.
Zauważmy, że:
Cov(X , X ) = D2X
(4.17)
Prawdziwe jest następujące twierdzenie:
Jeśli zmienne losowe są niezależne to E(XY)=E(X)E(Y) oraz Cov(X ,Y ) = 0.
Ale twierdzenie odwrotne nie jest prawdziwe. Ilustruje to poniższy przykład.
PRZYKAAD 4.7
Dana jest dwuwymiarowa zmienna losowa typu skokowego, której rozkład łączny opisany jest tabelką:
xi
p" j
6 8 10
yj
1 0.2 0 0.2 0.4
2 0 0.2 0 0.2
3 0.2 0 0.2 0.4
pi" 0.4 0.2 0.4 1
Obliczymy kowariancję. Kolejno:
3 3 3
m11 = y pij = 16 m10 = E(X ) = pi" = 6 " 0.4 + 8" 0.2 +10 " 0.4 = 8
""x "xi
i j
i=1 j=1 i=1
Materiał na prawach rękopisu. Prawa zastrzeżone J.Frączek., Kopiowanie bez zgody autora zabronione. W razie wykrycia błędów proszę
o informację na adres fraczek@meil.pw.edu.pl . Wersja 02 Strona 22
3
m01 = E(Y ) = y p" j = 1" 0.4 + 2 " 0.2 + 3" 0.4 = 2
" j
j=1
Zatem: . Ale zmienne nie są niezależne bo np.:
Cov(X ,Y ) = m11 - m10m01 = 16 - 2 "8 = 0
oraz . Jest widoczne, że
p21 = 0 p2" = 0.2 i p" 1 = 0.4 p21 `" p2" p" 1
Współczynnikiem korelacji zmiennych losowych X i Y oznaczanym albo XY nazywamy
liczbę:
11 Cov(X ,Y )
= =
(4.18)
2002 XY
Czasem w rachunku prawdopodobieństwa wprowadza się pojęcie zmiennych
standaryzowanych zdefiniowanych wzorem:
X ~
~ - X Y - Y
X = , Y =
(4.19)
Y
X
Współczynnik korelacji można zdefiniować przy powyższych oznaczeniach następująco:
Cov(X ,Y )
~ ~
= = Cov(X ,Y )
(4.20)
XY
0 < < 1
= 0 y = 1 y
y
x
x x
-1< < 0 = -1
y y
x x
Rysunek 4.1 Przykładowe realizacje wektorów losowych dwuwymiarowych (X,Y) przy
rożnych wartościach współczynnika korelacji pomiędzy składowymi.
Współczynnik korelacji ma następujące własności:
" d" 1(o ile istnieje)
Materiał na prawach rękopisu. Prawa zastrzeżone J.Frączek., Kopiowanie bez zgody autora zabronione. W razie wykrycia błędów proszę
o informację na adres fraczek@meil.pw.edu.pl . Wersja 02 Strona 23
" = 1 wtedy i tylko wtedy gdy P(Y = aX + b) = 1
Z drugiej zależności wynika, że współczynnik korelacji może służyć jako miara liniowej
zależności zmiennych losowych X i Y.
Znaczenie wartości bezwzględnej i znaku współczynnika korelacji ilustruje rys. 4.1.
Mówimy, że zmienne losowe są nieskorelowane jeśli = 0 oraz, że są skorelowane
w przeciwnym przypadku (oczywiście to, że zmienne są nieskorelowane nie oznacza jeszcze,
że są niezależne).
Jeśli zmienne losowa Y jest funkcją liniową zmiennej X to prostą o równaniu:
y = ax + b
(4.21)
nazywamy prostą regresji.
Jeśli nie jest spełniony warunek = 1 to znaczy, że nie zachodzi równość P(Y = aX + b) = 1
to często szukamy takiej funkcji liniowej aby prawdopodobieństwo P(Y = aX + b) było
możliwie duże. Zazwyczaj przyjmuje się jako kryterium tzw. oczekiwany kwadratowy błąd
aproksymacji:
e = E[(Y - aX - b)2]
(4.22)
Wartości a i b, dla których e jest minimalne wyznaczają prostą nazywaną prostą regresji II
rodzaju.
Można pokazać, że współczynnik korelacji jest miarą dokładności, z jaką jedną zmienną
losową Y można aproksymować przez liniową funkcję innej zmiennej losowej, której
współczynniki dobrano tak, aby błąd e był minimalny. Jeśli = 0 to błąd ten jest największy,
jeśli natomiast = 1 to jest najmniejszy.
Materiał na prawach rękopisu. Prawa zastrzeżone J.Frączek., Kopiowanie bez zgody autora zabronione. W razie wykrycia błędów proszę
o informację na adres fraczek@meil.pw.edu.pl . Wersja 02 Strona 24
5 Typowe rozkłady zmiennych losowych
5.1 Rozkłady dyskretne
5.1.1 Rozkład dwupunktowy
Zmienna losowa X ma rozkład dwupunktowy, gdy jej funkcja prawdopodobieństwa jest
określona wzorem:
p dla x = x1
ńł
łq
P(X = xi ) = = 1 - p dla x = x2 .
ł (5.1)
ł0 poza
ół
Można łatwo pokazać, że dla zmiennej losowej o rozkładzie dwupunktowym średnia
i wariancja są równe:
(5.2)
E(X ) = x1 p + x2q D2(X ) = (x2 - x1)2 pq
PRZYKAAD 5.1
Wyprowadzić wzory (5.2).
Rozwiązanie:
Zgodnie z definicją:
2 2
m1 = E( X ) = x1 p + x2q m2 = x1 p + x2 q
2 2 2 2 2 2 2 (a)
D2 ( X ) = m2 - m1 = x1 p + x2 q - (x1 p + x2q)2 = x1 p + x2 q - x1 p2 - x2 q2 - 2x1 px2q =
2 2
= x1 p(1 - p) + x2 q(1 - q) - 2x1 px2q = (x2 - x1)2 pq
Gdyby w szczególności x1 = 1 i x2 = 0 to:
oraz (b)
E(X ) = p D2 (X ) = pq
W przypadku gdy x1=1 i x2=0 podany rozkład nazywa się rozkładem zerojedynkowym i dla
takiego rozkładu (jak pokazano w przykładzie 5.1:
E(X ) = p D2(X ) = pq = p(1 - p)
(5.3)
5.1.2 Rozkład dwumianowy
Zmienna typu dyskretnego ma rozkład dwumianowy z parametrami n i p (nazywany także
rozkładem Bernoulliego) jeśli jej funkcja rozkładu ma postać:
ńł n
ł ł
łł ł piqn-i dla i = 0,1,K, n
P(X = i) = i
łł ł
ł łł
(5.4)
ł0 poza
ół
gdzie p, q > 0 oraz p + q = 1
Materiał na prawach rękopisu. Prawa zastrzeżone J.Frączek., Kopiowanie bez zgody autora zabronione. W razie wykrycia błędów proszę
o informację na adres fraczek@meil.pw.edu.pl . Wersja 02 Strona 25
Średnia i wariancja dla tego rozkładu są równe:
E(X ) = np D2(X ) = npq
(5.5)
Wartości funkcji (5.4) oraz dystrybuanty:
F(k) = X = i)
"P(
(5.6)
i:(i
można znalezć bezpośrednio albo z odpowiednich tablic.
W tablicach często podaje się tzw. ogon dystrybuanty:
n
n
Q(k) = 1-F(k) = P(X = i) = ł ł piqn-i (5.7)
" "ł i ł
ł ł
i:(ie"k ) i=k
ł łł
Na rysunku 5.1 pokazano funkcję prawdopodobieństwa rozkładu dwumianowego
odpowiednio dla p=0.1 i n=20 (rys. 5.1a) oraz p=0.5 i n=20 (rys. 5.1b)
Zmienną losową o rozkładzie dwumianowym można interpretować jako liczbę sukcesów
(jedynek) w ciągu niezależnych doświadczeń zwanych próbami Bernoulliego, w których
prawdopodobieństwo sukcesu (jedynki) jest równe p a prawdopodobieństwo porażki (zera)
jest równe q=1-p. Zmienna losowa dwumianowa ma liczne zastosowania techniczne. Jednym
z nich jest kontrola wyrywkowa produktu, którego poszczególne próbki kwalifikuje się jako
dobre albo niedobre. Z populacji o liczności N wybiera się próbkę liczności n, sprawdza się
wszystkie sztuki w próbce i liczy się ile było sztuk niedobrych. Jeśli spełnione są następujące
założenia:
" wybór do próbki pewnej sztuki nie zależy ani od tego czy sztuka jest dobra czy zła,
" wybór nie zależy od tego jakie sztuki wybrano poprzednio,
" prawdopodobieństwo wyboru sztuki niedobrej nie zmienia się wraz z wyborem
(praktycznie jest tak wtedy jeśli liczność próbki jest dużo mniejsza od liczności
populacji).
a) b)
n=20 p=0.5
p=0.1 n=20
0.18
0.35
0.16
0.3
0.14
0.25
0.12
0.2
0.1
0.08
0.15
0.06
0.1
0.04
0.05
0.02
0 0
0 1 2 3 4 5 6 7 8 9 10 0 2 4 6 8 10 12 14 16 18 20
i i
Rysunek 5.1 Funkcja prawdopodobieństwa rozkładu dwumianowego a) dla n=20 i p=0.1
b) n=20 p=0.5
Materiał na prawach rękopisu. Prawa zastrzeżone J.Frączek., Kopiowanie bez zgody autora zabronione. W razie wykrycia błędów proszę
o informację na adres fraczek@meil.pw.edu.pl . Wersja 02 Strona 26
P
P
PRZYKAAD 5.2
Energia pochodząca z określonego zródła ma być z przerwami zużywana przez pięciu robotników. Aby
otrzymać oszacowanie zapotrzebowania na energię zakładamy, że w danej chwili prawdopodobieństwo p
zapotrzebowania na energię jest takie samo dla każdego z robotników, robotnicy pracują niezależnie od siebie
oraz każdy z robotników korzysta z energii przez 12 minut na godzinę.
Niech X oznacza liczbę robotników korzystających z energii w danej chwili. Znalezć rozkład zmiennej X
Obliczyć prawdopodobieństwo, że liczba robotników korzystających z energii w danej chwili jest nie większa
niż 2.
Rozwiązanie
X ma rozkład dwumianowy z parametrami n=5 i p=12/60=0.2. W takim razie:
(a)
P(X = 0) = 0.85 H" 0.33
P(X = 1) = 5" 0.84 " 0.2 H" 0.41
P(X = 2) = 10 " 0.83 " 0.22 H" 0.20
Prawdopodobieństwo, że liczba robotników korzystających z energii w danej chwili jest nie większa niż 2 jest
równa sumie prawdopodobieństw:
(b)
P(X = 0) + P( X = 1) + P( X = 2) H" 0.94
5.1.3 Rozkład Poissona
Zmienna losowa ma rozkład Poissona (na cześć francuskiego matematyka Simeona Denisa
Poissona (1781-1840) z parametrem c gdy jej funkcja rozkładu dana jest wzorem:
ńł
ci
e-c dla i = 0,1,K
ł
P(X = i) = i !
ł
(5.8)
ł0 poza
ół
gdzie c > 0
Jest to zmienna o przeliczalnej liczbie wartości. Średnia i wariancja dla tego rozkładu są
równe:
(5.9)
E(X ) = c D2(X ) = c
Dystrybuanta ma postać:
k -1
ci
F(k) = X = i) = e-c (5.10)
"P( "
i !
i:(iW tablicach często podaje się tzw. ogon dystrybuanty:
Q(k) = 1 -F(k) (5.11)
Wykażemy teraz jaki związek ma rozkład Poissona z rozkładem dwumianowym.
Przypuśćmy, że zmienne losowe X1, X ,Kmają rozkład dwumianowy z parametrami
2
odpowiednio n i p = c / n . Można udowodnić, że ciąg funkcji prawdopodobieństwa:
Materiał na prawach rękopisu. Prawa zastrzeżone J.Frączek., Kopiowanie bez zgody autora zabronione. W razie wykrycia błędów proszę
o informację na adres fraczek@meil.pw.edu.pl . Wersja 02 Strona 27
i n-i
n n
ł ł ł ł c
ł ł ł1 - c
ł
Pn (i) == ł ł piqn-i = ł ł (5.12)
ł ł ł ł
ł ł ł ł
i i n n
ł łł ł łł
ł łł ł łł
dąży dla każdego i = 0,1,K do funkcji:
ci
P(i) = e-c (5.13)
i !
gdy n " (i tym samym p 0 ).
A zatem zgodnie z powyższą uwagą można dla dużych n i małych p przybliżać dystrybuantę
rozkładu dwumianowego przez dystrybuantę rozkładu Poissona. Innymi słowy rozkład
Poissona jest asymptotyczną postacią rozkładu dwumianowego.
Powyższa własność pozwala na korzystanie z rozkładu Poissona w analogicznych
przypadkach, w jakich korzysta się z rozkładu dwumianowego, ale wtedy, gdy n jest
dostatecznie duże (orientacyjnie n e" 50 ) i p dostatecznie małe (orientacyjnie p<0.1).
Na rysunku 5.2 pokazano funkcję prawdopodobieństwa rozkładu Poissona dla n=20 i c=10.
Czytelnik zechce porównać przedstawiony wykres z wykresem funkcji prawdopodobieństwa
na rys. 5.1b (Parametr c=np dla rozkładu dwumianowego).
n=20 c=10
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
0 2 4 6 8 10 12 14 16 18 20
i
Rysunek 5.2 Funkcja prawdopodobieństwa rozkładu Poissona dla n=20 i c=10
PRZYKAAD 5.3
5.2 Rozkłady zmiennych typu ciągłego
Przedstawimy tutaj kilka najczęściej spotykanych rozkładów zmiennych losowych typu
ciągłego. Dwa ostatnie rozkłady przedstawione w tym rozdziale rozkład chi-kwadrat
Materiał na prawach rękopisu. Prawa zastrzeżone J.Frączek., Kopiowanie bez zgody autora zabronione. W razie wykrycia błędów proszę
o informację na adres fraczek@meil.pw.edu.pl . Wersja 02 Strona 28
P
2
(rozkład ) oraz rozkład t-Studenta znajdują przede wszystkim zastosowanie w statystyce
matematycznej.
5.2.1 Rozkład jednostajny
Zmienna losowa typu ciągłego ma rozkład jednostajny (inaczej prostokątny, równomierny)
w przedziale jeśli jego funkcja gęstości określona jest wzorem:
0 dla x < a
ńł
ł
1
ł
P(X = i) = (5.14)
łb - a dla a d" x d" b
ł
ł
ół0 dla x > b
Średnia i wariancja dla tego rozkładu są równe:
a + b (b - a)2
(5.15)
E(X ) = D2(X ) =
2 12
PRZYKAAD 5.4
Wyprowadzić wzór na wariancję (5.15) dla zmiennej losowej o rozkładzie jednostajnym.
Rozwiązanie:
Obliczymy najpierw momenty zwykłe rzędu pierwszego (wartość oczekiwaną) i drugiego.
b
b
ł łł
x 1 x2 1 b2 - a2 a + b
m1 = E(X ) = dx = = =
ł śł
+"
b - a b - a 2 b - a 2 2
ł ła
a
b
b
ł łł
x2 1 x3 1 b3 - a3 a2 + ab + b2
m2 = dx = = =
ł śł
+"
b - a b - a 3 b - a 3 3
ł ła
a
Wariancję można obliczyć wykorzystując wzór (3.8).
2
a2 + ab + b2 a + b (b - a)2
ł ł
2
D2 (X ) = m2 - m1 = - ł ł
=
3 2 12
ł łł
Materiał na prawach rękopisu. Prawa zastrzeżone J.Frączek., Kopiowanie bez zgody autora zabronione. W razie wykrycia błędów proszę
o informację na adres fraczek@meil.pw.edu.pl . Wersja 02 Strona 29
Wykres funkcji (5.16) dla średniej = 2 pokazano na rys. 5.4. Popularnym i łatwo
zrozumiałym skrótem dla zmiennej o rozkładzie normalnym jest N( , ) . Rozkład normalny
ma duże znaczenie teoretyczne ponieważ można dowieść (będzie mowa o tym w dalszej
części skryptu), że rozkład sum różnych zmiennych losowych dąży, do przy bardzo słabych
warunkach, do rozkładu normalnego, gdy liczba składników rośnie nieograniczenie.
Należy zauważyć, że funkcja gęstości jest funkcją symetryczna względem prostej o równaniu
x = to znaczy prostej prostopadłej do osi x i przechodzącej przez punkt o odciętej równej
tzn:
f ( - x) = f (x + ) (5.18)
Gęstość osiąga maksimum dla x = równe:
1 0.4
H"
(5.19)
2Ą
Podobnie dla dystrybuanty zmiennej losowej o rozkładzie normalnym spełniony jest warunek:
F( - x) + F(x + ) = 1 (5.20)
Wartości dystrybuanty rozkładu normalnego najczęściej odczytuje się z tablic. Przed
odczytem z tablic zmienną losową przekształca się na najpierw do postaci zmiennej
standaryzowanej (por. wzór (4.19)) poprzez podstawienie:
X -
Y = (5.21)
Jak wiadomo zmienna standaryzowana ma średnią 0 i odchylenie standardowe równe 1.
Zmienna (5.21) ma zatem rozkład normalny N( 0,1) . Gęstość tego rozkładu ma postać:
1
(y) = e- y2 / 2
(5.22)
2Ą
Dystrybuantę zmiennej losowej Y oznacza się zwykle Ś . Podstawienie (5.21) wykorzystuje
się przy odczycie z tablic wartości dystrybuanty zmiennej o rozkładzie normalnym.
Pokażemy to na przykładach.
PRZYKAAD 5.5
Niech zmienna losowa X ma rozkład N(47,2). Należy znalezć P(X<44.5)
Rozwiązanie:
Możemy zapisać ciąg przekształceń pamiętając, że z tablic możemy odczytać wartości dystrybuanty jedynie dla
rozkładu N(0,1).
Zgodnie z definicją:
X - 47 44.5 - 47
ł
P( X < 44.5) = Pł < = P(Y < -1.25) (a)
ł ł
2 2
ł łł
Ponieważ zmienna Y więc poszukiwane prawdopodobieństwo jest równe
W tablicach znajdują się
Ś(-1.25).
wartości dystrybuanty dla współrzędnych dodatnich więc nie możemy odczytać powyższej wartości
bezpośrednio. Biorąc jednak pod uwagę wzór (5.20) dla zmiennej o rozkładzie N(0,1) otrzymujemy:
(b)
Ś(x) + Ś(-x) = 1 ! Ś(-x) = 1 - Ś(x)
Materiał na prawach rękopisu. Prawa zastrzeżone J.Frączek., Kopiowanie bez zgody autora zabronione. W razie wykrycia błędów proszę
o informację na adres fraczek@meil.pw.edu.pl . Wersja 02 Strona 31
Dla danych zadania:
(c)
Ś(-1.25) = 1 - Ś(1.25)
Z tablic odczytujemy . Ostatecznie:
Ś(1.25) = 0.89430
(d)
P( X < 44.5) = 1 - Ś(1.25) = 1 - 0.89430 H" 0.106
PRZYKAAD 5.6
Zmienna losowa X ma rozkład N(47,2). Należy znalezć P(44.5Rozwiązanie:
Wykonujemy ciąg przekształceń podobnie jak w przykładzie (5.4) i otrzymujemy:
44.5 - 47 X - 47 48 - 47
ł
(a)
P(44.5 < X < 48) = Pł < < = P(-1.25 < Y < 0.5) = Ś(0.5) - Ś(-1.25)
ł ł
2 2 2
ł łł
Wartości dystrybuant odczytujemy z tablic wykonując po drodze przekształcenie (c) z przykładu (5.4)
oraz
Ś(-1.25) = 0.10565 Ś(0.5) = 0.69146
(b)
P(44.5 < X < 48) = Ś(0.5) - Ś(-1.25) = 0.69146 - 0.105650 = 0.586
PRZYKAAD 5.7
Należy znalezć taką wartość x, że P(XRozwiązanie:
Dokonujemy przekształcenia jak w powyższych przykładach:
X - 47 x - 47 x - 47
ł
(a)
P( X < x) = Pł < = Ś( ) = 0.95
ł ł
2 2 2
ł łł
x - 47
Oznacza to, że liczba jest kwantylem rządu 0.95 zmiennej losowej N(0,1) (porównaj wzór (3.10) i
2
rysunek 3.1. Z tablic odczytujemy, że kwantyl rzędu 0.95 rozkładu N(0,1) jest równy 1.644854. W takim razie:
x - 47
(b)
= 1.644854, zatem x = 50.3
2
5.2.3 Rozkład chi-kwadrat
W statystyce mamy często do czynienia z ciągami niezależnych zmiennych losowych
X1, X ,K o jednakowych rozkładach. Duże znaczenie maja zmienne losowe będące sumą
2
takich zmiennych losowych.
2
Rozkładem o r stopniach swobody nazywamy rozkład zmiennej losowej, która jest sumą
r niezależnych zmiennych losowych Xi, z których każda ma standardowy rozkład normalny
N(0,1):
r
Y = Xi2 (5.23)
"
i=1
Materiał na prawach rękopisu. Prawa zastrzeżone J.Frączek., Kopiowanie bez zgody autora zabronione. W razie wykrycia błędów proszę
o informację na adres fraczek@meil.pw.edu.pl . Wersja 02 Strona 32
2
Z definicji (5.27) wynika, że wartość krytyczna (ą, r) jest kwantylem rzędu 1 - ą
2
rozkładu o r stopniach swobody.
5.2.4 Rozkład t Studenta
Niech dany będzie ciąg niezależnych zmiennych losowych X1, X ,K, X o jednakowym
2 n
rozkładzie normalnym N (, ) . Tworzymy funkcję zmiennych losowych:
n n
1 1
2
X = X S = X - X )2
" i "( i
n n
i=1 i=1 (5.28)
oraz zmienną losową:
X -
(5.29)
t = n -1
S
Można dowieść, że zmienna losowa t ma funkcję gęstości określoną wzorem:
r + 1
r+1
ł ł -
ł ł
1 ł ł
t2 2
2
ł łł
fr (t) = ł1 + ł (5.30)
ł ł
r
rĄ
ł ł ł r łł
ł ł
2
ł łł
gdzie przedstawia funkcję Eulera. Rozkład zmiennej losowej zdefiniowanej powyżej
nazywa się rozkładem t Studenta. Można udowodnić, że wykres gęstości zmiennej t jest
symetryczny względem osi rzędnych. Zmienna ta jest asymptotycznie normalna tzn. gęstość
określona wzorem (5.30) dąży do gęstości rozkładu normalnego N (0,1) gdy liczba stopni
swobody wzrasta nieograniczenie. Można to zapisać równaniem:
2
1
lim fr (t) = e-t / 2
(5.31)
r"
2Ą
Zbieżność ta jest szybka. Na rysunku 5.6 pokazano wykres gęstości rozkładu t Studenta dla
r=7 stopni swobody oraz rozkładu normalnego N(0,1). Jak widać przebieg obu krzywych jest
zbliżony.
Materiał na prawach rękopisu. Prawa zastrzeżone J.Frączek., Kopiowanie bez zgody autora zabronione. W razie wykrycia błędów proszę
o informację na adres fraczek@meil.pw.edu.pl . Wersja 02 Strona 34
0.4
t Student r=7
N(0,1)
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
-4 -3 -2 -1 0 1 2 3 4
t
Rysunek 5.6 Funkcja gęstości dla rozkładu t Studenta dla r=7 stopni swobody i rozkład
normalny N(0,1).
Gęstość rozkładu Studenta bywa rzadko wykorzystywana w praktyce. Najczęściej operuje się
wartością krytyczną t(p,r). Wartość krytyczna rozkładu t Studenta jest to liczba t(p,r)
zdefiniowana wzorem:
P[tr > t( p, r)]= p (5.32)
Z definicji (5.32) wynika, że wartość krytyczna t(p,r) jest kwantylem rzędu 1-p/2 rozkładu
Studenta o r stopniach swobody. Ponieważ rozkład t Studenta może być dla dużych r
aproksymowany rozkładem normalnym to w obliczeniach praktycznych często zamiast tablic
rozkładu Studenta używa się tablic rozkładu N(0,1) (zwykle przy liczbie stopni swobody
przewyższającej 20).
5.3 Addytywność rodziny zmiennych losowych.
Mówimy, że rodzina zmiennych losowych jest addytywna, jeśli suma niezależnych
zmiennych losowych należących do tej rodziny także należy do tej rodziny. Badanie
addytywności wymaga wprowadzenia nowego pojęcia tzw. funkcji charakterystycznych
czego jednak robić nie będziemy.
Można wskazać przykład rodzin zmiennych losowych addytywnych. Na przykład rodzina
niezależnych zmiennych losowych o rozkładzie dwumianowym, jest addytywna. Jeśli
zmienne losowe o takim rozkładzie mają parametry ni (mogą być różne) oraz p (jednakowe
dla wszystkich składników) to suma takich zmiennych ma także rozkład dwumianowy
z parametrami ( , p) . Podobnie addytywna jest rodzina niezależnych zmiennych
"ni
i
o rozkładzie Poissona. Suma k takich zmiennych z parametrami ci (i=1,2,& ,k) ma rozkład
Poissona z parametrem (parametry te nie muszą być jednakowe).
"ci
i
Materiał na prawach rękopisu. Prawa zastrzeżone J.Frączek., Kopiowanie bez zgody autora zabronione. W razie wykrycia błędów proszę
o informację na adres fraczek@meil.pw.edu.pl . Wersja 02 Strona 35
f(t)
Szczególne własności ma rodzina niezależnych zmiennych losowych o rozkładach
normalnych. Jeśli bowiem zmienna losowa Xi (i=1,2,& ,n) ma rozkład N (i ,i ) to zmienna
n n n
2
losowa postaci X = Xi ma rozkład normalny z parametrami N ( i , (kii ) )
"ki "ki "
i=1 i=1 i=1
W szczególnym przypadku, jeśli zmienne losowe mają rozkłady X1 : N (1,1) oraz
X : N (2,2 ) to suma i różnica zmiennych mają odpowiednio rozkłady:
2
2 2
(5.33)
X1 + X : N (1 + 2, 1 + )
2 2
2 2
(5.34)
X1 - X : N (1 - 2, 1 + )
2 2
PRZYKAAD 5.8
Średnica wałka i średnica otworu są niezależnymi zmiennymi losowymi normalnymi, z jednakowymi
odchyleniami standardowymi równymi 0.02. Średnia różnica średnic jest równa 0.06. Jakie jest
prawdopodobieństwo, że wałek nie wejdzie do otworu ?
Rozwiązanie:
Średnica otworu X: , średnica wałka Y: - 0.06,0.02)
. L=X-Y ma rozkład z parametrami
N (d,0.02) N (d
L : N (0.06, 0.022 + 0.022 ) = N (0.06,0.0282)
L - 0.06 0 - 0.06 L - 0.06
ł
(a)
P(L < 0) = Pł < = Pł < -2.13ł = 1 - 0.983 = 0.017
ł ł ł ł
0.0282 0.0282 0.0282
ł łł ł łł
Materiał na prawach rękopisu. Prawa zastrzeżone J.Frączek., Kopiowanie bez zgody autora zabronione. W razie wykrycia błędów proszę
o informację na adres fraczek@meil.pw.edu.pl . Wersja 02 Strona 36
PRZYKAAD 6.11
Aańcuch rokowy składa się z n=43 ogniw. Ogniwa tego łańcucha mają wymiar
d = 19.06+0.05 . Należy obliczyć
-0.04
prawdopodobieństwo, że otrzymamy długość całego łańcucha
L = 820-0.2 mm (przewidzianą normą).
-0.4
Wskazówka: Oszacować nieznane parametry rozkładów wymiarów poszczególnych ogniw na podstawie
znajomości pola tolerancji korzystając z prawa a następnie wykorzystać CTG LF albo LL (centralne
3
twierdzenie graniczne Lindeberga-Fellera albo Lindeberga-Levy ego).
Rozwiązanie:
Wartości średnie i odchylenia standardowe (w mm) szacujemy z prawa trzech sigm:
19.06 + 0.05 +19.06 - 0.04 0.05 + 0.04
,
1 = = 19.065 1 = = 0.015
2 6
Wartości do standaryzacji zmiennej:
,
= 43"19.065 = 819.795 = 0.015 43 = 0.09836
oraz
819.60 - 819.795 819.80 - 819.795
P(819.60 < X <819.80) = P( < X < ) =
" i " i
0.09836 0.09836
= P(-1.68 < Y < 0.05) = Ś(0.05) - (1 - Ś(1.68)) = 0.5199 + 0.9535 -1 = 0.47
Dokonano odczytu z tablic rozkładu normalnego. Zatem szukane prawdopodobieństwo wynosi 0.47
PRZYKAAD 6.12
(JO str. 59)
Lina stalowa jest spleciona z 20 drutów grubych i 70 cienkich. Wytrzymałość drutu grubego ma rozkład
równomierny w przedziale kN natomiast wytrzymałość drutu cienkiego ma rozkład równomierny w
< 3.2,4.8 >
przedziale
kN. Przyjmując, że wszystkie zmienne losowe są niezależne, i że wytrzymałość liny jest
< 0.8,1.2 >
sumą wytrzymałości wszystkich drutów, znalezć prawdopodobieństwo, że wytrzymałość liny Q jest większa od
145 kN.
Rozwiązanie:
a + b
Dla rozkładu równomiernego na przedziale średnia równa się
natomiast wariancja równa się
=
2
(b - a)2 . Otrzymujemy zatem dla drutu grubego i cienkiego odpowiednio średnia i wariancję:
2
=
12
3.2 + 4.8 (4.8 - 3.2)2 0.8 + 1.2 (1.2 - 0.8)2
2 2
,
g = = 4 = = 0.2133 C = = 1 = = 0.0133
g c
2 12 2 12
Z CTG LF otrzymujemy, że zmienna losowa:
Q - (20 " 4 + 70 "1) Q -150
Yn = =
2.28
20 " 0.2133 + 70 " 0.0133
ma w przybliżeniu rozkład N(0,1). A zatem
145 -150
P(Q > 145) = P(Yn > ) = P(Yn > -2.19) = 1 - Ś(-2.19) = Ś(2.19) = 0.986
2.28
Materiał na prawach rękopisu. Prawa zastrzeżone J.Frączek., Kopiowanie bez zgody autora zabronione. W razie wykrycia błędów proszę
o informację na adres fraczek@meil.pw.edu.pl . Wersja 02 Strona 41
Należy podkreślić, że twierdzenia graniczne w podanych sformułowaniach orzekają tylko
o asymptotycznej zbieżności zmiennych losowych natomiast nie mówią nic o tempie
zbieżności. Sprawa ta wymaga w każdym przypadku osobnego badania.
Materiał na prawach rękopisu. Prawa zastrzeżone J.Frączek., Kopiowanie bez zgody autora zabronione. W razie wykrycia błędów proszę
o informację na adres fraczek@meil.pw.edu.pl . Wersja 02 Strona 42
Elementy statystyki matematycznej
Materiał na prawach rękopisu. Prawa zastrzeżone J.Frączek., Kopiowanie bez zgody autora zabronione. W razie wykrycia błędów proszę
o informację na adres fraczek@meil.pw.edu.pl . Wersja 02 Strona 43
7 Podstawowe pojęcia statystyki
7.1 Definicje
Statystyka matematyczna - nauka zajmująca się badaniem zjawisk masowych
i prawidłowości występujących w tych zjawiskach. Przedmiotem badań statystycznych są
określone własności dużej zbiorowości pewnych jednostek (elementów).
Tą zbiorowość nazywa się populacją generalną. Badana własność elementów populacji to
cecha statystyczna.
Przykład:
1. Numer butów dorosłych Polaków cecha statystyczna: numer butów, populacja: wszyscy
dorośli Polacy.
2. Jakość produkcji opon w pewnych zakładzie cecha statystyczna: jakość opon (spełnia
wymagania norm albo nie), populacja cała produkcja opon w danym roku.
Cechy statystyczne mogą przyjmować wartości liczbowe (wzrost, waga, wiek, itp.) lub mogą
być wyrażane słownymi określeniami (np. płeć, kolor włosów,..) - w dalszym ciągu
przyjmujemy, że badana cecha ma charakter liczbowy.
Cecha statystyczna jest zmienną losową - X
Podstawą badań statystycznych są badania wyrywkowe (częściowe).
Dlaczego badania częściowe? - populacja generalna liczna, badania są niszczące, wzg.
ekonomiczne, czasowe, itp.
Badania częściowe - badania na próbie losowej
Próba (próbka) losowa - część populacji dla której możemy obserwować (mierzyć) badaną
cechę X. Elementy próby wybieramy losowo z populacji. Element i-ty próby ma cechę Xi
(zmienna losowa, bo jej wartość zależy od wyniku losowania próby).
Próbę losową będziemy traktować jako ciąg zmiennych losowych.
(X1, X ,..., X )
(7.1)
2 n
Próba losowa prosta (w skrócie PPL) - próba losowa, w której cechy elementów Xi są
niezależne i mają ten sam rozkład co cecha X w populacji generalnej. Będziemy zawsze
zakładać, że próby losowe są próbami prostymi.
Próbka losowa winna być reprezentatywna: musi oddawać (w mniejszej skali) strukturę
populacji, każdy element populacji musi mieć szansę znalezienia się w próbce, musi być
dostatecznie liczna.
Statystyka - zmienna losowa będąca pewną (dowolną) funkcją wyników próby losowej:
(7.2)
U = f (X1, X ,..., X )
2 n
Materiał na prawach rękopisu. Prawa zastrzeżone J.Frączek., Kopiowanie bez zgody autora zabronione. W razie wykrycia błędów proszę
o informację na adres fraczek@meil.pw.edu.pl . Wersja 02 Strona 44
Realizację statystyki będziemy oznaczać zgodnie z umową mała literą u = f (x1, x2,..., xn )
Dwa podstawowe zadania statystyki matematycznej:
Estymacja - szacowanie (przybliżanie) na podstawie próbki losowej rozkładu
prawdopodobieństwa (estymacja nieparametryczna) lub jego parametrów (estymacja
parametryczna) cechy statystycznej w populacji,
Estymator - dowolna statystyka U służąca do oszacowania nieznanej wartości parametru
rozkładu prawdopodobieństwa cechy populacji, lub nieznanego rozkładu tej cechy.
Weryfikacja hipotez
Hipoteza (statystyczna) - pewien sąd (przypuszczenie) dotyczące rozkładu
prawdopodobieństwa (lub parametrów rozkładu) cechy statystycznej populacji.
Ocena prawdziwości hipotezy (przeprowadzona na podstawie próbki losowej) to weryfikacja
hipotezy.
7.2 Estymacja pojęcia podstawowe
Ten rozdział dotyczy głównie estymacji parametrycznej. Będziemy zainteresowani estymacją
(oszacowaniem) parametru rozkładu zmiennej losowej X.
Są dwa główne typy estymacji: punktowa i przedziałowa.
Estymacja punktowa polega na tym, że tworzymy funkcję PPLun (x1, x2,..., xn ) , która jest
realizacją zmiennej losowej Un (X1, X ,..., X ) , której rozkład zależy od estymowanego
2 n
parametru . Funkcj Un nazywamy estymatorem, natomiast un wartością (albo realizacją)
ę
estymatora Un. Używamy estymatora Un jednorazowo i otrzymaną wartość uznajemy un
przyjmujemy za oszacowanie nieznanego parametru .
Na estymator punktowy nakłada się różne warunki, które omówimy dalej. Na razie powiemy
ogólnie, że wartości un estymatora powinny być możliwie bliskie wartości szacowanego
parametru .
Estymacja przedziałowa polega na tym, że tym razem tworzymy dwie funkcje próbki
un (x1, x2,..., xn ) i un (x1, x2,..., xn ) (naturalnie un < un ), które są realizacjami zmiennych
losowych U (x1, x2,..., xn ) i U (x1, x2,..., xn ) , których rozkład zależy od parametru
.
n
n
Żądamy, aby wartości przedziału (un , un ) były skupione wokół parametru U
. żywamy
estymatora (U ,Un ) jednorazowo i otrzymany przedział (un ,un ) przyjmujemy za
n
oszacowanie nieznanego parametru .
7.3 Estymacja punktowa.
7.3.1 Zasady tworzenia estymatorów punktowych
Materiał na prawach rękopisu. Prawa zastrzeżone J.Frączek., Kopiowanie bez zgody autora zabronione. W razie wykrycia błędów proszę
o informację na adres fraczek@meil.pw.edu.pl . Wersja 02 Strona 45
Aby estymatory punktowe spełniały swoje zadanie żądamy aby spełniały pewne warunki.
Wymienimy je tutaj.
1. Estymator powinien być nieobciążony tzn: aby jego wartość przeciętna był równa
wartości parametru estymowanego tzn:
n
'"E(U ) =
(7.3)
n
2. Jeśli estymator nie jest nieobciążony to często stawia się wymaganie aby był
asymptotycznie nieobciążony tzn:
lim E(Un ) =
(7.4)
n"
3. Estymator powinien być zgodny tzn.
'" lim P(Un - > ) = 0
(7.5)
n"
Ostatni warunek ma walory raczej teoretyczne.
4. Jest pożądane, aby rozproszenie estymatoraa wokół estymowanego parametru było
możliwie małe tzn. aby estymator miał możliwie małą wariancję przy ustalonej liczności
próbki n. Stawia się zatem wymaganie efektywności estymatora. Efektywność estymatora
bada się tylko dla estymatorów nieobciążonych.
Estymator uważa się za najefektywniejszy jeśli jest nieobciążony i ma najmniejszą
wariancję ze wszystkich estymatorów danego parametru. Estymatory najefektywniejsze
nie zawsze istnieją. Jeśli jednak istnieje najefektywniejszy estymator parametru który
,
~ ~
oznaczymy Un to jego wartości są najbardziej skupione wokół wartości E(Un ) = .
Estymator Un parametru zgodny i najefektywniejszy b
ędziemy uważali za najlepszy do
oszacowania nieznanego parametru , poniewa
ż z dużym prawdopodobi eństwem można
przyjąć że zaobserwowana wartość estymatora Un jest bliska rzeczywistej wartości
parametru .
~
Jeśli Un jest estymatorem najefektywniejszym danego parametru to za miarę
efektywności dowolnego estymatora Un przyjmuje się iloraz:
~
D2 (Un )
eff (Un ) =
(7.6)
D2 (Un )
Jest widoczne, że dla dowolnego estymatora eff (Un ) d" 1, przy czym równość zachodzi
dla estymatorów najefektywniejszych. W przypadku jeśli efektywność estymatora Un
dąży do 1 gdy n " to nazywamy estymator ten asymptotycznie najefektywniejszym.
7.3.2 Metody uzyskiwania estymatorów metoda momentów (analogii
pomiędzy próbką i populacją)
Materiał na prawach rękopisu. Prawa zastrzeżone J.Frączek., Kopiowanie bez zgody autora zabronione. W razie wykrycia błędów proszę
o informację na adres fraczek@meil.pw.edu.pl . Wersja 02 Strona 46
Metoda ta został wprowadzona przez K. Pearsona. Polega ona na tym, że jako estymatory
momentów zmiennych losowych oraz funkcji tych momentów przyjmuje się tzw. momenty
empiryczne lub funkcje tych momentów. Pokażemy to na przykładzie estymacji
podstawowych parametrów zmiennych losowych takich jak wartość średnia, wariancja czy
odchylenie standardowe.
k
Momenty zwykłe zmiennych losowych rzędu k mk = EX oraz centralne k = E( X - m1)k
zdefiniowane we wcześniejszych rozdziałach nazywa się w statystce momentami
teoretycznymi. Momentami empirycznymi, oznaczanymi odpowiednio dużymi literami
M oraz Ck będziemy nazywać statystyki będące funkcjami PPL. Definiujemy je następująco:
k
1. Moment empiryczny zwykły rzędu k definiujemy wzorem:
n
1
k
M = X
k " i (7.7)
n
i=1
Jest widoczne, że moment ten oblicza się tak jak moment zwykły teoretyczny dla zmiennej
typu skokowego, o punktach skokowych xi.
2. Moment empiryczny centralny definiujemy wzorem:
n
1
Ck = X - M1)k
"( i
(7.8)
n
i=1
Jest widoczne, że moment ten oblicza się tak jak moment centralny teoretyczny dla zmiennej
losowej skokowej, o punktach skokowych xi.
Estymator parametru =m1 tworzy się metodą momentów przyjmując, że parametr ten
opisuje średnia empiryczna:
n
1
X = Xi
"
(7.9)
n
i=1
zwana statystyką X z kreską .
Analogicznie estymator parametru , kt jest wariancja two zy się metodą
órym r
momentów przyjmując, że parametr ten opisuje statystyka S kwadrat :
n n
1 1
2
S = X - M1)2 = X - X )2
"( i "( i (7.10)
n n
i=1 i=1
W przypadku gdy znane jest wartość oczekiwana zmiennej losowej X i jest równa to
estymator wariancji (7.10) możemy zapisać w postaci:
n
1
2
S0 = X - )2
"( i
(7.11)
n
i=1
PRZYKAAD 7.13
Materiał na prawach rękopisu. Prawa zastrzeżone J.Frączek., Kopiowanie bez zgody autora zabronione. W razie wykrycia błędów proszę
o informację na adres fraczek@meil.pw.edu.pl . Wersja 02 Strona 47
Udowodnić, że estymator wartości średniej (7.9) jest nieobciążony. Policzyć wariancję tego estymatora.
Rozwiązanie:
Obliczmy wartość oczekiwana tego estymatora (bez względu na rozkład zmiennej losowej):
n n n
1 1 1 1
(a)
E( X ) = E( X ) = E( X ) = X ) = nm1 = m1
" n " n "E( i
n n n n
i=1 i=1 i=1
A zatem jest to estymator nieobciążony. Obliczymy teraz wariancję:
2
n n n
1 1 1
2 2
(b)
D2 ( X ) = D2 ( X ) = D2 ( X ) =
" n " "D ( X ) = 1 n =
n n2 i=1 n n2 i=1 i n n
i=1
2
Można łatwo pokazać, że w wielu rodzinach zmiennych losowych o wariancji np. w rodzinie rozkładu
dwumianowego, Poissona, normalnego estymator ten jest najefektywniejszy.
Można wykazać, że estymator wariancji S2 ma wartość oczekiwaną równą:
n -1
2 2
E(S ) =
(7.12)
n
Wynika stąd, że estymator (7.10) nie jest nieobciążony. Jest natomiast asymptotycznie
nieobciążony ponieważ:
n -1
lim = 1
(7.13)
n"
n
Ze wzoru (7.12) wynika, że estymator (7.10) można zmodyfikować tak, by otrzymać nowy
estymator nieobciążony \2 :
n
n 1
2 2
\ = S = - X )2
"(Xi (7.14)
n -1 n -1
i=1
Aatwo bowiem sprawdzić, że:
n n n - 1
2 2 2 2
E(\ ) = E( S ) = =
(7.15)
n - 1 n - 1 n
Szczególne własności powyższych estymatorów wariancji można pokazać w przypadku, gdy
cecha X ma rozkład normalny (, ) . Można udowodnić, że w takim przypadku żaden z
powyższych estymatorów wariancji nie jest najefektywniejszy. Estymator S2 nie jest w ogóle
nieobciążony, natomiast \2 jest najefektywniejszy ale tylko asymptotycznie. Na zakończenie
dyskusji w tym przypadku poczynimy dwie uwagi:
" Jeśli eksperyment przeprowadza się tylko raz to może się zdarzyć, że estymatorem
S2 trafimy lepiej niż \2
" Biorąc pod uwagę, że dla dużych n estymatory S2 oraz \2 mają w przybliżeniu równe
wartości nie jest istotne, którego z nich przyjmiemy w oszacowaniu nieznanego parametru
2
. Często w praktyce dla rozkładów normalnych i n d" 30 korzysta się z estymatora \2
a dla n > 30 z estymatora S2 .
Materiał na prawach rękopisu. Prawa zastrzeżone J.Frączek., Kopiowanie bez zgody autora zabronione. W razie wykrycia błędów proszę
o informację na adres fraczek@meil.pw.edu.pl . Wersja 02 Strona 48
Na zakończenie tego punktu, należy podkreślić, że jeśli występuje konieczność budowy
estymatorów parametrów będących funkcjami momentów, to jako estymatory tych
parametrów przyjmuje się wartości tych funkcji momentów empirycznych. Estymatory
uzyskane metodą momentów mają tą zaletę, że znajdowanie ich wartości jest związane na
ogół z prostymi rachunkami. Istotną zaś wadą tak uzyskanych estymatorów jest ich mała na
ogół efektywność (korzystnym wyjątkiem jest tu przypadek, gdy cecha X ma rozkład
normalny).
PRZYKAAD 7.14
Niech X w populacji ma rozkład równomierny na odcinku . Wyznaczyć estymatory parametrów metodą
momentów.
Rozwiązanie:
Ponieważ:
a + b (b - a)2
(a)
E(X ) = m1 = oraz D2 ( X ) = 2 =
2 12
Stąd po przekształceniach (jest to układ dwóch równań) otrzymujemy:
(b)
b = 2m1 - a oraz a = m1 ą 32
i (odrzucamy rozwiązanie z +):
(c)
a = m1 - 3 oraz b = m1 + 3
Stąd wynika następujący estymator parametrów a i b:
Ć
(d)
= X - S 3 oraz B = X + S 3
7.3.3 Metody uzyskiwania estymatorów metoda największej wiarygodności
(MNW)
Jest to metoda zaproponowana przez Fishera. Niech cecha X elementów populacji będzie
zmienną losową typu ciągłego o gęstości prawdopodobieństwa f zależnej od m nieznanych
parametrów (1,2,K,m ) . Parametry te chcemy oszacować na podstawie n-elementowej
próbki, w której zaobserwowano wartości (x1, x2,K, xn ) . Wprowadzimy w tym celu funkcję
L określoną wzorem:
L(x1, x2,K, xn,1,2,K,m ) =
= f (x1 : 1,2,K,m ) f (x2 : 1,2,K,m )K f (xn : 1,2,K,m ) =
(7.16)
n
= f (xi : 1,2,K,m )
"
i=1
Te wartości parametrów 1,2,K,m , dla których funkcja L osiąga maksimum będziemy
przyjmować za oszacowanie nieznanych parametrów. Wartości te będą zależeć od wartości
zaobserwowanych w próbce. Są zatem funkcjami próbki czyli statystykami. Nazywać je
będziemy estymatorami największej wiarygodności (estymator NW).
Materiał na prawach rękopisu. Prawa zastrzeżone J.Frączek., Kopiowanie bez zgody autora zabronione. W razie wykrycia błędów proszę
o informację na adres fraczek@meil.pw.edu.pl . Wersja 02 Strona 49
W dalszym ciągu przyjmiemy dla uproszczenia zapisu (nie zmniejsza to zbytnio ogólności
rozważań), że f zależy tylko od jednego parametru 1 = . Wzór (7.16) ma w takim
przypadku postać:
n
L(x1, x2,K, xn , ) = f (x1 : ) f (x2 : )K f (xn : ) = f (xi : )
"
(7.17)
i=1
Jeśli zmienna losowa jest zmienną losową typu skokowego o prawdopodobieństwach p(k, )
(uproszczamy sytuację do estymacji tylko jednego parametru) to funkcję wiarygodności
zapisujemy w postaci:
n
L(x1, x2,K, xn , ) = p(x1 : ) p(x2 : )K p(xn : ) = p(xi : )
"
(7.18)
i=1
Jak i poprzednio poszukujemy takiego parametru Ć aby w zbiorze wartości dopuszczalnych
dla parametru było:
L(x1, x2,K, xn ,Ć) = sup L(x1, x2,K, xn , )
(7.19)
Wzór (7.19) oznacza, że poszukujemy takiego oszacowania nieznanego parametru, że
prawdopodobieństwo otrzymania zaobserwowanych wartości jest największe.
Poszukując maksimum funkcji L, która ma postać iloczynu funkcji, wygodnie jest skorzystać
z faktu, że funkcja L osiąga maksimum wtedy, gdy maksimum osiąga ln L.
PRZYKAAD 7.15
Uzasadnić, że poszukiwanie maksium funkcji L względem parametru jest równoważne poszukiwaniu
maksimum funkcji ln L.
Rozwiązanie:
Zapisując warunki konieczne maksimum funkcji L oraz maksimum funkcji lnL (L>0) widzimy, że są
równoważne.
dL d ln L 1 dL
(a)
= 0 oraz = = 0
d d L d
Załóżmy że warunki te spełnione są w punkcie . Druga pochodna funkcji lnL jest równa:
= Ć
2
d L dL
L - ( )2 =Ć 2
2
2
d ln L d 1 dL 1 d L
d d
(b)
= ( ) = =
2 2
d d L d L2 L d
Ponieważ L>0 więc widać, że znak drugiej pochodnej funkcji lnL jest taki sam jak znak drugiej pochodnej
funkcji L.
Rozważymy teraz kilka przykładów uzyskiwania estymatorów MNW.
PRZYKAAD 7.16
W teorii niezawodności przyjmuje się, że czas sprawnej pracy elementu jest zmienną losową o rozkładzie
wykładniczym z gęstością:
Materiał na prawach rękopisu. Prawa zastrzeżone J.Frączek., Kopiowanie bez zgody autora zabronione. W razie wykrycia błędów proszę
o informację na adres fraczek@meil.pw.edu.pl . Wersja 02 Strona 50
1
ńł - x
1
ą
ł
e dla x e" 0 (a)
f (x) =
ł
ą
ł
0 poza tym
ół
Gdzie ą > 0 jest czasem oczekiwane sprawnej pracy. Należy znalezć estymator parametru ą MNW
Rozwiązanie:
Parametr ą przyjmuje wartości ze zbioru liczb rzeczywistych dodatnich.
Zadanie rozwiążemy w kolejnych krokach.
1. Pobieramy n-elementową PPL, której realizacja to (x1, x2,K, xn )
2. Konstruujemy funkcję wiarygodności L:
n
1
1 1 1 1
- xi
"
- x1 - x2 - xn n - xi
1 1 1 1 1 ą
ą ą ą ą i =1
L(ą) = e e K e = e = e (b)
"ą
n
ą ą ą ą
i=1
Ponieważ funkcja ta osiąga maksimum w tym samy punkcie co lnL to wystarczy znalezć maksimum funkcji:
n
1
(c)
ln L = -n lną -
"xi
ą
i=1
Warunek konieczny:
n
d ln L n 1
(d)
= - + = 0
"xi
2
dą ą ą
i=1
Jedyne rozwiązanie:
n
1
(e)
Ć
ą =
"xi
n
i=1
Należy sprawdzić czy jest to maksimum (obliczymy drugą pochodną):
2
n n
d ln L n 2 1 2
(f)
= - = (n - )
"xi "xi
2 2 3 2
dą ą ą ą ą
i=1 i=1
Ć
Obliczymy teraz wartość drugiej pochodnej w punkcie ą (wzór (e)):
2
d ln L 1 n
(g)
( )ą =ą = (n - 2n) = - < 0
Ć
2 2 2
Ć Ć
dą ą ą
Skąd wynika że w punkcie określonym wzorem (e) występuje maksimum. Ponadto otrzymana wartość jest
dodatnia zatem spełnia warunki nałożone na dziedzinę estymatora.
3. Zapisujemy teraz estymator NW pamiętając, że jest on zmienną losową:
n
1
(h)
= X
" i
n
i=1
Porównując otrzymaną wartość ze wzorem (7.9) stwierdzamy, że jest to estymator nieobciążony i
najefektywniejszy.
PRZYKAAD 7.17
Zakładamy, że cecha X populacji ma rozkład dwumianowy:
Materiał na prawach rękopisu. Prawa zastrzeżone J.Frączek., Kopiowanie bez zgody autora zabronione. W razie wykrycia błędów proszę
o informację na adres fraczek@meil.pw.edu.pl . Wersja 02 Strona 51
m
ł ł
x
(a)
P( p, x) = ł ł p (1 - p)m-x dla x = 1,2,K,m
ł ł
x
ł łł
Wyznaczyć estymator parametru MNW.
Rozwiązanie:
Pobieramy najpierw n-elementową PPL, której realizacja to (x1, x2,K, xn ) . Zbiorem rozwiązań
dopuszczalnych jest odcinek (0,1). Zapiszemy funkcję wiarygodności:
m m m
ł ł ł ł ł ł
1 1 2 2 n
L = ł ł px (1- p)m-x ł ł px (1- p)m-x Kł ł px (1- p)m- xn =
ł ł ł ł ł ł
x1 x2 xn
ł łł ł łł ł łł (b)
n
m
ł ł
i i
= ł px (1- p)m-x
"ł xi łł
ł ł
i=1
ł
Aatwiej prowadzić rachunki po obliczeniu logarytmu lnL:
n n
m m
ł ł ł ł
x1 x1
(c)
ln L =
"(lnł x1 ł + ln p + ln(1 - p)m- ) = "(lnł x1 ł + xi ln p + (m - xi ) ln(1 - p))
ł ł ł ł
i=1 i=1
ł łł ł łł
Warunek konieczny:
n n n
d ln L xi (m - xi ) xi (1- p) - (m - xi ) p xi (1- p) - (m - xi ) p
= - ) =
"( p 1- p "( p(1 - p) ) = "( p(1- p) ) =
dp
i=1 i=1 i=1
(d)
n
- nmp
"xi
i=1
= = 0
p(1- p)
Punkt podejrzany o ekstremum:
n
1 x
(e)
Ć
p = =
"xi
nm m
i=1
Można sprawdzić, że . Należy jeszcze wykazać, że jest to maksimum. Obliczymy drugą pochodną:
Ć
0 < p < 1
n n
- nmp - nmp(1 - p) - ( - nmp)(1 - 2 p)
"xi "xi
2
d ln L
i=1 i=1
(f)
== =
2
dp2 p(1 - p)
[p(1 - p)]
Ć
Aatwo widać, że dla wartości parametru p (wzór (e)) drugi człon licznika wzoru (f) jest równy 0 natomiast
Ć Ć
pierwszy zawsze ujemny bo p(1 - p) > 0 w przedziale .
Ć
0 < p < 1
Jako estymator parametru p przyjmujemy zatem statystykę:
n
1 X
Ć (g)
P = X =
" i
nm m
i=1
Na zakończenie należy stwierdzić, że estymatory otrzymane MNW mają wiele zalet: są
asymptotycznie nieobciążone i asymptotycznie najefektywniejsze. W niektórych przypadkach
obie zalety lub jedna z nich występuje z pominięciem słowa asymptotycznie .
7.4 Estymacja przedziałowa.
Jednorazowa estymacja punktowa daje oszacowanie nieznanego parametru w postaci
jednej liczby Ć . Jeśli użyto estymatora dobrego (np. nieobciążonego i wysoce efektywnego)
Materiał na prawach rękopisu. Prawa zastrzeżone J.Frączek., Kopiowanie bez zgody autora zabronione. W razie wykrycia błędów proszę
o informację na adres fraczek@meil.pw.edu.pl . Wersja 02 Strona 52
i jeśli próbka jest duża to zwykle niewiele się różni od Ć . Jednak, jeśli jednorazowa
estymacja punktowa niewiele mówi o dokładności uzyskanego wyniku. Więcej na ten temat
mówi estymacja przedziałowa. Polega ona na podaniu przedziału, który w zamierzeniu
zawiera interesującą nas wielkość oraz na określeniu niepewności związanej z tym
przedziałem. Przedział ten nazywa się przedziałem ufności dla danego parametru.
Zakładamy jak poprzednio, że cecha X w populacji jest zmienna losową, której rozkład
należy do pewnej rodziny i rozkład ten zależy od pewnego stałego lecz nieznanego parametru
. Naszym zadaniem jest oszacowanie parametru .
Przedział ufności dla parametru tworzymy następująco:
1. Pobieramy z populacji PPL, którą w skrócie oznaczymy E = (X1, X ,K, X ) .
2 n
2. Tworzymy dwie statystyki U (E) oraz Un(E) , takie że U (E) d" Un (E) oraz takie, że
n n
dla każdego rozkładu cechy X z założonej rodziny musi zachodzić:
P(U (E) < < Un (E)) e" 1 - ą
n (7.20)
gdzie ą jest ustaloną i niewielką liczbą z przedziału (0,1) na przykład równą 0.01, 0.05 albo
0.1.
Statystyki U (E) oraz Un(E) dobieramy tak, aby przy danym ą długość przedziału
n
(U (E),Un(E)) była możliwie mała.
n
Przedział losowy (U (E),Un(E)) nazywa się przedziałem ufności natomiast liczba 1 - ą
n
nazywa się poziomem ufności.
Jeśli próbkę można pobierać wielokrotnie, to za każdym razie powstanie realizacja przedziału
ufności (un (E), un (E)) na ogół różna za każdym razem. Czasem relacja un (E) < < un (E)
będzie spełniona czasem nie. Jednak w długiej liczbie eksperymentów frakcja przypadków,
w których będzie spełniona będzie bliska 1 - ą czyli duża.
W rzeczywistości zwykle poprzestajemy na jednym tylko eksperymencie, znajdujemy zatem
tylko jedną parę liczb i jeden przedział (un,un ) . Nie wiemy czy obejmuje on nieznany
parametr ale ponieważ liczba 1 - ą jest bliska jedności (np. 0.9, 0.95 albo 0.99) ufamy, że
un < < un .
Zwykle orzekamy, że na poziomie ufności 1 - ą przedział ufności dla parametru przyjął
wartość (un,un ) .
Zwracamy uwagę, że orzeczenie: parametr jest zawarty w stałym przedziale (un,un ) z
prawdopodobieństwem 1 - ą nie ma sensu bo nie jest zmienna losową.
Pokażemy teraz na przykładach w jaki sposób buduje się przedziały ufności w pewnych
typowych przypadkach dla wartości średnich i dla wariancji.
PRZYKAAD 7.18
Cecha X elementów populacji generalnej ma rozkład normalny
przy czym odchylenie standardowe
N (, )
jest znane natomiast nie jest znana wartość przeciętna . Należy zbudować dwustronny symetryczny przedział
ufności dla wartości oczekiwanej .
Rozwiązanie
Materiał na prawach rękopisu. Prawa zastrzeżone J.Frączek., Kopiowanie bez zgody autora zabronione. W razie wykrycia błędów proszę
o informację na adres fraczek@meil.pw.edu.pl . Wersja 02 Strona 53
Przyjmijmy za estymator średniej statystkę . Ponieważ cecha X ma rozkład normalny to ma rozkład
X X
. W takim razie zmienna standaryzowana:
N (, / n )
X -
(a)
n
ma rozkład . Można z tablic dobrać taką stałą t, że:
N (0,1)
ł X - ł
(b)
P - t < n < t = 1- ą
ł ł
ł łł
gdzie ą jest liczbą stałą. Zależność (b) można przekształcić do postaci:
ł t t ł
(c)
P X - < < X + = 1 - ą
ł ł
n n
ł łł
A zatem przedział losowy:
ł t t ł
(d)
X
ł - , X + ł
n n
ł łł
jest dwustronnym symetrycznym przedziałem ufności na poziomie ufności ą dla parametru . Długość tego
1-
przedziału jest równa:
2t
(e)
L =
n
i jest liczbą stałą dla ustalonych wartościach t , n i . Pozostaje jeszcze uzasadnić jak dobrać stałą t. Otóż z
równości (b) łatwo widać, że liczba t jest kwantylem rzędu - ą / 2 N (0,1)
rozkładu normalnego .
1
PRZYKAAD 7.19
Rozważymy zadanie bardzo podobne do poprzedniego. Cecha X elementów populacji generalnej ma nadal
rozkład normalny ale założymy, że tym razem odchylenie standardowe nie jest znane i nie jest
N (, )
znana wartość przeciętna . Należy zbudować dwustronny symetryczny przedział ufności dla wartości
oczekiwanej .
Rozwiązanie
Można przypuszczać, że zadanie można rozwiązać analogicznie jak w przykładzie 7.18. Jednak czytelnik zechce
zauważyć, że tym razem nie możemy wykorzystać zmiennej standaryzowanej (a) z przykładu 7.18 ponieważ nie
znamy wartości . Postąpimy bardzo podobnie jak w poprzednim przykładzie ale zamiast odchylenia
standardowego wykorzystamy jego estymator. Przyjmijmy zatem za estymator średniej statystkę .
X
Zdefiniujemy także statystykę:
n
1
2
(a)
S = X - X )2
"( i
n
i=1
Czytelnik zechce zauważyć, że statystyka (a) odpowiada estymatorowi wariancji (7.10). Wiemy z poprzednich
X -
wykładów, że zmienna losowa ma rozkład t Studenta. Można zatem, analogicznie jak w
n -1
S
przykładzie 7.18 znalezć taką liczbę -1)
że zachodzi:
t(ą,n
ł X - ł
(b)
Pł - t(ą,n -1) < n -1 < t(ą,n -1)ł = 1 - ą
S
ł łł
gdzie P(.) jest prawdopodobieństwem w rozkładzie z n-1 stopniami swobody, natomiast -1)
jest
t(ą,n
kwantylem rzędu - ą / 2
zmiennej o tym rozkładzie.
1
Materiał na prawach rękopisu. Prawa zastrzeżone J.Frączek., Kopiowanie bez zgody autora zabronione. W razie wykrycia błędów proszę
o informację na adres fraczek@meil.pw.edu.pl . Wersja 02 Strona 54
Równanie (b) można przekształcić do postaci:
ł t(ą,n -1)S t(ą,n -1)S ł
(c)
P X - < < X + ł - ą
ł = 1
n -1 n -1
ł łł
A zatem podobnie jak w przykładzie 7.18 zatem przedział losowy:
ł t(ą,n -1)S t(ą,n -1)S ł
(d)
X
ł - , X + ł
n -1 n -1
ł łł
jest dwustronnym symetrycznym przedziałem ufności na poziomie ufności ą dla parametru . Długość
1-
przedziału jest równa:
2t(ą,n -1)
(e)
L = S
n -1
i jest zmienną losową.
PRZYKAAD 7.20
Założymy, że cecha X elementów populacji generalnej ma rozkład nieznany i wiadomo, że odchylenie
standardowe oraz wartość przeciętna istnieją choć nie są znane. Należy zbudować dwustronny
symetryczny przedział ufności dla wartości oczekiwanej .
Rozwiązanie
Tak sformułowane zadanie możemy rozwiązać tylko dla przypadku, gdy n jest duże (co najmniej kilkadziesiąt).
Wykorzystamy twierdzenia graniczne. Przy przyjętych założeniach możemy skorzystać z twierdzenia LL albo
LF i przyjąć, że średnia ma asymptotycznie rozkład normalny . Za oszacowanie nieznanej
X N (, / n )
2
wariancji przyjmiemy estymator (7.10). Powtarzamy rozumowanie z przykładu 7.18, które jest
usprawiedliwione w rozważanym przypadku tylko dla dużych n. Przez analogię otrzymujemy odpowiednik
przedziału ufności (d) z przykładu 7.18.
ł tS tS ł
(a)
X
ł - , X + ł
n n
ł łł
gdzie t jest kwantylem - ą / 2
rozkładu normalnego.
1
PRZYKAAD 7.21
Cecha X elementów populacji ogólnej ma rozkład normalny przy czym jest znana wartość przeciętna
N (, )
2 2
a nie jest znane . Należy zbudować dwustronny przedział ufności dla parametru .
Rozwiązanie:
X -
Rozważmy zmienną losową . Zmienna ta ma rozkład . Wartość z próbki oznaczymy
N (0,1)
Y =
X -
k
. Zmienna losowa zdefiniowana następująco:
Yk =
n
2 2
(a)
n =
"Yi
i=1
ma rozkład chi-kwadrat o n stopniach swobody. Można znalezć dla tego rozkładu (korzystając np. z tablic) dla
2 2
danego ą liczby i takie, że:
1 (ą,n) 2 (ą,n)
n
ł ł
2 2 2
(b)
P 1 < < 2 = 1 - ą
ł ł
"Yi
ł i=1 łł
2 2
Liczby i spełniają warunki:
1 (ą,n) 2 (ą,n)
ą
2 2 2 2
(c)
P( < 1 )= P( > 2 )=
2
Materiał na prawach rękopisu. Prawa zastrzeżone J.Frączek., Kopiowanie bez zgody autora zabronione. W razie wykrycia błędów proszę
o informację na adres fraczek@meil.pw.edu.pl . Wersja 02 Strona 55
2 2
Wynika z powyższego, że liczba jest kwantylem rzędu ą / 2
rozkładu o n stopniach swobody
2 (ą,n)
2
natomiast jest kwantylem rzędu ą / 2
1 (ą,n) 1- .
Korzystając ze wzoru (7.11) otrzymujemy:
2 2
ł nS0 2 nS0 ł
(d)
ł ł
Pł 2 < < = 1 - ą
2
1 2 ł
ł łł
Przedział :
2 2
ł nS0 nS0
ł
(e)
ł , ł
2 2
ł
2 1 ł
ł łł
2
Jest przedziałem ufności dla wariancji na poziomie ufności ą .
1-
Materiał na prawach rękopisu. Prawa zastrzeżone J.Frączek., Kopiowanie bez zgody autora zabronione. W razie wykrycia błędów proszę
o informację na adres fraczek@meil.pw.edu.pl . Wersja 02 Strona 56
Wyszukiwarka
Podobne podstrony:
psychometria wykład, wersja do druku]02
wyklady wersja1
wyklad 7 i 8 wersja krotka
topologia wyklady wersja1 05 2006
MiTE wykład 1 4 wersja
wyklad 7 i 8 wersja dluga
Filozofia wyklad wersja 2
Zarządzanie Inwestycjami wykłady wersja do wydruku
MiTE Zadania seria 2 wersja
Wyklady z topologii (wersja bialo czarna)
wyklad V z RZ BZ MSU 2009 krótkookresowe rachunki decyzyjne wersja bez rozwiązań
Wyklad Spoiwa wersja zminimalizowana
więcej podobnych podstron