RP I 2009 Osekowski WNE wyklad p60 pIRX


Wykład z Rachunku Prawdopodobieństwa
WNE, 2008/2009
1. Podstawowe schematy kombinatoryczne
2. Rys historyczny
3. Przykłady prostych modeli probab: dyskretnych i ciągłych
4. sigma-ciała
5. Intuicja wiodąca do określenia prawdopodobieństwa
6. Aksjomatyka Kołmogorowa
7. Przykłady
8. Podstawowe własnosci prawdopodobienstwa
9. Prawdopodobienstwo warunkowe
10. Niezaleznosc zdarzeń
11. Schemat Bernoulliego
12. Zmienne losowe jednowymiarowe
13. Dystrybuanta zmiennej losowej
14. Parametry rozkładow
15. Charakterystyki liczbowe probki
16. Rozkład łączny zmiennych losowych
17. Niezalezne zmienne losowe
18. Zagadnienie regresji liniowej
19. Przegląd wazniejszych rozkładow prawdopodobienstwa
20. Warunkowa wartość oczekiwana
21. Nierowność Czebyszewa, w stronę praw wielkich liczb
22. Zbiezność według prawdopodobienstwa i prawie na pewno
23. Prawa wielkich liczb
24. Zastosowanie praw wielkich liczb
25. Centralne twierdzenie graniczne
Wyk z Rachunku Prawdopodobieństwa WNE, 2008/2009
lad
1. Podstawowe schematy kombinatoryczne
Wariacje z powtórzeniami. Za óżmy, iż mamy zbiór n elementowy A. Wówczas
l
liczba k-elementowych ciagów o wyrazach ze zbioru A wynosi n · n · . . . · n = nk.

Wariacje bez powtórzeń. Za óżmy, iż mamy zbiór n elementowy A. Wówczas
l
liczba k-elementowych różnowartościowych ciagów o wyrazach ze zbioru A wynosi

n · (n - 1) · . . . · (n - k + 1) = n!/(n - k)!, o ile k d" n, i 0 jeÅ›li k > n.
Permutacje. Sa to wariacje n-elementowe zbioru n-elementowego: inaczej, sa
to ustawienia elementów zbioru w ciag. Ich liczba wynosi n!.

Kombinacje. Za óżmy, że mamy zbiór
l
n elementowy A. Wówczas liczba k-
n
elementowych podzbiorów zbioru A wynosi , gdzie
k


n!
n jeśli k d" n,
k!(n-k)!
=
k
0 w p.p.
2. Rys historyczny
Motywacje:
- gry hazardowe,
- zjawiska masowe (statystyki urodzeń i zgonów).
- aksjomatyka Ko
lmogorowa, 1933 r.
3. Przyk prostych modeli probabilistycznych: dyskretnych i
lady
ciag
lych

Przypuśćmy, że wykonujemy eksperyment losowy. Powstaje natychmiast pyta-
nie: w jaki sposób opisać go matematycznie?
Przede wszystkim, na pewno możemy mówić o jego potencjalnych wynikach:
zdarzenia elementarne to możliwe wyniki tego eksperymentu. Zbiór wszystkich
zdarzeń elementarnych oznaczamy litera &!. Zdarzenie elementarne oznaczamy li-
tera É.
1. Rzut moneta: możliwe dwa wyniki: &! = {O, R}. |&!| = 2.

2. Rzut kostka: możliwe sześć wyników: &! = {1, 2, 3, 4, 5, 6}. |&!| = 6.

3. Rzut dwiema kostkami, patrzymy na sume oczek: &! = {2, 3, . . . , 12}. Za-

uważmy, że, intuicyjnie, wyniki nie sa jednakowo prawdopodobne. Suma 2 zdarza
sie tylko gdy wypad dwie 1; a np. suma 7 zdarza sie, gdy wypadnie 3 i 4, 4 i 3, 2
ly

i 6, itp. |&!| = 11.
4. Z talii kart losujemy 5 kart. Wynikiem jest 5-cioelementowa kombinacja
zbioru zatem &! to zbiór piecioelementowych podzbiorów zbioru 52-elementowego.

kart;

52
|&!| = .
5
5. Rzucamy ig e na stó i mierzymy kat jaki tworzy z wybrana krawedzia sto
l l lu.

Wynik to liczba z przedzia [0, 2Ä„). &! = [0, 2Ä„). Jest to przyk ciag
lu lad lego

doświadczenia losowego.
4. Ã-cia
la
Zdarzenia. Czesto nie interesuje nas konkretny wynik É, ale to, czy należy

on do wcześniej ustalonego podzbioru A zbioru &!. Takie podzbiory A nazywamy
zdarzeniami.
2
Przyk Przy rzucie kostka, może nas np. interesować A = {1, 3, 5} - zdarze-
lad:

nie polegajace na tym, że wypad nieparzysta liczba oczek.
la

JeÅ›li É - wynik, A - zdarzenie, to:
- jeÅ›li É " A, to mówimy, że zasz A badz że É sprzyja A.
lo

- jeÅ›li É " A, to mówimy, że nie zasz A, badz że zasz zdarzenie przeciwne,
/ lo lo

zdefiniowane jako A = &! \ A. A nazywamy też dope
lnieniem zbioru A.
Mp., w przyk z kostka może interesować nas wyrzucenie nieparzystej liczby
ladzie
oczek, badz w przyk z talia kart, może nas interesować zdarzenie: ,,wyloso-
ladzie

waliśmy co najmniej 2 asy .
Szczególne zdarzenia, interpretacje dzia
lań/relacji na zdarzeniach:
&! - zdarzenie pewne,
" - zdarzenie niemożliwe,
A )" B - zasz oba zdarzenia A, B,
ly
A )" B = " - zdarzenia sie wykluczaja (sa roz aczne),
l

A *" B - zasz A lub B,
lo
A - nie zasz A,
lo
A \ B = A )" B - zasz A i nie zasz B,
lo lo
A Ä…" B - A pociaga za soba B.

Przypuśćmy, że mamy &! i chcemy zdefiniować sensowna klase zdarzeń (cokolwiek

to znaczy). Naturalny pomys rozważać 2&! - wszystkie możliwe podzbiory; czasem
l:
jednak ta klasa jest zbyt duża i nie da sie na niej dobrze pracować.

Rozsadna klasa zdarzeń powinna być zamknieta na branie sumy, iloczynu i zda-

rzenia przeciwnego. To prowadzi do pojecia cia oraz Ã-cia
la la.

Definicja 1. Rodzine F podzbiorów &! nazywamy Ã-cia jeÅ›li
lem,

(i) " " F,
(ii) A " F Ò! A " F,
"

(iii) A1, A2, . . . " F Ò! An " F.
n=1
5. Intuicja wiodaca do określenia prawdopodobieństwa - czestość

zdarzeń
Wezmy przyk z moneta. Jeśli rzucamy (te sama) moneta wiele razy, to ocze-
lad

kujemy (i rzeczywiście tak bywa), że orze pojawi sie w przybliżeniu w po
l lowie

przypadków. Tak wiec ,,czestościowo , prawdopodobieństwo wypadniecia or to
la

1/2. Teraz ogólniej: za óżmy, że wykonujemy eksperyment, w którym zbiór zdarzeń
l
elementarnych to &! oraz A jest zdarzeniem. Za óżmy, że powtarzamy ekperyment
l
n razy i definiujemy
liczba zajść A
Án(A) = .
n
Nazywamy te liczbe czestościa zdarzenia A. Gdy n jest duże, spodziewamy sie,

że Án(A) powinno z grubsza mówić o prawdopodobieÅ„stwie A.
3
Spójrzmy na w Án:
lasności
(i) 0 d" Án(A) d" 1,
(ii) Án(&!) = 1,
(iii) A )" B = " Ò! Án(A *" B) = Án(A) + Án(B).
Uwaga: Pożyteczna w Án(A) = 1 - Án(A ).
lasność:
Chcia sie teraz okreÅ›lić prawdopodobieÅ„stwo A jako limn" Án(A). K
loby lopot:

nie wiemy, czy granica istnieje.
Może wiec z drugiej strony: zdefiniować prawdopodobieństwo jako funkcje, która

ma wszystkie w (i)  (iii).
lasności
6. Aksjomatyka Ko
lmogorowa
Niech (&!, F) - ustalone. Wówczas funkcje P : F [0, 1] nazywamy prawdopo-

dobieństwem, jeśli
(i) 0 d" P(A) d" 1,
(ii) P(&!) = 1,
(iii) jeśli A1, A2, . . . " F sa parami roz aczne, to
l


" "

P An = P(An).
n=1 n=1
Trójke (&!, F, P) nazywamy przestrzenia probabilistyczna.

7. Przyk
lady
1. Rzut symetryczna moneta: &! = {O, R}, F = 2&! = {{O}, {R}, &!, "},

P({O}) = 1/2, P({R}) = 1/2, P(&!) = 1, P(") = 0.
2. Rzut niesymetryczna moneta: &! = {O, R}, F = 2&!, P({O}) = p, P({R}) =

1 - p, P(&!) = 1, P(") = 0. Tutaj p jest pewna ustalona liczba z przedzia [0, 1].
lu
3. Rzut kostka: &! = {1, 2, 3, 4, 5, 6}, F = 2&!, P(A) = |A|/6.

4. Schemat klasyczny (prawdopodobieństwo klasyczne). Za óżmy, że &!
l
jest zbiorem skończonym, F = 2&! i wszystkie zdarzenia elementarne sa jednakowo
prawdopodobne. Wówczas, jak latwo sprawdzić, dla A " F,

|A|
P(A) = .
|&!|
5. Z talii 52 kart losujemy jednocześnie pieć kart. Jakie jest prawdopodo-

bieństwo, że wylosujemy cztery asy?
Jak już wiemy, &! to piecioelementowe kombinacje zbioru talii kart. Intuicja

podpowiada, iż zdarzenia elementarne sa równoprawdopdobne, a wiec sensownym

prawdopodobieństwem na &! jest prawdopodobieństwo klasyczne.
Niech A - te podbiory, w których sa cztery asy:
A = {{Ac&, Af&, Ae&, A`&, "} : " - jedna z pozosta 48 kart}.
lych
52
Takich podzbiorów jest 48. A wiec |A| = 48, |&!| = .
5
6. Za óżmy, że &! = {É1, É2, . . . , Én, . . .} - zbiór co najwyżej przeliczalny oraz
l
p1, p2, . . . - liczby nieujemne o sumie 1. Wówczas możemy określić F = 2&! oraz
4
P({wi}) = pi, i = 1, 2, . . .. Wówczas, dla A " F,

P(A) = 1A(wi)pi,
i
gdzie 1A to funkcja wskaznikowa (charakterystyczna) badz indykator zbioru A, dany

przez

1 jeśli x " A,
1A(x) =
0 jeśli x " A.
/
7. Prawdopodobieństwo geometryczne. W wielu sytuacjach, którymi bedziemy

sie zajmować, doświadczenie losowe ma charakter ciag Najprostszym przyk
ly. ladem

jest losowanie punktu ze zbioru &!, leżacego na prostej (lub na p
laszczyznie, czy

ogólniej w przestrzeni Rn) i majacego skończona d (pole powierzchni, miare).
lugość

Zbiorem takim może być np. odcinek, ko kwadrat, kula, sześcian. Zgodnie z
lo,
intuicja naturalnie jest przyja ć, iż prawdopodobieństwo zdarzenia A ą" &! jest pro-
porcjonalne do jego miary, czyli
|A|
P(A) = ,
|&!|
gdzie | · | oznacza miare zbioru. Pojawia sie tu pewien techniczny problem, mia-

nowicie jak zdefiniować Ã-cia F? Okazuje sie, że nie można w naturalny sposób
lo

określic d pola powierzchni, czy objetości na wszystkich podzbiorach &!, nie
lugości,

możemy wiec przyja ć F = 2&! i musimy sie ograniczyć do mniejszego Ã-cia Z
la.

regu w takich sytuacjach rozpatruje sie tzw. Ã-cia borelowskie B(&!), zdefinio-
ly lo

wane jako najmniejsze Ã-cia zawierajace wszystkie zbiory otwarte w &!. Tak, np.
lo

losowanie punktu z ko &! o promieniu r, można opisać przy pomocy przestrzeni
la
probabilistycznej (&!, B(&!), P), gdzie dla A " B(&!),
|A|
P(A) = .
Ä„r2
W podobny sposób możemy również opisać losowanie punktu np. z okregu czy

sfery.
8. Podstawowe w
lasności prawdopodobieństwa
Poniżej sformu kilka podstawowych faktów dotyczacych prawdopodobieństwa.
lujemy

Przyjmujemy, że (&!, F, P) jest ustalona przestrzenia probabilistyczna.

5
Twierdzenie 1. Niech A, B,, A1, A2, . . . " F. Wówczas
(i) P(") = 0.
(ii) Jeśli A1, A2, . . . , An sa parami roz aczne, to
l


n n

P Ai = P(Ai).
i=1 i=1
(iii) P(A ) = 1 - P(A).
(iv) jeśli A ą" B, to P(B \ A) = P(B) - P(A),
(v) jeśli A ą" B, to P(A) d" P(B).
(vi) P(A *" B) = P(A) + P(B) - P(A )" B).

" "

(vii) P Ai d" P(Ai).
i=1 i=1
Dowód. Ile starczy czasu.
Twierdzenie 2 (Wzór w aczeń i wy aczeń). Jeśli A1, A2, . . . , An sa zdarzeniami,
l l

to
n

P(A1 *" A2 *" . . . *" An) = P(Ai) - P(Ai )" Aj) + . . .
i=1 i+ (-1)n+1P(A1 )" A2 )" . . . )" An).
Definicja 2. Za óżmy, że A1, A2, . . . jest ciagiem zdarzeń. Mówimy, że ciag ten
l

jest wstepujacy, jeśli

A1 Ä…" A2 Ä…" A3 Ä…" . . .
oraz że jest zstepujacy, jeśli

A1 ‡" A2 ‡" A3 ‡" . . . .
Twierdzenie 3 (Regu ciag Za óżmy, że (An)" jest ciagiem zdarzeń.
la lości). l
n=1

(i) Jeśli ciag ten jest wstepujacy, to


"

lim P(An) = P An .
n"
n=1
(ii) Jeśli ciag ten jest zstepujacy, to


"

lim P(An) = P An .
n"
n=1
9. Prawdopodobieństwo warunkowe
W praktyce z regu jesteśmy zainteresowani nie tyle pojedynczym zdarzeniem,
ly
co kilkoma zdarzeniami i ich wzajemnymi zwiazkami.

Przyk 1. Na podstawie ankiety przeprowadzonej na pewnym zbiorze klientów
lady
(oznaczmy go litera &!) firma fonograficzna posiada dane na temat ich gustów mu-
zycznych. Przypuśćmy, że kierownictwo jest zainteresowane pytaniem jak czesto

6
fani jazzu lubia także muzyke klasyczna. Jeśli przez J oznaczymy zbiór tych an-

kietowanych, którzy sa fanami jazzu, a przez K zbiór tych ankietowanych, którzy
sa fanami muzyki klasycznej, interesujaca nas czestość jest równa

|J )" K| |J )" K|/|&!|
= .
|J| |J|/|&!|
Zauważmy, że wyrażenia w liczniku i mianowniku to czestości poszczególnych zbiorów

liczone wzgledem ca zbioru &!.
lego

2. Przypuśćmy, że suma oczek przy dwóch rzutach kostka wynosi 4. Nie znamy
jednak wyników poszczególnych rzutów. Jaka jest szansa, że przy pierwszym rzucie
wypad dwa oczka (zdarzenie A)?
ly
Informacja, która posiadamy oznacza, że zasz zdarzenie B = {(1, 3), (2, 2), (3, 1)}.
lo
Intuicja podpowiada nam, że każde z trzech sprzyjajacych mu zdarzeń elementar-

nych powinno być tak samo prawdopodobne, a zatem szukane prawdopodobieństwo
powinno wynosić 1/3 (dwójce przy pierwszym rzucie sprzyja tylko jedno zdarzenie
elementarne z B). Podobnie uważamy, że wszystkie zdarzenia elementarne na prze-
strzeni

&! = (a, b): a, b " {1, 2, 3, 4, 5, 6} ,
opisujacej dwa rzuty kostka, sa jednakowo prawdopodobne. Zatem naturalnym mo-

delem dla naszego doświadczenia jest (&!, 2&!, P), gdzie P jest prawdopodobieństwem
klasycznym
|C|
P(C) = , dla C Ä…" &!.
36
Zauważmy teraz, że
1 1/36 P(A )" B)
= = .
3 3/36 P(B)
Powyższe przyk motywuja nastepujaca definicje
lady

Definicja 3. Niech A, B beda dwoma zdarzeniami, przy czym P(B) > 0. Praw-

dopodobieństwem warunkowym zdarzenia A pod warunkiem zdarzenia B nazywamy
liczbe

P(A )" B)
P(A|B) = .
P(B)
Uwaga Piszac P(A|B) milczaco zak że P(B) > 0.
ladamy,

Przy ustalonym zbiorze B, prawdopodobieństwo warunkowe P(A|B) jako funkcja
zbioru A " F spe aksjomaty Ko
lnia lmogorowa. W konsekwencji posiada wiec

wszystkie w prawdopodobieństwa wprowadzone w paragrafie 8.
lasności
Twierdzenie 4 (Wzór lańcuchowy). Dla dowolnych zdarzeń A1, . . . , An, spe
lniajacych

warunek
P(A1 )" A2 )" . . . )" An-1) > 0,
zachodzi
P(A1 )"A2 )". . .)"An) = P(A1)P(A2|A1)P(A3|A1 )"A2) · · · P(An|A1 )"A2 )". . .)"An-1).
7
Przyk Losujemy po kolei trzy karty bez zwracania. Jakie jest prawdopodo-
lad
bieństwo, że wylosujemy trzy asy?
Niech Ai, i = 1, 2, 3, oznacza prawdopodobieństwo, że i-ta wylosowana karta jest
as. Wiemy, że P(A1) = 4/52. Jeśli pierwsza wylosowana karta jest as, to przed
drugim losowaniem w talii znajduja sie trzy asy. Ponieważ tym razem losujemy

spośród 51 kart, mamy
3
P(A2|A1) = .
51
Analogicznie
2
P(A3|A1 )" A2) = .
50
Stosujac Twierdzenie 4, otrzymujemy

4 3 2
P(wylosujemy trzy asy) = P(A1 )" A2 )" A3) = · ·
52 51 50
Modele probabilistyczne sa czesto zadane poprzez specyfikacje prawdopodobieństw

warunkowych interesujacych nas zdarzeń pod warunkiem innych zdarzeń, których

prawdopodobieństwa znamy. W takich sytuacjach przydatny jest tzw. wzór na
prawdopodobieństwo ca Zanim go sformu wprowadzmy nastepujaca
lkowite. lujemy,

definicje.

Definicja 4. Rozbiciem przestrzeni &! nazywamy dowolna rodzine zdarzeń {Hi}i"I,


taka że Hi )" Hj = " dla i = j oraz Hi = &!.

i"I
Jeśli zbiór indeksujacy I jest skończony (odp. przeliczalny) to rozbicie nazywamy

skończonym (odp. przeliczalnym).
Twierdzenie 5 (Wzór na prawdopodobieństwo ca
lkowite). Dla dowolnego skończonego
rozbicia {H1, H2, . . . , Hn} zbioru &! na zbiory o dodatnim prawdopodobieństwie i do-
wolnego zdarzenia A,
n

P(A) = P(A|Hi)P(Hi).
i=1
Analogiczny wzór zachodzi także dla rozbicia na przeliczalna liczbe zdarzeń o dodat-

nim prawdopodobieństwie.
Przyk Egzamin ustny przeprowadzany jest przez panów Dobrego i Z
lad lego.
Egzamin u pana Dobrego zdaje 90% studentów, a u pana Z zaledwie 10%.
lego
Jakie jest prawdopodobieństwo, że student zda egzamin jeśli prawdopodobieństwo,
że trafi do pana Dobrego wynosi 2/3?
Niech D, Z oznaczaja zdarzenia, że student trafi odpowiednio do pana Dobrego
l
lub Z zaś OK zdarzenie, że student zda egzamin. Mamy P(D) = 2/3, P(Z) =
lego,
1/3 oraz P(OK|D) = 9/10, P(OK|Z) = 1/10. Zatem
9 2 1 1 19
P(OK) = P(OK|D)P(D) + P(OK|Z)P(Z) = · + · = .
10 3 10 3 30
Kolejne twierdzenie, blisko zwiazane ze wzorem na prawdopodobieństwo ca
lkowite,

jest bardzo ważne w zastosowaniach.
8
Twierdzenie 6 (Wzór Bayesa). Niech {Hi}i"I bedzie przeliczalnym rozbiciem &!

na zdarzenia o dodatnich prawdopodobieństwach. Wówczas, dla dowolnego zdarze-
nia A o dodatnim prawdopodobieństwie, zachodzi
P(A|Hj)P(Hj)

P(Hj|A) =
P(A|Hi)P(Hi)
i"I
Przyk Samochody sprzedawane przez pewna firme pochodza z dwóch fa-
lad

bryk, A (40%) oraz B (60%). Co dwudziesty samochód z fabryki A zawiera wade

fabryczna. To samo dotyczy co dziesiatego samochodu z fabryki B. Klient ku-

puje samochód, który okazuje sie być wadliwy. Jakie jest prawdopodobieństwo, że

pochodzi z fabryki A?
Z warunków zadania otrzymujemy, że
1 1
P(samochód wadliwy|A) = , P(samochód wadliwy|B) =
20 10
4 6
P(A) = , P(B) = ,
10 10
gdzie A, B oznaczaja oczywiście zdarzenia, że samochód pochodzi z fabryki odpo-
wiednio A, B. Z wzoru Bayesa otrzymujemy
P(samochód wadliwy|A)P(A)
P(A|samochód wadliwy) =
P(samochód wadliwy|A)P(A) + P(samochód wadliwy|B)P(B)
1/20 · 4/10 1
= = .
1/20 · 4/10 + 1/10 · 6/10 4
10. Niezależność zdarzeń
Przypuśćmy, że zdarzenia A, B spe warunek
lniaja
(1) P(B|A) = P(B).
Oznacza to, że dodatkowa wiedza, że zasz zdarzenie A, nie wp na prawdo-
lo lywa
podobieństwo zdarzenia B. Można wiec powiedzieć, że zdarzenie B jest niezależne

od zdarzenia A. Powyższy warunek zapisuje sie równoważnie jako

(2) P(A )" B) = P(A)P(B).
W szczególności widzimy, że jeśli (1) zachodzi oraz P(B) > 0, to
P(A|B) = P(A),
czyli również zdarzenie A nie zależy od zdarzenia B. Zapis (2) ma te zalete, że

lepiej niż (1) obrazuje symetrie sytuacji, dodatkowo ma sens także dla zdarzeń o

zerowym prawdopodobieństwie. Naturalne jest wiec przyja ć nastepujaca definicje.

Definicja 5. Zdarzenia A, B nazywamy niezależnymi jeśli
P(A )" B) = P(A)P(B).
Przyk 1. Rzucamy kostka. Rozpatrzmy zdarzenia: A - wypad parzysta
lady la

liczba oczek, B - liczba wyrzuconych oczek jest mniejsza niż 5, C - liczba wyrzuco-
nych oczek jest mniejsza niż 6. Oczywiście P(A) = 1/2, P(B) = 2/3, P(C) = 5/6.
9
Zdarzenia A i B sa niezależne natomiast zdarzenia A i C nie sa niezależne. Rze-
czywiście
1
P(A )" B) = P(wypad 2 lub 4 oczka) = = P(A)P(B),
ly
3
1
P(A )" C) = P(A )" B) = = P(A)P(C).

3
2. W ramach nagrody firma wykupi dla pracowników dwa rodzaje wycieczek, w
la
góry i nad morze. Wśród 12 pracowników rozdzielono w sposób losowy 8 wycieczek
nad morze, z czego dwie w lipcu, a sześć w sierpniu oraz cztery wycieczki w góry,
jedna w lipcu i trzy w sierpniu. Niech M oznacza zdarzenie, że ustalony pracownik
wylosuje wycieczke nad morze, zaś L - zdarzenie, że ten sam pracownik wylosuje

termin lipcowy. Mamy P(M) = 8/12, p(L) = 3/12 oraz P(M )"L) = 2/12. Ponieważ
8/12 · 3/12 = 2/12, zdarzenia M i L sa niezależne.
3. Losujemy jedna karte z talii. Zdarzenie A, polegajace na wylosowaniu karty

starszej niż walet i zdarzenie B, polegajace na wylosowaniu karty w kolorze trefl sa

niezależne. Rzeczywiście, P(A) = 12/52 (wylosowana karta musi byc dama, królem

lub asem w jednym z czterech możliwych kolorów), P(B) = 1/4 oraz P(A )" B) =
P(wylosowano dame, króla lub asa trefl) = 3/52 = P(A)P(B).

Pytanie Co sie zmieni gdy do talii dodamy jednego jokera (przyjmujemy, że

joker nie ma żadnego koloru)?
4. Rzucamy dwa razy moneta. Niech Oi oznacza zdarzenie, że w i-tym rzu-

cie wypad orze Intuicyjnie uważamy te zdarzenia za niezależne (przynajmniej
l l.
zak że osoba rzucajaca moneta nie oszukuje). W klasycznym modelu pro-
ladajac,

babilistycznym dla monety symetrycznej, gdy prawdopodobieństwo każdej z czte-
rech sekwencji (O, O), (O, R), (R, O), (R, R) wynosi 1/4, latwo sprawdzić (por. z

poprzednim przyk że rzeczywiście tak jest (P(O1 )" O2) = P(O1)P(O2)).
ladem),
Zastanówmy sie wiec jak zdefiniować prawdopodobieństwo P na zbiorze

&! = {(O, O), (O, R), (R, O), (R, R)},
tak aby prawdopodobieństwo wyrzucenia or wynosi p (zarówno w pierwszym,
la lo
jak i drugim rzucie), a zdarzenia O1, O2 nadal by niezależne. Musimy w tym celu
ly
ustalić cztery liczby p(O,O), p(O,R), p(R,R), p(R,R). Chcemy aby
P({(O, O), (O, R)}) = P({(O, O), (R, O)}) = p oraz
P({(O, O)}) = p2,
skad dostajemy równania

p(O,O) + p(O,R) = p(O,O) + p(R,O) = p
p(O,O) = p2.
Zatem p(R,O) = p(R,O) = p(1 - p). Ponieważ p(O,O) + p(O,R) + p(R,O) + p(R,R) = 1,
ostatecznie dostajemy
p(O,O) = p2
p(O,R) = p(R,O) = p(1 - p)
p(R,R) = (1 - p)2
10
Można również mówić o niezależności wiekszej liczby zdarzeń. Definicja okazuje

sie jednak bardziej skomplikowana.

Definicja 6. Zdarzenia A1, . . . , An nazywamy niezależnymi, jeśli
(3) P(Ai )" Ai )" . . . )" Ai ) = P(Ai ) · P(Ai ) · . . . · P(Ai ),
1 2 k 1 2 k
dla dowolnych wskazników 1 d" i1 < i2 < . . . < ik d" n, k = 2, 3, . . . , n.
Przyk
lady
1. Losujemy liczbe od 1 do 90. Rozważmy zdarzenia A - wylosowana liczba jest

podzielna przez 2, B - wylosowana liczba jest podzielna przez 3, C - wylosowana
liczba jest podzielna przez 5. Wówczas, jak latwo sprawdzić

1
P(A) = , P(B) = 1/3, P(C) = 1/5
2
oraz
1
P(A )" B) = = P(A)P(B)
6
1
P(A )" C) = = P(A)P(C)
10
1
P(B )" C) = = P(B)P(C)
15
1
P(A )" B )" C) = = P(A)P(B)P(C).
30
Zdarzenia A, B, C sa zatem niezależne.
2. Można sie zastanawiać, czy powyżej musieliśmy sprawdzać prawdopodo-

bieństwa wszystkich czterech iloczynów zbiorów. Okazuje sie, że tak, co ilustruje

nastepujacy przyk
lad.

Trzech wspó
llokatorów (Bartek, Czarek i Darek) decyduje sie oddać butelki do

skupu. Zadanie wymaga udzia dwóch osób. Przygotowuja wiec cztery losy
lu

{Bartek, Czarek, Darek, Za tydzień}, aby zadecydować czy dwóch z nich zda bu-
telki, a wylosowany zostanie w domu, czy też od problem na przysz tydzień.
loża ly
Rozważmy zdarzenia
B = {Bartek, Za tydzień} - Bartek zostanie w domu
C = {Czarek, Za tydzień} - Czarek zostanie w domu
D = {Darek, Za tydzień} - Darek zostanie w domu.
Zauważmy, że prawdopodobieństwo każdego ze zdarzeń B, C, D wynosi 1/2. Po-
nadto
1
P(B )" C) = = P(B)P(C)
4
1
P(B )" D) = = P(B)P(D)
4
1
P(C )" D) = = P(C)P(D).
4
Zatem każde dwa spośród zdarzeń B, C, D sa niezależne. Zdarzenia A, B, C nie sa
jednak niezależne, gdyż
1 1
P(B )" C )" D) = P({Za tydzień}) = = = P(B)P(C)P(D).

4 8
W takiej sytuacji mówimy, że zdarzenia B, C, D sa niezależne parami.
11
Twierdzenie 7. Rozważmy zdarzenia A1, A2, . . . , An i oznaczmy A0 = Ai, A1 =
i i
A . Wówczas nastepujace warunki sa równoważne,
i

(i) zdarzenia A1, . . . , An sa niezależne,
(ii) dla każdego ciagu µ1, . . . , µn, gdzie µi " {0, 1} (i = 1, . . . , n), zdarzenia

1
n
B1 = Aµ , . . . , Bn = Aµ , sa niezależne,
1 n
(iii) dla każdego ciagu µ1, . . . , µn, gdzie µi " {0, 1} (i = 1, . . . , n), zachodzi

1 n 1 n
P(Aµ )" . . . )" Aµ ) = P(Aµ ) · . . . · P(Aµ )
1 n 1 n
W szczególności, z powyższego twierdzenia wynika, że jeśli zdarzenia A, B sa
niezależne, to niezależne sa także zdarzenia A , B . Fakt ten pozwala uprościć nieco
rachunki w przyk 4 powyżej.
ladzie
11. Schemat Bernoulliego
Definicja 7. Schematem Bernoulliego nazywamy ciag niezależnych powtórzeń tego

samego doświadczenia, w którym sa możliwe dwa wyniki: jeden z nich nazywamy
sukcesem (i prawdopodobieństwo jego zajścia oznaczamy przez p), a drugie - porażka
(jego prawdopodobieństwo wynosi q = 1 - p). Pojedyncze doświadczenie nazywamy
próba Bernoulliego.
Schemat Bernoulliego jest jednoznacznie określony przez podanie liczby prób
(oznaczanej dalej litera n) i prawdopodobieństwa sukcesu p. Można też rozpa-
trywać schematy Bernoulliego z nieskończona liczba prób.
Przyk
lady:
1. Rzucamy 10 razy prawid moneta. Próba Bernoulliego jest pojedynczy
lowa
rzut moneta, jako sukces przyjmujemy wyrzucenie or Mamy n = 10, p = 1/2.
la.

2. Rzucamy 5 razy prawid kostka. Próba Bernoulliego jest pojedynczy rzut
lowa
kostka, jako sukces przyjmujemy wyrzucenie co najwyżej 2 oczek. Mamy n = 5,

p = 1/3.
3. Z urny, w której znajduje sie 5 bia i 4 czarne kule, losujemy 20 razy ze
lych

zwracaniem po 2 kule. Próba Bernoulliego jest pojedyncze losowanie dwóch
5 kul,

9
jako sukces bierzemy wylosowanie dwóch bia kul. Mamy n = 20, p = / .
lych
2 2
Latwo jest podać przestrzeń probabilistyczna modelujaca schemat Bernoulliego


sk
ladajacego sie z n prób i prawdopodobieństwie sukcesu p. Mianowicie,

&! = {(a1, a2, . . . , an) : ai " {0, 1}, i = 1, 2 . . . , n},
gdzie ai = 1 (odp., ai = 0) interpretujemy jako sukces (odp., porażke) w i-tej próbie,

i = 1, 2, . . . , n. Ponadto, bierzemy F = 2&!. Aby określić prawdopodobieństwo na
(&!, F), wystarczy określić je na zdarzeniach jednoelementowych (patrz przyk 6
lad
ze strony 3). K
ladziemy
Pn Pn
ai
i=1 i=1
P({(a1, a2, . . . , an)}) = p (1 - p)n- an.
Stad latwo wynika, iż prawdopodobieństwo uzyskania dok k sukcesów w
ladnie

schemacie Bernoulliego sk
ladajacego sie z n prób wynosi


n
pk(1 - p)n-k.
k
Przyk
lady:
12
1. Rzucamy 10 razy kostka. Jakie jest prawdopodobieństwo tego, że szóstka

wypadnie raz lub dwa razy?
Mamy tu do czynienia ze schematem Bernoulliego sk
ladajacego sie z 10 prób.

Próba Bernoulliego jest pojedynczy rzut kostka, a sukcesem jest wyrzucenie 6 oczek;

zatem p = 1/6. Wobec tego
P(szóstka wypadnie raz lub dwa razy) = P(jeden sukces) + P(dwa sukcesy)
1 9 2 8
10 1 5 10 1 5
= + .
1 6 6 2 6 6
2. Dany jest schemat Bernoulliego sk
ladajacy sie z n prób, o prawdopodo-

bieństwie sukcesu p. Jaka jest najbardziej prawdopodobna liczba sukcesów?
Oznaczmy

n
pk = P(mamy dok k sukcesów) = pk(1 - p)k.
ladnie
k
Mamy

n
pk+1 k+1 pk+1(1 - p)n-(k+1) (n - k)p
n
= = .
pk (k + 1)(1 - p)
pk(1 - p)n-k
k
Powyższe wyrażenie jest wieksze niż 1 wtedy i tylko wtedy, gdy k < (n + 1)p - 1;

jest zaś mniejsze niż 1 wtedy i tylko wtedy, gdy k > (n + 1)p - 1. Innymi s
lowy,
do momentu k = (n + 1)p liczby pk rosna, a potem maleja. Daje to nastepujaca

odpowiedz. Jeśli (n + 1)p jest liczba ca to dwie liczby sukcesów sa najbar-
lkowita,

dziej prawdopodobne: (n + 1)p - 1 oraz (n + 1)p. Jeśli zaś (n + 1)p nie jest liczba
ca to najbardziej prawdopodobna liczba sukcesów jest (n + 1)p .
lkowita,

W przypadku, gdy liczba prób w schemacie Bernoulliego jest duża, oblicza-
nie prawdopodobieństwa danej liczby sukcesów jest k
lopotliwe. W przypadku
gdy np jest ,,umiarkowane , dobre przybliżenie takiego prawdopodobieństwa daje
nastepujace twierdzenie.

Twierdzenie 8 (Poissona). Jeśli pn " [0, 1], limn" npn =  > 0, to dla k =
0, 1, 2, . . . ,

n k
lim pk (1 - pn)n-k = e-.
n
n"
k k!
Powstaje naturalne pytanie, na ile powyższe przybliżenie jest ,,dobre . Odpo-
wiedz jest zawarta w nastepujacym twierdzeniu.

Twierdzenie 9 (Oszacowanie b edu w przybliżeniu poissonowskim). Niech Sn
l

oznacza liczbe sukcesów w schemacie Bernoulliego sk
ladajacego sie z n prób i praw-

dopodobieÅ„stwie sukcesu p. Oznaczmy  = np. Dla dowolnego zbioru A ‚" {0, 1, 2, . . .},


P(S " A) - k 2
e- d" .

n
k! n
k"A
Przyk
lady:
1. W urnie znajduje sie 999 czarnych i 1 bia kula. Wyznaczyć przybliżone
la

prawdopodobieństwo tego, że losujac 500 razy ze zwracaniem wylosujemy 2 razy

bia a kule.
l

Mamy tu do czynienia ze schematem 500 prób Bernoulliego (z których każda to
pojedyncze losowanie z urny), o prawdopodobieństwie sukcesu p = 1/1000. Liczba
13
prób n = 500 jest duża,  = np = 1/2 jest umiarkowane, a wiec na mocy twierdzenia

(1/2)2
Poissona, szukane prawdopodobieństwo jest w przybliżeniu równe e-1/2 =
2!
0, 076 . . . . Ponadto, jak widać z powyższego twierdzenia, b ad oszacowania jest
l

niewiekszy niż 2/n = 1/2000 = 0, 002.

2. Artyku liczy 105 znaków. Podczas wprowadzania artyku do komputera,
l lu
prawdopodobieństwo iż dany znak zostanie wpisany b ednie wynosi 0, 0001. Jakie
l

jest prawdopodobieństwo, że w artykule sa co najmniej 2 b edy?
l

Widzimy, iż mamy do czynienia ze schematem Bernoulliego sk
ladajacego sie z

n = 105 prób (k-ta z nich odpowiada wprowadzeniu k-tego znaku artyku Praw-
lu).
dopodobieństwo sukcesu (wprowadzenia znaku b ednie) wynosi p = 0, 0001. Mamy,
l

iż n jest duże, a  = np = 10 jest umiarkowane; stad możemy używać twierdzenia

Poissona. Latwiej jest pracować ze zdarzeniem przeciwnym do rozważanego: w

artykule jest co najwyżej 1 b ad. Prawdopodobieństwo tego zdarzenia wynosi w
l

przybliżeniu
100 101
e-10 + e-10 = 11e-10 = 0, 0005 . . . ,
0! 1!
a wiec rozważane w przyk prawdopodobieństwo wynosi oko 0, 9995. B ad
ladzie lo l

przybliżenia szacuje sie przez 2/n = 0, 001.

3. Z przedzia [0, 2] wybieramy losowo 100 punktów. Jakie jest prawdopodo-
lu
bieństwo tego, że co najmniej jeden z nich bedzie należa do odcinka [0, 1/4]?
l

Mamy schemat n = 100 prób Bernoulliego z prawdopodobieństwem sukcesu
(wpadniecie losowanego punktu do [0, 1/4]) wynoszacym p = 1/8. Mamy  = np =

12, 5 i zdarzenie przeciwne do badanego ma w przybliżeniu prawdopodobieństwo
e-12,5 = 0, 000004 . . .. B ad przybliżenia szacuje sie przez 2/n = 1, 5625. Widać
l

wiec, że otrzymany wynik jest bezwartościowy. Jest tak dlatego, iż , w porównaniu

do n, nie jest ,,umiarkowane .
12. Zmienne losowe jednowymiarowe
Jak już wiemy, matematycznym opisem doświadczenia losowego jest przestrzeń
probabilistyczna (&!, F, P). Czesto jednak nie interesuje nas konkretny wynik É " &!,

ale pewne charakterystyki liczbowe wyniku. Np., przy rzucie dwoma kostkami może
nas interesować suma oczek; przy nieskończonym ciagu rzutów moneta może nas

interesować numer losowania, w którym orze pojawi sie po raz pierwszy, itp. In-
l l

nymi s czesto obiektem naszych zainteresowań jest pewna funkcja X określona
lowy,

na &!, przyjmujaca wartości rzeczywiste. Przy badaniu takiej funkcji, naturalnym

pytaniem jest np. pytanie o prawdopodobieństwo tego, że X d" a (por. powyższe
przyk W szczególności oznacza to, iż ,,X nie przekracza a jest zdarzeniem,
lady).
tzn.
X-1((-", a]) = {É " &! : X(É) d" a} " F.
Prowadzi to do nastepujacego pojecia.

Definicja 8. Funkcje X : &! R nazywamy zmienna losowa o wartościach w R,

jeśli dla dowolnego a " R zbiór X-1((-", a]) jest zdarzeniem, czyli X-1((-", a]) "
F.
Uwaga: Gdy &! jest zbiorem co najwyżej przeliczalnym i F = 2&!, to każda
funkcja X : &! R jest zmienna losowa.

Przyk
lady:
14
1. Rzucamy dwa razy kostka, X - liczba wyrzuconych or ów. Mamy &! =
l

{(O, O), (O, R), (R, O), (R, R)} i X((O, O)) = 2, X((O, R)) = X((R, O)) = 1,
X((R, R)) = 0.
2. Rzucamy dwa razy kostka, X - suma oczek. Mamy &! = {(a, b) : a, b "

{1, 2, 3, 4, 5, 6}}, X((a, b)) = a + b.
3. Z odcinka [0, 3] wybieramy punkt, X - jego odleg od najbliższej liczby
lość
ca
lkowitej. Wówczas &! = [0, 3] i dla É " &!,
Å„Å‚
ôÅ‚
ôÅ‚É jeÅ›li É " [0, 1/2],
ôÅ‚
òÅ‚|É - 1| jeÅ›li É " (1/2, 3/2],
X(É) =
ôÅ‚|É - 2| jeÅ›li É " (3/2, 5/2],
ôÅ‚
ôÅ‚
ół
3 - É jeÅ›li É " (5/2, 3].
Na zmiennych losowych (określonych na tej samej przestrzeni probabilistycz-
nej) można wykonywać wszelkie (rozsadne...) dzia dodawanie, odejmowanie,
lania:

mnożenie, dzielenie (o ile nie dzielimy przez 0) i jako wynik otrzymujemy nowe
zmienne losowe. Ponadto, jeśli X jest zmienna losowa, a f : R R jest funkcja

borelowska, to f(X) też jest zmienna losowa. Np., jeśli X, Y sa zmiennymi loso-

2 X
wymi, to Z1 = sin X, Z2 = 3 sin X + Y , Z3 = także sa zmiennymi losowymi.
2
Y +1
Przechodzimy teraz do pojecia rozk zmiennej losowej. Zacznijmy od kilku
ladu

przyk
ladów.
1. Rzucamy trzy razy symetryczna moneta. Niech X oznacza liczbe wyrzuconych

or ów. Korzystajac ze schematu Bernoulliego obliczamy, iż
l

1 3 3 1
P(X = 0) = , P(X = 1) = , P(X = 2) = , P(X = 3) = .
8 8 8 8
Widzimy wiec, że 0 oraz 3 sa przyjmowane z prawdopodobieństwem 1/8, a 1 i 2 -

z prawdopodobieństwem 3/8. Widać, że dostajemy pewien rozk prawdopodo-
lad
bieństwa na prostej.
Niech teraz Y - liczba wyrzuconych reszek. Wówczas tak samo: 0 oraz 3 sa
przyjmowane przez zmienna Y z prawdopodobieństwem 1/8, a 1 i 2 - z prawdopo-
dobieństwem 3/8. Tak wiec dostajemy to samo prawdopodobieństwo na prostej.

2. Z ko o promieniu 1 losujemy punkt. Niech X oznacza odleg tego punktu
la lość
od środka ko Wówczas X przyjmuje wartości z przedzia [0, 1]. Dla a " [0, 1]
la. lu
mamy
Ä„a2
P(X " [0, a]) = = a2,
Ä„
a wiec potrafimy ,,mierzyć wielkość przedzia ów [0, a]. Okazuje sie, iż podana
l

funkcje można rozszerzyć do prawdopodobieństwa określonego na prostej. Zależy

ono oczywiście od zmiennej X.
Z powyższych dwóch przyk widać, iż przy ustalonej zmiennej losowej X,
ladów
prawdopodobieństwo z wyjściowej przestrzeni probabilistycznej daje sie ,,przetrans-

portować do prawdopodobieÅ„stwa µX na (R, B(R)). Prowadzi to do pojecia

rozk zmiennej losowej.
ladu
Definicja 9. Rozk zmiennej losowej rzeczywistej X nazywamy prawdopodo-
ladem
bieÅ„stwo µX na (R, B(R)), dane wzorem
µX(A) = P(X " A).
15
Uwaga: Istnieja różne zmienne losowe majace ten sam rozk Por. przyk
lad. lad

1 powyżej.
Przyk
lady:
1. Rzucamy raz kostka. niech X oznacza liczbe oczek. Wówczas µX jest to

prawdopodobieństwo skoncentrowane na zbiorze {1, 2, 3, 4, 5, 6}, takie, że
1
µX({k}) = .
6
Tak wiec, dla A " B(R),

6

1
µX(A) = 1A(k).
6
k=1
2. Powyższy rozk jest przyk rozk dyskretnego. Rozk na prostej
lad ladem ladu lad
rzeczywistej nazwiemy dyskretnym, jeśli istnieje co najwyżej przeliczalny zbiór S
taki, że µ(S) = 1. Rozk taki jest jednoznacznie wyznaczony przez masy (praw-
lad
dopodobieństwa) punktów należacych do S (ściślej, jednoelementowych podzbiorów

S): istotnie, dla dowolnego A " B(R),

µ(A) = µ({k}).
k"A
3. Rozk Bernoulliego B(n, p). Jest to rozk zmiennej losowej X określonej
lad lad
jako liczba sukcesów w schemacie Bernoulliego sk
ladajacego sie z n prób o prawdo-

podobieństwie sukcesu p. Dany jest on poprzez

n
µ({k}) = pk(1 - p)n-k, k = 0, 1, 2, . . . , n.
k
4. Rozk geometryczny z parametrem p " (0, 1), ozn. Geom(p). Jest to
lad
rozk zmiennej losowej X określonej jako numer próby, w której sukces pojawi
lad l
sie po raz pierwszy. Jest to rozk skoncentrowany na zbiorze {1, 2, . . . , "}.
lad

Ponadto, mamy
µX({k}) = (1 - p)k-1p, k = 1, 2, . . .
oraz
"

µX({"}) = 1 - µX({k}) = 0.
k=1
Czasami rozk geometrzycznym nazywamy rozk zmiennej Y = X - 1,
ladem lad
określony przez
µY ({k}) = (1 - p)kp, k = 0, 1, 2, . . . .
5. Rozk Poissona z parametrem  > 0, ozn. Pois(). Jest to taki rozk
lad lad
skoncentrowany na liczbach ca
lkowitych nieujemnych, że
k
µ({k}) = e-.
k!
Jak wiadomo z twierdzenia Poissona, jest to rozk graniczny, bedacy granica
lad

rozk Bernoulliego.
ladów
6. Przyk rozk ciag rozk jednostajny na odcinku [a, b], ozn. U(a, b).
lad ladu lego: lad

Za óżmy, że losujemy liczbe X z odcinka [a, b]. Wówczas, z prawdopodobieństwa
l

16
geometrycznego, mamy, dla przedzia [c, d] ‚" [a, b],
lu

d
|[c, d]| d - c 1 1
µX([c, d]) = P(X " [c, d]) = = = dx = dx.
|[a, b]| b - a b - a b - a
c [c,d]
Ogólniej, jeśli A jest borelowskim podzbiorem [a, b], to

|A| 1 1
µX(A) = P(X " A) = = |A| = dx.
|[a, b]| b - a b - a
A
Jeszcze ogólniej, gdy A ‚" R, to bierzemy µX(A) = µX(A )" [a, b]).
7. Inny przyk rozk ciag Za óżmy, że rzucamy moneta, dla której
lad ladu lego. l

prawdopodobieństwo wypadniecia or wynosi 1/3. Dalej, jeśli wypadnie orze to
la l,

losujemy punkt X z odcinka [-2, 0), natomiast gdy wypadnie reszka - losujemy
punkt X z odcinka [0, 3]. Argumentujac jak w poprzednim przyk mamy, iż
ladzie

dla borelowskiego podzbioru [-1, 0),

2 1
µX(A) = P(X " A) = · dx,
3 3 - 0
A
a dla borelowskiego podzbioru A odcinka [-2, 0),

1 1
µX(A) = · dx.
3 0 - (-2)
A
Ogólnie, gdy A jest podzbiorem borelowskim prostej, to

µX(A) = g(x)dx,
A
gdzie
Å„Å‚
1
ôÅ‚ jeÅ›li x " [-2, 0),
òÅ‚
6
2
g(x) = jeśli x " [0, 3],
9
ôÅ‚
ół0 w pozosta przypadkach.
lych
Powyższe dwa przyk to przyk rozk z gestościa badz rozk
lady lady ladów ladów

ciag
lych.

Definicja 10. Zmienna losowa X ma rozk ciag jeśli istnieje taka funkcja
lad ly,

g : R R+, że dla dowolnego zbioru A " B(R),

µX(A) = P(X " A) = g(x)dx.
A
Wówczas funkcje g nazywamy gestościa rozk zmiennej X badz gestościa zmien-
ladu

nej X.
Uwaga: Gestość jednoznacznie wyznacza rozk
lad.

Przyk - c.d.
lady
8. Przyk 6 możemy wiec zapisać nastepujaco: rozk jednostajny U(a, b) to
lad lad

rozk z gestościa
Lad

1
g(x) = 1[a,b](x).
b - a
9. Rozk wyk lad
lad ladniczy z parametrem  > 0, ozn. Exp(). Jest to rozk z
gestościa

g(x) = e-x1[0,")(x).
17
10. Standardowy rozk normalny, ozn. N (0, 1). Jest to rozk o gestości
lad lad

1 2
"
g(x) = e-x /2.
2Ä„
Ogólniej, dla a " R oraz à > 0 definiujemy rozk normalny o parametrach a, Ã2
lad
(ozn. N (a, Ã2)) jako rozk o gestoÅ›ci
lad


1 (x - a)2
"
ga,Ã2(x) = exp - .
2Ã2
2Ä„Ã
Dodatkowo dla à = 0, definiujemy N (a, 0) jako rozk jednopunktowy ´a (tzw.
lad
delta Diraca w a), zadany wzorem

1 gdy a " A
´a(A) = 1A(a) =
0 w p.p.
Jak widzimy N (a, Ã2) jest rozk ciag dla à > 0 i dyskretnym dla à = 0.
ladem lym

Uwaga Rozk normalne należa do najważniejszych rozk w rachunku
lady ladów
prawdopodobieństwa. Pojawiaja sie one niezwykle czesto w zastosowaniach, ze

wzgledu na fakt, że wiele wystepujacych w przyrodzie wielkości ma rozk w przy-
lad

bliżeniu normalny. Wykres gestości rozk normalnego ciag to charaktery-
ladu lego

styczna krzywa o kszta ,,dzwonu , znana chociażby z opracowań popularnych,
lcie
gdzie ilustruje np. rozk wzrostu, wagi, ilorazu inteligencji czy innych cech w po-
lad
pulacji. W dalszej cześci wyk poznamy tzw. Centralne twierdzenie graniczne,
ladu

które stanowi matematyczne wyjaśnienie faktu pojawiania sie gestości normalnej w

tak wielu, czesto dość odleg problemach.
lych

13. Dystrybuanta zmiennej losowej
Jak już wspomniano w poprzednim rozdziale, z regu jesteśmy zainteresowani
ly
zdarzeniami typu {É " &!: X(É) d" a} = {X d" a}, gdzie X jest zmienna losowa, zaÅ›

a  liczba rzeczywista. Zdarzenia tego typu maja podstawowe znaczenie dla bada-

nia zmiennych losowych, w szczególności, jak zobaczymy nieco pózniej, znajomość
prawdopodobieństwa P(X d" a) dla wszystkich a " R wyznacza jednoznacznie
rozk zmiennej. Dlatego też wprowadza sie nastepujaca definicje.
lad

Definicja 11. Dystrybuanta zmiennej losowej X : &! R nazywamy funkcje FX : R

[0, 1], dana wzorem
FX(t) = P(X d" t).
Uwaga. Ponieważ dystrybuanta zależy jedynie od rozk zmiennej losowej X,
ladu
czasami mówimy o dystrybuancie rozk (a nie zmiennej).
ladu
Przyk
lady
1. Dystrybuanta zmiennej X o rozk ´a (czyli przyjmujacej z prawdopodo-
ladzie

bieństwem 1 wartość a) jest dana wzorem

0 dla t < a
FX(t) =
1 dla t e" a.
18
2. Dystrybuanta zmiennej dwupunktowej, przyjmujacej wartości 1, -1, każda z

prawdopodobieństwem 1/2 jest funkcja
Å„Å‚
ôÅ‚
òÅ‚0 dla t " (-", -1)
F (t) = 1/2 dla t " [-1, 1)
ôÅ‚
ół1 dla t " [1, ").
3. Jeśli Y jest zmienna o rozk wykladniczym z parametrem 1, czyli o
ladzie
gestości gY (t) = e-t1[0,")(t), to


t
FX(t) = P(Y d" t) = g(x)dx = [e-x1[0,")(x)]x=t = (1 - e-t)1[0,")(t).
x=-"
-"
Powyższe przyk sugeruja, że dystrybuantami zmiennych losowych moga być
lady

tylko funkcje szczególnego typu. Mówi o tym poniższe twierdzenie.
Twierdzenie 10. Dystrybuanta FX zmiennej losowej X ma nastepujace w
lasności:

(i) FX jest niemalejaca,

(ii) limt" FX(t) = 1, limt-" FX(t) = 0,
(iii) FX jest prawostronie ciag
la.
Uwaga Czasami w literaturze, szczególnie tej nieco starszej, definiuje sie dys-

trybuante wzorem FX(t) = P(X < t) (czyli używajac ostrej nierówności). Tak

zdefiniowana dystrybuanta posiada w (i), (ii), ale wlasność (iii) zostaje
lasności
zastapiona warunkiem lewostronnej ciag
lości.

Okazuje sie, że powyższe twierdzenie można odwrócić, mianowicie każda funkcja

spe warunki (i) (iii) jest dystrybuanta pewnej zmiennej losowej.
lniajaca

Twierdzenie 11. Jeśli funkcja F : R R spe warunki (i) (iii), to istnieje
lnia
przestrzeń probabilistyczna (&!, F, P) oraz zmienna losowa X : &! R, taka że F
jest dystrybuanta X. Co wiecej rozk zmiennej X jest wyznaczony jednoznacznie.
lad

Zatem w dystrybuancie zmiennej X ,,zakodowane sa wszystkie informacje o jej
rozk w szczególności powinniśmy móc odczytać z niej czy zmienna X ma
ladzie,
gestość albo czy X jest zmienna dyskretna.

Przyk
lad
Rozważmy dyskretna zmienna losowa, przyjmujaca wartości t1 < t2 < . . . < tn,

przy czym P(X ti) = pi (zak że zmienna nie przyjmuje żadnych innych
ladamy
=
n
wartości, czyli pi = 1). Wówczas dla t < t1, FX(t) = 0, dla t e" tn, FX(t) = 1,
i=1
i
zaÅ› dla t " [t1, ti+1], FX(t) = pi.
i=1
W szczególności widzimy, że FX jest ciag poza punktami ti oraz posiada granice
la

lewostronne dla każdego t " R. Oznaczmy FX(t-) = limxt- FX(t). Mamy
FX(ti) - FX(ti-) = pi = P(X = ti),
oraz dla t " {t1, t2, . . . , tn},
/
FX(t) - FX(ti) = 0 = P(X = t).
Okazuje sie, że jest to ogólny fakt.

Twierdzenie 12. Jeśli FX jest dystrybuanta zmiennej losowej X, to dla t " R
zachodzi
FX(t-) = P(X < t)
19
oraz
FX(t) - FX(t-) = P(X = t).
W szczególności, jeśli FX jest ciag w punkcie t, to P(X = t) = 0.
la

W przypadku rozk ciag dystrybuanta może być użyta do znalezienia
ladów lych,
gestości.

Przyk Niech X bedzie zmienna o rozk Exp(1), czyli z gestościa g(x) =
lad ladzie

e-x1[0,")(x). Wówczas dla t " R mamy
FX(t) = (1 - e-t)1[0,")(t).

Zauważmy, że dla t = 0 mamy FX(t) = g(t). Nie jest to jednak prawda dla

t = 0, gdyż FX(t) nie jest różniczkowalna w zerze.
W ogólności mamy nastepujace twierdzenie, które w wielu sytuacjach pozwala

obliczyć gestość zmiennej losowej, gdy znana jest jej dystrybuanta.

Twierdzenie 13. Niech F bedzie dystrybuanta zmiennej losowej X. Wówczas

1. jeśli F nie jest ciagla, to X nie ma rozk ciag (tzn. nie ma gestości)
ladu lego

2. jeśli F jest ciag i różniczkowalna poza skończonym zbiorem punktów, to
la

funkcja


F (t) jeśli F (t) istnieje
g(t) =
0 w p.p.
jest gestościa zmiennej X.

Przyk
lad
1. Rozważmy zmienna losowa X o dystrybuancie
Å„Å‚
ôÅ‚
òÅ‚0 dla t " (-", 0)
F (t) = 2t dla t " (0, 1/2)
ôÅ‚
ół1 dla t " (1/2, ").
Funkcja F jest różniczkowalna wszedzie poza punktami t = 0 i t = 1/2. Ponadto


F (t) = 0 dla t " (-", 0) *" (1/2, ") oraz F (t) = 2 dla t " (1, 1/2). Zatem funkcja
g(t) = 2 · 1(0,1/2)(t)
jest gestościa zmiennej X.

2. Należy podkreślić, że istnieja rozk które nie sa ani ciag ani dyskretne.
lady, le

Przyk rozk µ, dany wzorem
ladowo lad
1 1
µ(A) = |A )" (0, 1)| + 1A(3).
2 2
Dystrybuanta tego rozk to
ladu
Å„Å‚
ôÅ‚
ôÅ‚0 dla t " (-", 0)
ôÅ‚
òÅ‚
t
dla t " (0, 1)
2
F (t) =
ôÅ‚1 dla t " [1, 3)
ôÅ‚2
ôÅ‚
ół
1 dla t " [3, ")
Jak latwo sprawdzić korzystajac ze wzoru na prawdopodobieństwo ca rozk
lkowite, lad

µ opisuje doÅ›wiadczenie: ,,rzucamy symetryczna moneta, jeÅ›li wypadnie orze zwra-
l

camy jako wynik 3, w przeciwnym wypadku jako wynik zwracamy liczbe wyloso-

wana z przedzia (0, 1) .
lu
20
Jak wiemy, jeżeli X jest zmienna losowa, a Õ funkcja borelowska, to Y = Õ(X)

też jest zmienna losowa. Nastepne twierdzenia dotycza zależności miedzy gestościa

zmiennej X oraz zmiennej Y , gdy funkcja Õ jest dostatecznie regularna.
Twierdzenie 14. Jeżeli X jest zmienna losowa o gestości f oraz X przyjmuje

wartoÅ›ci w przedziale (a, b), zaÅ› funkcja Õ: (a, b) R jest klasy C1 i Õ (x) = 0 dla

x " (a, b), to zmienna losowa Y = Õ(X) ma rozk ciag o gestoÅ›ci
lad ly

g(y) = f(h(y))|h (y)|1Õ((a,b))(y),
gdzie h(s) = Õ-1(s).
Przyk Zmienna X ma rozk jednostajny na odcinku (0, 4). Znalezć rozk
lad lad lad
"
zmiennej Y = X.
1
Używajac notacji z twierdzenia, mamy a = 0, b = 4, f(x) = 1(0,4)(x) oraz Õ(x) =
4
"
x. Zatem h(x) = x2, Õ((a, b)) = (0, 2). Gestość Y dana jest wzorem

1 1
g(y) = 1(0,4)(y2) · 2y · 1(0,2)(y) = y1(0,2)(y).
4 2
Rozważania dotyczace gestości i dystrybuanty zakończymy definicja tzw. kwan-

tyli, które odgrywaja istotna role w statystyce.

Definicja 12. Niech X bedzie zmienna losowa, zaÅ› p " [0, 1]. Kwantylem rzedu p

zmiennej X nazywamy dowolna liczbe xp, taka że

P(X d" xp) = FX(xp) e" p
oraz
P(X e" xp) e" 1 - p.
Kwantyl rzedu 1/2 nazywamy także mediana.

Przyk
lady
1. Jeśli X jest zmienna przyjmujaca dwie wartości 1, -1, każda z prawdopo-

dobieństwem 1/2, to dowolna liczba z przedzia [-1, 1] jest mediana zmiennej X.
lu
Dla p " (0, 1/2) zmienna X ma jeen kwantyl równy 0 zaś dla p " (1/2, 1), jeden
kwantyl, równy 1. Kwantylami rzedu 0 sa wszystkie liczby z przedzia (-", -1]
lu

zaÅ› kwantylami rzedu 1, liczby z przedzia [1, ").
lu

2. Standardowa zmienna normalna ma jedna mediane równa 0. Podobnie, dla

dowolnego p " (0, 1), zmienna ta ma dok jeden kwantyl rzedu p, wyznaczony
ladnie

przez równość

xp
1 2
" e-x /2dx = p.
2Ä„ -"
14. Parametry rozk
ladów
14.1. Wartość oczekiwana. Zacznijmy od nastepujacego przyk
ladu.

Przyk Za óżmy, iż ktoś proponuje nam nastepujaca gre: rzucamy raz
lad. l

kostka, i jeśli wypadnie 1 oczko, to dostajemy 100 z natomiast w przeciwnym
l,

razie musimy zap 30 z Czy w taka gre op sie grać? Czy na d mete
lacić l. laca luższa

wygrywamy?
Otóż jeśli zagramy n razy w powyższa gre, to jedynka wypada średnio w n/6

wypadkach, a wiec nasza wygrana po n grach to średnio

n 5n 50n
· 100 - · 30 = - < 0,
6 6 6
21
a wiec nie powinniśmy grać. Innymi s jeśli X jest nasza wygrana w pojedynczej
lowy,

grze, to spodziewamy sie, iż średnia X wynosi

1 5 50
· 100 - · 30 = - < 0.
6 6 6
Prowadzi to do nastepujacej definicji.

Definicja 13. Za óżmy, że X jest zmienna losowa o rozk dyskretnym, skon-
l ladzie
centrowanym na zbiorze S ‚" R i niech px = P(X = x) dla x " S. Mówimy, że
wartość oczekiwana zmiennej losowej X jest skończona (badz że zmienna losowa X


jest ca
lkowalna), jeśli |x|px < ". Wówczas określamy wartość oczekiwana
x"S
zmiennej X jako

EX = xpx.
x"S
Uwagi:
1. Wartość oczekiwana zmiennej losowej to, intuicyjnie, jej średnia wartość.
Czasami, zamiast ,,wartość oczekiwana X bedziemy mówić ,,średnia X .

2. Jeśli zbiór wartości zmiennej X jest skończony, to wartość oczekiwana zmien-
nej X jest skończona - sumy pojawiajace sie w definicji zawieraja skończona liczbe

sk
ladników.
3. Wartość oczekiwana zmiennej losowej zależy tylko od rozk tej zmiennej.
ladu
Przyk
lady:
1. JeÅ›li X jest sta P(X = a) = 1 dla pewnego a " R, to EX = a · 1 = a.
la:
2. Rzucamy raz kostka. Niech X oznacza liczbe wyrzuconych oczek. Wówczas

P(X = k) = 1/6 dla k = 1, 2, . . . , 6 i
1 1 1 1
EX = 1 · + 2 · + . . . + 6 · = 3 .
6 6 6 2
3. Za óżmy, że zmienna X ma rozk Bernoulliego z parametrami n, p. Wówczas
l lad

n n

n
EX = kP(X = k) = k pk(1 - p)n-k
k
k=0 k=0

n

n - 1
=np pk-1(1 - p)n-k = np.
k - 1
k=1
4. Za óżmy, że zmienna losowa X ma rozk na {1, 2, . . .} dany przez
l lad
1
P(X = k) = , k = 1, 2, . . . .
k(k + 1)
Wówczas wartość oczekiwana X nie istnieje: mamy
" "

1
kP(X = k) = = ".
k + 1
k=1 k=1
5. Za óżmy, że zmienna losowa X ma rozk na liczbach ca
l lad lkowitych różnych
od 0, zadany przez
1
P(X = k) = , k " Z, k = 0.

2|k|(|k| + 1)
22
Wówczas X nie jest ca
lkowalna: mamy

1
|k|P(X = k) = = ".
2(|k| + 1)
k =0 k =0
Przejdzmy teraz do zmiennych losowych o rozk ciag
ladach lych.

Definicja 14. Za óżmy, że zmienna losowa X ma rozk z gestościa g. Jeśli
l lad


|x|g(x)dx < ",
R
to mówimy, że wartość oczekiwana X istnieje (badz że zmienna losowa X jest

ca
lkowalna). Definiujemy wówczas wartość oczekiwana X jako

EX = xg(x)dx.
R
Uwaga: Wartość oczekiwana zależy tylko od rozk zmiennej X.
ladu
Uwaga: Jeśli zmienna losowa X jest ograniczona, tzn. z prawdopodobieństwem
1 przyjmuje wartości z pewnego ograniczonego przedzia (a, b), to istnieje jej
lu
wartość oczekiwana: istotnie,

|x|g(x)dx d" max{|a|, |b|}g(x)dx = max{|a|, |b|}.
R R
Przyk
lady:
1. Za óżmy, że X ma rozk jednostajny na odcinku (a, b). Wówczas, jak
l lad
wynika z powyższej uwagi, X jest ca
lkowalna. Ponadto

b
1 a + b
EX = xg(x)dx = x dx = .
b - a 2
R a
2. Za óżmy, że X ma rozk N (0, 1). Wówczas
l lad

"
1 2 2 2 2
" " "
|x| exp(-x2/2)dx = " x exp(-x2/2)dx = (-e-x /2)|" = ,
0
2Ä„ 2Ä„ 2Ä„ 2Ä„
R 0
a wiec wartość oczekiwana X jest skończona. Wynosi ona


1
x " exp(-x2/2)dx = 0.
2Ä„
R
Twierdzenie 15 (W wartości oczekiwanej). Za óżmy, że X i Y sa ca
lasności l lkowalnymi
zmiennymi losowymi.
(i) Jeśli X e" 0, to EX e" 0.
(ii) Jeśli X d" Y , to EX d" EY .
(iii) Mamy EX d" E|X|.
(iv) Wartość oczekiwana jest operatorem liniowym: jeśli a, b " R, to zmienna
aX + bY jest zmienna ca
lkowalna i
E(aX + bY ) = aEX + bEY.
(v) Jeśli X = 1A, to EX = P(A).
Uwaga: W (iv) uogólnia sie, poprzez prosta indukcje, do nastepujacej:
lasność

jeśli X1, X2, . . . , Xn sa ca
lkowalnymi zmiennymi losowymi i a1, a2, . . . , an " R,
to zmienna a1X1 + a2X2 + . . . + anXn też jest zmienna ca
lkowalna i
E(a1X1 + a2X2 + . . . + anXn) = a1EX1 + a2EX2 + . . . + anEXn.
23
Najcześciej te w stosujemy dla ciagu a1 = a2 = . . . = an = 1.
lasność

Przyk
lady:
1. Rzucamy 100 razy kostka i niech X oznacza sume wyrzuconych oczek.

Wówczas obliczenie wartości oczekiwanej X z definicji jest praktycznie niemożliwe
- wymaga to wyznaczenia rozk zmiennej X. Ale jeśli zauważymy, że X =
ladu
X1 + X2 + . . . + X100, gdzie Xi to liczba oczek w i-tym rzucie, to mamy, iż
1
EX = EX1 + EX2 + . . . + EX100 = 100 · 3 = 350.
2
2. W urnie znajduje sie 5 bia i 10 czarnych kul. Losujemy ze zwracaniem 50
lych

razy po jednej kuli. Niech X oznacza liczbe losowań, w których wyciagnieto bia a
l

kule. Tak jak wyżej, wyznaczenie wartości oczekiwanej X bezpośrednio z definicji

jest nies żmudne. Jeśli natomiast określimy
lychanie
X = X1 + X2 + . . . + X50,
gdzie
Xi = 1{w i-tym losowaniu wyciagnieto bia a kule}
l


1 jeśli w i-tym losowaniu wyciagnieto bia a kule,
l

=
0 jeśli w i-tym losowaniu wyciagnieto czarna kule,

to mamy
50
EX = EX1 + EX2 + . . . + EX50 = 50 · P(wyciagnieto bia a kule) = .
l

3
Przejdzmy teraz do sytuacji, gdy chcemy obliczyć wartość oczekiwana funkcji
pewnej zmiennej losowej.
Twierdzenie 16. Za óżmy, że Ć : R R jest pewna funkcja borelowska.
l

(i) Za óżmy, że X ma rozk dyskretny na zbiorze S i px = P(X = x) dla
l lad
x S. Wówczas zmienna losowa Ć(X) jest ca
lkowalna wtedy i tylko wtedy, gdy
"
|Ć(x)|px < "; wartość oczekiwana Ć(X) wynosi wtedy
x"S

EĆ(X) = Ć(x)px.
x"S
(ii) Za óżmy, że X ma rozk ciag z gestościa g. Wówczas zmienna losowa
l lad ly


Ć(X) jest ca
lkowalna wtedy i tylko wtedy, gdy |Ć(x)|g(x)dx < "; wartość ocze-
R
kiwana wynosi wówczas

EĆ(X) = Ć(x)g(x)dx.
R
Przyk
lady:
1. Rzucamy raz kostka. Niech X oznacza liczbe wyrzuconych oczek. Wówczas

6

1 91
EX2 = k2 = .
6 6
k=1
2. Z przedzia [0, Ą/2] wybieramy losowo kat X. Wówczas wartość oczekiwana
lu

sinusa tego kata wynosi


Ä„/2
2 2
E sin X = sin x dx = .
Ä„ Ä„
0
24
Wartość oczekiwana możemy też, w niektórych przypadkach, prosto wyrazić
poprzez dystrybuante F (a raczej funkcje 1 - F ). Zacznijmy od nastepujacego

przyk
ladu.
Przyk
lad:
Za óżmy, że X jest ca
l lkowalna, dyskretna zmienna losowa skoncentrowana na

liczbach ca
lkowitych nieujemnych. Wówczas
" "

EX = kP(X = k) = kP(X = k).
k=0 k=1
Wyrazy powyższego szeregu możemy w nastepujacy sposób ustawić ,,w trójkatna

macierz :
P(X = 1)
P(X = 2) P(X = 2)
P(X = 3) P(X = 3) P(X = 3)
P(X = 4) P(X = 4) P(X = 4) P(X = 4)
. . .
W powyższym szeregu, sumowanie odbywa sie najpierw wierszami, a nastepnie do-

dajemy do siebie otrzymane sumy. Ponieważ szereg ten posiada tylko nieujemne
wyrazy, wiec kolejność sumowania można zmianiać i nie ma to wp na wynik.
lywu

Spróbujmy wiec najpierw zsumować liczby wystepujace w poszczególnych kolum-

nach, a nastepnie dodać te sumy do siebie.

Suma liczb w pierwszej kolumnie to
P(X = 1) + P(X = 2) + P(X = 3) + . . . = P(X e" 1) = P(X > 0).
Dodajac wyrazy stojace w drugiej kolumnie dostajemy

P(X = 2) + P(X = 3) + P(X = 4) + . . . = P(X e" 2) = P(X > 1),
itd, nastepne sumy beda wynosić P(X e" 3) = P(X > 2), P(X e" 4) = P(X > 3), . . ..

Po zsumowaniu ich musimy dostać tyle, ile poprzednio, czyli EX. Udowodniliśmy
zatem
Twierdzenie 17. Jeśli X jest jak wyżej, to
" "

EX = P(X e" k) = P(X > k).
k=1 k=0
Poniższe twierdzenie stanowi rozszerzenie tego rezultatu. Jest ono prawdziwe dla
dowolnych zmiennych losowych (także takich, których rozk nie jest ani dyskretny,
lad
ani ciag
ly).

Twierdzenie 18. Niech X bedzie zmienna losowa nieujemna.

(i) Jeśli

"
P(X > t)dt < ",
0
to X jest ca lka
lkowalna i powyższa ca to wartość oczekiwana X.
(ii) Jeśli p " (0, ") i

"
p tp-1P(X > t)dt < ",
0
to Xp jest ca lka
lkowalna i powyższa ca to wartość oczekiwana Xp.
25
Przyk
lady:
1. Za óżmy, że zmienna losowa X ma rozk skoncentrowany na zbiorze {1, 2, . . .},
l lad
taki, że
2k + 1
P(X = k) = , k = 1, 2, . . . .
[k(k + 1)]2
Wówczas
1 1 1
P(X = k) = - i P(X e" k) = ,
k2 (k + 1)2 k2
a wiec

"

1 Ä„2
EX = = .
k2 6
k=1
2. Za óżmy, że zmienna losowa X ma rozk wyk
l lad ladniczy z parametrem  > 0.
Mamy, dla t e" 0,
P(X > t) = 1 - FX(t) = e-t,
skad wynika, iż


" " 1
1
EX = e-tdt = - e-t = .

 0 
0
3. Za óżmy, że zmienna losowa X ma rozk z gestościa
l lad

2
g(x) = 1[2,")(x).
x2
Wezmy teraz liczbe p " (0, ") i zastanówmy sie nad istnieniem wartości oczekiwa-

nej zmiennej Xp. Przede wszystkim widzimy, iż

1 jeśli t < 2,
P(X > t) =
2
jeśli t e" 2.
t
Tak wiec, na mocy powyższego twierdzenia, musimy zbadać ca
lke


" 2 "
p tp-1P(X > t)dt = ptp-1dt + tp-1P(X > t)dt
0 0 2

"
=2p + 2p tp-2dt.
2
Powyższa ca jest zbieżna wtedy i tylko wtedy, gdy p < 1, i wynosi wówczas
lka
22-pp/(1 - p). Tak wiec wartość oczekiwana Xp istnieje wtedy i tylko wtedy, gdy

p
p < 1 i wynosi 2p + 22-p · .
1-p
4. Ostatni z rozważanych tu przyk porusza problem wyznaczania wartości
ladów
oczekiwanej zmiennej, której rozk nie jest ani ciag ani dyskretny. Za óżmy,
lad ly, l

że X ma rozk jednostajny na [0, 2] i obliczmy E min{X, 1}. Zmienna {X, 1} ma
lad
rozk mieszany. Mamy, iż
lad

t
1 - dla t < 1,
2
P(min{X, 1} > t) = P(X > t, 1 > t) =
0 dla t e" 1.
Zatem

" 1
t
E min{X, 1} = P(min{X, 1} > t)dt = 1 - dt = 3/4
2
0 0
26
i ogólniej, dla p " (0, "),

1
t p + 2
E min{X, 1}p = p tp-1 1 - dt = .
2 2(p + 1)
0
Zadanie to można też by rozwiazać w inny sposób, stosujac wzór na wartość
lo

oczekiwana funkcji zmiennej losowej. Niech Ć : R R bedzie dana wzorem Ć(x) =

min{x, 1}. Wówczas

2
1
E min{X, 1} =EĆ(X) = Ć(x)g(x)dx = min{x, 1} · dx
2
R 0

1 2
1 1 1 1 3
= x · dx + 1 · dx = + = .
2 2 4 2 4
0 1
Podobnie, biorac Ć(x) = xp, p " (0, "),


2 1 2
1 1 1
E min{X, 1}p =EĆ(X) = min{x, 1}p · dx = xp · dx + 1 · dx
2 2 2
0 0 1
1 1 p + 2
= + = .
2(p + 1) 2 2(p + 1)
14.2. Wariancja. Kolejnym ważnym parametrem zwiazanym z rozk zmien-
ladem

nej losowej jest jego wariancja.
Definicja 15. Za óżmy, że X jest zmienna losowa spe warunek E|X| < "
l lniajaca

oraz E(X - EX)2 < ". Wówczas wariancja zmiennej losowej X nazywamy liczbe

D2X = VarX = E(X - EX)2.
Odchyleniem standardowym (rozk zmiennej X nazywamy pierwiastek z wa-
ladu)
riancji:
"
ÃX = D2X.
Uwagi:
1. Aby określić wariancje, wystarczy zak że EX2 < " (mówimy wówczas,
ladać,

że X jest ca
lkowalna z kwadratem). Pociaga to za soba żadana skończoność obu

powyższych wartości oczekiwanych.
2. Jeśli zmienna losowa X jest ograniczona, to jej wariancja jest skończona.
3. Wariancje można wyrazić innym wzorem, czesto bardziej przydatnym w kon-

kretnych obliczeniach:
D2X = VarX = EX2 - (EX)2.
4. Wariancja zależy tylko od rozk zmiennej losowej.
ladu
Wariancja zmiennej losowej to średnia kwadratu odchylenia od średniej. Tak
wiec, intuicyjnie, jeśli zmienna X posiada ma a wariancje, to spodziewamy sie, że
l

przyjmuje ona wartości dość blisko swojej średniej; natomiast, gdy wariancja jest
duża, to zmienna posiada ,,duży rozrzut badz ,,duże wahanie .

Zilustrujemy to na nastepujacym przyk
ladzie.

Przyk Za óżmy, że zmienna X ma rozk skoncentrowany na {-1, 1} taki,
lad: l lad
że
1
P(X = -1) = P(X = 1) = .
2
27
Ponadto, niech Y ma rozk skoncentrowany na {-100, 100}, taki, że
lad
1
P(Y = -100) = P(Y = 100) = .
2
1 1
Wówczas EX = · (-1) + · 1 = 0 oraz, analogicznie, EY = 0; tak wiec obie te
2 2
zmienne maja te sama średnia. W oczywisty sposób Y ,,ma wiekszy rozrzut . I

rzeczywiście
D2X = E(X - 0)2 = EX2 = 1, D2Y = E(Y - 0)2 = 10000.
Dalsze przyk
lady:
1. Rzucamy kostka i niech X oznacza liczbe wyrzuconych oczek. Wówczas, jak

już wiemy,
1 91
EX = 3 oraz EX2 = ,
2 6
zatem
2
91 1 1 1 11
VarX = - 3 = 15 - 12 = 2 , ÃX = 1, 7078 . . . .
6 2 6 4 12
2. Przypuśćmy, że X ma rozk jednostajny na odcinku [a, b]. Jak wiemy,
lad
EX = (a + b)/2; ponadto,

b
1 1 b3 - a3 b2 + ab + a2
EX2 = x2 dx = · = ,
b - a b - a 3 3
a
a zatem
2
b2 + ab + a2 a + b (b - a)2 b - a
"
D2X = - = , ÃX = .
3 2 12
2 3
Twierdzenie 19 (W wariancji). Za óżmy, że zmienna X jest ca
lasności l lkowalna z
kwadratem. Wówczas
a) VarX e" 0, przy czym równość ma miejsce, gdy X jest sta z prawdopodo-
la
bieństwem 1, tzn. istnieje taka liczba a " R, że P(X = a) = 1.
b) Var(bX) = b2VarX dla dowolnej liczby b " R.
c) Var(X + c) =VarX dla dowolnej liczby c " R.
Przyk parametry rozk normalnego Niech m " R, Ã > 0 i za óżmy,
lad: ladu l
że X ma rozk N (0, 1). Wówczas
lad

(t-m)/Ã
t - m 1 2
P(ÃX + m d" t) = P X d" = " e-x /2dx.
Ã
2Ä„
-"
Stousujac podstawienie x = (y - m)/Ã, dx = dy/Ã, dostajemy


t
1 (y - m)2
FÃX+m(t) = " exp - dy.
2Ã2
2Ä„Ã
-"
Stad od razu widać, że ÃX + m ma rozk normalny N (m, Ã).
lad

Na mocy powyższych twierdzeń mamy, iż
E(ÃX + m) = ÃEX + m = m,
D2(ÃX + m) = D2(ÃX) = Ã2D2X = Ã2,
28
gdyż, ca przez cześci,
lkujac


x
"
D2X =EX2 - (EX)2 = EX2 = x · exp(-x2/2)dx
2Ä„
R

1
= x - " exp(-x2/2) dx
2Ä„
R

" 1
1
"
= - x exp(-x2/2) - -" exp(-x2/2) dx = 0 + 1 = 1.

-"
2Ä„ 2Ä„
R
Wobec tego, parametry m, à rozk normalnego to jego średnia i odchylenie stan-
ladu
dardowe.
Zdefiniujmy teraz parametry rozk które graja ważna role w statystyce.
ladów,

Niech X bedzie pewna zmienna losowa.

Definicja 16. Dla p " (0, "), momentem (absolutnym) rzedu p zmiennej X na-

zywamy liczbe (E|X|p)1/p, o ile wartość oczekiwana jest skończona (w przeciwnym

razie przyjmujemy, że moment jest nieskończony).
Definicja 17. Za óżmy, że E|X|3 < ". Wspó
l lczynnikiem asymetrii (skośności)
zmiennej X nazywamy liczbe

E(X - EX)3 E(X - EX)3
Ä…3 = = .
3
(D2X)3/2 ÃX
Definicja 18. zZa óżmy, że E|X|4 < ". Kurtoza (wspó laszczenia)
l lczynnikiem sp
zmiennej X nazywamy liczbe

E(X - EX)4
Ä…4 = - 3.
4
ÃX
15. Charakterystyki liczbowe próbki
W praktyce nie sa nam znane ani wszystkie wartości ani nawet rozk zmien-
lady
nych losowych. Przyk analitycy chcacy poznać rozk miesiecznych wy-
ladowo, lad

datków na rozrywke wśród mieszkańców Warszawy, nie maja mozliwości zebrania

oraz przeanalizowania danych dotyczacych każdego mieszkańca i musza bazować na

wynikach ankiety przeprowadznej na losowej próbce mieszkańców stolicy. Również
fizycy czy inżynierowie dokonujac obarczonego losowym b edem pomiaru pewnej
l

wielkości fizycznej, nie znaja dok rozk b edu (który może być trakto-
ladnego ladu l

wany jako cecha charakterystyczna urzadzenia pomiarowego), dlatego czesto do-

konuja wielokrotnych pomiarów tej samej wielkości, aby na ich podstawie uzyskać
jej jak najlepsze przybliżenie. W obu sytuacjach informacja, która jest dostepna,

to tzw. próbka, czyli ciag liczb X1, X2, . . . , Xn z którego chcielibyśmy odzyskać

informacje na temat interesujacej nas zmiennej losowej X. Sposobami pobierania

próbek oraz wnioskowania na ich podstawie zajmuje sie statystyka matematyczna,

nie bedziemy wiec w tym momencie zg ebiać tego zagadnienia. Ograniczymy sie je-
l

dynie do informacji, że wiele metod bazuje na charakterystykach liczbowych próbki,
analogicznych do zdefiniowanych w poprzednich rozdzia charakterystyk zmien-
lach
nych losowych.
29
Zauważmy, że z próbka X1, X2, . . . , Xn możemy zwiazać rozk prawdopodo-
lad

bieństwa na prostej (tzw. rozk empiryczny), zdefiniowany jako
lad
n

1 |{i: Xi " A}|
(4) µn(A) = ´X (A) = ,
i
n n
i=1
informujacy nas jaka cześć wszystkich obserwacji znajduje sie w zbiorze A. Intu-

icyjnie można sie spodziewać, że rozk ten (przynajmniej dla odpowiednio dużych
lad

n) powinien dość dobrze przybliżać rozk interesujacej nas zmiennej losowej (zja-
lad

wisko to wyjaśnimy dok na kolejnych wyk gdy bedziemy mówić o
ladniej ladach,

tzw. prawach wielkich liczb). Analogicznie, charakterystyki liczbowe rozk µ
ladu
możemy uznać za dostepne nam przybliżenia odpowiednich charakterystyk niezna-

nego rozk zmiennej losowej.
ladu
Definicja 19. Dystrybuanta empiryczna próbki X1, X2, . . . , Xn nazywamy funkcje

F : R [0, 1], zadana wzorem
|{i d" n: Xi d" t}|
Fn(t) = µn((-", t]) = .
n
Dystrybuanta empiryczna jest zatem dystrybuanta rozk empirycznego próbki.
ladu
Majac dystrybuante empiryczna możemy w szczególności zdefiniować odpowia-

dajace jej kwantyle.

Definicja 20. Kwantylem rzedu p z próbki X1, . . . , Xn nazywamy dowolna liczbe

xp, taka że
Fn((-", xp]) e" p
Fn([xp, ")) e" 1 - p.
Kwantyl rzedu 1/2 nazywamy także mediana.

Uwaga Czesto, jeśli odpowiedni kwantyl nie jest zdefiniowany jednoznacznie,

tzn. istnieje nieskończenie wiele liczb spe
lniajacych powyższe nierówności, wyróżniamy

najmniejsza z nich (dzieki temu możemy wybrać jako kwantyl jedna z liczb Xi).

Przyk Przypuśćmy, że nasza próbka sk sie z liczb 2, 3, 5, 9. Rozk
lad lada lad

empiryczny jest dany wzorem
1 1 1 1
µ(A) = 1A(2) + 1A(3) + 1A(5) + 1A(9),
4 4 4 4
zaÅ› dystrybuanta empiryczna,
Å„Å‚
ôÅ‚0 dla t " (-", 2)
ôÅ‚
ôÅ‚
ôÅ‚
ôÅ‚ 1
ôÅ‚ dla t " [2, 3)
òÅ‚
4
1
F (t) = dla t " [3, 5)
2
ôÅ‚
ôÅ‚
3
ôÅ‚
dla t " [5, 9)
ôÅ‚
ôÅ‚ 4
ôÅ‚
ół1 dla t " [9, ").
Mediana jest dowolna liczba z przedzia [3, 5], zaÅ› kwantylem rzedu 3/4, do-
lu

wolna liczba z przedzia [5, 9].
lu
Podobnie możemy zdefiniować średnia i wariancje z próbki.

30
Definicja 21. Średnia z próbki X1, X2, . . . , Xn nazywamy liczbe

X1 + X2 + . . . + Xn
m = ,
n
czyli średnia arytmetyczna liczb X1, X2, . . . , Xn.
Definicja 22. Wariancja z próbki X1, X2, . . . , Xn nazywamy liczbe

n
2

1
s = Xi - m ,
n
i=1
gdzie m jest średnia z próbki.
Uwaga 1. Tak jak w przypadku dystrybuanty empirycznej i kwantyli, średnia
i wariancja z próbki to po prostu wartość oczekiwana i wariancja rozk empi-
ladu
rycznego.
2. W praktyce (np. w popularnych arkuszach kalkulacyjnych) do przybliżania
wariancji zmiennej losowej na podstawie próbki czesto używa sie raczej wyrażenia

n
2

1
Xi - m ,
n - 1
i=1
ponieważ jednak wyjaśnienie dlaczego w mianowniku pojawia sie liczba (n - 1)

wymaga wprowadzenia dodatkowego aparatu statystyki matematycznej, nie
loby
bedziemy wnikać w szczegó
ly.

Przyk Dla próbki 2, 4, 2, 6, średnia to
lad
1
m = (2 + 4 + 2 + 6) = 3.5,
4
zaÅ› wariancja
1
s = [(2 - 3.5)2 + (4 - 3.5)2 + (2 - 3.5)2 + (6 - 3.5)2] = 2.75.
4
16. Rozk laczny zmiennych losowych
lad

W interesujacych modelach probabilistycznych mamy z regu do czynienia z
ly

kilkoma powiazanymi ze soba zmiennymi losowymi. Aby opisać ich wzajemne

zależności wygodnie jest rozpatrywać je lacznie i traktować jako wektor losowy


(zmienna losowa o wartościach w przestrzeni wielowymiarowej). Jeśli np. w mo-
delu wystepuja zmienne X1, X2, . . . , Xn (gdzie Xi : &! R), możemy utworzyć z

nich pojedynczy wektor losowy X = (X1, X2, . . . , Xn) o wartościach w przestrzeni
Rn. Na tego typu zmienne losowe wielowymiarowe możemy rozszerzyć niektóre (nie
wszystkie) znane nam już definicje.
Definicja 23. Rozk wektora losowego X = (X1, X2, . . . , Xn) nazywamy praw-
ladem
dopodobieÅ„stwo µX na (Rn, B(Rn)), dane wzorem
µX(A) = P(X " A)
dla A " B(Rn).
Uwagi 1. Powyższa definicja jest analogiczna do definicji rozk rzeczywistej
ladu
zmiennej losowej.
2. Rozk wektora X = (X1, X2, . . . , Xn) nazywamy również lacznym rozk
lad ladem

zmiennych X1, X2, . . . , Xn. Możemy z niego odtworzyć rozk poszczególnych
lady
31
zmiennych Xi podstawiajac za A odpowiednio dobrany zbiór. Jeśli np. chcemy

obliczyć µX (B) = P(Xi " B), dla pewnego zbioru B " R, definiujemy
i
A = R × . . × R ×A × R × . . × R
. .
i-1 n-i
i korzystamy z równości
P(Xi " B) = P((X1, X2, . . . , Xn) " A) = µX(A).
3. Rozk zmiennych X1, . . . , Xn nazywane sa rozk brzegowymi wektora
lady ladami
X.
Przyk Rzucamy dwukrotnie symetryczna moneta. Niech Xi (i = 1, 2) beda
lad

zmiennymi losowymi przyjmujacymi wartość 1, jesli w i-tym rzucie wypad orze
l l

oraz 0 w przeciwnym przypadku. Mamy zatem
1 1
µX = µX = ´0(A) + ´1(A).
1 2
2 2
Rozk laczny zmiennych X1, X2 dany jest wzorem
lad

1
µ(X ,X2)(A) = (´(0,0)(A) + ´(0,1)(A) + ´(1,0)(A) + ´(1,1)(A))
1
4
dla A Ä…" R2, borelowskiego. Rozk ten skoncentrowany jest w punktach (0, 0),
lad
(0, 1), (1, 0), (1, 1). Niech teraz X3 bedzie zmienna losowa dana wzorem X3 =

1 - X1. Jak latwo zauważyć, µX = µX = µX , niemniej rozk µ(X ,X3) jest
lad
3 1 2 1
skoncentrowany w dwóch punktach (0, 1), (1, 0), dok
ladniej
1 1
µ(X ,X3) = ´(0,1) + ´(1,0) = µ(X ,X2).

1 1
2 2
Jak zatem widzimy, rozk laczny zawiera w sobie dużo wiecej informacji na
lad

temat zmiennych X1, X2, . . . , Xn niż rozk brzegowe.
lady
W dalszej cześci ograniczymy sie do badania rozk lacznych dwóch zmien-
ladów

nych losowych. Niemniej wszystkie podane definicje w naturalny sposób przenosza
sie na rozk laczne wiekszej liczby zmiennych.
lady

Zaczniemy od zdefiniowania dwuwymiarowych rozk dyskretnych i ciag
ladów lych.

Definicje te sa analogiczne do znanych nam już definicji dla zmiennych jednowy-
miarowych.
Definicja 24. Wektor losowy (X, Y ) nazwiemy dyskretnym, jeśli istnieje przeli-
czalny zbiór S Ä…" R2, taki że µ(X,Y )(S) = 1.
Definicja 25. Wektor losowy (X, Y ) nazwiemy ciag jeśli istnieje gestosć, czyli
lym,

funkcja g : R2 [0, "), taka że dla każdego zbioru A " B(R2),

µ(X,Y )(A) = g(x, y)dxdy.
A
Przyk 1. Wektory (X1, X2) oraz (X1, X3) z poprzedniego przyk maja
lady ladu
rozk dyskretne.
lady
2. Jak latwo sprawdzić korzystajac z twierdzenia Fubiniego, funkcja g(x, y) =


1
exp(-(x2 + y2)/2) jest gestościa rozk prawdopodobieństwa na R2.
ladu
2Ä„
32
3. Losujemy punkt (X, Y ) z ko D o środku w punkcie (2, 2) i promieniu R.
la
Wektor (X, Y ) jest wówczas wektorem ciag o gestości
lym


1
1 jeśli (x - 2)2 + (y - 2)2 d" R2
Ä„R2
g(x, Y ) = 1D(x, y) =
Ä„R2
0 w p.p.
Zdefiniujemy teraz dwie ważne charakterystyki liczbowe par zmiennych losowych.
Definicja 26. Niech X, Y beda rzeczywistymi, ca
lkowalnymi zmiennymi losowymi,

takimi że E|XY | < ". Kowariancja zmiennych X, Y nazywamy liczbe

Cov(X, Y ) = E(X - EX)(Y - EY ).
Jeśli dodatkowo Var(X), Var(Y ) > 0, definiujemy wspó
lczynnik korelacji liniowej
zmiennych X, Y , jako
Cov(X, Y ) Cov(X, Y )
Á(X, Y ) = =
ÃXÃY
Var(X) · Var(Y )
Uwagi Kowariancja i wspó korelacji zmiennych X, Y nie zmienia sie, gdy
lczynnik

te zmienne ,,przesuniemy , tzn., jeśli X1 = X + a oraz Y1 = Y + b, gdzie a, b " R,
to Cov(X, Y ) = Cov(X1, Y1) oraz Á(X, Y ) = Á(X1, Y1). Jesto to natychmiastowy
wniosek z liniowości wartości oczekiwanej.
Przypuśćmy teraz, że zmienne losowe X, Y określone sa na dyskretnej prze-
strzeni probabilistycznej &! = {1, 2, . . . , n} z prawdopodobieństwem klasycznym
P(A) = |A|/n, czyli X, Y sa po prostu ciagami liczb: X = (x1, x2, . . . , xn), Y =

(y1, y2, . . . , yn). Na podstawie powyższej uwagi o przesunieciach możemy również

za że EX = (x1 + . . . + xn)/n = 0, EY = (y1 + . . . + yn)/n = 0. Wówczas
lożyć,
n n
1
xiyi x yi
n
Á(X, Y ) = = i .
n i=1 n 2 n i=1 n 2
n-1 x2 n-1 yi x2 yi
i=1 i i=1 i=1 i i=1
Korzystajac z algebry liniowej i interpretujac ciagi (xi), (yi) jako wektory w prze-

strzeni Rn, widzimy, że wspó
lczynnik korelacji to cosinus kata miedzy tymi wekto-

rami. W szczególnoÅ›ci |Á(X, Y )| d" 1. Jeżeli wiec Á(X, Y ) jest bliskie 1, to zmienne

X, Y (po przeskalowaniu) sa w pewnym sensie bliskie, jeÅ›li zaÅ› Á(X, Y ) jest bliskie
-1, odpowiadajace im wektory wskazuja w ,,przeciwnych kierunkach . Takie in-

tuicyjne rozumienie wspó
lczynnika korelacji przenosi sie na przypadek dowolnych

zmiennych losowych, dzieki tzw. nierówności Schwarza  twierdzeniu o bardzo wielu

zastosowaniach w różnych dzia matematyki.
lach
Twierdzenie 20. Niech X, Y : &! R beda zmiennymi losowymi, takimi że EX2 <

2
", EY < ". Wówczas
2
|EXY | d" (EX2)1/2(EY )1/2.
Co wiecej, równość w powyższej nierówności zachodzi wtedy i tylko wtedy, gdy ist-

nieja dwie liczby a, b (z których co najmniej jedna jest różna od zera), takie że
P(aX = bY ) = 1.
Jako wniosek z nierówności Schwarza, dostajemy
Twierdzenie 21. Jeśli X, Y : &! R sa zmiennymi losowymi o skończonej i nie-
zerowej wariancji, to |Á(X, Y )| d" 1. Ponadto, jeÅ›li |Á(X, Y )| = 1, to istnieje liczba
a " R, taka że Y = aX.
Można też wprowadzić dystrybuante zmiennej dwuwymiarowej (X, Y ).

33
Definicja 27. Za óżmy, że (X, Y ) jest dwuwymiarowa zmienna losowa. Dystrybu-
l

nata tej zmiennej nazywamy funkcje F(X,Y ) : R2 [0, 1] dana wzorem

F(X,Y )(s, t) = P(X d" s, Y d" t).
Wprowadzimy teraz odpowiedniki wielowymiarowe wartości oczekiwanej i wa-
riancji.
Definicja 28. Jeśli (X, Y ) jest dwuwymiarowa zmienna losowa, to:

a) jeśli X oraz Y sa ca
lkowalne, to warościa oczekiwana E(X, Y ) zmiennej (X, Y )
nazywamy wektor (EX, EY ).
b) jeśli X oraz Y sa ca
lkowalne z kwadratem, to macierza kowariancji zmiennej
(X, Y ) nazywamy macierz

VarX Cov(X, Y )
.
Cov(X, Y ) VarY
Analogicznie definiujemy średnia oraz macierz kowariancji dla zmiennych losowych
przyjmujacych wartości w Rd, d e" 3.

Podamy kilka użytecznych faktów - uogólnień dobrze znanych nam wzorów z
przypadku jednowymiarowego.
Twierdzenie 22. (i) Jeśli (X, Y ) jest dyskretna zmienna losowa skoncentrowana
na zbiorze S i Ć : R2 R jest funkcja borelowska, to


EĆ(X, Y ) = Ć(x, y)P((X, Y ) = (x, y))
(x,y)"S
(o ile wartość oczekiwana istnieje).
(ii) Jeśli (X, Y ) jest zmienna losowa o rozk ciag (z gestościa g) i Ć :
ladzie lym

R2 R jest funkcja borelowska, to


EĆ(X, Y ) = Ć(x, y)g(x, y)dxdy
R2
(o ile wartość oczekiwana istnieje).
Analogiczne wzory zachodza dla zmiennych losowych o wartościach w Rd, d e"
3: wartość oczekiwana definiujemy jako wektor (EX1, EX2, . . . , EXd), a macierz
kowariancji - jako (Cov(Xi, Xj))1d"i,jd"d.
Przyk
lad:
1. Za óżmy, że (X, Y ) ma rozk dany przez
l lad
P((X, Y ) = (k, l)) = 2-k-l, k, l = 1, 2, . . . ,
i spróbujmy wyznaczyć E(X + Y ).
Stosujemy powyższe twierdzenie dla Ć(x, y) = x + y. Mamy wiec

" " "

E(X + Y ) = (k + l)2-k-l = (k + l)2-k-l.
k,l=1 k=1 l=1
Zajmijmy sie najpierw wewnetrzna suma. Zauważmy, iż dla x " [0, 1) zachodzi

wzór


" "

x 1
nxn-1 = xn = = .
1 - x (1 - x)2
n=1 n=1
34
Wobec tego
" " "

(k + l)2-k-l = k2-k-l + l2-k-l
l=1 l=1 l=1
l-1
"

1
= k2-k + 2-k-1 l · = k2-k + 2-k-1 · 4 = k2-k + 2-k+1,
2
l=1
a zatem
k-1
" "

1 1 1
E(X + Y ) = (k2-k + 2-k+1) = k · + 2 = · 4 + 2 = 4.
2 2 2
k=1 k=1
2. Za óżmy, że (X, Y ) ma rozk z gestościa
l lad

g(x, y) = 24xy · 1{(x,y):xe"0,ye"0,x+yd"1}.
Obliczymy E(X2 + 1). Otóż, stosujac powyższe twierdzenie dla Ć(x, y) = x2 + 1,

dostajemy

1 1-x
E(X2 + 1) = Ć(x, y)g(x, y)dxdy = (x2 + 1) · 24xydydx.
R2 0 0
Zajmijmy sie najpierw wewnetrzna ca Mamy
lka.


1-x
(1 - x)2
(x2 + 1) · 24xydy = 24(x2 + 1)x · = 12x5 - 24x4 + 24x3 - 24x2 + 12x,
2
0
a zatem E(X2 + 1) = 1, 2.
Twierdzenie 23. Za óżmy, że X = (X1, X2, . . . , Xn) jest zmienna losowa, a A -
l

macierza m × n.
(i) Jeśli X posiada skończona wartość oczekiwana, to zmienna AX też ma skończona

wartość oczekiwana i E(AX) = AEX.
(ii) Jeśli istnieje macierz kowariacji QX zmiennej X, to istnieje też macierz
kowariancji zmiennej AX i wynosi ona QAX = AQXAt.
Twierdzenie 24. Za óżmy, że X jest zmienna losowa o rozk ciag w Rn,
l ladzie lym

m jest pewnym wektorem w Rn, a T jest pewnym nieosobliwym przekszta Rn
lceniem
w siebie (tzn. detT = 0, gdzie T utożsamiamy z jego macierza). Wówczas zmienna


T X + m ma gestość

1
-1
gT X+m(x) = gX(T (x - m)).
| det T |
17. Niezależne zmienne losowe
Definicja 29. Zmienne losowe X1, . . . , Xn : &! R nazywamy niezależnymi, jeśli
dla dowolnego ciagu B1, B2, . . . , Bn zbiorów borelowskich zachodzi

P(X1 " B1, X2 " B2, . . . , Xn " Bn) = P(X1 " B1)P(X2 " B2) . . . , P(Xn " Bn).
Uwagi 1. Latwo wykazać, że zmienne X1, X2, . . . , Xn sa niezależne wtedy i tylko

wtedy, gdy dla dowolnych zbiorów borelowskich B1, B2, . . . , Bn zdarzenia {X1 "
B1}, {X2 " B2}, . . . , {Xn " Bn} sa lacznie niezależne.


2. Podobnie jak w przypadku niezależności zdarzeń, należy pamietać że nie-

zależność parami zmiennych X1, X2, . . . , Xn nie implikuje niezależności lacznej tych


zmiennych. Przyk jeśli rzucamy dwa razy moneta oraz Xi (i = 1, 2) przyj-
ladowo,
muja wartość 1, jesli w i-tym rzucie wypad orze oraz wartość -1, jeśli w i-tym
l l
35
rzucie wypad reszka, natomiast X3 = X1 · X2, to {X1, X2}, {X1, X3}, {X2, X3}
la
stanowia pary niezależnych zmiennych losowych, jednak X1, X2, X3 oczywiście nie
sa niezależne.
Sprawdzanie niezależności zmiennych losowych wprost z definicji jest dość skom-
plikowane. Szcześliwie, w przypadku zmiennych dyskretnych i ciag można
lych

podać prostsze kryteria niezależności.
Twierdzenie 25. Niech X1, X2, . . . , Xn beda dyskretnymi zmiennymi losowymi,

zaś SX zbiorami przeliczalnymi, takimi że P(Xi " SX ) = 1. Wówczas zmienne
i i
X1, X2, . . . , Xn sa niezależne, wtedy i tylko wtedy, gdy dla każdego ciagu x1, x2, . . . , xn,

takiego że xi " SX , i = 1, 2, . . . , n, zachodzi równość
i
P(X1 = x1, X2 = x2, . . . , Xn = xn) = P(X1 = x1)P(X2 = x2) · . . . · P(Xn = xn).
Przyk 1. Przeprowadzamy n prób Bernoulliego z prawdopodobieństwem
lady
sukcesu p. Niech

1 jeśli w i-tym rzucie zaszed sukces
l
Xi = 1sukces w i-tym rzucie =
0 w p.p.
Wówczas zmienne X1, . . . , Xn sa niezależne. Aby to wykazać, wystarczy sprawdzić
warunek z twierdzenia dla każdego ciagu binarnego. Niech wiec x1, . . . , xn " {0, 1}.

Wówczas z definicji schematu Bernoulliego,
Pn Pn
xj
j=1 j=1
P(X1 = x1, X2 = x2, . . . , Xn = xn) = p (1 - p)n- xj
oraz
1

P(Xi = xi) = P(Xj = yj dla j = i, Xi = xi)

y1,y2,...,yi-1,yi+1,...,yn=0
1

i i j j i i
= px (1 - p)1-x py (1 - p)1-y = px (1 - p)1-x ,
y1,y2,...,yi-1,yi+1,...,yn=0 j=i

(gdy p1(1 - p)0 + p0(1 - p)1 = 1), a zatem
P(X1 = x1, X2 = x2, . . . , Xn = xn) = P(X1 = x1)P(X2 = x2) · . . . · P(Xn = xn).
2. Rzucamy n razy kostka. Niech Xi oznacza liczbe oczek wyrzuconych w i-tym

rzucie. Wówczas dla dowolnego ciagu x1, x2, . . . , xn, gdzie xi " {1, 2, . . . , 6}, mamy

1
P(X1 = x1, X2 = x2, . . . , Xn = xn) = .
6n
Z drugiej strony, jeÅ›li A to zbiór tych ciagów É = (É1, É2, . . . , Én) " {1, 2, . . . , 6}n,

że Éi = xi, to
|A| 6n-1 1
P(Xi = xi) = = = .
6n 6n 6
Zatem dla dowolnego ciagu (xi)i,

P(X1 = x1, X2 = x2, . . . , Xn = xn) = P(X1 = x1)P(X2 = x2) · . . . · P(Xn = xn),
czyli zmienne X1, X2, . . . , Xn sa niezależne.
Odpowiednie twierdzenie dla zmiennych ciag wyraża sie poprzez gestości i
lych

rozk laczny zmiennych losowych.
lad

36
Twierdzenie 26. Niech X1, X2, . . . , Xn : &! R beda ciag zmiennymi loso-
lymi

wymi o gestościach odp. g1, g2, . . . , gn. Wówczas zmienne X1, X2, . . . , Xn sa nie-

zależne, wtedy i tylko wtedy, gdy funkcja g : Rn [0, "), dana wzorem
g(x1, x2, . . . , xn) = g1(x1)g2(x2) · . . . · gn(xn)
jest gestoÅ›cia rozk µ(X ,X2,...,Xn).
ladu
1
Przyk 1. Niech (X, Y ) bedzie punktem wylosowanym z ko o środku w
lady la

punkcie (0, 0) i promieniu 1. Wektor losowy (X, Y ) ma gestość


1
jeśli x2 + y2 d" 1
Ä„
f(x, y) =
0 w p.p.
Zatem dla t " (0, 1),

t "
FX(t) = P(X d" t) = P((X, Y ) " (-", t) × R) = f(x, y)dydx
-" -"
"

t 1-x2 t

1 2
= dydx = 1 - x2dx
"
Ä„ Ä„
-1 - 1-x2 -1
oraz FX(t) = 0 dla t d" -1 i FX(t) = 1 dla t e" 1. Różniczkujac dystrybuante

"
widzimy, że zmienna X ma gestośc g(x) = 2Ą-1 1 - x21(-1,1)(x). Przez symetrie,

g jest także gestościa zmiennej Y . Ponieważ g(x)g(y) = f(x, y), zmienne X, Y nie


2
sa niezależne (co jest intuicyjnie jasne, skoro spe warunek X2 + Y d" 1 i
lniaja
przyjmuja dowolne wartości z przedzia [-1, 1]).
lu
2. Niech teraz (X, Y ) bedzie punktem wylosowanym z kwadratu o wierzcho
lkach

w punktach (ą1, ą1). Wektor (X, Y ) ma gestość

1
f(x, y) = 1[-1,1](x)1[-1,1](y).
4
Latwo sprawdzić ca powyższa gestość po odpowiednich wspó
lkujac lrzednych, że

zmienne X, Y maja te sama gestość g(x) = 2-11[2,2](x). Mamy f(x, y) = g(x)g(y),

zatem zmienne X, Y sa niezależne.
3. Niech (X, Y ) bedzie dwuwymiarowa zmienna losowa o gestości

f(x, y) = 1[0,1](x)e-y1[0,")(y).
Wówczas zmienna X spe
lnia
µX(A) = P(X " A) = P((X, Y ) " A × R)

= 1[0,1](x)e-y1[0,")(y)dydx = 1[0,1](x)dx,
A R A
a zatem ma rozk o gestości g1(x) = 1[0,1](x) (rozk U(0, 1)). Podobnie,
lad lad

zmienna Y spe
lnia
µY (A) = P(Y " A) = P((X, Y ) " R × A)

= 1[0,1](x)e-y1[0,")(y)dydx = e-y1[0,")(y)dy,
R A A
czyli ma gestość g2(y) = e-y1[0,")(y) (rozk Exp(1)). Ponieważ f(x, y) =
lad

g1(x)g2(y), zmienne X, Y sa niezależne.
37
Poniższe, dość skomplikowane w zapisie twierdzenie mówi, że funkcje od nie-
zależnych zmiennych losowych pozostaja niezależne. Jeśli np. X, Y, T, Z sa nie-
zależnymi zmiennymi losowymi, zaś f : R2 R, g, h: R R - funkcjami borelow-
skimi, to zmienne f(X, Y ), g(T ), h(Z) sa niezależne.
Twierdzenie 27. Rozważmy zmienne losowe
X1,1, X1,2, . . . , X1,k , X2,1, X2,2, . . . , X2,k , . . . , Xn,1, Xn,2, . . . , Xn,k
1 2 n
i
oraz funkcje borelowskie Õi : Rk R, i = 1, 2, . . . , n. JeÅ›li zmienne Xi,j sa nie-
zależne, to również zmienne
Y1 = Õ1(X1,1, X1,2, . . . , X1,k ),
1
Y2 = Õ2(X2,1, X2,2, . . . , X2,k ),
2
. . .
Yn = Õn(Xn,1, Xn,2, . . . , Xn,k )
n
sa niezależne.
Wrócimy teraz do charakterystyk liczbowych zmiennych losowych, by przekonać
sie, że niezależność może nam w istotny sposób pomóc w ich obliczaniu.

Twierdzenie 28. Niech X1, X2, . . . , Xn beda niezależnymi zmiennymi losowymi,

posiadajacymi wartość oczekiwana. Wówczas zmienna X1 · X2 · . . . · Xn również ma

wartość oczekiwana i zachodzi równość
E(X1X2 · . . . · Xn) = EX1 · EX2 · . . . · EXn.
Przyk Rzucamy 100 razy kostka. Niech Xi oznacza liczbe oczek wyrzuco-
lad

nych w i-tym rzucie oraz X = X1X2·. . .·Xn. Zmienne Xi sa niezależne i EXi = 3.5,
zatem EX = (3.5)100.
Zauważmy, że jeśli zmienne X, Y sa niezależne, to niezależne sa też zmienne
,,przesuniete , X - EX, Y - EY . Zatem

Cov(X, Y ) = E(X - EX)(Y - EY ) = [E(X - EX)] · [E(Y - EY )] = 0,
gdyż E(X - EX) = EX - E(EX) = EX - EX = 0. Udowodniliśmy zatem
nastepujace twierdzenie:

Twierdzenie 29. Jeśli X, Y sa niezależnymi zmiennymi losowymi, takimi że E|XY | <
", to Cov(X, Y ) = 0. Jeśli dodatkowo zmienne X, Y maja skończona, niezerowa

wariancje, to zeruje sie także ich wspó korelacji,
lczynnik

Á(X, Y ) = 0.
Definicja 30. Zmienne losowe X, Y nazwiemy nieskorelowanymi, jeżeli
Á(X, Y ) = 0.
Uwaga Jak zatem widzimy, niezależne zmienne losowe sa zawsze nieskorelowane.
Implikacja odwrotna nie musi jednak zachodzić.
Przyk Jak już wiemy, zmienna losowa (X, Y ) o rozk jednostajnym na
lad: ladzie
kole jednostkowym nie ma niezależnych wspólrzednych. Ale, z drugiej strony,


1

2
EX = EY = x 1 - x2dx = 0
Ä„
-1
38
oraz
"

1 1-x2
1
Cov(X, Y ) = EXY - 0 · 0 = EXY = xydydx = 0,
"
Ä„
-1 - 1-x2
gdyż wewnetrzna ca wynosi 0. Ponieważ (X, Y ) jest ograniczona, wiec jej
lka

wspó sa ca
lrzedne lkowalne z kwadratem; mamy zatem także Á(X, Y ) = 0. Zmienne

X, Y sa wiec nieskorelowane, ale sa zależne.

Twierdzenie 30. Niech X1, X2, . . . , Xn beda niezależnymi zmiennymi losowymi o

skończonej wariancji. Wówczas również zmienna X1 +X2 +. . .+Xn ma skończona
wariancje oraz

Var(X1 + X2 + . . . + Xn) = Var(X1) + Var(X2) + . . . + Var(Xn).
Dowód: Ponieważ wariancja nie zmienia sie na wskutek przesuwania zmiennych,

wystarczy udowodnić powyższa równość dla scentrowanych zmiennych, tzn. o
średniej 0. Mamy wówczas
Var(X1 + X2 + . . . + Xn) = E(X1 + X2 + . . . + Xn)2

2 2 2
= EX1 + EX2 + . . . + EXn + 2 EXiXj
i
= Var(X1) + Var(X2) + . . . + Var(Xn) + 2 Cov(Xi, Xj).
iPowyższy wzór jest prawdziwy dla dowolnych zmiennych losowych (ca
lkowalnych z
kwadratem).
W naszym przypadku dysponujemy dodatkowym warunkiem, iż zmienne sa nie-
zależne; pociaga to za soba, iż wszystkie kowariancje sa równe 0. Stad teza.

Przyk Rzucamy 100 razy kostka. Niech X oznacza laczna liczbe wyrzuco-
lad

100
nych oczek. Jak poprzednio, możemy zapisać X = Xi, gdzie Xi  liczba oczek
i=1
wyrzucona w i-tym rzucie. Jak wiemy
35
VarXi = ,
12
skad (i z niezależności zmiennych Xi),

3500
VarX = .
12
Podamy tu jeszcze jeden ważny fakt dotyczacy rozk sum niezależnych zmien-
ladu

nych losowych.
Twierdzenie 31. Za óżmy, że X, Y sa niezależnymi zmiennymi losowymi o rozk
l ladach
ciag z gestościami gX, gY . Wówczas zmienna X + Y ma rozk z gestościa
lych lad

bedaca splotem funkcji gX i gY , tzn.


gX+Y (x) = gX " gY (x) = gX(y)gY (x - y)dy = gX(x - y)gY (y)dy.
R R
Przyk zastosowania powyższego twierdzenia omówimy w dalszej cześci wyk
lady ladu.

39
18. Zagadnienie regresji liniowej
Rozważymy tutaj - pokrótce - pewien problem, grajacy ważna role w zastosowa-

niach. Za óżmy, że mamy zmienne losowe X, Y ca
l lkowalne z kwadratem i znamy
ich laczny rozk Ponadto, przypuśćmy, iż obserwujemy wartości zmiennej X,
lad.

a zmienna Y jest trudniejsza - badz niemożliwa - do zmierzenia. Powstaje wiec

interesujace zagadnienie optymalnego przybliżania zmiennej Y za pomoca zmien-

nej X. Oczywiście, musimy odpowiednio postawić ten problem; bedziemy szukać

optymalnego przybliżenia liniowego, tzn. postaci aX + b, a, b " R, a b ad bedziemy
l

mierzyć w sensie średniokwadratowym. Innymi s szukamy sta a, b " R,
lowy, lych
dla których wielkość f(a, b) = E(Y - aX - b)2 jest najmniejsza.
Aby rozwiazać ten problem, zauważmy, iż przy ustalonym a, funkcja b f(a, b)

jest trójmianem kwadratowym, który przyjmuje swoja najmniejsza wartość w punk-
cie E(Y - aX). Wystarczy wiec wyznaczyć najmniejsza wartość funkcji

h(a) = f(a, E(Y -aX) = E(Y -EY -a(X-EX))2 = a2VarX-2aCov(X, Y )+VarY.
Jeśli zmienna X jest sta p.n. (czyli VarX=0), to wówczas h jest funkcja sta a i
la l
widać, że optymalnym liniowym estymatorem zmiennej Y jest jej średnia: aX +b =
aX + (EY - aEX) = EY . Jeśli zaś VarX = 0, to h jest trójmianem kwadratowym

zmiennej a, przyjmujacym swoja najmniejsza wartość w punkcie

Cov(X, Y )
a =
VarX
i wówczas
Cov(X, Y )
b = EY - EX · .
VarX
Uwagi:
1. Widać, że do powyższych obliczeń nie potrzebowaliśmy ca wiedzy o rozk
lej ladzie

lacznym zmiennych (X, Y ). Wystarczy nam znajomość średnich i wariancji zmien-

nych X, Y oraz ich kowariancji.
2. W praktyce nie znamy tych wielkości, dysponujemy tylko pewna próbka
danych. Wówczas możemy przeprowadzić powyższe rozumowanie w oparciu o
wielkości empiryczne.
19. Przeglad ważniejszych rozk prawdopodobieństwa
ladów

19.1. Rozk wyk lad
lad ladniczy dwustronny (rozk Laplace a) z parame-
trem  > 0. Jest to ,,usymetrycznienie rozk wyk
ladu ladniczego. Zmienna losowa
X ma ten rozk jeśli ma gestość
lad,

1
g(x) = e-|x|.
2
Mamy EX = 0, VarX = 2/2. Ponadto, X ma rozk symetryczny, tzn. X ma
lad
ten sam rozk co -X.
lad,
19.2. Rozk Gamma “(a, b), a, b > 0. Zacznijmy od definicji funkcji “. Jest
lad
to funkcja określona na pó dodatniej, dana wzorem
lprostej

"
“(a) = ta-1e-tdt.
0
Funkcja “ uogólnia silnie; mamy mianowicie “(n) = (n - 1)! dla n = 1, 2, . . ..

40
Niech teraz a, b beda liczbami dodatnimi. Zmienna losowa X ma rozk “(a, b),
lad

jeśli ma gestość

ba
ga,b(x) = xa-1e-bx1(0,")(x).
“(a)
Szczególne przypadki:
(i) jeśli wzia ć a = 1, dostajemy rozk wyk
lad ladniczy z parametrem b.
(ii) jeÅ›li a jest liczba ca to “(a, b) nazywamy czasem rozk Erlanga.
lkowita, ladem

(iii) jeÅ›li n jest liczba ca dodatnia, to “(n/2, 1/2) nazywamy rozk
lkowita ladem

Ç2 - chi kwadrat z n stopniami swobody.
n
Latwo policzyć, że EX = a/b oraz VarX = a/b2.

Twierdzenie 32. Za óżmy, że zmienne losowe X1, X2, . . . , Xn sa niezależne i
l
maja rozk “(a1, b), “(a2, b), . . ., “(an, b), odpowiednio. Wówczas zmienna X1 +
lady
X2 + . . . + Xn ma rozk “(a1 + a2 + . . . + an, b).
lad
Dowód: Ze wzgledu na indukcje, wystarczy udowodnić teze dla n = 2. Gestość

rozk X1 + X2 zadana jest przez splot
ladu

1 2
ba ba
1-1
2-1
gX+Y (x)= ya e-by1(0,")(y) (x - y)a e-b(x-y)1(0,")(x - y)dy
“(a1) “(a2)
R

x
1
ba +a2
1-1
2-1
= e-bx ya (x - y)a dy.
“(a1)“(a2)
0
Po podstawieniu w ca y = xt dostajemy, iż
lce
1
gX+Y (x) = C · xa +a2-1e-bx1(0,")(x)
dla pewnej sta C (której, jak za chwile zobaczymy, nie musimy nawet dok
lej ladnie

wyliczać). To zaÅ› oznacza już, iż X +Y ma rozk “(a1 +a2, b); istotnie, ponieważ
lad
gX+Y jest gestościa, to ca z niej wynosi 1; zatem sta C musi wynosić
lka la

1
ba +a2
.
“(a1 + a2)
Jako wniosek dostajemy, iż suma n niezależnych zmiennych losowych o rozk
ladzie
wyk lad
ladniczym z parametrem  ma rozk Erlanga.
Twierdzenie 33. Za óżmy, że X1, X2, . . . , Xn sa niezależnymi zmiennymi loso-
l
2 2 2
wymi o rozk N (0, 1). Wówczas zmienna X1 + X2 + . . . + Xn ma rozk chi
ladzie lad
kwadrat z n stopniami swobody.
2
Dowód: Wystarczy udowodnić, że zmienna X1 ma rozk “(1/2, 1/2) i skorzystać
lad
z poprzedniego twierdzenia. To zaÅ› uzyskujemy prosto przez obliczenie dystrybu-
2
anty X1 i jej zróżniczkowanie.
Rozk chi kwadrat pojawia sie rownież przy badaniu średniej i wariancji z
lad

próbki o rozk normalnym, co ma dość duże znaczenie w statystyce.
ladzie
Twierdzenie 34. Jeżeli X1, X2, . . . , Xn sa niezależnymi zmiennymi losowymi o
rozk N (0, 1) oraz m, s2 oznaczaja odp. średnia i wariancje z próby,
ladzie

n

1
m = Xi
n
i=1
n

1
s2 = (Xi - m)2,
n
i=1
41
to m ma rozk N (0, 1), ns2 ma rozk Ç2 oraz zmienne m, s2 sa niezależne.
lad lad
n-1
19.3. Rozk lognormalny (logarytmicznie normalny) L(m, Ã), m " R,
lad
à > 0. Jest to rozk zmiennej Y = eX, gdzie X <" N (m.Ã). Ma on gestość
lad


1 (lnx - m)2
g(x) = " exp - 1(0,")(x).
2Ã2
2Ä„Ãx
Rozk lognormalne s w ekonomii np. do modelowania cen akcji.
lady luża
1
Można policzyć, iż EY = exp(m + Ã2), VarY = (exp(Ã2) - 1) exp(2m + Ã2).
2
Twierdzenie 35. Jeśli Y1, Y2, . . ., Yn sa niezależnymi zmiennymi losowymi o
rozk lognormalnych L(m1, Ã1), L(m2, Ã2), . . ., L(mn, Ãn), to ich iloczyn ma
ladach

2 2
2
rozk lognormalny L(m1 + m2 + . . . + mn, Ã1 + Ã2 + . . . + Ãn).
lad
Wynika to natychmiast z analogicznej w rozk normalnego.
lasności ladu
19.4. Rozk Cauchy ego Cau(a, m), a > 0, m " R. Jest to rozk z gestościa
lad lad

a
g(x) = .
Ä„((x - m)2 + h2
Najcześciej spotyka sie rozk Cau(1, 0) (standardowy rozk Cauchy ego).
lad lad

Twierdzenie 36. Jeśli X1, X2, . . . , Xn sa niezależnymi zmiennymi o standardo-
wym rozk Cauchy ego, to ich suma ma ten sam rozk co zmienna nX1.
ladzie lad,
Rozk Cauchy ego nie posiada skończonej wartości oczekiwanej.
lad
19.5. Rozk Pareto. Jest to rozk o gestości
lad lad

aba
ga,b(x) = 1[b,")(x), a, b > 0.
xa+1
S on do modelowania dochodów badz wielkości miast, średnic meteorytów, itp.
luży

Mamy EX = ab/(a - 1) dla a > 1, VarX = ab2/[(a - 1)2(a - 2)] dla a > 2.
19.6. Rozk F -Snedecora, F (d1, d2), d1, d2 = 1, 2, . . .. Jest to ważny rozk
lad lad
w statystyce. Zmienna losowa X ma rozk F (d1, d2), jeśli X = Y1/Y2, gdzie Y1,
lad
Y2 sa niezależne i Yi ma rozk Ç2 , i = 1, 2.
lad
di
Rozk F (d1, d2) posiada gestość
lad

d /2 d /2
1 2
d1 x d1 x
1 -
d1 x+d2 d1 x+d2
gd ,d2(x) = 1(0,")(x),
1
x B(d1/2, d2/2)
gdzie B oznacza funkcje beta:


1
“(a)“(b)
B(a, b) = ta-1(1 - t)b-1dt = , a, b > 0.
“(a + b)
0
Åšrednia wynosi d2/(d2 - 2)! dla d2 > 2, a wariancja
2 d2 (d1 + d2 - 2)
2
dla d2 > 4.
d1(d2 - 2)2(d2 - 4)
42
19.7. Rozk t-Studenta. Jest to rozk w naturalny sposób pojawiajacy sie
lad lad

w statystyce. Rozk t-Studenta o n stopniach swobody to rozk zmiennej
lad lad
" "
nX/ Yn, gdzie X, Yn sa niezależne, X <" N (0, 1) i Yn <" Ç2 . Ma on gestość
n

- 1
1
2
“( (n + 1))
1 x2 (n+1)
2
"
gn(x) = · 1 + , n = 1, 2, . . . .
1
nÄ„ “( n) n
2
Dla n = 1 dostajemy rozk Cauchy ego.
lad
Wartość oczekiwana nie istnieje dla n = 1, wariancja nie istnieje dla n = 1, 2.
W pozosta przypadkach, wartość oczekiwana jest równa 0, a wariancja wynosi
lych
n/(n - 2).
19.8. Rozk Weibulla. Ma on gestość
lad

Ä…
g(x) = Ä…²-Ä…xÄ…-1e-(x/²) 1(0,")(x), Ä…, ² > 0.
Rozk ten s do modelowania czasu ,,życia rozmaitych obiektów technicznych.
lad luży
Jeśli X ma ten rozk to
lad,
1 2 1
EX = ²“(1 + ), VarX = ²2[“(1 + ) - (“(1 + ))2].
Ä… Ä… Ä…
19.9. Wielowymiarowy rozk normalny. Zacznijmy od przypadku dwuwy-
lad
miarowego. Standardowym rozk normalnym w R2 jest rozk zmiennej
ladem lad
(X1, X2), gdzie X1, X2 maja rozk N (0, 1). Taki rozk ma gestość
lady lad

1 1
g(x, y) = exp[- (x2 + y2)].
2Ä„ 2
Ogólniej, niech m = (m1, m2) bedzie wektorem w R2 oraz A bedzie symetryczna i

dodatnio okreÅ›lona macierza 2 × 2, tzn. spe a11 > 0, detA > 0. OkreÅ›lmy
lniajaca

"

det A 1
g(x, y) = exp - (A(x - m1, y - m2), (x - m1, y - m2)
2Ä„ 2
"

det A 1
= exp - (a11(x - m1)2 + 2a12(x - m1)(y - m2) + a22(y - m2)2) ,
2Ä„ 2
gdzie

a11 a12
A = .
a21 a22
Wówczas g jest gestościa rozk o średniej (m1, m2) i macierzy kowariancji Q =
ladu

A-1. Rozk ten nazywamy rozk normalnym o średniej m i macierzy kowa-
lad ladem
riancji Q.
Okazuje sie, że dwuwymiarowe rozk normalne daja sie otrzymać poprzez
lady

liniowe (a raczej afiniczne) przekszta T : R2 R2 standardowej zmiennej
lcenie
(X1, X2); istotnie, majac dana macierz A i wektor m jak wyżej, istnieje prze-

kszta liniowe S takie, że A = SSt i wystarczy wzia ć T = SX + m.
lcenie
Ogólna definicja jest nastepujaca. Niech m = (m1, m2, . . . , mn) bedzie wektorem

w Rn, a A bedzie dodatnio okreÅ›lona macierza n × n (tzn. dla dowolnego wektora

x " Rn mamy (Ax, x) > 0, gdzie (·, ·) oznacza iloczyn skalarny w Rn). Rozk o
lad
gestości
"

det A (A(x - m), (x - m))
g(x) = exp - ,
(2Ä„)n/2 2
x = (x1, x2, . . . , xn) " Rn, nazwiemy rozk normalnym; jego średnia jest m i
ladem
macierz kowariancji wynosi Q = A-1.
43
Podajmy kilka w wielowymiarowego rozk normalnego.
lasności ladu
(i) Rozk normalny jest jednoznacznie wyznaczony przez swoja średnia i ma-
lad
cierz kowariancji.
(ii) Jeśli X ma rozk normalny w Rn, o średniej m i macierzy kowariancji Q,
lad
k jest wektorem w Rd i T jest macierza d × n, to T X + k ma rozk normalny w
lad
t
Rd, o średniej T m + k i macierzy kowariancji T QT .
Kolejna w zapiszemy jako twierdzenie.
lasność
Twierdzenie 37. Za óżmy, że X = (X1, X2, . . . , Xn) ma rozk normalny i
l lad
zmienne X1, X2, . . ., Xn sa nieskorelowane. Wówczas sa one niezależne.
Dowód: Jeśli zmienne Xi sa nieskorelowane, to macierz kowariancji Q jest diago-
nalna:
îÅ‚ Å‚Å‚
2
Ã1 0 0 . . . 0
2
ïÅ‚ śł
0 Ã2 0 . . . 0
ïÅ‚ śł
Q = .
ðÅ‚ ûÅ‚
. . . . . . . . . . . . . . .
2
0 0 0 . . . Ãn
Wobec tego
îÅ‚ Å‚Å‚
2
1/Ã1 0 0 . . . 0
2
ïÅ‚ śł
0 1/Ã2 0 . . . 0
ïÅ‚ śł
A = Q-1 = ,
ðÅ‚ ûÅ‚
. . . . . . . . . . . . . . .
2
0 0 0 . . . 1/Ãn
det A = 1/(Ã1Ã2 . . . Ãn)2, a wiec

1 (x1 - m1)2 1 (xn - mn)2
g(x) = " exp(- ) . . . " exp(- )
2
2
2Ã1 2Ãn
2Ä„Ã1 2Ä„Ãn
= g1(x1)g2(x2) . . . gn(xn).
Zatem gestość laczna jest iloczynem gestości brzegowych; stad niezależność wspó
l-

rzednych.

20. Warunkowa wartość oczekiwana
Jak już sie przekonaliśmy, dodatkowa wiedza na temat wyniku eksperymentu

losowego, wymusza na nas przejście do prawdopodobieństwa warunkowego i może
istotnie zmienić nasze oczekiwania co do możliwych wyników doświadczenia. Zja-
wisko to przejawia sie nie tylko na poziomie prawdopodobieństw poszczególnych

zdarzeń, dotyczy także wartości oczekiwanej zmiennych losowych. Przyk
ladowo,
jeśli rzucamy dwa razy kostka, wartość oczekiwana lacznej wyrzuconej liczby oczek


wynosi 7. Gdy jednak wiemy, że w pierwszym rzucie wypad dwa oczka, naturalne
ly
jest przyja ć, że wartość oczekiwana lacznej liczby oczek wynosi 2 + 3.5 = 5.5 (czyli


jest suma wyrzuconej dotychczas liczby oczek i wartości oczekiwanej liczby oczek
wyrzuconych w drugim rzucie).
Podobnie, losujac punkt (X, Y ) z kwadratu o wierzcho (0, 0), (1, 0), (1, 1), (0, 1)
lkach

mamy EXY = EX · EY = 1/4 (zmienne X, Y sa niezależne, o wpólnym rozk
ladzie
U([0, 1])). Jeśli jednak znamy wartość jednej ze wspó
lrzednych, np. wiemy, że X =

1/3 intuicyjnie chcielibyśmy przyja ć, że wartość oczekiwana iloczynu wspólrzednych

1 1 1
wynosi · = .
3 2 6
Powyższe przyk prowadza do pojecia warunkowej wartości oczekiwanej, nie-
lady

zwykle przydatnego w dzia rachunku prawdopodobieństwa, opisujacych procesy
lach

zachodzace w czasie, w których nasza wiedza rośnie wraz z przebiegiem doświadczenia

44
(ma to miejsce np. gdy obserwujemy kursy akcji). Wyczerpujace omówienie tego

pojecia wyznacza znacznie poza zakres wyk skoncentrujemy sie wiec, podob-
ladu,

nie jak przy omawianiu rozk zmiennych losowych, na dwóch najważniejszych
ladów
przypadkach: dyskretnym i ciag
lym.

Rozpatrzmy zatem dwuwymiarowy wektor losowy (X, Y ). Za óżmy na poczatek,
l

że ma on rozk dyskretny. Dla dowolnego x, takiego że P(X = x) > 0 mamy
lad
dobrze okreÅ›lone prawdopodobieÅ„stwo warunkowe zdarzeÅ„ postaci {É : Y (É) " A},
gdzie A jest borelowskim bodzbiorem R. Funkcja zbioru A " B(R), dana wzo-
rem µ(A) = P(Y " A|X = x) jest prawdopodobieÅ„stwem (spe aksjomaty
lnia
Ko
lmogorowa). Możemy zatem zdefiniować warunkowa wartość oczekiwana zmien-
nej Y pod warunkiem X = x po prostu jako wartość oczekiwana rozk prawdo-
ladu
podobieÅ„stwa µ.
Definicja 31. Niech (X, Y ) bedzie dwuwymiarowa zmienna losowa o rozk
ladzie

dyskretnym, spe E|Y | < ". Dla dowolnej liczby x " R, takiej że P(X =
lniajaca

x) > 0, definiujemy warunkowa wartość oczekiwana Y pod warunkiem X = x (ozn.
E(Y |X = x)) jako wartośc oczekiwana rzeczywistej zmiennej losowej o rozk
ladzie
µ, danym wzorem
µ(A) = P(Y " A|X = x),
Zatem, jeśli S jest zbiorem tych y " R, że P(Y = y|X = x) > 0 (równoważnie
P((X, Y ) = (x, y)) > 0), mamy

E(Y |X = x) = yP(Y = y|X = x).
y"S
Zachodzi też odpowiednik znanego nam twierdzenia o wartości oczekiwanej funk-
cji zmiennych losowych.
Twierdzenie 38. Jeśli (X, Y ) jest zmienna losowa o rozk dyskretnym, zaś
ladzie
Õ: R R, funkcja borelowska, taka że E|Õ(Y )| < ", to dla dowolnego x, takiego

że P(X = x) > 0 zachodzi równość

E(Õ(Y )|X = x) = Õ(y)P(Y = y|X = x),
y"S
gdzie S = {y " R: P((X, Y ) = (x, y)) > 0}.
Przyk 1. Niech (X, Y ) bedzie wektorem losowym skupionym na zbiorze
lady

{(0, 0), (0, 1), (1, 0)}, o rozk zadanym przez wagi p(0,0) = 1/2, p(0,1) = p(1,0) =
ladzie
1/4. Mamy
3 1 1
EY = · 0 + · 1 = .
4 4 4
Ponadto P(Y = 0|X = 0) = 2/3 oraz P(Y = 1|X = 0) = 1/3. Zatem
2 1 1
E(Y |X = 0) = · 0 + · 1 = .
3 3 3
Analogicznie P(Y = 0|X = 1) = 1, zatem
E(Y |X = 1) = 0 · 1 = 0.
Ten wynik jest intuicyjnie zupe oczywisty, jeżeli X = 1, wartość zmiennej Y
lnie
jest już zdeterminowana.
2. Jeżeli zmienna losowa Y jest funkcja zmiennej X, tzn. Y = f(X), to zgodnie
z intuicja, E(Y |X = x) = f(x). Rzeczywiście, zbiór S z twierdzenia zawiera tylko

jedna liczbe y = f(x) oraz P(Y = y|X = x) = 1.

45
3. Niech Y bedzie zmienna losowa skupiona na zbiorze 0, 1, -1, 2, -2 i rozk
ladzie

zadanym przez wagi
1 1 1 1
p0 = , p1 = p-1 = , p2 = , p-2 = .
3 6 4 12
Rozważmy zmienna losowa X = |Y |. Mamy
P(Y = 0|X = 0) = 1,
wiec E(Y |X = 0) = 0. Ponadto

1
P(Y = 1|X = 1) = P(Y = -1|X = 1) = ,
2
wiec również

1 1
E(Y |X = 1) = 1 · + (-1) · = 0.
2 2
Z kolei P(Y = -2|X = 2) = 1/4 oraz P(Y = 2|X = 2) = 3/4, zatem
1 3
E(Y |X = 2) = (-2) · + 2 · = 1.
4 4
Przejdzmy teraz do zmiennych X,Y, o lacznym rozk ciag Niech g : R2
ladzie lym.

[0, ") bedzie gestościa (rozk wektora (X, Y ). Chcielibysmy zdefiniować w
ladu)

sensowny sposób E(Y |X = x). Sytuacja jest jednak bardziej skomplikowana niż
w przypadku dyskretnym, gdyż dla każdego x " R, P(X = x) = 0, a wiec praw-

dopodobieÅ„stwo warunkowe P(·|X = x) nie jest dobrze okreÅ›lone. Problem ten
pokonamy, definiujac tzw. gestość warunkowa zmiennej Y pod warunkiem zmien-

nej X.
Definicja 32. Niech (X, Y ) bedzie dwuwymiarowym wektorem losowym o gestości


"
g : R2 [0, "). Niech gX(x) = g(x, y)dy > 0 bedzie gestościa zmiennej X.
-"
Dla x " R, definiujemy gestość warunkowa zmiennej Y pod warunkiem X = x jako

funkcje dana wzorem

g(x,y)
jeśli gX(x) > 0
gX (x)
gY |X(y|x) =
f(y) w p.p.,
gdzie f : R [0, ") jest dowolna ustalona gestościa prawdopodobieństwa.

Uwagi 1. Gestość warunkowa może być postrzegana jako ciag odpowiednik
ly

prawdopodobieństwa warunkowego. Ca w mianowniku ma charakter normujacy.
lka

Intuicyjnie, jeśli wiemy, że X = x, oczekujemy, że warunkowa gestość zmiennej Y w

punkcie y, powinna być proporcjonalna do g(x, y). Sta proporcjonalności powinna
la
być taka, by gestość warunkowa ca la sie do 1, co już ja determinuje.
lkowa

2. Gestość warunkowa nie jest wyznaczona jednoznacznie, nie tylko ze wzgledu

na dowolność wyboru gestości f w definicji, ale także ze wzgledu na to, że gestość

wektora losowego (X, Y ) nie musi być wyznaczona jednoznacznie. W rzeczywi-
stości jednak nie stanowi to problemu, gdyż gestość warunkowa jest wyznaczona

jednoznacznie na prawie ca prostej (nie dysponujemy odpowiednim aparatem
lej
matematycznym, aby sprecyzować to pojecie) i w problemach, które bedziemy roz-

patrywać nie bedzie mialo znaczenia, której ,,wersji gestości warunkowej używamy.

46
Przyk 1. Niech (X, Y ) ma rozk jednostajny na kwadracie o wierz-
lady lad
cho (1, 0), (0, 1), (-1, 0), (0, -1). Gestość wektora (X, Y ) to
lkach

1
g(x, y) = 1{|x|+|y|d"1}(x, y).
2

"
Dla x " (-1, 1) mamy g(x, y)dy = (1 - |x|). Gestość warunkowa wynosi zatem
-"
1{|y|d"1-|x|}(x, y)
gY |X(y|x) = ,
2(1 - |x|)
dla x " (-1, 1). Dla x " (-1, 1) za gestość warunkowa podstawiamy dowolna
/

ustalona gestość prawdopodobieństwa na R. Korzystajac z tak obliczonej gestości

warunkowej możemy teraz nadać sens np. prawdopodobieństwu warunkowemu
1
P(Y e" |X = x). Zauważmy, że nie możemy skorzystać z klasycznej definicji
2
(przeszkoda jest równość P(X = x) = 0), tym niemniej intuicyjnie poprawne jest
przyjecie, że



1/2-|x|
"
1 dla |x| d" 1/2
1-|x|
P(Y e" |X = x) = gY |X(y|x)dy =
2
0 dla x " (-1, 1)\(-1/2, 1/2).
1/2
Dla pozosta wartości x nie definiujemy powyższego prawdopodobieństwa wa-
lych

"
runkowego. Możemy też przyjac, że jest ono równe f(y)dy badz dowolnej liczbie
1/2
z przedzia [0, 1] (wybór nie ma znacznenia, zmienna X przyjmuje wartość spoza
lu
zbioru (-1, 1) z prawdopodobieństwem 0, wiec w praktyce to prawdopodobieństwo

warunkowe pozostanie dla nas tylko ,,ozdobnikiem ).
2. Losujemy liczbe › z przedzia (0, 1), a nastepnie liczbe X z rozk Exp(›).
lu ladu

Wyznaczyć gestość zmiennych (›, X) oraz X.

Gestość rozk zmiennej losowej › jest równa g›() = 1(0,1)(), natomiast gestość
ladu

warunkowa zmiennej X pod warunkiem › =  dana jest wzorem gX|›(x|) =
e-x1(0,")(x). Mamy wiec

g(›,X)(, x) = gX|›(x|)g›() = e-x1(0,1)()1(0,")(x)
Znajac gestość laczna ›, X, możemy obliczyć gX ca po zmiennej . Otrzy-
lkujac

mujemy

" 1
gX(x) = g(›,X)(, x)d = 1(0,")(x) e-xd
-" 0
1
 1 1 1 1
= 1(0,")(x)[- e-x - e-x] = 1(0,")(x)( - e-x - e-x).

x x2 0 x2 x x2
Możemy teraz zdefiniować warunkowa wartość oczekiwana w przypadku ciag
lym.

Zauważmy, że dla tych x, dla których gestość warun kowa jest dobrze określona, jest

ona gestościa pewnego rozk prawdopodobieństwa na prostej (jest nieujemna i
ladu

ca sie do 1). Możemy wiec postapić podobnie jak w przypadku rozk
lkuje ladów

dyskretnych i zdefiniować warunkowa wartość oczekiwana jako wartość oczekiwana
tego nowego rozk
ladu.
Definicja 33. Niech (X, Y ) bedzie dwuwymiarowym wektorem losowym o gestości

g : R2 [0, "), takim że E|Y | < ". Dla x " R definiujemy warunkowa wartość
47
oczekiwana zmiennej Y pod warunkiem X = x (ozn. E(Y |X = x)) jako wartość
oczekiwana rzeczywistej zmiennej losowej o gestości fx(y) = gY |X(y|X = x). Zatem


"
E(Y |X = x) = ygY |X(y|x)dy.
-"
Również w przypadku ciag mamy warunkowy odpowiednik twierdzenia o
lym

wartości oczekiwanej funkcji zmiennych losowych.
Twierdzenie 39. Jeśli (X, Y ) jest dwuwymiarowa zmienna losowa o gestości g : R2

[0, "), zaÅ› Õ: R R, funkcja borelowska, taka że E|Õ(Y )| < ", to dla dowolnego
x " R,

"
E(Õ(Y )|X = x) = Õ(y)gY |X(y|x)dy
-"
Przyk 1. Wektor losowy (X, Y ) ma rozk o gestości
lad lad

1
g(x, y) = e-|x|1(|x|,2|x|+1)(y)
2(|x| + 1)

"
Mamy gX(x) = g(x, y)dy = 2-1e-|x|. Zatem
-"
g(x, y) 1
gY |X(y|x) = = 1(|x|,2|x|+1)(y).
gX(x) |x| + 1
Innymi s rozk zmiennej Y pod warunkiem X = x to rozk jednostajny
lowy, lad lad
na odcinku (|x|, 2|x| + 1). Mamy zatem

"
3|x| + 1
E(Y |X = x) = ygY |X(y|x)dy = .
2
-"
Czasami wygodnie jest traktować warunkowa wartość oczekiwana jako zmienna
losowa. Dlatego wprowadzimy nastepujaca definicje

Definicja 34. Niech X, Y beda zmiennymi losowymi na tej samej przestrzeni pro-

babilistycznej. Za óżmy, że E|Y | < ". Warunkowa wartościa oczekiwana zmiennej
l
Y pod warunkiem X (ozn. E(Y |X)) nazywamy zmienna losowa, dana wzorem

E(Y |X) = m(X),
gdzie m(x) = E(Y |X = x).
Definicja 35. Niech X bedzie zmienna losowa. Dla dowolnego zdarzenia A " F,

definiujemy P(A|X) = E(1A|X).
Przyk 1. Zmienna E(Y |X) jest zatem funkcja zmiennej X. W przyk
lady ladzie
powyżej, gdy (X, Y ) ma gestość

1
g(x, y) = e-|x|1(|x|,2|x|+1)(y),
2(|x| + 1)
3|x|+1 3|X|+1
mamy m(x) = , a zatem E(Y |X) = .
2 2
2. W rozpatrywanym już przez nas przyk dot. rozk dyskretnych,
ladzie ladów
gdy Y ma rozk wyznaczony przez wagi
lad
1 1 1 1
p0 = , p1 = p-1 = , p2 = , p-2 = ,
3 6 4 12
48
a X = |Y |, mieliśmy E(Y |X = 0) = 0, E(Y |X = 1) = 1/2, E(Y |X = 2) = 1.
Możemy zatem napisać, że m(x) = E(Y |X = x) = x/2 dla x " {0, 1, 2} (pozosta
le
wartości x nas nie interesuja, gdyż X jest skupiona na zbiorze {0, 1, 2}). Zatem

X
E(Y |X) = m(X) = .
2
Warunkowa wartość oczekiwana ma wiele w podobnych do ,,zwyk
lasności lej
wartości oczekiwanej. Podsumujemy je w nastepujacym twierdzeniu.

Twierdzenie 40. Niech X, Y, Z : &! R beda zmiennymi losowymi, przy czym

E|X|, E|Y | < ". Wówczas
(i) Jeśli X e" 0, to E(X|Z) e" 0.
(ii) |E(X|Z)| d" E(|X||Z).
(iii) Dla dowolnych a, b " R, E(aX + bY |Z) = aE(X|Z) + bE(Y |Z)
Nastepne twierdzenie podaje kilka dalszych, użytecznych w warunkowej
lasności

wartości oczekiwanej
Twierdzenie 41. Niech X, Y : &! R beda zmiennymi losowymi. Jeśli Y jest

ca
lkowalna, to
(i) E|E(Y |X)| < " oraz E(E(Y |X)) = EY .
(ii) Jeśli X, Y sa niezależne, to E(Y |X) = EY .
(iii) Jeśli h(X) jest ograniczona zmienna losowa, to E(h(X)Y |X) = h(X)E(Y |X).

Ostatnia w pozwala uprościć obliczanie warunkowej wartości oczekiwanej.
lasność
Aby to zilustrować, powróćmy do przyk wektora (X, Y ) o gestości
ladu

1
g(x, y) = e-|x|1(|x|,2|x|+1)(y).
2(|x| + 1)
Wiemy, że E(Y |X) = (3|X| + 1)/2. Otrzymujemy stad np. że E(sin(X)Y |X) =

(3|X| + 1) sin(X)/2.
Na zakończenie podamy zastosowanie warunkowej wartości oczekiwanej do za-
gadnienia prognozy. Wyobrazmy sobie, że pewne zjawisko jest opisane wektorem
losowym (X, Y ), ale w praktyce zaobserwować możemy jedynie X (lub też X ob-
serwujemy wcześniej niż Y ). Jesteśmy jednak zainteresowani wartościa zmiennej
Y (dla przyk X, Y moga oznaczać temperature odp . dziś i jutro w polud-
ladu

nie). Chcielibyśmy wiec dysponować regu a, która pozwoli nam przybliżyć Y przy
l

pomocy X. Jest to sytuacja analogiczna do znanego nam już zagadnienia regresji
liniowej, tym razem jednak nie chcemy ograniczać sie do przybliżeń postaci aX + b,

zamiast tego dopuszczamy przybliżenie dowolna funkcja borelowska zmiennej X,
czyli zmienna losowa postaci Õ(X), gdzie Õ: R R to funkcja borelowska. B ad
l

mierzymy ponownie w sensie Å›redniokwadratowym, tzn. chcemy dobrać Õ tak, aby
zminimalizować wielkość
E(Y - Õ(X))2,
2
przy czym zak że EY < ".
ladamy,
Okazuje sie, że optymalna funkcja Õ jest Õ"(x) = E(Y |X = x). Dok
ladniej,

zachodzi nastepujace twierdzenie.

2
Twierdzenie 42. Niech X, Y : &! R beda zmiennymi losowymi, EY < ",

wówczas funkcja Õ" : R R, dana wzorem Õ"(x) = E(Y |X = x) spe
lnia
E(Y - Õ"(X))2 = min{E(Y - Õ(X))2 : Õ: R R  borelowska}.
49
21. Nierówność Czebyszewa, w strone praw wielkich liczb

W rachunku prawdopodobieństwa czy statystyce czesto nie jest możliwe dok
ladne

wyliczenie pewnych interesujacych nas wartości. Niemniej w wielu zastosowaniach

istotna jest nie tyle dok wartość co jej oszacowanie. Przyk gracza
ladna ladowo,
może interesować czy prawdopodobieństwo, że przegra jest mniejsze niż pewna z
góry ustalona liczba ą i na tej podstawie może podja ć decyzje czy wzia ć udzia
l

w grze. Podobnie, w badaniach statystycznych czy przy pomiarach wielkości fi-
zycznych ważne jest oszacowanie prawdopodobieństwa, że b ad wyniesie wiecej niż
l

interesujaca nas dok lowy, l
ladność. Innymi s jeśli przez X oznaczymy losowy b ad

danej metody pomiarowej, a przez x żadana precyzje pomiaru, jesteśmy zaintere-

sowani nierównościami postaci
P(X e" x) d" Ä….
Konkretna metoda pomiaru czy procedura statystyczna może zostać uznana za
wiarygodna jeżeli ą jest odpowiednio ma (dobór ą zależy istotnie od konkretnego
le
problemu).
Podstawowym narzedziem matematycznym s do uzyskiwania nierówności
lużacym

powyższego typu jest nastepujace twierdzenie

Twierdzenie 43 (Nierówność Czebyszewa). Dla dowolnej nieujemnej zmiennej
losowej X oraz dla każdego µ > 0,
EX
P(X e" µ) d" .
µ
Dowód. Mamy
X e" X1{Xe"µ} e" µ1{Xe"µ}.
Biorac teraz wartości oczekiwane, otrzymujemy

EX e" E(µ1{Xe"µ}) = µP(X e" µ),
skad natychmiast wynika żadana nierówność.

Nierówność Czebyszewa, choć niezwykle prosta, ma bardzo dużo zastosowań. Jej
si wynika miedzy innymi z faktu, że możemy zastosować ja nie tylko do zmiennej
la

losowej X, która jesteśmy zainteresowani, ale także do zmiennych postaci f(X),
uzyskujac nowe nierówności. Ilustruje to poniższe twierdzenie. Aby je uzyskać,

stosujemy nierówność Czebyszewa kolejno do zmiennych |X|p, (X - EX)2, eX.
Twierdzenie 44. Niech X bedzie zmienna losowa.

a) Nierówność Markowa. Dla dowolnej liczby p > 0 oraz dowolnego µ > 0,
E|X|p
P(|X| e" µ) d" .
µp
b) Nierówność Czebyszewa-Bienaymé. Dla dowolnego µ > 0,
Var(X)
P(|X - EX| e" µ) d" .
µ2
c) Wyk l
ladnicza nierówność Czebyszewa. Za óżmy, że EepX < " dla
pewnego p > 0. Wówczas dla dowolnego  " [0, p] oraz dowolnego µ,
EeX
P(X e" µ) d" .
eµ
50
Przyk
lady
1. Przypuśćmy, że dokonujemy szeregu pomiarów jakiejś wielkości fizycznej,
przy czym każdy pomiar obarczony jest pewnym b Niech X1, X2, . . . , Xn
ledem.
oznaczaja wyniki kolejnych pomiarów. W takiej sytuacji naturalnie jest zak
ladać,
że X1, X2, . . . , Xn sa niezależnymi zmiennymi losowymi o średniej równej prawdzi-
wej wartości mierzonej wielkości fizycznej (oznaczmy ja przez m). Jeżeli wiemy,
że wariancja zmiennych Xi jest nie wieksza od pewnej liczby A, z nierówności

Czebyszewa-Bienaymé, możmy wywnioskować, że dla każdego i,
A
P(|Xi - m| e" µ) d" .
µ2
Zauważmy teraz, że jeżeli µ jest ma w stosunku do A, powyższa nierówność
le
"
może nie dawać nam żadnych informacji (np. dla µ = A, prawa strona jest równa
1). Jeżeli jednak przybliżymy nieznana nam liczbe m przez średnia arytmetyczna

liczb Xi, dostaniemy

n n
1
n

1
Var Xi
n i=1 Var(Xi) nA A
i=1
P Xi - m e" µ d" = d" = .

n µ2 n2µ2 n2µ2 nµ2
i=1
Prawa strona powyższej nierówności zbiega do 0 dla n ", widzimy wiec, że

przy dużej liczbie pomiarów możemy z dużym prawdopodobieństwem uzyskać do-
bre przybliżenie nieznanej wartości m. Co wiecej, znajac A, wiemy ile pomiarów

musimy wykonać, aby prawdopodobieństwo, że nasze przybliżenie bedzie obarczone

b edem wiekszym niż µ nie przekracza ustalonej liczby Ä….
l lo

2. Przypuśćmy, że mamy do czynienia z moneta o nieznanym nam prawdopo-
dobieństwie wyrzucenia or (oznaczmy je przez p). Aby to prawdopodobieństwo
la
przybliżyć możemy wykonać serie rzutów moneta i sprawdzić czestość wystapienia

or Jedno z teoretycznych uzasadnień tej metody wynika z nierówności Czeby-
la.
szewa. Niech Xi bedzie zmienna losowa przyjmujaca wartość 1 jeśli w i-tym rzucie

wypad orze i zero w przeciwnym przypadku. Wówczas zmienne Xi sa niezależne,
l l
EXi = p oraz
Var(Xi) = p - p2 = p(1 - p)
n
Oznaczajac Sn = Xi, otrzymujemy Var(Sn) = np(1-p). Zatem z nierówności
i=1
Czebyszewa otrzymujemy

Sn
p(1 - p)
P - p e" µ d" .

n nµ2
1
Ponieważ p(1 - p) d" , ostatecznie dostajemy
4

Sn
1
P - p e" µ d" .

n 4nµ2
Jeżeli wiec zdecydujemy sie przybliżyć p na podstawie serii 10000 rzutów, praw-

1
dopodobieństwo, że pomylimy sie o wiecej niż 1/10 nie przekracza =
4·10000·10-2
1
.
400
Powyższy przyk ma jednak funkcje g ównie ilustracyjne, okazuje sie bowiem,
lad l

że to prawdopodobieństwo jest dużo mniejsze, co może być wykazane przy użyciu
wyk
ladniczej nierówności Czebyszewa. Do tego zagadnienia wrócimy w dalszej
cześci wyk
ladu.

3. Powyższe przyk opisywa sytuacje, w których parametry opisujace nasze
lady ly

doświadczenie nie by znane, a nierówności pomaga je przybliżyć. Oczywiście
ly ly
51
nierówności można zastosować także, gdy znamy wszystkie parametry naszego mo-
delu, ale chcemy oszacować prawdopodobieństwo pewnych konkretnych zdarzeń.
Przypuśćmy, że rzucamy 1000 razy kostka i jesteśmy zainteresowani laczna liczba


wyrzuconych oczek. Wartość oczekiwana liczby oczek wyrzuconych w konkretnym
rzucie wynosi 3.5, zatem spodziewamy sie, że przy 1000 rzutach laczna liczba oczek


powinna być bliska 350. Oszacujmy prawdopodobieństwo, że bedzie sie ona różnić

od 350 o wiecej niż 100. Jeśli przez Xi oznaczymy liczbe oczek wyrzucona w i-tym

1000
rzucie, zaÅ› Sn = Xi, mamy
i=1
1000

35 35000
Var(Sn) = Var(Xi) = 1000 · = .
12 12
i=1
Zatem P(|Sn - 350| e" 100) d" Var(Sn)/1002 = 35/120. Również w tym przypadku
istnieja lepsze oszacowania (także oparte o wyk
ladnicza nierówność Czebyszewa),
pokazujace, że w rzeczywistości prawdopodobieństwo to jest dużo mniejsze.

Jednym z wniosków z wyk
ladniczej nierówności Czebyszewa, który okaże sie

przydatny w dok ladu
ladniejszej analizie przyk 2, jest tzw. nierówność Bernsteina.
Twierdzenie 45 (Nierówność Bernsteina). Niech Sn bedzie liczba sukcesów w n-

próbach Bernoulliego z prawdopodobieństwem sukcesu równym p. Wówczas, dla
każdego µ > 0,

Sn 2
P e" p + µ d" e-2µ n
n
oraz

Sn 2
P d" p - µ d" e-2µ n.
n
Uwaga Laczac obie nierówności z powyższego twierdzenia otrzymujemy, że



Sn
2
P - p e" µ d" 2e-2µ n.

n
Do dowodu nierówności Bernsteina bedzie nam potrzebna elementarna nierówność

2
(5) peq + qe-p d" e /8
dla , p, q e" 0, p + q = 1. Aby ja udowodnić, rozpatrzmy funkcje f() = ln(peq +

qe-p). Chcemy wykazać, że dla  e" 0, f() d" g() dla g() = 2/8. Ponieważ
f(0) = g(0), wystarczy wykazać, że f () d" g (). Mamy
pq(eq - e-p) pq(e - 1)
f () = =
peq + qe-p pe + q

oraz () = /4. Zatem f (0) = g (0) i powtarzajac powyższe rozumowanie, docho-

dzimy do wniosku, że wystarczy udowodnić, że f () d" g () = 1/4. Korzystajac

z za p + q = 1, otrzymujemy
lożenia
pqe(pe + q) - pepq(e - 1) pqe
f () = =
(pe + q)2 (pe + q)2
Zatem f () = t(1 - t), gdzie t = pe/(pe + q) " [0, 1]. Ponieważ dla t " [0, 1]
mamy t(1 - t) d" 1/4, otrzymujemy stad, że f () d" g (), co pozwala zakończyć

dowód.
52
Dowód nierówności Bernsteina. Zauważmy najpierw, że wystarczy jeśli udowod-
nimy pierwsza z nierównoÅ›ci, druga już z niej wynika. RzeczywiÅ›cie, Sn/n d" p - µ
jet równoważne nierównoÅ›ci (n - Sn)/n e" q + µ dla q = 1 - p. Wystarczy wiec

zauważyć, ż n - Sn jest liczba sukcesów w schemacie Bernoulliego o n próbach i
prawdopodobieństwie sukcesu równym q (zmieniamy interpretacje naszego orygi-

nalnego doświadczenia, zamieniajac znaczeniami s ,,sukces i ,,porażka ).
lowa

Aby udowodnić pierwsze oszacowanie użyjemy wyk
ladniczej nierówności Cze-
byszewa. Oznaczmy przez Xi zmienna przyjmujaca wartość 1 jeśli i-ta próba

zakończy sie sukcesem i 0 w przeciwnym przypadku. Wówczas zmienne Xi sa
la

n
niezależne, Sn = Xi oraz dla dowolnego  > 0,
i=1
n n

n-np)
i-p)
i-p)
Ee(S = E e(X = Ee(X ,
i=1 i=1
i-p)
przy czym skorzystaliśmy z niezależności zmiennych e(X . Ponadto, korzystajac

z nierówności (5), otrzymujemy
2
i-p)
Ee(X = peq + qe-p d" e /8,
Zatem
2
n-np)
Ee(S d" e n/8.
Z wyk
ladniczej nierówności Czebyszewa otrzymujemy
S
2
n
P e" p + µ = P(Sn - np e" nµ) d" e n/8-nµ
n
dla  e" 0. Dla każdej liczby nieujemnej , powyższa nierówność daje nam pewne

Sn
oszacowanie na P e" p + µ . Ponieważ zależy nam na jak najlepszym osza-
n
cowaniu należy teraz znalezć wartość parametru , dla której prawa strona jest
najmniejsza. WartoÅ›cia ta jest  = 4µ. Przy tej wartoÅ›ci  prawa strona jest równa
2
e-2nµ , czyli daje oszacowanie, które chcieliÅ›my udowodnić.
Przyk Wracajac do przyk 2 powyżej, możemy teraz porównać osza-
lad ladu

cowania uzyskane z nierównoÅ›ci Czebyszewa-Bienaymé i nierównoÅ›ci Bernsteina.
Poprzednio uzyskaliśmy nierówność

Sn
1
P - p e" µ d" ,

n 4nµ2
co dla dużych n jest dużo gorszym oszacowaniem niż

Sn
2
P - p e" µ d" 2e-2µ n,

n
uzyskane z nierówności Bernsteina.
22. Zbieżność wed prawdopodobieństwa i prawie na pewno
lug
Czesto w praktyce mamy do czynienia z ciagiem zmiennych losowych X1, X2, . . .

i interesuje nas zachowanie graniczne tego ciagu, tzn. np. rozk zmiennych Xn dla
lad

dużych wartości n. Rozważmy nastepujacy przyk Przypuśćmy, iż odpowiedzieć
lad.

na pytanie, czy dana moneta jest symetryczna czy nie. Rzucamy nia wiele razy (na
potrzeby tego przyk za óżmy, że nieskończenie wiele razy) i rozważamy ciag
ladu l

53
zmiennych losowych Yn = 1{w n-tym rzucie reszka}, n = 1, 2, . . .. Jasne jest, że ciag

zmiennych
Y1 + Y2 + . . . + Yn
Xn = , n = 1, 2, . . . ,
n
powinien nam dać odpowiedz: jeśli, dla dużych n, Xn jest bliskie 1/2, to mamy
prawo przypuszczać, że moneta jest symetryczna; w przeciwnym razie mamy pod-
stawe sadzić, że tak nie jest.

Od razu powstaje problem, w jakim sensie badać ,,graniczne zachowanie ciagu

(Xn). W rachunku prawdopodobieństwa rozważa sie wiele różnych typów zbieżności.

My zdefiniujemy tylko dwa z nich.
Definicja 36. Mówimy, że ciag (Xn) jest zbieżny prawie na pewno do X, jeśli

P( lim Xn = X) = 1.
n"
Równoważnie, istnieje zdarzenie &! ‚" &! pe miary (tzn. takie, że P(&! ) = 1) o
lnej
tej w
lasnoÅ›ci, że dla każdego É " &!,
lim Xn(É) = X(É).
n"
Oznaczenie:
p.n.
lim Xn = X p.n. lub Xn - X
-
n"
Innym typem zbieżności jest zbieżność wed prawdopodobieństwa.
lug
Definicja 37. Mówimy, że ciag (Xn) jest zbieżny do X wed prawdopodobieństwa,
lug

jeÅ›li dla każdego µ > 0,
lim P(|Xn - X| > µ) = 0.
n"
Równoważnie, dla każdego µ > 0,
lim P(|Xn - X| d" µ) = 1.
n"
P
Oznaczenie: Xn - X.

Nie bedziemy tutaj g ebiej wnikać we w
l lasności, zwiazki i zależności pomiedzy

powyższymi rodzajami zbieżności. Poprzestaniemy tylko na stwierdzeniu, iż zbieżność
prawie na pewno jest silniejsza niż zbieżność wed prawdopodobieństwa: jeśli
lug
p.n. P
Xn - X, to Xn - X. Ponadto, zachodzi nastepujacy użyteczny fakt.
-

Twierdzenie 46. Za óżmy, że (Xn), (Yn) sa ciagami zmiennych losowych. Jeśli
l

(Xn) zbiega do X i Yn zbiega do Y prawie na pewno (odp. wed prawdopodo-
lug
bieÅ„stwa), to Xn Ä… Yn X + Y i Xn · Yn XY prawie na pewno (odp., wed
lug
prawdopodobieństwa).
23. Prawa wielkich liczb
Za óżmy, że X1, X2, . . . jest ciagiem zmiennych losowych. Prawa wielkich liczb
l

mówia o zachowaniu ciagu sum tych zmiennych, tzn. ciagu

Sn = X1 + X2 + . . . + Xn, n = 1, 2, . . . ,
czy też raczej ciagu

Sn X1 + X2 + . . . + Xn
= , n = 1, 2, . . . ,
n n
przy rozmaitych za
lożeniach dotyczacych struktury ciagu (Xn).

54
Rozpoczniemy od s praw wielkich liczb. Termin ,,s bierze sie stad, iż
labych labe

w tezie mamy zbieżność ciagu (Sn/n) wed prawdopodobieństwa. Mocne prawa
lug

wielkich liczb mówia o zbieżności tego ciagu prawie na pewno.

Twierdzenie 47 (S prawo wielkich liczb dla schematu Bernoulliego). Za óżmy,
labe l
że X1, X2, . . . sa niezależne i maja rozk
lad
P(Xn = 1) = p = 1 - P(Xn = 0), n = 1, 2, . . . .
Wówczas (Sn/n) zbiega wed prawdopodobieństwa do p (tzn. zmiennej losowej
lug
sta równej p); innymi s dla każdego µ > 0,
lej, lowy,


Sn

lim P - p > µ = 0.

n"
n
Dowód. Przeprowadziliśmy go już wyżej, przy zastosowaniach nierówności Czeby-
szewa.
Co wiecej, jeśli dok przyjrzymy sie dowodowi nierówności Czebyszewa,
ladniej

widać, że za powyższego twierdzenia można os
lożenia labić.
Twierdzenie 48 (S prawo wielkich liczb dla zmiennych nieskorelowanych).
labe
Za óżmy, że X1, X2, . . . jest ciagiem nieskorelowanych zmiennych losowych o wspólnie
l

ograniczonej wariancji. Wówczas (Xn) spe s prawo wielkich liczb: (Sn -
lnia labe
P
ESn)/n - 0, tzn. dla dowolnego µ > 0 mamy



Sn - ESn

lim P > µ = 0.

n"
n
Uwagi:
1. Podkreślmy: zmienne (Xn) nie musza mieć tego samego rozk
ladu.
2. Czesto wiadomo jednak, że zmienne Xn maja ten sam rozk o średniej m;
lad

wówczas ESn/n = m i teza przybiera prostsza postać


Sn

lim P - m > µ = 0.

n"
n
Przyk
lady:
1. Za óżmy, że A1, A2, . . . jest ciagiem parami niezależnych zmiennych losowych
l

o prawdopodobieństwach p1, p2, . . .. Wówczas
1A + 1A + . . . + 1A p1 + p2 + . . . + pn P
1 2 n
- - 0.

n n
Zatem, dla dużych n, czestość zachodzenia zdarzeń An jest w przybliżeniu równa

ich teoretycznej czestości.

Aby udowodnić powyższa zbieżność, zauważmy, że zmienne X1, X2, . . . spe
lniaja
za SPWL. Istotnie, sa one nieskorelowane - sa bowiem parami niezależne;
lożenia
ponadto,
VarXn = Var1A = E(1A )2 - (E1A )2 = E1A - (E1A )2 = pn - p2 d" 1/4.
n n n n n n
2. Jeśli za o wspólnej ograniczoności wariancji (Xn) nioe jest spe
lożenie lnione,
teza nie zachodzi. Za óżmy, że (µn) jest ciagiem niezależnych zmiennych losowych
l

o wspólnym rozk P(µi = -1) = P(µi = -1) = 1/2 i wezmy Xn = 3nµn.
ladzie
Wówczas EXn = 0, ESn = 0, ponadto VarXn = 32n ". Teraz zauważmy, iż


Sn - ESn Sn |Xn| - |X1 + X2 + . . . + Xn-1| 3n

= e" e" ".

n n n 2n
55
3. Analogicznie, nie można pozbyć sie za o nieskorelowaniu ciagu (Xn).
lożenia

Np. niech µ bedzie zmienna o rozk P(µ = -1) = P(µ = 1) = 1/2 i po óżmy
ladzie l

Xn = µ, n = 1, 2, . . .. Zmienne (Xn) sa skorelowane: Cov(Xi, Xj) = 1 = 0. Mamy

ESn = 0, VarXn = 1 (a zatem za o wspólnie ograniczonej wariancji jest
lożenie
spe
lnione!), ale


Sn - ESn Sn
P

= = |Xn| = 1 - 0.


n n
Przejdzmy teraz do mocnych praw wielkich liczb. Ponownie, zacznijmy od wersji
dla rozk Bernoulliego.
ladu
Twierdzenie 49 (Mocne prawo wielkich liczb dla schematu Bernoulliego). Za óżmy,
l
że X1, X2, . . . sa niezależne i maja rozk
lad
P(Xn = 1) = p = 1 - P(Xn = 0), n = 1, 2, . . . .
Wówczas (Sn/n) zbiega prawie na pewno do p (tzn. zmiennej losowej sta równej
lej,
p); innymi s istnieje zdarzenie &! pe miary takie, że jeÅ›li É " &! , to
lowy, lnej
Sn(É)
lim = p.
n"
n
W tym momencie otrzymujemy, iż formalna definicja prawdopodobieństwa, wpro-
wadzona na pierwszym wyk ,,pokrywa sie z definicja intuicyjna. Istotnie,
ladzie,

dostajemy, iż w celu zdefiniowania prawdopodobieństwa sukcesu, wystarczy wzia ć
granice czestości.

Ogólniej, mamy
Twierdzenie 50 (Mocne prawo wielkich liczb Ko l
lmogorowa). Za óżmy, że X1,
X2, . . . jest ciagiem niezależnych ca
lkowalnych zmiennych losowych o tym samym

rozk Wówczas
ladzie.
Sn
p.n.
- EX1.
-
n
Zatem intuicyjna definicja średniej zmiennej losowej pokrywa sie z teoretyczna:

wartościa oczekiwana.

Pewna niedogodnościa zwiazana z prawami wielkich liczb (zwlaszcza mocnymi)

jest to, iż nie wiemy nic o predkości zbieżności do granicy - nie mamy osdzacowania

na b ad zwiazany z przybliżeniem (Sn/n) za pomoca średniej EX1. K ten
l lopot

(cześciowo) pozwala przezwycieżyć Centralne Twierdzenie Graniczne i nierówność

Berry-Esséena, omawiane w dalszej czesci wyk
ladu.

24. Zastosowanie praw wielkich liczb: zbieżność średniej i wariancji z
próbki, dystrybuanta empiryczna i twierdzenie
Gliwienki-Cantelliego
Za óżmy, że (Xn) jest ciagiem ca
l lkowalnych niezależnych zmiennych losowych o

tym samym rozk Wówczas MPWL mówi, iż
ladzie.
X1 + X2 + . . . + Xn
p.n.
(") X = - EX1.
-
n
Analogicznie, jeśli (Xn) jest ciagiem zmiennych o tym samym rozk ca
ladzie, lkowalnych

z kwadratem, to
n

1
p.n.
("") (Xk - X)2 - VarX1.
-
n
k=1
56
Istotnie, mamy
n n

1 1 2
2
(Xk - X)2 = (Xk - 2XkX + X ) = I1 - I2 + I3,
n n
k=1 k=1
gdzie
2 2 2
X1 + X2 + . . . + Xn
p.n.
2
I1 = - EX1 ,
-
n
2
na mocy MPWL zastosowanego do ciagu (Xn) ca
lkowalnych niezależnych zmien-

nych o tym samym rozk
ladzie,
n

2 2 p.n.
I2 = XkX = 2X - 2(EX1)2,
-
n
k=1
na mocy powyższego, oraz
2 p.n.
I3 = X - (EX1)2.
-
Stad żadana zbieżność.

Powyższe dwie zbieżności (*) oraz (**) maja istotne znaczenie w zastosowaniach.
Istotnie, jeśli dysponujemy (liczna) próbka X1, X2, . . ., XN danych pochodzacych

z tego samego (nieznanego) rozk widzimy, iż dobrym przybliżeniem średniej
ladu,
oraz wariancji sa średnia oraz wariancja empiryczna.
Zajmiemy sie teraz kolejnym zastosowaniem praw wielkich liczb: dystrybuanta

empiryczna. Jak wiemy, dysponujac próbka danych możemy rozważać rozk em-
lad

piryczny µN zwiazany z ta próbka; za óżmy, że X1, X2, . . ., XN jest ciagiem nie-
l

zależnych zmiennych losowych. Określamy
1A(X1) + 1A(X2) + . . . + 1A(XN )
µN (A) = .
N
p.n.
Z MPWL widzimy, iż µN (A) - E1A(X1) = P(X1 " A), a zatem rozk empi-
- lad
ryczny zbiega do wspólnego rozk zmiennych (Xn). Aby unikna ć pojawiajacych
ladu

sie tutaj licznych problemów technicznych (tempo zbieżności zależy od zbioru A),

pos sie dystrybuantami rozk empirycznych.
lużymy ladów

Definicja 38. Niech X1, X2, . . ., XN beda zmiennymi losowymi. Wówczas funkcje

FN : R [0, 1], dana wzorem
1{X d"t} + 1{X d"t} + . . . + 1{X d"t}
1 2 N
FN (t) = ,
N
nazywamy N-ta dystrybuanta empiryczna.

Zauważmy, że FN jest zmienna losowa; co wiecej, dla każdego É " &!, FN (w) jest

dystrybuanta. Mocne prawo wielkich liczb implikuje, iż jeśli zmienne Xn maja ten

sam rozk i sa niezależne, to dystrybuanta ta przybliża dystrybuante wspólnego
lad

rozk zmiennych Xn. Okazuje sie, iż można udowodnić wiecej: zbieżność jedno-
ladu

stajna. Mamy nastepujacy fakt.

Twierdzenie 51 (Twierdzenie Gliwienki-Cantelliego - podstawowe twierdzenie sta-
tystyki). Za óżmy, że X1, X2, . . . sa niezależne i maja ten sam rozk o dystrybu-
l lad
ancie F . Wówczas
p.n.
sup |FN (t) - F (t)| - 0.
---
N"
t"R
57
25. Centralne twierdzenie graniczne
Jak wiemy, jeśli X1, X2, . . . sa niezależnymi zmiennymi losowymi o tym samym
ca ladzie,
lkowalnym rozk to
X1 + X2 + . . . + Xn
p.n.
- EX1.
-
n
Powstaje bardzo naturalne pytanie: jak dobre jest to przybliżenie dla dużych n?
Co można powiedzieć o b edzie tego przybliżenia?
l

Poniżej formu najprostsza wersje Centralnego Twierdzenia Granicznego.
lujemy

Niech Åš : R [0, 1],

t
1
Åš(t) = " exp(-x2/2)dx
2Ä„
-"
oznacza dystrybuante standardowego rozk normalnego. Odnotujmy ważna
ladu

zależność: ponieważ rozk N (0, 1) jest rozk symetrycznym, to Ś(t) +
lad ladem,
Åš(-t) = 1.
Twierdzenie 52. Za óżmy, że X1, X2, . . . sa niezależnymi zmiennymi losowymi
l
2 2
o tym samym rozk takim, że EX1 < ". Oznaczmy m = EX1, Ã2 = EX1 .
ladzie,
Wówczas dla dowolnego t " R,

X1 + X2 + . . . + Xn - nm
n"
P " d" t --- Åš(t).
-
à n
Uwaga:
1. Latwo udowodnić, iż powyższa zbieżność pociaga za soba, iż dla dowolnego s,



X1 + X2 + . . . + Xn - nm
n"
P " e" s --- 1 - Åš(s),
-
à n
i ogólniej, dla dowolnych s < t,

X1 + X2 + . . . + Xn - nm
n"
P s d" " d" t --- Åš(t) - Åš(s).
-
à n
2. CTG odnosi sie do b edu zwiazanego z MPWL. Istotnie, zauważmy np., że
l

nierówność
X1 + X2 + . . . + Xn - nm
" d" t
à n
jest równoważna
X1 + X2 + . . . + Xn tÃ
"
- m d" ,
n n
a zatem odnosi sie do zdarzenia, iż b ad (,,jednostronny ) zwiazany z przybliżeniem
l

"
Å›redniej Sn/n przez jej teoretyczny odpowiednik m, nie przekracza progu tÃ/ n.
Szczególnym przypadkiem CTG, mianowicie odnoszacym sie do schematu Ber-

noulliego, jest twierdzenie de Moivre a-Laplace a.
Twierdzenie 53 (de Moivre a-Laplace a). Za óżmy, że X1, X2, . . . jest ciagiem
l

niezależnych zmiennych losowych o tym samym rozk
ladzie
P(Xn = 1) = p, P(Xn = 0) = q, p + q = 1.
Wówczas dla s < t,

X1 + X2 + . . . + Xn - np
n"
P s d" d" t --- Åš(t) - Åš(s).
-
"
npq
58
Powyższe twierdzenia wcia ż nie pozwalaja precyzyjnie oszacować b edu. Możliwość
l

te daje nastepujace twierdzenie.

Twierdzenie 54 (Berry-Esséena). Za óżmy, że (Xn) jest ciagiem niezależnych
l

zmiennych losowych o tym samym rozk takim, że E|X1|3 < ". Oznaczmy
ladzie
"
m = EX1 i à = VarX1. Wówczas


E|X1 - EX1|3
P X1 + X2 + . . . + Xn - nm
sup " d" t - Åš(t) d" C " ,

à n Ã3 n
t"R
"
gdzie C " [1/ 2Ä„; 0, 77].
W praktyce bedziemy jednak stosować tylko przybliżenie p bezpośrednio z
lynace

Centralnego Twierdzenia Granicznego. Powyższe twierdzenie formu wy acznie
lujemy l

w celach informacyjnych.
Przyk
lady:
1. Rzucono moneta 10 000 razy i okaza sie, że orze wypad 5200 razy. Czy sa
lo l l

podstawy do przypuszczenia, że moneta jest niesymetryczna?
Za óżmy, że moenta by symetryczna i zobaczmy, jakie jest prawdopodobieństwo
l la
wypadniecia nie mniej niż 5200 or ów. Rozważmy zmienne Xi = 1{wypad orze w i-tym rzucie}
l
l l

i = 1, 2, . . . , 10 000. Zmienne X1, X2, . . ., X10 000 sa niezależne i maja ten sam
rozk P(Xi = 0) = P(Xi = 1) = 1/2. Obliczamy, iż m = EX1 = 1/2 oraz
lad
"
à = VarX1 = 1/2. Na mocy twierdzenia de Moivre a-Laplace a,
P(X1+X2+. . .+X10 000 e" 5200) = P(X1+X2+. . .+X10 000-10 000·m e" 5200-5000)

X1 + X2 + . . . + X10 000 - 10 000 " m 200
= P " e" H" 1 - Åš(4).
à 10; 000 50
Sprawdzamy w tablicach, iż prawa strona jest w przybliżeniu równa 0, 00003. Tak
wiec rozważane zdarzenie ma bardzo ma prawdopodobieństwo; sa wiec podstawy
le

by sadzić, że moneta nie jest symetryczna.

2. Stwierdzono, że przecietnie 30% spośród ogólnej liczby studentów przyjetych

na studia kończy je w terminie. Ile trzeba przyja ć studentów na pierwszy rok, aby
z prawdopodobieństwem w przybliżeniu 0, 9, co najmniej 50 osób ukończy studia
lo
w terminie?
Za óżmy, że przyjeto N osób na pierwszy rok. Wprowadzmy zmienne losowe
l

Xi = 1{i-ta osoba ukończy studia w terminie}, i = 1, 2, . . . , N. Przyjmujemy, że zmienne
Xi sa niezależne i zauważamy, że maja one ten sam dwupunktowy rozk P(Xi =
lad:
" "
1) = 0, 3, P(Xi = 0) = 0, 7, m = EX1 = 0, 3, Ã = VarX1 = 0, 3 · 0, 7 = 0, 46 . . . .
Interesuje nas zdarzenie
{X1 + X2 + . . . + XN e" 50},
czyli, równoważnie (sprowadzamy nierówność do postaci jak w twierdzeniu de
Moivre a-Laplace a)

X1 + X2 + . . . + XN - Nm 50 - 0, 3N
" e" " .
à N 0, 46 N
Korzystajac z twierdzenia de Moivre a-Laplace a, prawdopodobieństwo powyższego

zdarzenia wynosi w przybliżeniu

50 - 0, 3N
1 - Åš " .
0, 46 N
59
Powstaje wiec pytanie, dla jakich N powyższa liczba jest w przybliżeniu równa

0, 9. Z tablic rozk normalnego odczytujemy, iż 1 - Ś(-1, 29) H" 0, 90147, zatem
ladu
"
wystarczy wzia ć N takie, by 50 - 0, 3N/0, 46 N by równe -1, 29; ma to miejsce
lo
dla N = 194.
3. Kolejnym przyk grajacym ważna role w zastosowaniech, sa tzw. prze-
ladem,

dzia ufności. Przypuśćmy, iż dysponujemy (liczna) próbka X1, X2, . . ., Xn po-
ly

chodzaca z rozk z pewnym nieznanym parametrem ¸ (np. wykonujemy ciag
ladu

10 000 rzutów moneta o prawdopodobieÅ„stwie wypadniecia or wynoszacym ¸
la

(którego nie znamy)). Przedzia ufnoÅ›ci (¸1, ¸2) o wspó
lem lczynniku (poziomie)
ufności 1 - ą nazywamy przedzia taki, że
l
P(¸ " (¸1, ¸2)) e" 1 - Ä…;
¸1 i ¸2 to pewne funkcje wynaczone przez próbe X1, X2, . . ., Xn. OczywiÅ›cie,

z punktu widzenia zastosowań, istotne jest, aby ów przedzia by możliwie jak
l l
najkrótszy.
Wezmy pod uwage konretny przyk Za óżmy, że próba X1, X2, . . ., Xn po-
lad. l

chodzi z rozk jednostajnego o nieznanej średniej m i wariancji 1. Przypuśćmy,
ladu
iż naszym zadaniem jest wyznaczyć, na podstawie tej próby, przedzia (a, b) taki,
l
że
(") P(a < m < b) > 0, 9.
Otór, jak wiemy, dobrym kandydatem na przybliżenie średniej m jest jej średnia
empiryczna X. Naturalnym pomys jest wiec, aby wzia ć
lem

a = X - µ oraz b = X + µ,
dla pewnego µ > 0, który wyznaczymy ze zwiazku ("). Równoważnie, nierówność

ta wyglada nastepujaco:

P(-µ < X - m < µ) > 0, 9.
Teraz przekszta ja tak, aby uzyskać postać jak w Centralnym Twierdzeniu
lcamy
Granicznym. Po pomnożeniu nierówności wystepujacej pod prawdopodobieństwem

"
przez n dostajemy
" "
X1 + X2 + . . . + Xn - nm
P(-µ n < " < µ n) > 0, 9.
nVarX1
Na mocy CTG (zmienne Xi sa niezależne i maja ten sam rozk ca
Lad, lkowalny z
"
kwadratem), powyższe prawdopodobieÅ„stwo jest w przybliżeniu równe Åš(µ n) -
" "
Åš(-µ n) = 2Åš(µ n) - 1 (tu korzystamy z równoÅ›ci Åš(t) + Åš(-t) = 1 dla t " R).
"
W tablicach sprawdzamy, że 2Åš(1, 64) - 1 H" 0, 9; stad bierzemy µ = 1, 64/ n.

Tak wiec, jeśli dysponujemy próbka o liczności 900, to przedzia ufności dla
lem

m o poziomie ufności 0, 9 jest przedzia
l
(X - 0, 055, X + 0, 055).
Zwróćmy uwage: zgodnie z intuicja, im liczniejsza próbka, tym weższy przedzia
l

ufności uzyskujemy.


Wyszukiwarka

Podobne podstrony:
strategia obronnosci rp 2009
RP II 2011 Osekowski p60
wyklad 4 2009
RP notatki z wykładu 2
wyklad 5 2009
terminy wykładów 2009
2009 05 04 Rozp MON używanie znaków w SZ RP
wykład 1 24 10 2009
Serie (5) Zadan Trudnych 2009 10 Osekowski p5
0202 04 03 2009, wykład nr 2 , Budowa i funkcje błony komórkowej oraz transport przez błony(1)
Wykład 2 (06 03 2009) ruchy kamery, plan, punkty widzenia kamery
wyklad IIIb z RZ BZ MSU 2009 rach kosztów a zarządzanie kosztami czesc II
Fizyka wykład 3 13 10 2009
Prokuratura Rp wykład 2012 ver1 1
Wykład 3 (13 03 2009) montaż

więcej podobnych podstron