Wykład 2:
Wprowadzenie do wnioskowania
statystycznego: zmienna losowa, rozkłady
graniczne i statystyki z próby
Statystyka: kurs podstawowy
Semestr Letni 2007/2008
dr Krzysztof Tymicki
Instytut Statystyki i Demografii
Szkoła Główna Handlowa
Probabilistyczne podstawy wnioskowania
statystycznego
Pojęcia podstawowe
• Definicje prawdopodobieństwa: klasyczna vs. częstościowa
• Zmienna losowa
• Funkcja prawdopodobieństwa/gęstość prawdopodobieństwa
• Rozkład prawdopodobieństwa
• Dystrybuanta
Rozkłady prawdopodobieństwa zmiennych losowych
• Zmienna skokowa: rozkład dwumianowy
• Zmienna ciągła: rozkład normalny
Zmienna losowa
Klasyczna vs. stochastyczna (częstościowa) definicja prawdopodobieństwa
w ujęciu klasycznym prawdopodobieństwo znane jest a priori (czyli przed wykonaniem
eksperymentu)
w statystyce zakładamy prawdopodobieństwo a posteriori (czyli jako rezultat doświadczenia
– na podstawie częstości pojawienia się zdarzeń elementarnych)
Definicja
Niech E będzie zbiorem zdarzeń elementarnych danego doświadczenia. Funkcję
X(e) przyporządkowującą każdemu zdarzeniu elementarnemu jedną i tylko
jedną liczbę X(e)=x nazywamy zmienną losową
E
e
∈
Przykład: rzut monetą
zdarzenia losowe (elementarne): „pojawienie się orła” oraz „pojawienie się reszki”
każdemu zdarzeniu losowemu przypisane jest prawdopodobieństwo
Zmienna losowa a cecha statystyczna
każda cecha statystyczna jest zmienną losową
Prawdopodobieństwa wystąpienia zdarzeń elementarnych będą określane za pomocą
funkcji matematycznych
Prawdopodobieństwo wystąpienia wartości cech statystycznych określane jest na podstawie
tzw. definicji częstościowej.
Przy dużej liczbie zdarzeń maleją prawdopodobieństwa występowania dużych różnic
między częstością a prawdopodobieństwem. Rośnie prawdopodobieństwo występowania
różnic małych. Mówi o tym tzw. złote twierdzenie Bernoulli’ego
1
lim
=
<
−
∞
→
ε
p
n
k
P
n
Złote twierdzenie mówi:
„Jest mało prawdopodobne aby to co mało prawdopodobne zdarzało się często.
Jednocześnie, jest mało prawdopodobne aby to co jest bardzo prawdopodobne
zdarzało się rzadko”.
Twierdzenie to należy do grupy twierdzeń zwanych
prawami wielkich liczb
oraz
twierdzeniami granicznymi
. Twierdzenia te określają co się dzieje z
prawdopodobieństwami zdarzeń gdy liczba doświadczeń jest bardzo duża.
Prawa wielkich liczb oraz rozkłady graniczne:
zbieżność stochastyczna
Funkcja prawdopodobieństwa pozwala określić prawdopodobieństwa wystąpienia
wartości skokowej zmiennej losowej:
Rozkład dwumianowy jako przykład funkcji generującej prawdopodobieństwa
zmiennej skokowej:
i
i
p
x
X
P
=
=
)
(
Zmienna losowa skokowa: rozkład dwumianowy
k
n
k
p
p
k
n
k
X
P
−
−
∗
=
=
)
1
(
)
(
)!
(
!
!
k
n
k
n
k
n
−
=
Parametrami rozkładu dwumianowego są:
liczba prób –
n
prawdopodobieństwo sukcesu -
p
Parametry te umożliwiają
generowanie
prawdopodobieństwa
k-sukcesów
w
n-próbach
przy założonym prawdopodobieństwie
p
Przykłady: prawdopodobieństwo wyrzucenia 6 szóstek w 10 rzutach,
prawdopodobieństwo urodzenia 3 synów z rzędu
Funkcja gęstości prawdopodobieństwa pozwala określić prawdopodobieństwo
przyjęcia przez zmienną ciągłą wartości z przedziału a,b:
∫
∫
∞
+
∞
−
=
+∞
≤
<
∞
−
=
<
≤
<
=
1
b
a
dowolnych
dla
)
(
)
(
)
X
P(
f(x)dx
b
X
a
P
dx
x
f
b
a
f(x)
x
a
b
∫
=
≤
<
b
a
dx
x
f
b
X
a
P
)
(
)
(
Zmienna losowa ciągła: rozkład normalny
2
2
2
)
(
2
1
)
(
σ
π
σ
m
x
e
x
f
−
−
=
Zmienna losowa X ma rozkład normalny o parametrach średnia -
m
oraz odchylenie
standardowe -
σ
co zapisujemy w skrócie
X: N(m
,
σ)
jeśli funkcja gęstości ma
następującą postać:
Własności krzywej rozkładu normalnego:
1) Symetria wzg. średniej
m
2) Maksimum w punkcie
3) Punkty przegięcia ramion rozkładu to:
m-σ
oraz
m+σ
π
σ
2
1
Zmienna losowa ciągła: rozkład normalny
0
0,01
0,02
0,03
0,04
0,05
0,06
150 156 161 167 172 178 184 189 195 200 206
G
ęs
to
ść
p
ra
w
do
po
do
bi
eń
st
w
a
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
1,1
D
ys
tr
yb
ua
nt
a
N(178, 7)
Standaryzowany rozkład normalny: wyznaczanie
prawdopodobieństwa
Prawdopodobieństwo w rozkładzie normalnym wyznaczamy za pomocą
standaryzowanego rozkładu normalnego.
σ
m
X
U
−
=
Tak przekształcony rozkład jest
rozkładem standaryzowanym o
parametrach N(0,1).
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
-4
-3
-2
-2
-1
0
1
2
2
3
4
G
ęs
to
ść
p
ra
w
do
p
od
o
bi
e
ńs
tw
a
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
1,1
D
ys
tr
yb
ua
nt
a
Wartości prawdopodobieństwa dla dystrybuanty standaryzowanego rozkładu
normalnego odczytujemy z
tablicy
.
)
(
1
)
(
oraz
)
(
)
(
u
F
u
F
u
f
u
f
−
−
=
−
=
Ponieważ f-cja gęstości jest symetryczna względem u=0 w tablicach mamy podane
wartości obu funkcji tylko dla dodatnich u. Korzystamy zatem z własności:
W celu uzyskania rozkładu
standaryzowanego przekształcamy
wartości zmiennej za pomocą
wyrażenia:
−
−
−
=
−
≤
<
−
=
−
≤
−
<
−
=
≤
<
σ
σ
σ
σ
σ
σ
σ
m
a
F
m
b
F
m
b
U
m
a
P
m
b
m
X
m
a
P
b
X
a
P
)
(
Prawdopodobieństwo określamy z relacji:
Standaryzowany rozkład normalny: wyznaczanie
prawdopodobieństwa
Przykład:
wyznaczyć prawdopodobieństwo tego, że zmienna „wzrost” o
parametrach rozkładu N(178,7) przyjmie wartość z przedziału 170-180.
(
)
(
)
( )
(
)
(
)
487
,
0
8729
,
0
1
6141
,
0
14
,
1
1
29
,
0
29
,
0
14
,
1
7
178
180
7
178
170
)
180
170
(
=
−
−
=
−
−
=
=
≤
<
−
=
−
≤
−
<
−
=
≤
<
F
F
U
P
m
x
P
x
P
σ
0
0,01
0,02
0,03
0,04
0,05
0,06
146 154
162 170 178 186
194 202 210
P(x<170)=0,127
P(170<x
≤
180)=0,487
P(x>180)=0,386
Tablica wartości dystrybuanty standaryzowanego
rozkład normalnego
F(0,29)
F(1,14)
(
)
(
)
( )
(
)
(
)
487
,
0
8729
,
0
1
6141
,
0
14
,
1
1
29
,
0
29
,
0
14
,
1
7
178
180
7
178
170
)
180
170
(
=
−
−
=
=
−
−
=
=
≤
<
−
=
=
−
≤
−
<
−
=
=
≤
<
F
F
U
P
m
x
P
x
P
σ
Standaryzowany rozkład normalny: reguła trzech sigm
x
min
-1
x
max
1
P(x<x
min
)
15,87%
P(x>x
max
)
15,87%
P(x
min
<x<x
max
)
68,27%
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
-6
-4
-2
0
2
4
6
x
min
-2
x
max
2
P(x<x
min
)
2,28%
P(x>x
max
)
2,28%
P(x
min
<x<x
max
)
95,45%
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
-6
-4
-2
0
2
4
6
x
min
-3
x
max
3
P(x<x
min
)
0,13%
P(x>x
max
)
0,13%
P(x
min
<x<x
max
)
99,73%
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
-6
-4
-2
0
2
4
6
P(-1<U<1)=0,68
średnia
±
1 odchylenie
standardowe
P(-2<U<2)=0,68
średnia
±
2 odchylenie
standardowe
P(-3<U<3)=0,68
średnia
±
2 odchylenie
standardowe
Twierdzenia graniczne
Prawa wielkich liczb
mówią o zbieżności stochastycznej ciągu zmiennych losowych.
Twierdzenie Bernoulli’ego jest właśnie takim prawem gdyż określa ono granicę
stochastyczną ciągu zmiennych losowych, jaką tworzą częstości występowania
k
-liczby
sukcesów w serii
n
doświadczeń.
Twierdzenia graniczne
określają co się dzieje z prawdopodobieństwami zdarzeń
(opisywanymi przez funkcję prawdopodobieństwa, funkcję gęstości lub dystrybuantę)
gdy liczba doświadczeń jest bardzo duża.
Lokalne twierdzenia graniczne: dotyczą zmian w funkcji prawdopodobieństwa,
funkcji gęstości)
Integralne twierdzenia graniczne: dotyczą zmian w wartościach dystrybuanty
Twierdzenia graniczne:
de Moivre’a-Laplace’a:
o zbieżności stochastycznej rozkładu dwumianowego do
rozkładu normalnego
Lindeberga-Levy’ego:
o zbieżności stochastycznej sumy n-niezależnych zmiennych losowych
do rozkładu normalnego
Jest dystrybuantą graniczną rozkładu dwumianowego o parametrach
n
i
p
.
Gdy prawdopodobieństwo pojedynczego sukcesu jest stałe niezależne od liczby
doświadczeń, natomiast liczba doświadczeń jest duża wówczas dystrybuantę rozkładu
dwumianowego możemy przybliżać dystrybuantą rozkładu normalnego z parametrami
określonymi przez rozkład dwumianowy.
Twierdzenie de Moivre’a-Laplace’a
(
)
p
np
np
m
N
−
=
=
1
(
,
σ
Twierdzenie to mówi że dystrybuanta rozkładu normalnego o parametrach:
Przykładowe zadanie
Wiadomo, że prawdopodobieństwo zgłoszenia reklamacji wynosi 0,1. Które z
poniższych zdarzeń jest bardziej prawdopodobne:
a) spośród 4 klientów przynajmniej 1 zgłosi reklamację,
b) spośród 400 klientów reklamację zgłosi co najmniej 38 osób?
Twierdzenie de Moivre’a-Laplace’a: przykładowe
zadanie
Przykładowe zadanie
Wiadomo, że prawdopodobieństwo zgłoszenia reklamacji wynosi 0,1. Które z
poniższych zdarzeń jest bardziej prawdopodobne:
a) spośród 4 klientów przynajmniej 1 zgłosi reklamację,
b) spośród 400 klientów reklamację zgłosi co najmniej 38 osób?
Zdarzenie a) n=4; p=0,1
34
,
0
66
,
0
1
)
1
(
66
,
0
9
,
0
1
)!
0
4
(
!
0
!
4
)
1
,
0
1
(
1
,
0
0
4
)
0
(
4
0
4
0
=
−
=
≥
=
∗
∗
−
=
=
−
∗
=
=
−
X
P
X
P
Zdarzenie b) n=400; p=0,1
(
)
(
)
(
)
6293
,
0
)
33
,
0
(
33
,
0
6
40
38
)
38
(
6
,
40
1
,
0
1
(
1
,
0
400
1
,
0
400
=
=
=
−
≥
=
−
≥
=
≥
−
∗
=
∗
=
F
u
u
x
P
N
m
N
σ
(
)
σ
⋅
⋅
n
m
n
N
,
Twierdzenie to dotyczy sytuacji gdy mamy do czynienia z sumą zmiennych o
identycznych rozkładach normalnych (jednakowych średnich i jednakowych
odchyleniach standardowych):
Taka zmienna która jest sumą n niezależnych zmiennych losowych ma
asymptotyczny rozkład normalny z parametrami:
∑
=
=
n
i
i
n
X
T
1
Twierdzenie Lindeberga-Levy’ego
Przykładowe zadanie
Czas obsługi klienta na poczcie w mieście stołecznym jest zmienną losową, której
rozkład charakteryzuje wartość oczekiwana 4,5 min. i odchylenie standardowe 0,6
min. Jakie jest prawdopodobieństwo, że czas obsługi 100 klientów będzie dłuższy niż
450 min.
Twierdzenie Lindeberga-Levy’ego: przykładowe
zadanie
Przykładowe zadanie
Czas obsługi klienta na poczcie w mieście stołecznym jest zmienną losową, której
rozkład charakteryzuje wartość oczekiwana 4,5 min. i odchylenie standardowe 0,6
min. Jakie jest prawdopodobieństwo, że czas obsługi 100 klientów będzie dłuższy niż
450 min.
X:N(4,5 ; 0,6) n=100 P(T
n
>450)
(
)
(
)
5
,
0
)
0
(
0
6
450
450
)
450
(
)
6
;
450
(
6
,
0
100
;
5
,
4
100
:
=
=
≥
=
−
≥
=
≥
→
∗
=
∗
=
F
u
u
T
P
N
m
N
T
n
n
σ
Rozkłady statystyk z próby: Próba jako realizacja
procesu losowego
Nie tylko cechy statystyczne takie jak wzrost czy dochód możemy
scharakteryzować jako zmienne losowe. Zmiennymi losowymi mogą być także
tzw. statystyki z próby czyli średnia, wariancja czy frakcja (częstość).
1. Jeśli próba ma charakter losowy to do próby będą miały szanse trafić jednostki
najczęściej występujące w populacji: czyli struktura próby będzie odzwierciedlała
strukturę populacji.
2. Najbardziej prawdopodobne będą próby zbliżone swoją strukturą do struktury
populacji. Są to tzw. próby wiarygodne. Inne próby będą mało prawdopodobne
czyli mało wiarygodne.
3. Próby nie odzwierciedlające dobrze struktury populacji są mało prawdopodobne
ale nie są niemożliwe.
4. Z populacji możemy wylosować nieskończoną ilość prób
5. Próby losowe możemy charakteryzować za pomocą znanych miar takich jak
średnia, wariancja czy częstość
1. Ponieważ z każdej populacji możemy wylosować nieskończoną ilość prób każda
z tych prób może charakteryzować się innymi parametrami czyli różnymi
średnimi, odchyleniami standardowymi (wariancjami), medianami…….itp
2. Takie parametry nazywamy statystykami z próby
3. Ponieważ to jakie wartości te statystyki przyjmą będzie generowane przez proces
losowy (losowanie próby) możemy je traktować jako zmienne losowe o
określonych rozkładach.
4. Pytanie: Jak zdefiniujemy te rozkłady i jakie będą ich parametry
Rozkłady statystyk: wnioski
Statystyki z próby:
Średnia, różnica średnich,
Frakcja (częstość), różnica frakcji,
Iloraz wariancji
Rozkład średniej arytmetycznej
z próby jest rozkładem normalnym o
parametrach (wtedy gdy znamy odchylenie standardowe w populacji) :
Rozkład średniej arytmetycznej z próby ma rozkład t-Studenta
gdy nie znamy
odchylenia standardowego w populacji. Ponieważ rozkłady t-Studenta oraz
normalny są zbliżone dla
n>30
można korzystać z rozkładu normalnego i
wykorzystywać rozkład normalny o powyższych parametrach.
=
=
n
x
D
m
x
E
N
σ
)
(
,
)
(
Rozkład średniej arytmetycznej z próby
Próba 1 – z parametrami
m
2
,
σ
2
i liczebnością
n
1
Próba 2 – z parametrami
m
2
,
σ
2
i liczebnością
n
2
Statystyka mierząca rozbieżność położenia obu tych prób będzie różnica średnich
arytmetycznych z tych prób czyli ma rozkład normalny o parametrach:
2
1
x
x
−
(
)
(
)
1
2
1
1
2
1
2
1
2
1
2
1
n
n
x
x
D
oraz
m
m
x
x
E
σ
σ
+
=
−
−
=
−
+
−
1
2
1
1
2
1
2
1
;
n
n
m
m
N
σ
σ
Rozkład różnicy średnich arytmetycznych z prób
losowych
Jak widzieliśmy wcześniej rozkładem granicznym dla liczby elementów
wyróżnionych, czyli frakcji, jest rozkład normalny (na mocy tw. De Moivre’a-
Laplace’a). Jeśli zmienna losowa ma rozkład dwumianowy o ustalonym parametrze
p
jakim jest prawdopodobieństwo pojedynczego sukcesu to przy liczbie doświadczeń
równej
n
częstość występowania liczby sukcesów
m
czyli frakcja
w=m/n
ma rozkład
dwumianowy o parametrach:
n
p)
-
p(1
D(w)
oraz
p
w
E
=
=
)
(
n
p)
-
p(1
p
N
;
Jeśli liczba doświadczeń wzrasta do n>120 to frakcja posiada rozkład asymptotycznie
normalny o analogicznych parametrach
Rozkład frakcji (częstości) z próby
Jeśli mamy dwie niezależne zmienne losowe o rozkładzie dwumianowym i różnych
parametrach
p
1
i p
2
to przy liczbie doświadczeń odpowiednio
n
1
oraz
n
2
różnica
między częstościami względnymi liczby sukcesów w obu doświadczeniach mierzona
różnicą frakcji (
w
1
-w
2
) ma rozkład graniczny normalny o parametrach:
2
2
2
1
1
1
n
)
p
-
(1
p
n
)
p
-
(1
p
D(w)
oraz
p
p
w
E
−
=
=
-
)
(
2
1
−
2
2
2
1
1
1
n
)
p
-
(1
p
n
)
p
-
(1
p
p
p
N
;
-
2
1
Rozkład różnicy frakcji (częstości) z prób losowych
Rozkład ilorazu wariancji z prób losowych
Próba 1 – z parametrami
m
2
,
σ
2
i liczebnością
n
1
Próba 2 – z parametrami
m
2
,
σ
2
i liczebnością
n
2
Statystyka mierząca rozbieżność dyspersji obu tych prób będzie iloraz o postaci:
Po przekształceniu:
)
(
)
(
2
2
2
1
x
S
x
S
)
1
(
)
1
(
)
(
)
(
)
(
)
1
(
)
(
)
1
(
1
2
2
1
2
1
2
2
2
2
2
1
2
2
2
2
2
2
2
1
2
1
1
1
−
−
∗
∗
∗
=
∗
−
∗
−
=
n
n
n
n
x
S
x
S
x
S
n
n
x
S
n
n
F
σ
σ
σ
σ
Ma rozkład F-Snedecora o liczbie stopni swobody określanej przez v
1
=n
1
-1 oraz
v
2
=n
2
-1
Waga netto pudełka proszku do prania jest zmienną losową o rozkładzie normalnym
ze średnią równą 1 kg i odchyleniem standardowym równym 10 gram. Kontrola
przyjmuje partię towaru, jeśli dla losowo wybranych 9 opakowań średnia waga nie
będzie się różniła od 1 kg o więcej niż 5 gram. Jakie jest prawdopodobieństwo
przyjęcia partii towaru?
Przykład wykorzystania rozkładów statystyk z próby
=
=
n
x
D
m
x
E
N
σ
)
(
,
)
(
(
)
33
,
3
;
1000
9
10
;
1000
N
N
→
(
)
(
) ( )
( )
(
)
(
)
8664
,
0
9332
,
0
1
9332
,
0
5
,
1
1
5
,
1
5
,
1
5
,
1
33
,
3
1000
1005
33
,
3
1000
995
1005
995
=
−
−
=
=
−
−
=
≤
<
−
=
=
−
≤
<
−
=
≤
<
F
F
u
P
u
P
x
P
Jest to p-stwo przyjęcia partii towaru lub
inaczej: p-stwo wylosowania próby dla
której średnia z próby będzie mieściła się
w przedziale 1000
±
5 gramów