Mat.Stat. Wykład 2. 2013L. Ryszarda Rempała. Materiały dydaktyczne
1
Wykład 2.
Próba losowa prosta. Podstawowe statystyki. Twierdzenia graniczne.
Proba losowa prosta
Załóżmy, że badamy cechę pewnej populacji opisaną zm. los.X,
której rozkład jest nam nieznany (lub mamy o nim tylko
częściowe informacje). W wyniku przeprowadzenia n
niezależnych doświadczeo, w tych samych warunkach,
otrzymujemy n - wartości cechy:
x
1
,x
2
,…,x
n.
Ciąg ten nazwiemy
próbą (próbką). W statystyce matematycznej zakłada się, że
otrzymane wartości próby są wynikiem działania pewnego
„mechanizmu losowego”. Przy naszych założeniach (niezależne
doświadczenia, powtarzane w tych samych warunkach)
„mechanizm” przypomina tzw. urnowe losowanie ze
zwracaniem.
Gdybyśmy, mieli możliwości powtarzania badao złożonych z n
doświadczeo, to za każdym razem otrzymalibyśmy jakąś próbę.
Zauważmy, że zbiór możliwych wartości {x
1
} obserwowanych
jako pierwszy element w kolejnych n-elementowych próbach
można traktowad jako realizacje pewnej zmiennej losowej,
którą nazwiemy X
1
, Podobnie {x
2
} – możliwe wartości drugich
wyników w kolejnych próbach – można traktowad jako
realizacje zm. los.,którą nazwiemy X
2
itd. , aż dojdziemy do
zbioru {x
n
}, który potraktujemy jako możliwe realizacje zmiennej
X
n
.
Mówiąc krótko: dane doświadczalne x
1
,x
2
,…,x
n
, które
obserwujemy jako wyniki doświadczeo, potraktujemy jako
realizacje (wartości) układu zmiennych X
1
,...,X
n
. Z tego też
względu, zmienne losowe X
1,
X
2
, …, X
n
nazwiemy zmiennymi
obserwowalnymi lub obserwacjami.
Mat.Stat. Wykład 2. 2013L. Ryszarda Rempała. Materiały dydaktyczne
2
Zauważmy, że przy naszych założeniach dotyczących losowania,
zmienne X
1,
X
2
, …, X
n
można traktowad jako niezależne i mające
taki rozkład jak badana cech X.
Wygodnie jest założyd, że zmienne X
1,
X
2
, …, X
n
są określone na
wspólnej przestrzeni probabilistycznej. Oznacza to, że dla
konkretnej próby x
1,
...,x
n
, mamy x
1
= X
1
( ),…., x
n
=X
n
( ), dla
pewnego .
Przykład. W urnie mamy 10 losów: 5 losów przegrywających-o
wartości zero, 2 wygrywające o wartości 1zł, 3 wygrywające o
wartości 2 zł.
Wylosowujemy 5 losów. Załóżmy, że jest to „losowanie ze
zwracaniem”. Niech zm. los. X
1
oznacza potencjalne wartości losu
wybranego jako pierwszy, X
2
potencjalne wartości losu wybranego
jako drugi, itd. Ostatnia zmienna X
5
oznacza potencjalne wartości
losu wybranego w piątym losowaniu.
Zauważmy, że przy tym postępowaniu wszystkie zmienne są
niezależne i mają jednakowy rozkład, który jest rozkładem
następującej zm. los. X określonej na populacji złożonej z 10 biletów:
P(X=0)=0.5, P(X=1)=0.2, P(X=2)= 0.3.
Definicja. Próbą losową prostą pochodzącą z rozkładu zm.los. X,
jest ciąg zm. los. X
1
, X
2
,…,X
n,
które są niezależne i mają taki sam
rozkład jak X. (Zapis w skrócie: X
1
, X
2
,…,X
n
~X)
Uwaga.a) Jeżeli rozkład zm.los. tworzących próbę jest określony w
inny sposób, np. przez dystrybuantę( funkcję gęstości lub nazwę
rozkładu), to mówimy, że próba pochodzi z rozkładu o danej
dystrybuancie (funkcji gęstości lub z rozkładu o danej nazwie).
(Np. X
1
, X
2
,…,X
n
~ N( oznacza, że próba pochodzi rozkładu
normalnego o nieznanych parametrach
Mat.Stat. Wykład 2. 2013L. Ryszarda Rempała. Materiały dydaktyczne
3
b) W statystyce rozkład, z którego pochodzi próba nazywany jest
rozkładem teoretycznym.
c) W naszych rozważaniach ograniczmy się tylko do takich zm.
obserwowalnych, które tworzą próbę losową prostą. Dlatego w
dalszych rozważaniach będziemy czasami pomijad przymiotnik
„prosta”. ( Nazwa „ próba prosta” pochodzi od sposobu tworzenia
próbek x
1
,x
2
,…,x
n.
W przypadku modeli urnowych jest to losowanie ze
zwracaniem. Należy jednak zaznaczyd, że w statystyce rozważa się też
próby losowe, które nie są proste).
Model statystyczny
W praktycznych zagadnieniach statystycznych rozkład teoretyczny nie
jest dokładnie znany. Zadaniem statystyka jest „sensowne
przybliżanie” brakujących informacji o rozkładzie.
W pewnych przypadkach, już z samej natury zjawiska losowego,
statystyk może mied pewne częściowe informacje o rozkładzie
teoretycznym. Znany jest np. typ rozkładu teoretycznego, lecz nie są
znane jego parametry (np. rozkład wykładniczy z nieznanym
parametrem
). W innych sytuacjach zadanie polega na przybliżaniu
całego rozkładu.
Budując matematyczny model sytuacji jaką napotyka statystyk
zakładamy, że nieznany rozkład teoretyczny, który „rządzi”
zachowaniem obserwacji (a więc ich rozkładem) zależy od parametru,
. Zbiór
może oznaczad zarówno możliwe parametry liczbowe
konkretnego rozkładu, jak i całe rodziny rozkładów.
Definicja Modelem statystycznym nazywamy rodzinę ( ,
F,
P
)
wraz z ciągiem zmiennych losowych
n
2
1
X
,
,
X
,
X
określanych na ,
i nazywanych obserwacjami.
Mat.Stat. Wykład 2. 2013L. Ryszarda Rempała. Materiały dydaktyczne
4
Jak już zaznaczono, w naszych rozważaniach, ograniczamy się do
takich obserwacji, które tworzą próbę losową prostą.
Założenie. Obserwacje
n
2
1
X
,
,
X
,
X
są niezależnymi zmiennymi
losowymi o jednakowym rozkładzie. (Nieznany rozkład jest rządzony
przez rodzinę prawdopodobieostw
.
Uwaga. Rozkłady, którymi „rządzi” rodzina rozkładów
P
w
naturalny sposób dziedziczą parametr
.
Np.
)
x
X
(
P
)
x
(
F
,
f
jest gęstością, jeśli
a
dx
)
x
(
f
)
a
(
F
.
STATYSTYKI
Niech
n
2
1
X
,
,
X
,
X
będą obserwacjami tworzącymi próbę losową
prostą w ustalonym modelu statystycznym.
Definicja: Każdą funkcję borelowską T będącą funkcją X
1
,X
2
,…,X
n
nazywamy statystyką.
Statystyka-jako funkcja zm. los.- jest także zm. los. Jej rozkład zależy
od postaci przekształcenia T oraz od rozkładu zmiennych X
1
,X
2
,…,X
n.
Przykłady statystyk:
a
) R = max (X
1
, X
2
, ..., X
n
) - min(X
1
, X
2
, ..., X
n
)
b) Z =
)
X
X
(
2
1
n
1
c)
n
1
i
i
X
n
1
X
---- średnia arytmetyczna z próby
d)
n
1
i
2
i
2
)
X
X
(
n
1
S
ˆ
---- wariancja z próby ( z daszkiem)
Mat.Stat. Wykład 2. 2013L. Ryszarda Rempała. Materiały dydaktyczne
5
e)
n
1
i
2
i
)
X
X
(
n
1
S
ˆ
---- odchylenie standardowe z próby
f)
n
1
i
2
i
2
)
X
X
(
1
n
1
S
---- wariancja z próby
g)
n
1
i
2
i
)
X
X
(
)
1
n
(
1
S
---- odchylenie standardowe z próby
Z definicji wynika, że
2
2
S
)
1
n
(
S
ˆ
n
, stąd
2
2
S
]
n
/
)
1
n
[(
S
ˆ
h)
k
aˆ
=
n
1
i
k
i
X
n
1
---- k-ty moment zwykły z próby
i)
k
m
ˆ =
k
)
X
X
(
n
1
n
1
i
i
---- k-ty moment centralny z próby
Jak widad, momenty z próby są odpowiednikami momentów
zwykłych i centralnych z rozkładu zm. los. Dla rozkładów zm. los.
mamy bowiem
a
k
= E(X
k
) ---- k-ty moment zwykły z rozkładu zm. los.,
k
= E(X-E(X))
k
---- k-ty moment centralny z rozkładu.
Przykład wykorzystania średniej arytmetycznej do oceny wartości oczekiwanej rozkładu
teoretycznego (oparty na regule 3
Zadania statystyki
Mat.Stat. Wykład 2. 2013L. Ryszarda Rempała. Materiały dydaktyczne
6
Zadania statystyki
a) Poznad rozkłady podstawowych statystyk. (Do tego celu
wykorzystamy
aparat
funkcji
charakterystycznych,
który
wprowadziliśmy na wykładach z rachunku prawdopodobieostwa)
b) Wykorzystujac rozkłady odpowiednich statystyk podad sposoby
estymacji (przybliżania, szacowania) wartości nieznanego parametru
rozkładu, bądz też całego rozkładu, (tzw. problem estymacji).
c) Wykorzystujac rozkłady odpowiednich statystyk podad sposoby
testowania hipotez o nieznanym parametrze.
d) W punktach b) i c) przy wykorzystywaniu asymptotycznych
rozkładów statystyk korzysta sie tzw. twierdzeo granicznych, które
znamy z rachunku prawdopodobieostwa.
Prawa Wielkich Liczb (PWL)
Prawa te można interpretowad w następujący sposób: jeżeli rozmiar próbki
może się dowolnie zwiększad, to średnia arytmetyczna z próby losowej
zbiega – w pewnym sensie – do wartości
oczekiwanej rozkładu, z którego pochodzi próba.
Przypominamy.
Twierdzenie 2.1. (Słabe PWL ). Jeżeli S
n
=
gdzie
są niezależnymi zm. los. o jednakowym rozkładzie ze
skooczoną wartością oczekiwaną , to dla każdego
Mat.Stat. Wykład 2. 2013L. Ryszarda Rempała. Materiały dydaktyczne
7
Zbieżność prawie na pewno i zbieżność według
prawdopodobieństwa
Niech zm.los. Y
n
, n = 1,2,… będą określone na (
,
F, P) i niech
g
R.
Definicja. Ciąg zm. losowych {Y
n
} zbiega do liczby g
a) z prawdopodobieństwem 1 (prawie na pewno), co zapisujemy,
g
Y
.
n
.
p
n
, jeśli
1
})
g
)
(
Y
:
({
P
n
;
b ) według prawdopodobieństwa (stochastycznie, według miary), co
zapisujemy
g
Y
p
n
, jeśli
0
})
|
g
)
(
Y
|
:
({
P
lim
n
n
dla każdego
0
.
Innymi słowy
dla każdego
0
.
Pokazywaliśmy, że ze zbieżności p. n. wynika zbieżność
stochastyczna. Implikacja w drugą stronę nie jest prawdziwa. (por.
ćwiczenia).
Twierdzenie 2.3. (MPWL Kołmogorowa). Jeżeli X
1
,X
2
,…, X
n
,…
są niezależnymi zm. los. o jednakowym rozkładzie z wartością
oczekiwaną m, to dla każdego
) = 1
Wnioski z Twierdzenia Kołmogorowa o MPWL
Mat.Stat. Wykład 2. 2013L. Ryszarda Rempała. Materiały dydaktyczne
8
1.MPWL dla pierwszych momentów. Jeżeli X
1
,X
2
,…, X
n
są
niezależnymi zm. los. o jednakowym rozkładzie z wartością
oczekiwaną , to
(*)
.
n
.
p
Innymi słowy : w jezyku prostych prób losowych (*) oznacza, że
przy zwiększaniu liczności prób, średnie arytmetyczne z prób
zbiegają do średniej teoretycznej p.n.
2.MPWL dla k-tych momentów. Jeżeli X
1
,X
2
,…, X
n
jest próbą
losową prostą z rozkładu, w którym cecha X ma skończony k-ty
moment
. Wówczas
k
aˆ
=
n
1
i
k
i
X
n
1
Dowód. Wystarczy zauważyć, że
są niezależne o
jednakowym rozkładzie i skorzystać z 1.
3. MPWL dla zm. los. zerojedynkowych. Z Twierdzenia o MPWL
wynika, że dla ciągu niezależnych zm. los. zerojedynkowych
X
1
,X
2
,…,X
n
z prawdopodobieństwem sukcesu p, prawdziwa jest
następująca własność:
=
p prawie na pewno (p.n.)
Innymi słowy : w przypadku prostych prób losowych częstości
sukcesów w próbach zbiegają p.n. do teoretycznego
prawdopodobieostwa sukcesu.
4. Definicja częstościowa prawdopodobieostwa jest uzasadniona.
Jeśli przy niezależnym powtarzaniu doświadczenia otrzymujemy
Mat.Stat. Wykład 2. 2013L. Ryszarda Rempała. Materiały dydaktyczne
9
wyniki
,…,
, to częstośd pojawiania się zdarzenia A wynosi
. Na mocy (MPWL) otrzymujemy
E(
p.n.
Rozkład empiryczny
Niech ciąg zm. los. X
1
,X
2
,…,X
n
oznacza próbę losową prostą
Niech
n
1
i
)
x
)
(
X
(
def
n
i
1
n
1
)
,
x
(
F
ˆ
dla ustalonego x
R.
Zauważmy, że P(
)
x
X
(
i
1
=1
)
=
P(
)
x
(
F
)
x
X
i
F
oznacza dystrybuantę rozkładu teoretycznego.
Ciąg
,...
2
,
1
i
},
1
{
)
x
i
X
(
jest ciągiem zmiennych los. niezależnych
ponieważ
były niezależne.
Wniosek . Dystrybuanta empiryczna przy ustalonym x jest średnią
arytmetyczną niezależnych zmiennych losowych o jednakowym
rozkładzie z prawdopodobieostwem sukcesu w pojedynczej próbie
p =
).
x
(
F
Zatem z MPWL dla schematu Bernoulliego mamy
n
przy
.
n
.
p
)
x
(
F
n
1
1
1
)
x
(
F
ˆ
x
n
X
x
2
X
x
1
X
n
.
Mamy więc następujące twierdzenie.
Twierdzenie 2.2 (O zbieżności dystrybuant empirycznych) Jeżeli
ciąg X
1
, X
2
, ...,X
n
jest prostą próbą losową pochodzącą z rozkładu o
dystrybuancie
F
, to dla każdego x
R
Mat.Stat. Wykład 2. 2013L. Ryszarda Rempała. Materiały dydaktyczne
10
)
x
(
F
)
x
(
F
ˆ
n
.
p
n
przy n
.
Uwaga. Prawdziwy jest mocniejszy wynik (podstawowy w statystyce).
Wyraża go następujące twierdzenie.
Twierdzenie 2.3 Gliwienki – Cantellego. ( por. R.Zielioski’’ Siedem
wykładów...,PWN, 1990). Jeżeli ciąg X
1
, X
2
, ...,X
n
jest prostą próbą
losową z rozkładu o dystrybuancie
F
, to
n
przy
0
|
)
x
(
F
)
x
(
F
ˆ
|
sup
n
.
p
n
x
Wniosek. Jeżeli próba może byd dowolnie liczna to dystrybuantę z
rozkładu, z którego pochodzi, można przybliżad z dowolną
dokładnością.
Rozkład normalny (przypominamy)
a) Funkcja gęstości:
2
2
2
)
x
(
exp
2
1
)
x
(
f
b) E(X) =
2
)
X
(
Var
,
c) Rozkład normalny jest indeksowany parametrami
.
,
Oznaczenie: N(
)
,
d) Zdanie: zm. los. X ma rozkład normalny z parametrami
,
zapisujemy w skrócie: X~ N(
)
,
e) (O liniowym przekształceniu zm. los. normalnej. Por. Rach.Praw.
Wykład ). Jeżeli X ma rozkład normalny N(
,
), to dla dowolnych
liczb a,b (a
0) zmienna Y=aX+b ma rozkład N(a
+b,|a|
).
Mat.Stat. Wykład 2. 2013L. Ryszarda Rempała. Materiały dydaktyczne
11
Centralne Twierdzenie Graniczne (CTG)
Twierdzenie 2.4. (CTG). Jeżeli
n
2
1
X
,
,
X
,
X
tworzą próbę losową
prostą pochodzącą z rozkładu w wartości oczekiwanej E(X
i
) =
i
wariancji Var (X
i
)
=
2
> 0 oraz
n
X
X
X
n
1
n
to dla każdej
liczby a
)
a
(
)
a
n
)
X
(
(
P
lim
n
n
, (**)
gdzie
.
R
a
,
dx
e
2
1
)
a
(
a
2
/
x
2
Uwagi do CTG
Zauważmy, że E(
n
X
) =
, D(
n
X
) =
n
/
.
Zatem zmienna los.
n
)
X
(
n
jest „standaryzowaną średnią
arytmetyczną”. Funkcja
jest dystrybuantą rozkładu N(0,1).
(**) oznaczają , że dystrybuanta standaryzowanej średniej
arytmetycznej zbiega, w każdym punkcie, do dystrybuanty
standardowego rozkładu normalnego.
Inny zapis tezy CTG:
)
1
,
0
(
N
n
)
X
(
d
n
.
Ten zapis oznacza zbieżnośd nazywaną zbieżnością według rozkładu.
Definicja (Zbieżnośd według rozkładu). Mówimy, że ciąg zm.
los.{X
n
} zbiega według rozkładu do zm. los. X, jeśli ciąg dystrybuant
Mat.Stat. Wykład 2. 2013L. Ryszarda Rempała. Materiały dydaktyczne
12
zmiennych X
n
zbiega do dystrybuanty zmiennej X w każdym punkcie
ciągłości dystrybuanty zmiennej X.
W przypadku CTG dystrybuanty zmiennych losowych (w tym
przypadku dystrybuanty standaryzowanych średnich
arytmetycznych) zbiegają, w każdym punkcie, do
dystrybuanty zm. los. X o rozkładzie N(0,1). Zbieżnośd zachodzi
w każdym punkcje, ponieważ dystrybuanta
jest funkcją
ciągłą.
Zauważmy, że przekształcając wzór (*) tezę CTG można zapisad
w postaci
)
1
,
0
(
N
n
)
n
S
(
d
n
, gdzie
.
X
X
X
S
n
2
1
n
Oznacza to, że dla dostatecznie dużych n,
n
2
1
n
X
X
X
S
ma rozkład N(n
Jako wniosek z CTG otrzymujemy następujące twierdzenie.
Twierdzenie 2.5 ( Twierdzenie de Moivre’a-Laplace’a). Jeżeli
n
2
1
X
X
X
jest liczbą sukcesów w n- próbach Bernoulliego
z prawdopodobieństwem pojedynczego sukcesu p, a
n
X jest
średnią arytmetyczna liczby sukcesów, to dla każdej liczby a
)
a
(
)
a
)
p
1
(
p
n
)
p
X
(
(
P
lim
n
n
,
gdzie
Mat.Stat. Wykład 2. 2013L. Ryszarda Rempała. Materiały dydaktyczne
13
.
R
a
,
dx
e
2
1
)
a
(
a
2
/
x
2
Dowód. Zastosowano CTG do niezależnych zmiennych
zerojedynkowych o rozkładach: P(X
i
= 1) = p, P(X
i
=0)=1-p.
Przypominamy, że E(X
i
) = p, Var (X
i
) = p(1-p).