Estymacja – szacowanie nieznanego parametru lub funkcji na podstawie wyników obserwacji.
1. Dystrybuanta empiryczna
2. Podstawowe twierdzenie statystyki matematycznej
Niech X= ( X , X ,..., X
P = { θ
P : θ ∈ }
Θ
1
2
) T
n
będzie próbą losową prostą z rozkładu θ
P ∈
o
dystrybuancie F przyjmującą wartości w przestrzeni n
R .
P = { θ
P : θ ∈ }
Θ - rodzina rozkładów prawdopodobieństwa zmiennej losowej X określonej na (X, R( k
R )
F ) indeksowana parametrem θ ∈ Θ . θ jest nieznanym parametrem, θ ∈ Θ ⊆
X
Na podstawie wyników obserwacji z próby losowej X= ( X , X ,..., X
1
2
) T
n
chcemy oszacować niezna-
ny nieznaną dystrybuantę F wektora X= ( X , X ,..., X
1
2
) T
n
.
1- Dystrybuanta empiryczna
Definicja 3.1. Dystrybuantą empiryczną z próby X= ( X , X ,..., X
1
2
) T
n
nazywamy funkcję
F : R ×
n
n
R →
1
,
0
określoną wzorem
n
1
, x =
∑
∈ , x ∈
n
F ( t )
1(−∞ t,]( xi )
n
t
R
R ,
n i=1
gdzie x = ( x ..., x
,
1
n ) jest realizacją (konkretną obserwacją) wektora X,
1 xi ∈ − ∞, t
(
1 −∞ t,]( xi )
(
]
=
.
0 xi ∉(− ∞, t]
Dla każdej ustalonej wartości x funkcja n
F ( ,
• x) jest dystrybuantą schodkową, mającą skoki w
punktach x , x ,..., x
1
2
n . Dla każdego t ∈ R funkcja Fn ( t, X) jest zmienną losową (statystyką).
Statystykę Fn ( t, X) nazywamy również dystrybuantą empiryczną.
Równoważnie określamy dystrybuantę wzorem
1
F
, X =
1 ≤ ≤ :
≤
∈ , X ∈
n ( t
)
card{
i
n X
t
i
},
n
t
R
R
n
gdzie card oznacza liczbę elementów zbioru.
• Rozważmy funkcję n
F ( ,
• x)
n
1
Dla każdej ustalonej wartości x funkcja
•, x = ∑
n
F (
)
(
1 −∞ t,]( xi ) jest funkcją argumentu t ∈ R
n i=1
1
i jest dystrybuantą o przyrostach
w punktach x , x ,..., x
1
2
n , jeżeli wszystkie xi są różne, a
n
k
jeżeli pewna wartość występuje k razy, to wielkość skoku jest równa
.
n
Ogólnie, dla ustalonej realizacji x = ( x ..., x
,
1
n ) funkcja
n
F ( ,
• x) jest dana wzorem
gdy
t < x n
:
1
k
n
F ( t, x *) =
gdy
xk n
:
≤ t < xk+ n:
1
,
n
1
gdy
t ≥ xn n
:
gdzie k jest liczbą zmiennych losowych X
−
i , których wartości należą do przedziału (
,
∞ t],
wektor x* = ( x n , x
:
1
n ,..., x
:
2
n n
: ) jest uporządkowaną próbką o współrzędnych
x
≤
≤
n
x
:
1
n
.... ≤ x
:
2
n n
: ,
przy czym x
=
k n
: oznacza k-tą co do wartości współrzędną wektora realizacji x
( x ..., x
,
1
n ).
Własności funkcji n
F ( ,
• x)
1. n
−
n
F ( ,
• x) jest liczbą elementów próby należących do przedziału (
,
∞ t], czyli xi mniej-
szych lub równych t,
2. n
F ( ,
• x) jest niemalejąca funkcją argumentu t,
3. n
F ( ,
• x) jest prawostronnie ciągłą funkcją argumentu t oraz suma przyrostów
n
*
∑
+
[ F ( t, x
)
n
− F t x
k n
n
k n
=
:
(, *: )
]
1
k 1
=
Zatem funkcja n
F ( ,
• x), jako funkcja argumentu t ∈ R ma własności dystrybuanty i dlatego jest na-zywana dystrybuanta empiryczną (określoną na n-elementowej próbie z rozkładu o dystrybuancie F).
• Rozważmy funkcję Fn ( t •
, )
Dla każdej ustalonej wartości t ∈ R funkcja F
ω ∈
n ( t •
, ) jako funkcja argumentu
Ω jest zmienną lo-
sow
n
ą F :
ω ∈
F t,
n
ω
n R
→ 1,
0
i dla dowolnego
Ω wartość funkcji
( ) jest równa liczbie zmien-
nych X
−
i , których wartości należą do przedziału (
,
∞ t]. Tutaj przy ustalonym t ∈ R zmieniamy re-alizacje próby. Zachodzi następujące twierdzenie.
Twierdzenie 3.1. Niech X ,
,...
1 X 2
będą niezależnymi zmiennymi losowymi o jednakowym rozkła-
dzie z dystrybuantą F i niech
Fn ( t, X) będzie dystrybuantą empiryczną z próby X= ( X , X ,..., X
1
2
) T
n
. Wtedy dla każdego ustalonego t ∈ R :
i) nF
B( n, F t )
n ( t, X) jest zmienną losową o rozkładzie dwumianowym ( z wartością oczekiwa-F t ( − F t )
ną E[ F
, X ] =
[
, X ] =
1
n ( t
) F( t) i wariancją Var Fn( t )
( )
( ,
n
ii) dystrybuanta empiryczna Fn ( t, X) jest zbieżna do dystrybuanty teoretycznej F z prawdopodobień-
stwem 1, co zapisujemy
Pω : lim Fn ( t, X ) = F ( t) = 1,
n→∞
2
F t (1 − F t )
iii) zmienna losowa F
AN F t ,
n ( t, X) ma rozkład asymptotycznie normalny
( ) ( )
( ) , co
n
F
−
n ( t )
F ( t)
oznacza, że
n
D
N
→ ( ).
F ( t)( − F ( t)
1
,
0
1
n→∞
n
1
Dowód i) Dystrybuanta empiryczna jest zdefiniowana wzorem n F ( t, x) =
∑ Yk ,
n k=1
gdzie Y =
k
(
1 −∞, t]( X i ) jest zmienną losową o rozkładzie dwupunktowym z prawdopodobieństwami równymi P( Y = 1 =
≤ =
= 0 =
> = 1 −
k
) P( X t
i
) F( t) i P( Yk ) P( X t
i
)
F ( t).
Ponadto EY = 1⋅ P
=1 + 0 ⋅
= 0 =
k
( Yk )
P( Yk
) F( t),
VarY = EY 2 − E 2 Y = 1⋅ P
= 1 − 2 =
− 2 =
1 −
k
k
k
( Yk ) F ( t) F( t) F ( t) F( t)( F( t) .
Dla ustalonego t ∈ R funkcja Fn ( t •
, ) zlicza te zmienne losowe spośród X , X ,..., X
1
2
n , których
n
wartości dla zdarzenia ω ∈ Ω nie przekraczają t. Stąd zmienna losowa n n F ( t, X) = ∑ Yk ma rozkład
k =1
n
n
−
prawdopodobie
k
n
ństwa postaci P{ n
, X =
= ∑
= = [
] 1
[ −
n
F ( t
) k} P Yk k
F ( t)
F ( t)
k
]
.
k=1
k
Obliczamy E[ Fn ( t, X) ] i Var [ Fn ( t, X) ]: n
n
1
1
1. E[ F
, X ] =
∑
=
∑
=
n ( t
) E
Y
EY
F
k
k
( t).
n k=1 n k=1
n
n
1
1
1
2. Var[ F
, X ] =
∑
=
∑
=
1 −
n ( t
) Var
Y
Var
k
( Yk ) F( t)( F( t) .
n
2
k =1
n k=1
n
Dowód ii). Teza ii) wynika z mocnego prawa wielkich liczb.
• Mocne prawo wielkich liczb (MPWL)
Niech X ,
,...
1 X 2
będzie ciągiem zmiennych losowych o jednakowym rozkładzie prawdopodobień-
stwa z wartością oczekiwaną EX
VarX i =
i = µ < ∞ i wariancją
2
σ .
n
1
Niech S =
∑ X , n ∈ N
n
j
oznacza średnią z pierwszych n zmiennych losowych.
n j=1
Wtedy ciąg ( Sn) n N
∈ jest zbieżny do średniej µ z prawdopodobieństwem 1, co zapisujemy
Pω : lim Sn (ω ) = µ = 1
n→∞
• MPWL Kołmogorowa
Niech X ,
,...
1 X 2
będzie ciągiem niezależnych zmiennych losowych o tym samym rozkładzie z warto-
∞ VarX
ścią oczekiwaną µ =
=
∑
n <
1
EX ì
2
VarX
σ
i
n oraz
∞ .
=
2
n 1
n
Wtedy dla ciągu zmiennych losowych X ,
,...
1 X 2
zachodzi MPWL.
3
Aby pokazać ii) tzn. zbieżność z prawdopodobieństwem 1 dystrybuanty empirycznej Fn ( t,X) do dystrybuanty teoretycznej F(t) zauważmy, że dystrybuanta empiryczna Fn ( t •
, ) dla ustalonego t ∈ R
n
1
jest zdefiniowana wzorem
Yk = 1 −∞ t, ( X k ( )⋅
n
F ( t, X) =
∑ Yk , gdzie
(
]
są zmiennymi losowymi o
n k=1
rozkładzie Bernoulliego (zero-jedynkowym) z P( Y = 1 =
= 0 = 1 −
k
) F( t) i P( Yk )
F ( t).
Zatem dla każdego n ∈ N funkcja Fn ( t •
, ) jest średnią z n pierwszych zmiennych losowych o rozkła-
1
dzie Bernoulliego (zero-jedynkowym) z Var[ F
, X ] =
1 −
n ( t
)
F ( t)(
F ( t) .
n
∞ VarF
∞
n
F ( t)(1 − F ( t)
∞ 1
Spełniony jest warunek Kołmogorowa: ∑
= ∑
= F( t)(1− F( t) ∑
< +∞ .
n=
2
n
n=
3
n
n=
3
1
1
1 n
Zatem na mocy MPWL Kołmogorowa zachodzi MPWL, czyli
Pω : lim Fn ( t, X) = F( t) = 1.
n→∞
Zmienne losowe Z =
n
(
1 −∞, t)( X n ) są również zmiennymi losowymi o rozkładzie Bernoulliego z P( Z
P Z
F t −
n = 0 = 1 − F t −
n = )
1 = F ( t −) i (
)
( ), gdzie ( ) oznacza granicę lewostronną dystrybu-
anty F w punkcie t. Zatem z MPWL Kołmogorowa zachodzi
Pω : lim Fn ( t−, X) = F ( t) = 1 dla każdej ustalonej wartości t ∈ R .
n→∞
Stąd wynika, że wartość dystrybuanty empirycznej Fn ( t, X) w ustalonym punkcie t ∈ R może służyć za oszacowanie wartości dystrybuanty teoretycznej F(t).
Dowod iii). Teza iii) jest wnioskiem z centralnego twierdzenia granicznego Lindeberga-Levy’ego.
• Centralne twierdzenie graniczne Lindeberga-Levy’ego
Niech X ,
,...
1 X 2
będzie ciągiem niezależnych zmiennych losowych o tym samym rozkładzie z warto-
ścią oczekiwaną i wariancją
a EX
2
VarX i = σ
σ >
i = µ < +∞ ,
,
0 .
n
Niech Sn = ∑ X j oznacza sumę n pierwszych zmiennych losowych, j=1
n
n
n
n
b) ES = E ∑ X = ∑ EX =
VarS = Var ∑ X = ∑ VarX =
n
j
j
σ
n
j
j
µ
n ,
2
n
j=1
j=1
j 1
=
j 1
=
Niech
n
∑ X
−
− n
S
ES
j
µ
Y
n
n
=
j 1
=
n
=
oznacza standaryzowaną zmienną losową
VarSn
2
nσ
n→∞
4
1
EY
E
E S
ES
n =
n =
[ n − n]
c)
=0
VarS
VarSn
n
n→∞
Sn − ES
1
VarY
Var
Var S
ES
n =
n =
[ n − n] 1
=
VarS
VarS
n
n
n→∞
Niech F ( y) = P
≤
Y
( Y y
n
) dla y∈ Y oznacza dystrybuantę zmiennej losowej unormowanej Y .
n
n
Wtedy
lim F ( y) = Φ( y) dla każdego y ∈ Y , n
Y
n→∞
y
1
2
gdzie Φ( y) =
exp( t
∫
−
jest dystrybuantą rozkładu normalnego N (
)1
,
0
.
2 ) dt
2π −∞
Sprawdzamy założenia CTG dla ciągu zmiennych losowych ( Y
Y =
k
1 −∞ t, ( X k )
n )
.
n N
∈ , gdzie
(
]
a) EY = F
VarYk = F t (1 − F t ) >
k
( t),
( )
( ) 0.
n
b) S
=
VarS = nF t 1 −
n
( F t )
n = ∑ Yk , ES
nF
n
( t),
( )
(
k =1
n
1
n
∑
−
S − ES
∑ Y − nF
1
, X −
n
n
k
( t) n
Y
F
k
( t)
n k
F ( t
) F( t)
c) Y
n
=
=
k =1
=
=
n
=
VarS
1 −
n
nF ( t)(1− F ( t)
nF ( t)(
F ( t)
1 F( t)(1− F( t)
n
Przy czym EYn = ,
0 VarYn = 1.
Stąd na mocy CTG lim P( Y ≤ y = Φ
( n
F t, X )
n
) ( y) i ciąg
(
jest asymptotycznie normalny
n n
∈
n
1
AN F ( t), F ( t)(1 − F( t)
.
n
Uwaga. Własność ii) mówi o tym, że dystrybuanta empiryczna w każdym punkcie t ∈ R z osobna dobrze szacuje wartości dystrybuanty teoretycznej. Podstawowe twierdzenie statystyki matematycznej wzmacnia tę własność i mówi o tym, że dystrybuanta empiryczna n F także globalnie dobrze szacuje
wartości dystrybuanty teoretycznej F, tzn. jest jednostajnie zbieżna względem zmiennej t do F(t).
2 – Podstawowe twierdzenie statystyki matematycznej (Gliwenki – Cantellego) Twierdzenie 3.2. Niech X ,
,...
1 X 2
będą niezależnymi zmiennymi losowymi o jednakowym rozkła-
dzie z dystrybuantą F i niech F : R × n
n
R → [
]
1
,
0
będzie dystrybuantę empiryczną z próby
X= ( X , X ,..., X
1
2
) T
n
. Wtedy
Pω : lim sup Fn ( t, X) − F ( t) = 0 = 1,
n→∞ ∈
t R
5
gdzie sup F
, X −
n ( t
) F( t) jest odległością Kołmogorowa dystrybuanty empirycznej n F od
t R
∈
p trybuanty teoretycznej F. Dowód – p. w podręcznikach Bartoszewicza (1996), Krzyśki (2005).
Uwaga. Twierdzenie to mówi, że gdy rośnie rozmiar próby X= ( X , X ,..., X
1
2
) T
n
, to dystrybuanta
empiryczna różni się od teoretycznej tylko na zbiorach o prawdopodobieństwie równym zero, czyli przy dostatecznie dużym rozmiarze próby dowolnie dobrze szacuje nieznaną dystrybuantę teoretyczną F. Ponadto dystrybuanta empiryczna jest nieparametrycznym estymatorem największej wiarogodno-
ści dystrybuanty teoretycznej F, jest również minimaksowym estymatorem dystrybuanty teoretycznej F przy odpowiedniej funkcji straty.
Przykład 3.1.
Wykonujemy 7 razy po 20 rzutów monetą i zapisujemy liczbę orłów w każdej serii rzutów.
Otrzymujemy wyniki w postaci wartości zmiennej losowej X i w każdym i-tym doświadczeniu, i = ,
1 ,
2 ... 7
, .
X ω = =
ω =
ω =
ω =
ω =
1 (
) 3 1 x , X
=
2 (
) 5 x 2, X
=
3 (
) 9 x 3 , X
=
4 (
) 2 x 4 , X
=
5 (
) 4 x 5,
X
ω = =
ω =
6 (
) 1 x 6 , X
=
7 (
) 18 x 7.
Realizacją próby X= ( X , X ,..., X
1
2
) T
n
jest wektor x= ( ,
3 ,
5 ,
9
,
2
,
4 ,
1
) T
18
.
Na podstawie danych z wektora realizacji x chcemy określić dystrybuantę wektora X= ( X , X ,..., X
F •
1
2
) T
n
za pomocą dystrybuanty empirycznej
7 ( , x) . Porządkujemy w kolejności
wzrastania wartości x , i
i
= ,1 ,
2 ... 7
, w wektorze x= ( ,
3 ,
5 ,
9
,
2
,
4 ,
1
) T
18
otrzymując próbkę uporząd-
kowaną x*= ( ,
1 ,
2 ,
3 ,
4 ,
5 ,
9
) T
18
.
Wyznaczamy dystrybuantę empiryczną ze wzoru
7
1
= ∑
7
F ( t, x *)
(
1 −∞, t]( *
xi ), gdy t ∈ R .
7 k 1
=
Dla t < 1 F t
=
*
−∞
i =
t xi
=
7 ( , x *)
0 , ponieważ (
1
, ](
) 0dla ,1 ,2...7,.
1
Dla 1 ≤ t < 2 F t
=
*
−∞
−∞
i =
t xi
=
t
=
7 ( , x *)
, ponieważ (
1
, ]( )
1
1 , a pozostałe (
1
, ](
) 0dla ,2...7,.
7
2
Dla 2 ≤ t < 3 F t
=
*
−∞
−∞
−∞ t xi =
t
=
t
=
7 ( , x *)
, ponieważ (
1
, ]( )
1
1 , (
1
, ] (2)
1 , a pozostałe (
1
, ](
) 0 dla
7
i = ,
3 ,
4 ... 7
, .
6
Dla 3 ≤ t < 4 F t
=
−∞
−∞
−∞ t
=
t
=
t
=
7 ( , x *)
, ponieważ (
1
, ]( )
1
1 , (
1
, ] (2)
1 , (
1
, ] ( )
3
1, a pozostałe
7
(
1 −∞
i =
t ]( *
xi =
,
) 0 dla
7
,
6
,
5
,
4
.
4
Dla 4 ≤ t < 5 F t
=
−∞
−∞
−∞
−∞ t
=
t
=
t
=
t
=
7 ( , x *)
, ponieważ (
1
, ]( )
1
1 , (
1
, ] (2)
1 , (
1
, ] ( )
3
1, (
1
, ](4)
1, a
7
pozostałe (
1 −∞
i =
t ]( *
xi =
,
) 0 dla
7
,
6
,
5
.
5
Dla 5 ≤ t < 9 F t
=
−∞
−∞
−∞
−∞ t
=
t
=
t
=
t
=
7 ( , x *)
, ponieważ (
1
, ]( )
1
1 , (
1
, ] (2)
1 , (
1
, ] ( )
3
1, (
1
, ] (4)
1,
7
(
1
*
−∞
−∞
i =
t xi
=
t
=
, ] (5)
1a pozostałe (
1
, ](
) 0 dla 7,
6
.
6
Dla 9 ≤ t < 18 F t
=
−∞
−∞
−∞
−∞ t
=
t
=
t
=
t
=
7 ( , x *)
, ponieważ (
1
, ]( )
1
1 , (
1
, ] (2)
1 , (
1
, ] ( )
3
1, (
1
, ] (4)
1,
7
(
1
*
−∞
−∞
−∞
i =
t xi
=
t
=
t
=
, ] (5)
1, (
1
, ](9)
1 i (
1
, ](
) 0 dla 7.
Dla 18 ≤ t F t
=
−∞
−∞
−∞
−∞ t
=
t
=
t
=
t
=
7 ( , x *)
1, ponieważ (
1
, ]( )
1
1 , (
1
, ] (2)
1 , (
1
, ] ( )
3
1, (
1
, ] (4)
1,
(
1 −∞
−∞
−∞ t
=
t
=
t
=
, ] (5)
1, (
1
, ](9)
1 , (
1
, ](18)
1 .
W rezultacie
0
t < 1
1/7 1≤ t < 2
2 / 7
2 ≤ t < 3
3/7 3≤ t < 4
7
F ( t, x *) =
4 / 7
4 ≤ t < 5
5 / 7 5 ≤ t < 9
6/7 9 ≤ t <18
1
t ≥ 18
jest dystrybuantą schodkową o punktach skoku x = ,
1 x = ,
2 x = ,
3 x = ,
4 x = 5 x =
1
2
,
9 ,
3
4
5
6
x = 18
7
i przyrostach 1/7.
Przykład 3.2. W przykładzie 3.1. realizacja x próby X była ustalona, jako wynik doświadczenia i dystrybuanta empiryczna była rozpatrywana jako funkcja argumentu t ∈ R . Teraz ustalamy moment czasowy t ∈ R , p. t =10. Zakładamy, że powtarzamy doświadczenie n-krotnie np. 5 razy i otrzy-mujemy 5 następujących realizacji: x1 = ( ,
1 ,
2 ,
3 ,
4 ,
5 ,
9
) T
18
, x 2 = ( ,
1 ,
1 ,
3 ,
8 ,
5 1 ,
1
) T
20
,
x 3 = ( ,
1 ,
2 1 ,
2 1 ,
4 1 ,
5 ,
4
) T
2
, x 4 = ( ,
5 ,
8 1 ,
2 1 ,
6 1 ,
7 1 ,
9
) T
20
, x 5 = ( ,
2 ,
8 ,
3 ,
5 1 ,
1 1 ,
5
) T
17
.
Porządkujemy elementy w próbkach rosnąco otrzymując 5 uporządkowanych próbek: : 7
1 = ( ,1 ,
2 ,
3 ,
4 ,
5 ,
9
) T
18
, x *
2
= ( ,1 ,1 ,
3 ,
5 ,
8 1 ,
1
) T
20
, x *
3 = ( ,1 ,
2
,
2
,
4 1 ,
2 1 ,
4
) T
15
,
x *
4
= ( ,
5 ,
8 1 ,
2 1 ,
6 1 ,
7 1 ,
9
) T
20
, x *
5
= ( ,
2 ,
3 ,
5 ,
8 1 ,
1 1 ,
5
) T
17
.
Dystrybuanta empiryczna jest tutaj rozpatrywana w ustalonym momencie t ∈ R jako funkcja argumentu ω ∈ Ω i liczona dla każdej realizacji osobno. Wyznaczamy wartości dystrybuanty empirycznej zliczając te wartości z próbki, które należą do przedziału (− ,
∞ t] , gdzie t=10.
Otrzymujemy:
F (
7
1 ,
0 x *
1
= ∑
*
1
−∞
x
x
i =
i
<
i
=
7
) 1
6
(
1
,
]( *
1
10
) , ponieważ 6 wartości 10,
,
3
,
2
,
1
6
,
5
,
4
.
7 i 1
=
7
F (
7
1 ,
0 x *
2
= ∑
*
1
−∞
x
x
i =
i
<
i
=
7
) 1
5
(
1
,
]( *
2
10
) , ponieważ 5 wartości 10, ,1 ,3,
2
5
,
4 .
7 i 1
=
7
F (
7
1 ,
0 x *
3
= ∑
*
1
−∞
x
x
i =
i
<
i
=
7
) 1
4
1( , ]( *
1
10
) , ponieważ 4 wartości 10,
,
3
,
2
,
1
4 .
7 i 1
=
7
F (
7
1 ,
0 x *
4
= ∑
*
1
−∞
x
x
i =
i
<
i
=
7
) 1
2
(
1
,
]( *
4
10
) , ponieważ 2 wartości 10, ,12.
7 i 1
=
7
F (
7
1 ,
0 x *
5
= ∑
*
1
−∞
x
x
i =
i
<
i
=
7
) 1
4
1( , ]( 5 *
1
10
) , ponieważ 4 wartości 10,
,
3
,
2
,
1
4 .
7 i 1
=
7
8