Zajęcia 3b – 24 marca 2012

Estymacja – szacowanie nieznanego parametru lub funkcji na podstawie wyników obserwacji.

1. Dystrybuanta empiryczna

2. Podstawowe twierdzenie statystyki matematycznej

Niech X= ( X , X ,..., X

P = { θ

P : θ ∈ }

Θ

1

2

) T

n

będzie próbą losową prostą z rozkładu θ

P ∈

o

dystrybuancie F przyjmującą wartości w przestrzeni n

R .

P = { θ

P : θ ∈ }

Θ - rodzina rozkładów prawdopodobieństwa zmiennej losowej X określonej na (X, R( k

R )

F ) indeksowana parametrem θ ∈ Θ . θ jest nieznanym parametrem, θ ∈ Θ ⊆

X

Na podstawie wyników obserwacji z próby losowej X= ( X , X ,..., X

1

2

) T

n

chcemy oszacować niezna-

ny nieznaną dystrybuantę F wektora X= ( X , X ,..., X

1

2

) T

n

.

1- Dystrybuanta empiryczna

Definicja 3.1. Dystrybuantą empiryczną z próby X= ( X , X ,..., X

1

2

) T

n

nazywamy funkcję

F : R ×

n

n

R →

1

,

0

określoną wzorem

n

1

, x =

∑

∈ , x ∈

n

F ( t )

1(−∞ t,]( xi )

n

t

R

R ,

n i=1

gdzie x = ( x ..., x

,

1

n ) jest realizacją (konkretną obserwacją) wektora X,

1 xi ∈ − ∞, t

(

1 −∞ t,]( xi )

(

]

= 

.

0 xi ∉(− ∞, t]

Dla każdej ustalonej wartości x funkcja n

F ( ,

• x) jest dystrybuantą schodkową, mającą skoki w

punktach x , x ,..., x

1

2

n . Dla każdego t ∈ R funkcja Fn ( t, X) jest zmienną losową (statystyką).

Statystykę Fn ( t, X) nazywamy również dystrybuantą empiryczną.

Równoważnie określamy dystrybuantę wzorem

1

F

, X =

1 ≤ ≤ :

≤

∈ , X ∈

n ( t

)

card{

i

n X

t

i

},

n

t

R

R

n

gdzie card oznacza liczbę elementów zbioru.

• Rozważmy funkcję n

F ( ,

• x)

n

1

Dla każdej ustalonej wartości x funkcja

•, x = ∑

n

F (

)

(

1 −∞ t,]( xi ) jest funkcją argumentu t ∈ R

n i=1

1

i jest dystrybuantą o przyrostach

w punktach x , x ,..., x

1

2

n , jeżeli wszystkie xi są różne, a

n

k

jeżeli pewna wartość występuje k razy, to wielkość skoku jest równa

.

n

Ogólnie, dla ustalonej realizacji x = ( x ..., x

,

1

n ) funkcja

n

F ( ,

• x) jest dana wzorem

 0

gdy

t < x n

:

1

 k

n

F ( t, x *) = 

gdy

xk n

:

≤ t < xk+ n:

1

,

 n

 1

gdy

t ≥ xn n

:

gdzie k jest liczbą zmiennych losowych X

−

i , których wartości należą do przedziału (

,

∞ t],

wektor x* = ( x n , x

:

1

n ,..., x

:

2

n n

: ) jest uporządkowaną próbką o współrzędnych

x

≤

≤

n

x

:

1

n

.... ≤ x

:

2

n n

: ,

przy czym x

=

k n

: oznacza k-tą co do wartości współrzędną wektora realizacji x

( x ..., x

,

1

n ).

Własności funkcji n

F ( ,

• x)

1. n

−

n

F ( ,

• x) jest liczbą elementów próby należących do przedziału (

,

∞ t], czyli xi mniej-

szych lub równych t,

2. n

F ( ,

• x) jest niemalejąca funkcją argumentu t,

3. n

F ( ,

• x) jest prawostronnie ciągłą funkcją argumentu t oraz suma przyrostów

n

*

∑

+

[ F ( t, x

)

n

− F t x

k n

n

k n

=

:

(, *: )

]

1

k 1

=

Zatem funkcja n

F ( ,

• x), jako funkcja argumentu t ∈ R ma własności dystrybuanty i dlatego jest na-zywana dystrybuanta empiryczną (określoną na n-elementowej próbie z rozkładu o dystrybuancie F).

• Rozważmy funkcję Fn ( t •

, )

Dla każdej ustalonej wartości t ∈ R funkcja F

ω ∈

n ( t •

, ) jako funkcja argumentu

Ω jest zmienną lo-

sow

n

ą F :

ω ∈

F t,

n

ω

n R

→ 1,

0

i dla dowolnego

Ω wartość funkcji

( ) jest równa liczbie zmien-

nych X

−

i , których wartości należą do przedziału (

,

∞ t]. Tutaj przy ustalonym t ∈ R zmieniamy re-alizacje próby. Zachodzi następujące twierdzenie.

Twierdzenie 3.1. Niech X ,

,...

1 X 2

będą niezależnymi zmiennymi losowymi o jednakowym rozkła-

dzie z dystrybuantą F i niech

Fn ( t, X) będzie dystrybuantą empiryczną z próby X= ( X , X ,..., X

1

2

) T

n

. Wtedy dla każdego ustalonego t ∈ R :

i) nF

B( n, F t )

n ( t, X) jest zmienną losową o rozkładzie dwumianowym ( z wartością oczekiwa-F t ( − F t )

ną E[ F

, X ] =

[

, X ] =

1

n ( t

) F( t) i wariancją Var Fn( t )

( )

( ,

n

ii) dystrybuanta empiryczna Fn ( t, X) jest zbieżna do dystrybuanty teoretycznej F z prawdopodobień-

stwem 1, co zapisujemy





Pω : lim Fn ( t, X ) = F ( t) = 1,



n→∞



2



F t (1 − F t )

iii) zmienna losowa F

AN  F t ,



n ( t, X) ma rozkład asymptotycznie normalny

( ) ( )

( ) , co



n



F

−

n ( t )

F ( t)

oznacza, że

n

D

N



 → ( ).

F ( t)( − F ( t)

1

,

0

1

n→∞

n

1

Dowód i) Dystrybuanta empiryczna jest zdefiniowana wzorem n F ( t, x) =

∑ Yk ,

n k=1

gdzie Y =

k

(

1 −∞, t]( X i ) jest zmienną losową o rozkładzie dwupunktowym z prawdopodobieństwami równymi P( Y = 1 =

≤ =

= 0 =

> = 1 −

k

) P( X t

i

) F( t) i P( Yk ) P( X t

i

)

F ( t).

Ponadto EY = 1⋅ P

=1 + 0 ⋅

= 0 =

k

( Yk )

P( Yk

) F( t),

VarY = EY 2 − E 2 Y = 1⋅ P

= 1 − 2 =

− 2 =

1 −

k

k

k

( Yk ) F ( t) F( t) F ( t) F( t)( F( t) .

Dla ustalonego t ∈ R funkcja Fn ( t •

, ) zlicza te zmienne losowe spośród X , X ,..., X

1

2

n , których

n

wartości dla zdarzenia ω ∈ Ω nie przekraczają t. Stąd zmienna losowa n n F ( t, X) = ∑ Yk ma rozkład

k =1

n



  n

−

prawdopodobie

k

n

ństwa postaci P{ n

, X =

=  ∑

=  =  [

] 1

[ −

n

F ( t

) k} P Yk k

F ( t)

F ( t)

k

]

.

 k=1

  k 

Obliczamy E[ Fn ( t, X) ] i Var [ Fn ( t, X) ]: n

n

 1



1

1. E[ F

, X ] = 

∑

 =

∑

=

n ( t

) E

Y

EY

F

k

k

( t).

 n k=1  n k=1

n

n

 1



1

1

2. Var[ F

, X ] =



∑

 =

∑

=

1 −

n ( t

) Var

Y

Var

k

( Yk ) F( t)( F( t) .

 n

2

k =1



n k=1

n

Dowód ii). Teza ii) wynika z mocnego prawa wielkich liczb.

• Mocne prawo wielkich liczb (MPWL)

Niech X ,

,...

1 X 2

będzie ciągiem zmiennych losowych o jednakowym rozkładzie prawdopodobień-

stwa z wartością oczekiwaną EX

VarX i =

i = µ < ∞ i wariancją

2

σ .

n

1

Niech S =

∑ X , n ∈ N

n

j

oznacza średnią z pierwszych n zmiennych losowych.

n j=1

Wtedy ciąg ( Sn) n N

∈ jest zbieżny do średniej µ z prawdopodobieństwem 1, co zapisujemy





Pω : lim Sn (ω ) = µ  = 1



n→∞



• MPWL Kołmogorowa

Niech X ,

,...

1 X 2

będzie ciągiem niezależnych zmiennych losowych o tym samym rozkładzie z warto-

∞ VarX

ścią oczekiwaną µ =

=

∑

n <

1

EX ì

2

VarX

σ

i

n oraz

∞ .

=

2

n 1

n

Wtedy dla ciągu zmiennych losowych X ,

,...

1 X 2

zachodzi MPWL.

3

Aby pokazać ii) tzn. zbieżność z prawdopodobieństwem 1 dystrybuanty empirycznej Fn ( t,X) do dystrybuanty teoretycznej F(t) zauważmy, że dystrybuanta empiryczna Fn ( t •

, ) dla ustalonego t ∈ R

n

1

jest zdefiniowana wzorem

Yk = 1 −∞ t, ( X k ( )⋅

n

F ( t, X) =

∑ Yk , gdzie

(

]

są zmiennymi losowymi o

n k=1

rozkładzie Bernoulliego (zero-jedynkowym) z P( Y = 1 =

= 0 = 1 −

k

) F( t) i P( Yk )

F ( t).

Zatem dla każdego n ∈ N funkcja Fn ( t •

, ) jest średnią z n pierwszych zmiennych losowych o rozkła-

1

dzie Bernoulliego (zero-jedynkowym) z Var[ F

, X ] =

1 −

n ( t

)

F ( t)(

F ( t) .

n

∞ VarF

∞

n

F ( t)(1 − F ( t)

∞ 1

Spełniony jest warunek Kołmogorowa: ∑

= ∑

= F( t)(1− F( t) ∑

< +∞ .

n=

2

n

n=

3

n

n=

3

1

1

1 n

Zatem na mocy MPWL Kołmogorowa zachodzi MPWL, czyli





Pω : lim Fn ( t, X) = F( t) = 1.



n→∞



Zmienne losowe Z =

n

(

1 −∞, t)( X n ) są również zmiennymi losowymi o rozkładzie Bernoulliego z P( Z

P Z

F t −

n = 0 = 1 − F t −

n = )

1 = F ( t −) i (

)

( ), gdzie ( ) oznacza granicę lewostronną dystrybu-

anty F w punkcie t. Zatem z MPWL Kołmogorowa zachodzi





Pω : lim Fn ( t−, X) = F ( t) = 1 dla każdej ustalonej wartości t ∈ R .



n→∞



Stąd wynika, że wartość dystrybuanty empirycznej Fn ( t, X) w ustalonym punkcie t ∈ R może służyć za oszacowanie wartości dystrybuanty teoretycznej F(t).

Dowod iii). Teza iii) jest wnioskiem z centralnego twierdzenia granicznego Lindeberga-Levy’ego.

• Centralne twierdzenie graniczne Lindeberga-Levy’ego

Niech X ,

,...

1 X 2

będzie ciągiem niezależnych zmiennych losowych o tym samym rozkładzie z warto-

ścią oczekiwaną i wariancją

a EX

2

VarX i = σ

σ >

i = µ < +∞ ,

,

0 .

n

Niech Sn = ∑ X j oznacza sumę n pierwszych zmiennych losowych, j=1

n

n

n

n

b) ES = E ∑ X = ∑ EX =

VarS = Var ∑ X = ∑ VarX =

n

j

j

σ

n

j

j

µ

n ,

2

n

j=1

j=1

j 1

=

j 1

=

Niech

n

∑ X

−

− n

S

ES

j

µ

Y

n

n

=

j 1

=

n

=

oznacza standaryzowaną zmienną losową

VarSn

2

nσ

n→∞

4

Sn − ES

1

EY

E

E S

ES

n =

n =

[ n − n]

c)

=0

VarS

VarSn

n

n→∞

Sn − ES

1

VarY

Var

Var S

ES

n =

n =

[ n − n] 1

=

VarS

VarS

n

n

n→∞

Niech F ( y) = P

≤

Y

( Y y

n

) dla y∈ Y oznacza dystrybuantę zmiennej losowej unormowanej Y .

n

n

Wtedy

lim F ( y) = Φ( y) dla każdego y ∈ Y , n

Y

n→∞

y

1

2

gdzie Φ( y) =

exp( t

∫

−

jest dystrybuantą rozkładu normalnego N (

)1

,

0

.

2 ) dt

2π −∞

Sprawdzamy założenia CTG dla ciągu zmiennych losowych ( Y

Y =

k

1 −∞ t, ( X k )

n )

.

n N

∈ , gdzie

(

]

a) EY = F

VarYk = F t (1 − F t ) >

k

( t),

( )

( ) 0.

n

b) S

=

VarS = nF t 1 −

n

( F t )

n = ∑ Yk , ES

nF

n

( t),

( )

(

k =1

n

 1



n



∑

−



S − ES

∑ Y − nF



1



, X −

n

n

k

( t) n

Y

F

k

( t)

n k

F ( t

) F( t)

c) Y

n

=

=

k =1

=

=

n

=

VarS

1 −

n

nF ( t)(1− F ( t)

nF ( t)(

F ( t)

1 F( t)(1− F( t)

n

Przy czym EYn = ,

0 VarYn = 1.

Stąd na mocy CTG lim P( Y ≤ y = Φ

( n

F t, X )

n

) ( y) i ciąg

(

jest asymptotycznie normalny

n n

∈

n



1

AN F ( t), F ( t)(1 − F( t) 



 .



n



Uwaga. Własność ii) mówi o tym, że dystrybuanta empiryczna w każdym punkcie t ∈ R z osobna dobrze szacuje wartości dystrybuanty teoretycznej. Podstawowe twierdzenie statystyki matematycznej wzmacnia tę własność i mówi o tym, że dystrybuanta empiryczna n F także globalnie dobrze szacuje

wartości dystrybuanty teoretycznej F, tzn. jest jednostajnie zbieżna względem zmiennej t do F(t).

2 – Podstawowe twierdzenie statystyki matematycznej (Gliwenki – Cantellego) Twierdzenie 3.2. Niech X ,

,...

1 X 2

będą niezależnymi zmiennymi losowymi o jednakowym rozkła-

dzie z dystrybuantą F i niech F : R × n

n

R → [

]

1

,

0

będzie dystrybuantę empiryczną z próby

X= ( X , X ,..., X

1

2

) T

n

. Wtedy





Pω : lim sup Fn ( t, X) − F ( t) = 0 = 1,



n→∞ ∈

t R



5

gdzie sup F

, X −

n ( t

) F( t) jest odległością Kołmogorowa dystrybuanty empirycznej n F od

t R

∈

p trybuanty teoretycznej F. Dowód – p. w podręcznikach Bartoszewicza (1996), Krzyśki (2005).

Uwaga. Twierdzenie to mówi, że gdy rośnie rozmiar próby X= ( X , X ,..., X

1

2

) T

n

, to dystrybuanta

empiryczna różni się od teoretycznej tylko na zbiorach o prawdopodobieństwie równym zero, czyli przy dostatecznie dużym rozmiarze próby dowolnie dobrze szacuje nieznaną dystrybuantę teoretyczną F. Ponadto dystrybuanta empiryczna jest nieparametrycznym estymatorem największej wiarogodno-

ści dystrybuanty teoretycznej F, jest również minimaksowym estymatorem dystrybuanty teoretycznej F przy odpowiedniej funkcji straty.

Przykład 3.1.

Wykonujemy 7 razy po 20 rzutów monetą i zapisujemy liczbę orłów w każdej serii rzutów.

Otrzymujemy wyniki w postaci wartości zmiennej losowej X i w każdym i-tym doświadczeniu, i = ,

1 ,

2 ... 7

, .

X ω = =

ω =

ω =

ω =

ω =

1 (

) 3 1 x , X

=

2 (

) 5 x 2, X

=

3 (

) 9 x 3 , X

=

4 (

) 2 x 4 , X

=

5 (

) 4 x 5,

X

ω = =

ω =

6 (

) 1 x 6 , X

=

7 (

) 18 x 7.

Realizacją próby X= ( X , X ,..., X

1

2

) T

n

jest wektor x= ( ,

3 ,

5 ,

9

,

2

,

4 ,

1

) T

18

.

Na podstawie danych z wektora realizacji x chcemy określić dystrybuantę wektora X= ( X , X ,..., X

F •

1

2

) T

n

za pomocą dystrybuanty empirycznej

7 ( , x) . Porządkujemy w kolejności

wzrastania wartości x , i

i

= ,1 ,

2 ... 7

, w wektorze x= ( ,

3 ,

5 ,

9

,

2

,

4 ,

1

) T

18

otrzymując próbkę uporząd-

kowaną x*= ( ,

1 ,

2 ,

3 ,

4 ,

5 ,

9

) T

18

.

Wyznaczamy dystrybuantę empiryczną ze wzoru

7

1

= ∑

7

F ( t, x *)

(

1 −∞, t]( *

xi ), gdy t ∈ R .

7 k 1

=

Dla t < 1 F t

=

*

−∞

i =

t xi

=

7 ( , x *)

0 , ponieważ (

1

, ](

) 0dla ,1 ,2...7,.

1

Dla 1 ≤ t < 2 F t

=

*

−∞

−∞

i =

t xi

=

t

=

7 ( , x *)

, ponieważ (

1

, ]( )

1

1 , a pozostałe (

1

, ](

) 0dla ,2...7,.

7

2

Dla 2 ≤ t < 3 F t

=

*

−∞

−∞

−∞ t xi =

t

=

t

=

7 ( , x *)

, ponieważ (

1

, ]( )

1

1 , (

1

, ] (2)

1 , a pozostałe (

1

, ](

) 0 dla

7

i = ,

3 ,

4 ... 7

, .

6

3

Dla 3 ≤ t < 4 F t

=

−∞

−∞

−∞ t

=

t

=

t

=

7 ( , x *)

, ponieważ (

1

, ]( )

1

1 , (

1

, ] (2)

1 , (

1

, ] ( )

3

1, a pozostałe

7

(

1 −∞

i =

t ]( *

xi =

,

) 0 dla

7

,

6

,

5

,

4

.

4

Dla 4 ≤ t < 5 F t

=

−∞

−∞

−∞

−∞ t

=

t

=

t

=

t

=

7 ( , x *)

, ponieważ (

1

, ]( )

1

1 , (

1

, ] (2)

1 , (

1

, ] ( )

3

1, (

1

, ](4)

1, a

7

pozostałe (

1 −∞

i =

t ]( *

xi =

,

) 0 dla

7

,

6

,

5

.

5

Dla 5 ≤ t < 9 F t

=

−∞

−∞

−∞

−∞ t

=

t

=

t

=

t

=

7 ( , x *)

, ponieważ (

1

, ]( )

1

1 , (

1

, ] (2)

1 , (

1

, ] ( )

3

1, (

1

, ] (4)

1,

7

(

1

*

−∞

−∞

i =

t xi

=

t

=

, ] (5)

1a pozostałe (

1

, ](

) 0 dla 7,

6

.

6

Dla 9 ≤ t < 18 F t

=

−∞

−∞

−∞

−∞ t

=

t

=

t

=

t

=

7 ( , x *)

, ponieważ (

1

, ]( )

1

1 , (

1

, ] (2)

1 , (

1

, ] ( )

3

1, (

1

, ] (4)

1,

7

(

1

*

−∞

−∞

−∞

i =

t xi

=

t

=

t

=

, ] (5)

1, (

1

, ](9)

1 i (

1

, ](

) 0 dla 7.

Dla 18 ≤ t F t

=

−∞

−∞

−∞

−∞ t

=

t

=

t

=

t

=

7 ( , x *)

1, ponieważ (

1

, ]( )

1

1 , (

1

, ] (2)

1 , (

1

, ] ( )

3

1, (

1

, ] (4)

1,

(

1 −∞

−∞

−∞ t

=

t

=

t

=

, ] (5)

1, (

1

, ](9)

1 , (

1

, ](18)

1 .

W rezultacie

 0

t < 1

1/7 1≤ t < 2

2 / 7

2 ≤ t < 3

3/7 3≤ t < 4

7

F ( t, x *) = 

4 / 7

4 ≤ t < 5

5 / 7 5 ≤ t < 9

6/7 9 ≤ t <18

 1

t ≥ 18

jest dystrybuantą schodkową o punktach skoku x = ,

1 x = ,

2 x = ,

3 x = ,

4 x = 5 x =

1

2

,

9 ,

3

4

5

6

x = 18

7

i przyrostach 1/7.

Przykład 3.2. W przykładzie 3.1. realizacja x próby X była ustalona, jako wynik doświadczenia i dystrybuanta empiryczna była rozpatrywana jako funkcja argumentu t ∈ R . Teraz ustalamy moment czasowy t ∈ R , p. t =10. Zakładamy, że powtarzamy doświadczenie n-krotnie np. 5 razy i otrzy-mujemy 5 następujących realizacji: x1 = ( ,

1 ,

2 ,

3 ,

4 ,

5 ,

9

) T

18

, x 2 = ( ,

1 ,

1 ,

3 ,

8 ,

5 1 ,

1

) T

20

,

x 3 = ( ,

1 ,

2 1 ,

2 1 ,

4 1 ,

5 ,

4

) T

2

, x 4 = ( ,

5 ,

8 1 ,

2 1 ,

6 1 ,

7 1 ,

9

) T

20

, x 5 = ( ,

2 ,

8 ,

3 ,

5 1 ,

1 1 ,

5

) T

17

.

Porządkujemy elementy w próbkach rosnąco otrzymując 5 uporządkowanych próbek: : 7

x *

1 = ( ,1 ,

2 ,

3 ,

4 ,

5 ,

9

) T

18

, x *

2

= ( ,1 ,1 ,

3 ,

5 ,

8 1 ,

1

) T

20

, x *

3 = ( ,1 ,

2

,

2

,

4 1 ,

2 1 ,

4

) T

15

,

x *

4

= ( ,

5 ,

8 1 ,

2 1 ,

6 1 ,

7 1 ,

9

) T

20

, x *

5

= ( ,

2 ,

3 ,

5 ,

8 1 ,

1 1 ,

5

) T

17

.

Dystrybuanta empiryczna jest tutaj rozpatrywana w ustalonym momencie t ∈ R jako funkcja argumentu ω ∈ Ω i liczona dla każdej realizacji osobno. Wyznaczamy wartości dystrybuanty empirycznej zliczając te wartości z próbki, które należą do przedziału (− ,

∞ t] , gdzie t=10.

Otrzymujemy:

F (

7

1 ,

0 x *

1

= ∑

*

1

−∞

x

x

i =

i

<

i

=

7

) 1

6

(

1

,

]( *

1

10

) , ponieważ 6 wartości 10,

,

3

,

2

,

1

6

,

5

,

4

.

7 i 1

=

7

F (

7

1 ,

0 x *

2

= ∑

*

1

−∞

x

x

i =

i

<

i

=

7

) 1

5

(

1

,

]( *

2

10

) , ponieważ 5 wartości 10, ,1 ,3,

2

5

,

4 .

7 i 1

=

7

F (

7

1 ,

0 x *

3

= ∑

*

1

−∞

x

x

i =

i

<

i

=

7

) 1

4

1( , ]( *

1

10

) , ponieważ 4 wartości 10,

,

3

,

2

,

1

4 .

7 i 1

=

7

F (

7

1 ,

0 x *

4

= ∑

*

1

−∞

x

x

i =

i

<

i

=

7

) 1

2

(

1

,

]( *

4

10

) , ponieważ 2 wartości 10, ,12.

7 i 1

=

7

F (

7

1 ,

0 x *

5

= ∑

*

1

−∞

x

x

i =

i

<

i

=

7

) 1

4

1( , ]( 5 *

1

10

) , ponieważ 4 wartości 10,

,

3

,

2

,

1

4 .

7 i 1

=

7

8