Metody probabilistyczne i statystyka Wykład

7

Estymacja

Dr Joanna Banaś

Zakład Matematyki Stosowanej

Katedra Metod Sztucznej Inteligencji i Matematyki Stosowanej Wydział Informatyki Zachodniopomorskiego Uniwersytetu Technologicznego w Szczecinie

Metody probabilistyczne i statystyka Wykład 7

20. Estymacja punktowa

Estymacja punktowa – metoda szacowania pewnego nieznanego parametru rozkładu zmiennej losowej X (cechy populacji), np. EX, D 2 X, na podstawie wyników próby losowej dla zmiennej X

(tj. na podstawie wartości pewnej konkretnej próbki)

Estymator parametru θ rozkładu zmiennej X to dowolna statystyka T = T ( X ,…, X ), której wartości przyjmujemy za ocenę wielkości n

n

1

n

parametru θ

(20.1) Uwagi

a)

Jeśli ( x ,…, x ) jest dowolną próbką dla cechy X i t = T ( x ,…, x ), 1

n

n

n

1

n

to θ ≈ tn

b)

Dla dowolnego parametru θ można określić wiele estymatorów (np. dla θ = EX można rozważać średnią arytmetyczną, geometryczną, harmoniczną, medianę z próbki), ale zależy nam, aby estymator spełniał

pewne własności gwarantujące jego jakość

Opracowała Joanna Banaś

Metody probabilistyczne i statystyka Wykład 6

Estymatory zgodne

Estymator T to estymator zgodny parametru θ, jeśli n

(20.2)

∀

P T − θ ≥ ε =

ε>0 lim

(| n

|

) 0

n→∞

⇔

∀

P T − θ < ε =

ε>0 lim

(| n

|

) 1

n→∞

(20.3) Uwagi

a)

Zbieżność z warunków (20.2) jest zbież noś cią według prawdopodobień stwa lub zbież noś cią stochastyczną b)

Dla estymatora zgodnego ze wzrostem liczebności próbki wzrasta dokładność oszacowania parametru θ

c)

Dla danego parametru θ można utworzyć wiele estymatorów zgodnych

Opracowała Joanna Banaś

Metody probabilistyczne i statystyka Wykład 6

Estymatory obciążone i nieobciążone

Estymator T to estymator nieobciąż ony parametru θ, jeśli n

(20.4) E( T ) = θ dla każdego n ∈ »

n

(20.5) Uwaga

Estymator nieobciążony szacuje parametr θ bez błędu systematycznego

Jeżeli E( T ) istnieje, ale E( T ) ≠ θ, n

n

to T nazywamy estymatorem obciąż onym parametru θ, n

zaś różnicę E( T ) – θ nazywamy obciąż eniem estymatora n

Estymator T to estymator asymptotycznie nieobciąż ony n

parametru θ, jeśli

(20.6)

lim E( T ) − θ =

n

0

n→∞

Opracowała Joanna Banaś

Metody probabilistyczne i statystyka Wykład 6

Estymatory efektywne

Kolejnym kryterium, umożliwiającym ocenę estymatorów jest wariancja, która powinna być jak najmniejsza

(20.7) Twierdzenie

Jeśli estymator T parametru θ jest (asymptotycznie) nieobciążony oraz n

2

lim D ( T ) =

n

0, to n

T jest estymatorem zgodnym

n→∞

T i T * – dwa estymatory nieobciążone parametru θ, mające skończone n

n

wariancje D2( T ) i D2( T * )

n

n

Estymator T jest estymatorem efektywniejszym niż estymator T * , jeśli n

n

(20.8)

2

2

*

D ( T ) <

n

D ( n

T )

Estymator najefektywniejszy ( efektywny) – estymator nieobciążony Tn danego parametru θ, który ma najmniejszą wariancję spośród wszystkich nieobciążonych estymatorów parametru θ

Opracowała Joanna Banaś

Metody probabilistyczne i statystyka Wykład 6

Nierówność Rao-Cramera

Dla prawie wszystkich rozkładów zmiennych losowych (za wyjątkiem rozkładu jednostajnego) wariancja dowolnego nieobciążonego estymatora T parametru θ spełnia tzw. nierówność Rao-Cramera: n

1

(20.9)

2

D ( n

T ) ≥

n ⋅ E [ ∂ ln f ( X , ) θ

∂θ

]2

gdzie f jest gęstością zmiennej losowej X typu ciągłego lub rozkładem prawdopodobieństwa zmiennej losowej X typu skokowego n ⋅ E [ ∂

f X θ

∂θ

]2

ln ( , ) – informacja Fishera, zawarta w próbce

(20.10) Wniosek

Jeśli dla pewnego estymatora nieobciążonego T parametru θ

n

w warunku (20.9) zachodzi równość, to estymator ten jest najefektywniejszy

Opracowała Joanna Banaś

Metody probabilistyczne i statystyka Wykład 7

21. Estymacja podstawowych parametrów

rozkładu

(21.1) Twierdzenie

Jeśli istnieje wartość oczekiwana m = EX zmiennej losowej X

(cechy w populacji), to średnia z próby

1

X = ( X + X +

+

1

2

...

X n )

n

jest zgodnym i nieobciążonym estymatorem wartości oczekiwanej m = EX

(21.2) Twierdzenie

Jeśli zmienna losowa X ma rozkład normalny N( m,σ) o znanej wartości σ, to średnia z próby

X jest najefektywniejszym estymatorem wartości oczekiwanej m = EX

(21.3) Uwaga

Jeśli chcemy oszacować wartość oczekiwaną m cechy X w pewnej populacji o nieznanym rozkładzie, to na podstawie n-elementowej próbki ( x ,…, x ) 1

n

obliczamy średnią arytmetyczną

1

x = ( x + x +

+

1

2

...

xn )

i przyjmujemy

n

m ≈ x

Opracowała Joanna Banaś

Metody probabilistyczne i statystyka Wykład 7

Estymacja wariancji

(21.4) Twierdzenie

Jeśli istnieje skończona wariancja σ2 = D2X zmiennej losowej X, to statystyka

S = ∑ n ( X − X

i

n

)2

2

1

i 1

=

gdzie

X

= 1 X

X

X

n ( +

+

+

1

2

. . . n ) , jest zgodnym

i asymptotycznie nieobciążonym estymatorem wariancji σ2

(21.5) Twierdzenie

Estymator

ˆ

S =

S =

∑ n

n

X − X

−

−

( i

n

n

)2

2

2

1

1

1

i 1

=

jest estymatorem zgodnym i nieobciążonym wariancji σ2

Opracowała Joanna Banaś

Metody probabilistyczne i statystyka Wykład 7

Estymacja wariancji

(21.6) Twierdzenie

Jeżeli wartość oczekiwana m = EX zmiennej losowej X jest znana, to statystyka

S = ∑ n ( X −

i

m

n

)2

2

1

*

i 1

=

jest estymatorem zgodnym i nieobciążonym wariancji σ2

(21.7) Twierdzenie

Jeśli zmienna losowa X ma rozkład normalny N( m,σ) i m jest znane, to

S 2* jest estymatorem

najefektywniejszym wariancji σ2

Opracowała Joanna Banaś

Metody probabilistyczne i statystyka Wykład 7

Estymacja wskaźnika struktury

X ma charakter niemierzalny – podstawowym parametrem populacji jest frakcja p elementów wyróżnionych przez tą cechę w populacji, zwana wskaź nikiem struktury badanej cechy populacji (częstość względna)

Jeśli populacja jest n-elementowa, zaś m jej elementów posiada badaną cechę, to

m

p = n

Jeśli w próbce n-elementowej z populacji, m elementów posiada badaną cechę, to

m

p ≈ n

Opracowała Joanna Banaś

Metody probabilistyczne i statystyka Wykład 7

Estymacja wskaźnika struktury

Aby utworzyć model matematyczny rozkładu cechę jakościową zamienia się na ilościową dla dowolnego elementu populacji ω:

1

gdy

ω posiada wyróżnioną cechę

X ( )

ω = 0 gdy

ω nie posiada wyróżnionej cechy

Tak zdefiniowana zmienna losowa ma rozkład 0-1 z parametrem p, tj. P ( X = 1) = p, P ( X = 0) = q = 1− p

Jeśli ( x ,…, x ) jest próbką dla zmiennej losowej X, odpowiadającą 1

n

próbce elementów (ω ,…, ω ), w której m elementów ma wyróżnioną 1

n

cechę, to w ciągu tym jest m jedynek, a zatem x +…+ x = m 1

n

W rezultacie

1

p ≈ ( x +

+

1

... xn )

n

Opracowała Joanna Banaś

Metody probabilistyczne i statystyka Wykład 7

Estymacja wskaźnika struktury

(21.8) Twierdzenie

Średnia arytmetyczna z próby

M

1

=

( X +

+

1

...

X n )

n

n

jest zgodnym, nieobciążonym i najefektywniejszym

estymatorem parametru p rozkładu 0-1 zmiennej losowej X, tj. P ( X = 1) = p, P ( X = 0) = q = 1− p Opracowała Joanna Banaś

Metody probabilistyczne i statystyka Wykład 7

Zestawienie estymatorów

Tablica 21.1. Podstawowe estymatory

Parametr

Estymator

Własności estymatora

Klasy rozkładów

dla N( m,σ) – estymator

1

X = ( X +

+

1

...

X n ) zgodny, nieobciążony

Wartość

n

najefektywniejszy

oczekiwana

zgodny, asymptotycznie

m = EX

mediana z próby

dowolny

nieobciążony

dla N( m,σ) – estymator

S = ∑ n ( X −

i

m

n

)2

2

1

*

zgodny, nieobciążony

i 1

=

najefektywniejszy

Wariancja

zgodny, asymptotycznie

S = ∑ n ( X −

i

X

n

)2

2

1

dowolny

σ2 = D2X

i 1

=

nieobciążony

2

2

ˆ

S = n S

zgodny, nieobciążony

dowolny

n 1

−

Wskaźnik

M

1

zgodny, nieobciążony

=

( X +

+

1

...

X n )

0-1

struktury p

najefektywniejszy

n

n

Współczynnik

S

V =

zgodny

dowolny

zmienności

X

Opracowała Joanna Banaś

Metody probabilistyczne i statystyka Wykład

7

Dziękuję za uwagę

Opracowała Joanna Banaś