background image

ESTYMACJA
I. Wstęp.

Przykład 0.

Niech zmienna losowa X oznacza wielkość eksportu danej firmy. Przypuśćmy, że 

powtarzając obserwacje otrzymano następujące realizacje zmiennej losowej X:
16,0  15,2  16,4  16,0  16,8  [mln USD]

Mając te liczby chcemy dowiedzieć się czegoś o wartości oczekiwanej (średniej) 

E(X). Oczywiście nie można odpowiedzieć z całą pewnością, ile naprawdę wynosi E(X). 
Musimy zadowolić się odpowiedziami mniej ścisłymi.

Opisane zadanie należy do zakresu tzw. estymacji (używa się też synonimów: 

oszacowanie i ocena).

W ogólniejszym sformułowaniu chodzi tu o estymację nieznanego parametru, który 

charakteryzuje rozkład pewnej zmiennej losowej.

Rozróżnia się estymację punktową i estymację za pomocą przedziału. W pierwszym 

przypadku wynikiem estymacji jest jedna liczba; w przykładzie rozpatrywanym przed chwilą 
byłaby to liczba 16,08, lub może 16,4, zależnie od przyjętego kryterium estymacji. W drugim 
przypadku wynik wyraża się w postaci przedziału; w rozpatrywanym przykładzie 
napisalibyśmy np. że 15,9 

 E(X) 

 16,3, dodając jeszcze pewien komentarz, który dotyczy 

ufności, jaką darzymy wyznaczanie końców przedziału.

II. Estymacja punktowa.

Rozpatrujemy zmienną losową X i interesujemy się parametrem Q (nieznana liczba 

stała) funkcji rozkładu. Pobiera się n – elementową próbkę i rejestruje wynik jej zbadania  x

1

x

2

, ..., x

n

. Tworzy się funkcję

u(x

1

, x

2

, ..., x

n

)

(1)

tych wartości obserwowanych i uważa, że jest ona realizacją n – wymiarowej zmiennej 
losowej
U(X

1

X

2

, ..., X

n

).

(2)

Statystyka próbki (2) nazywa się estymatorem, a wyrażenie (1) – wartością 

estymatoraEstymacją punktową parametru Q jest właśnie wyrażenie (1).

Wartość (1) zależy po pierwsze od przypadku, który dał takie a nie inne wartości x

1

x

2

, ..., x

n

, a po drugie od wybory funkcji U

NA przykład do oszacowania wartości oczekiwanej (średniej) w populacji generalnej 

można używać między innymi takich estymatorów:

(

)

,

2

1

,

1

min

max

1

n

n

n

i

X

X

U

X

n

U

+

=

=

gdzie 

max

n

X

oznacza zmienną losową, której realizacjami są największe wartości w próbce n –

elementowej; znaczenie 

min

n

X

 jest analogiczne.

O wyborze takiego lub innego estymatora decydują jego własności. Szczególnie 

ważne są dwa kryteria. Oczekiwana wartość E(U) estymatora powinna być równa Q; taki 
estymator nazywa się nieobciążonym. Wariancja D

2

(U) estymatora powinna być mała; im jest

mniejsza, tym estymator ma większą efektywność. Nie jest łatwo znaleźć funkcję, która 
spełniałaby kryterium nieobciążenia, wysokiej efektywności i ponadto prostoty.
Poszukiwanie estymatorów nieobciążonych nie jest trudne. Jako przykład zauważmy, że przy 
dowolnym rozkładzie w populacji macierzystej posiadającej wartość oczekiwaną E(X) = m 

wartość oczekiwana średniej w prostej próbce losowej 

( )

=

=

n

i

i

X

n

X

1

/

1

jest estymatorem 

nieobciążonym parametru m.

2014-04-05

36

background image

Zgodnie z założeniem zmienne losowe X

i

 mają ten sam rozkład co X. Stąd

( )

m

X

E

n

X

E

n

i

i

=

=

=

1

1

)

(

Znaczy to, że nieobciążonym estymatorem średniej w populacji jest średnia w próbce 

obserwacji. 

Nie zawsze jednak funkcja próbki obserwacji jest estymatorem nieobciążonym 

analogicznej funkcji populacji macierzystej.

Niech X będzie zmienną losową o rozkładzie dowolnym, posiadającą drugi moment. 

Oznaczmy przez 

σ

2

 wariację zdefiniowaną jako

( )

( )

[

]

2

2

2

X

E

X

E

=

σ

(3)

Za estymator parametru 

σ

2

 przyjmijmy

2

1

1

2

2

0

1

1

=

=

=

n

i

i

n

i

i

X

n

X

n

S

(4)

gdzie X

i

 są niezależnymi zmiennymi losowymi o tym samym rozkładzie co X. Tak więc 

2

0

S

jest wariancją prostej próbki losowej.

( )

( )

( )

[

]

( )

( )

[

]

{

}

2

2

2

2

2

0

1

1

1

X

E

X

E

n

n

X

E

n

n

X

E

n

n

S

E

=

=

(5)

Porównując (5) z (3) widzimy, że estymator 

2

0

S

zdefiniowany przez (4) jest obciążony

ze współczynnikiem obciążenia 

n

1

. Ponieważ 

1

1

lim

=

n

n

n

, mówimy że 

2

0

S

jest 

estymatorem asymptotycznie nieobciążonym.

Dla małych wartości n obciążenie jest poważne, można je jednak łatwo usunąć. 

Mianowicie estymator

(

)

=

=

=

=

=

=

n

i

i

n

i

i

n

i

i

X

X

n

X

n

n

X

n

S

n

n

S

1

2

2

1

1

2

2

0

2

1

1

)

1

(

1

1

1

1

(6) jest nieobciążonym 

estymatorem  wariancji, pod warunkiem tylko, że ona istnieje.

Należy wyraźnie podkreślić, że nieobciążenie estymatora jest własnością przeciętną, 

której skutek objawia się przy wielokrotnym szacowaniu, Jeśli szacuje się tylko jeden raz 
nieznaną wariancję 

σ

2

, to może zdarzyć się, że przypadkowo lepszy wynik dał wzór (4), niż 

(5).

Wracając do nieobciążonego estymatora (5) warto zwrócić uwagę, że praktycy często 

interpretują go tak: skoro S

2

 jest nieobciążonym estymatorem wariancji 

σ

2

, to S jest 

nieobciążonym estymatorem odchylenia standardowego 

σ

. Wniosek ten jest nieuzasadniony i 

zresztą błędny. Co gorsza, nie istnieje żaden estymator odchylenia standardowego, który 
byłby nieobciążony przy wszelkim rozkładzie w populacji macierzystej.

Efektywność estymatora.

Jeśli postać rozkładu zmiennej losowej X jest ustalona, a nie są znane wszystkie lub 

niektóre parametry tego rozkładu, to dla każdego parametru można wyznaczyć najmniejszą 
możliwą wariancję estymatora, nawet nie znając postaci tego estymatora dla rozkładu 
zmiennej losowej X : N(m, 

σ

).

Najmniejsza możliwa wariancja estymatora wartości oczekiwanej m wynosi 

σ

2

/n, 

gdzie n jest liczebnością próbki. Najmniejsza możliwa wariancja estymatora wariancji 

σ

2

 

wynosi 

σ

2

/2n.

2014-04-05

37

background image

Według propozycji R. A. Fishera efektywnością estymatora nazywa się iloraz e 

najmniejszej możliwej wariancji przez wariancję rozpatrywanego estymatora. Tak więc e 

 

1 ; im e jest większe, tym estymator jest efektywniejszy.

Mówimy też, że estymator jest najefektywniejszy, gdy, po pierwsze, jest nieobciążony,

a po drugie ma efektywność e = 1.

Przykład 1.
Niech X

i

 będą niezależnymi zmiennymi losowymi o dowolnych lecz jednakowych 

rozkładach ze średnią m i odchyleniem średnim 

σ

. Wiemy już, że 

( )

=

=

n

i

i

X

n

X

1

/

1

jest 

nieobciążonym estymatorem średniej m. Ponieważ 

(

)

=

=

n

i

i

n

X

X

1

/

, a zmienne losowe X

/n 

mają wariancję 

σ

2

 /n

2

, to 

( )

(

)

2

2

/

1

σ

n

X

D

=

. Tyle samo wynosi dolny kres wariancji, czyli e = 

1. Tak więc X jest najefektywniejszym estymatorem parametru m.

Wracamy teraz do estymatorów odchylenia standardowego w populacji N (m, 

σ

).

Rozpatrzmy estymator

(

)

=

Γ

 −

Γ

=

n

i

i

S

X

X

n

n

1

2

2

2

2

1

σ

(7)

Można udowodnić, że jest on nieobciążony, czyli że 

( )

σ

σ

=

S

E

Efektywność estymatora (7) rośnie powoli z liczebnością n próbki. Otrzymuje się 

następujący wynik:

n

2

3

4

5

6

8

10

15

e

(14)

0,438

0,609

0,702

0,758

0,796

0,847

0,877

0,917

1

Tak więc 

σ

*

S

 jest estymatorem asymptotycznie najefektywniejszym.

Skomplikowana postać estymatora (7) skłania od dawna do poszukiwań innych 

estymatorów odchylenia średniego w populacji N (m, 

σ

).

Bardzo prosty jest estymator oparty na rozstępie. Ma on postać

(

)

min

max

1

1

X

X

d

n

R

=

σ

(8)

Przy odpowiednich wartościach d

n

 estymator (8) jest nieobciążony. Wartości te można

odczytać w następującej tablicy, w której ponadto podano efektywność e

(15)

:

n

2

3

4

5

6

8

10

15

d

n

1,128

1,692

2,059

2,326

2,534

2,847

3,078

3,472

e

(15)

0,438

0,604

0,686

0,725

0,744

0,752

0,746

0,709

0

 

Porównując estymatory  (7) i (8) widać, że pod względem efektywności estymator (8) 

jest niewiele gorszy od (7) dla małych liczności próbek (np. n 

 6) ; do większych estymator 

(8) nie jest stosowany.

Znane są też estymatory odchylenia standardowego w populacji normalnej mające 

prostą budowę i niezłą efektywność.

2014-04-05

38

KWWSQRWDWHNSOHVW\PDFMDWHRULDLSU]\NODG\"QRWDWND