Karol J. Andrzejczak, MPiS30 W10: Estymacja parametrów populacji
1
MPiS30 W10: ESTYMACJA PARAMETRÓW
POPULACJI
1. Estymacja punktowa i estymator parametru
2. Własności estymatorów
Przykład 1
Przykład 2
3. Metoda momentów wyznaczania estymatorów
Przykład 3
4. Metoda największej wiarygodności
Przykład 4
5. Estymatory podstawowych charakterystyk liczbo-
wych
6. Szeregi: szczegółowy, pozycyjny i rozdzielczy
Karol J. Andrzejczak, MPiS30 W10: Estymacja parametrów populacji
2
7. Estymacja przedziałowa
8. Przykładowa konstrukcja przedziału ufności
Przykład 5
9. Minimalna liczebność próby
Przykład 6
Karol J. Andrzejczak, MPiS30 W10: Estymacja parametrów populacji
3
1. Estymacja punktowa i estymator parametru
Estymacją punktową (point estimation) nazywamy meto-
dy statystyczne, służące do punktowego oszacowania warto-
ści nieznanego parametru rozkładu cechy w populacji.
W szczególności, estymujemy wartość oczekiwaną, wa-
riancję i wskaźnik struktury populacji.
Niech θ będzie nieznanym parametrem (np. wartością
oczekiwaną, wariancją, jakąś funkcją pewnych charakterystyk
liczbowych) rozkładu cechy X w populacji generalnej. Para-
metr ten jest estymowany na podstawie prostej próby losowej
X
1
,…, X
n
pobranej z badanej populacji.
Karol J. Andrzejczak, MPiS30 W10: Estymacja parametrów populacji
4
n
nieznanego parametru
populacji gene-
ralnej nazywamy statystykę U
n
h(X
1
, X
2
,…, X
n
) służącą do
jego estymacji. Estymator U
n
parametru
oznaczamy
n
ˆ
.
Oceną parametru
nazywamy każdą realizację u
n
(war-
tość liczbową) estymatora
n
ˆ
. Ocena parametru prawie zaw-
sze różni się od rzeczywistej wartości parametru θ.
Miarą błędu estymacji jest błąd szacunku
n
d
ˆ
.
Karol J. Andrzejczak, MPiS30 W10: Estymacja parametrów populacji
5
2. Własności estymatorów
Statystyka
n
ˆ
jest dobrym estymatorem nieznanego para-
metru
, jeżeli ma odpowiednie własności. Są to:
nieobciążoność lub asymptotyczna nieobciążoność,
zgodność,
efektywność,
dostateczność.
Nieobciążoność. Estymator
n
ˆ
nazywamy
estymato-
rem nieobciążonym
parametru
, jeśli
0
)
ˆ
(
E
n
Karol J. Andrzejczak, MPiS30 W10: Estymacja parametrów populacji
6
Własność. Jeśli cecha X populacji ma wartość oczekiwaną m i
wariancję
2
, to estymatorami nieobciążonymi tych parame-
trów są średnia arytmetyczna i wariancja empiryczna z prostej
próby losowej X
1
,…, X
n
.
Jeśli
)
ˆ
(
)
ˆ
(
E
n
n
b
to estymator nazywamy
estymatorem obciążonym
.
Różnicę b(U
n
) nazywamy
obciążeniem estymatora
.
Asymptotyczna nieobciążoność
Estymator nazywamy
asymptotycznie nieobciążonym
, gdy
0
)
(
lim
n
n
U
b
.
Karol J. Andrzejczak, MPiS30 W10: Estymacja parametrów populacji
7
Zgodność. Estymator U
n
nazywamy
zgodnym
, jeśli jest
do szacowanego parametru, tj. dla
każdego
> 0
1
)
ˆ
P(
lim
n
n
Jeśli rośnie liczebność próby, to rośnie prawdop., przyjęcia
przez estymator wartości coraz bliższych szacowanemu pa-
rametrowi. Tym samym zwiększając liczebność próby,
zmniejszamy ryzyko popełnienia błędu.
Własności.
1. Z prawa wielkich liczb Czebyszewa wynika, że średnia
arytmetyczna z próby jest zgodnym estymatorem warto-
ści oczekiwanej w populacji generalnej, tzn.:
Karol J. Andrzejczak, MPiS30 W10: Estymacja parametrów populacji
8
1
)
P(
lim
m
n
n
X
.
2. Jeśli estymator U
n
parametru
jest zgodny, to jest
asymptotycznie nieobciążony. Tw. odwrotne nie jest
prawdziwe.
3. Jeśli estymator U
n
parametru
jest nieobciążony (lub
asymptotycznie nieobciążony) oraz jeśli jego wariancja
spełnia warunek
0
)
(
D
lim
2
n
n
U
,
to U
n
jest estymatorem zgodnym.
Karol J. Andrzejczak, MPiS30 W10: Estymacja parametrów populacji
9
Efektywność
Spośród wszystkich nieobciążonych estymatorów U
1,n
,
U
2,n
,…, U
r
,
n
parametru
estymatorem najefektywniejszym
nazywamy estymator o najmniejszej wariancji.
Do wyznaczenia najefektywniejszego estymatora potrzeb-
na jest znajomość wariancji wszystkich estymatorów nieob-
ciążonych danego parametru. W praktyce korzystamy z
Karol J. Andrzejczak, MPiS30 W10: Estymacja parametrów populacji
10
Przykład 1. Zbadać, który z nieobciążonych estymatorów
wartości oczekiwanej m w populacji generalnej o dowolnym
rozkładzie: średnia arytmetyczna, czy i-ta obserwacja X
i
jest
efektywniejszym estymatorem.
Rozwiązanie. Ponieważ
X
X
n
X
i
n
2
2
2
2
D
D
D
D
X
,
więc średnia arytmetyczna
n
X
jest efektywniejszym estyma-
torem wartości oczekiwanej niż i-ta zmienna X
i
z próby.
Karol J. Andrzejczak, MPiS30 W10: Estymacja parametrów populacji
11
Przykład 2. Zbadać zgodność i efektywność empirycznego
wskaźnika struktury
n
P
jako estymatora parametru p w roz-
kładzie Bernoulliego, X ~ B(p).
Rozwiązanie. Niech X
1
,…, X
n
będzie prostą próbą z populacji
X ~B(p). Ponieważ
n
i
i
n
p
X
n
P
1
)
(
E
1
)
(
E
oraz
n
i
i
n
n
p
p
X
n
P
1
2
2
2
)
1
(
)
(
D
1
)
(
D
i
n
P
jest estymatorem o minimalnej wariancji, więc jest zgod-
ny i najefektywniejszy dla parametru p.
Karol J. Andrzejczak, MPiS30 W10: Estymacja parametrów populacji
12
Dostateczność
Pojęcie dostateczności (wystarczalności) estymatora wpro-
wadził Fisher
1
. Estymator dostateczny parametru
to taki es-
tymator, który skupia w sobie wszystkie informacje o tym pa-
rametrze, tzn. żaden inny estymator nie zawiera w sobie wię-
cej informacji o parametrze
wyciągniętej z próby losowej.
Ronald Aylmer Fisher (1890-1962)
genetyk i statystyk brytyjski. Twórca podstaw
współczesnej statystyki. Stworzył m.in. statystyczną
metodę największej wiarygodności
. maximum like-
lihood),
(ANOVA) oraz
liniową analizę dyskryminacyjną
Karol J. Andrzejczak, MPiS30 W10: Estymacja parametrów populacji
13
3. Metoda momentów wyznaczania estymatorów
Wprowadzona około roku 1900 przez K. Pearsona. Polega na
przyjmowaniu momentów empirycznych M
i
jako estymato-
rów odpowiednich momentów rozkładu cechy w populacji
ogólnej. Momenty są zazwyczaj funkcjami parametrów θ
i
rozkładu. Z otrzymanego układu równań wyznacza się esty-
matory parametrów.
Przykład 3. Różnica wskazań dowolnych dwóch przyrządów
pomiarowych jest zmienną losowa o rozkładzie jednostajnym
w przedziale (a, b). Oszacować metodą momentów końce
przedziału.
Karol J. Andrzejczak, MPiS30 W10: Estymacja parametrów populacji
14
Rozwiązanie. Ponieważ X~u(a, b), więc
,
2
1
E
b
a
X
,
3
2
1
D
a
b
X
Zastępując zgodnie z metodą momentów EX przez
n
X
i DX
przez S otrzymujemy estymatory
3
S
a
n
X
oraz
3
S
b
n
X
.
Karol J. Andrzejczak, MPiS30 W10: Estymacja parametrów populacji
15
4. Metoda największej wiarygodności
Opracowana przez R. A. Fishera. Jest efektywniejsza od in-
nych metod. Niech rozkład badanej cechy X zależy od k nie-
znanych parametrów
1
,…,
k
, które chcemy oszacować.
Krok 1.
Wyznaczamy funkcję wiarygodności próby:
n
i
k
i
k
n
x
f
x
x
L
1
1
1
1
)
,...,
;
(
)
,...,
;
,...,
(
,
gdzie f oznacza PDF dla rozkładu typu ciągłego lub PMF dla
rozkładu typu dyskretnego.
Krok 2.
Za estymatory parametrów przyjmujemy
k
ˆ
,...,
ˆ
1
,
dla których L (lub ln L) przyjmuje wartość największą
Karol J. Andrzejczak, MPiS30 W10: Estymacja parametrów populacji
16
Wartości maksymalizujące muszą spełniać układ równań
.
1,...,
dla
0
ln
k
i
L
i
Krok 3.
Sprawdzamy warunek konieczny i wystarczający dla
maksimum funkcji. W szczególności dla k
1 oznacza to, że
druga pochodna w punkcie
ˆ
jest ujemna.
Przykład 4. Cecha X pewnej populacji ma rozkład trzypunk-
towy z nieznanym parametrem p
p
p
f
1
5
,
0
0
5
,
0
1
Karol J. Andrzejczak, MPiS30 W10: Estymacja parametrów populacji
17
Wyznaczyć estymator parametru p
a) metodą momentów,
b) metodą największej wiarygodności.
Rozwiązanie. Niech x
1
, x
2
,…, x
n
będzie realizacją próby pro-
stej.
a) W metodzie momentów wyznaczamy wartość oczekiwaną
m
EX
2p − ½,
czyli p
(m
½ )/2. Wstawiając moment empiryczny otrzy-
mujemy estymator parametru p
.
2
2
1
ˆ
n
n
p
X
Karol J. Andrzejczak, MPiS30 W10: Estymacja parametrów populacji
18
b) Dla uproszczenia zapisu niech k oznacza liczbę obserwacji
przyjmujących wartość –1, a l – liczbę obserwacji przyjmują-
cych wartość 0.
Funkcja wiarygodności ma postać:
)
(
P
...
)
(
P
)
;
,
,
(
)
;
,...,
,
(
1
1
2
1
n
n
n
x
X
x
X
p
n
l
k
L
p
x
x
x
L
l
k
n
l
k
p
p
)
5
,
0
(
)
5
,
0
(
L osiąga maksimum w tym samym punkcie co funkcja ln L.
p
l
k
n
l
p
k
p
n
l
k
L
ln
)
(
5
,
0
ln
)
5
,
0
ln(
)
;
,
,
(
ln
Funkcja ln L jest różniczkowalna względem p
0
)
;
,
,
(
ln
dp
p
n
l
k
L
d
Karol J. Andrzejczak, MPiS30 W10: Estymacja parametrów populacji
19
0
5
,
0
p
l
k
n
p
k
Stąd
.
)
(
2
l
n
l
k
n
p
Ostatecznie estymator wyraża się wzorem
,
)
(
2
ˆ
0
0
1
U
n
U
U
n
p
gdzie U
1
i U
0
są statystykami liczącymi wystąpienia odpo-
wiednio wartości −1 i 0 (k i l są realizacjami tych statystyk).
Zadanie. Wyznaczyć estymator parametru p w rozkładzie
Bernoulliego.
Karol J. Andrzejczak, MPiS30 W10: Estymacja parametrów populacji
20
5. Estymatory podstawowych charakterystyk licz-
bowych
A. Estymator wartości oczekiwanej. Średnia arytmetyczna
jest estymatorem nieobciążonym i jednocześnie estymatorem
największej wiarygodności wartości oczekiwanej zm. l. X
przy spełnieniu przynajmniej jednego z poniższych założeń:
liczba obserwacji n jest dostatecznie duża (zob. CTG),
rozkład zmiennej X jest normalny.
B. Estymator wariancji. Jeżeli wartość oczekiwana m
X
po-
pulacji X jest nieznana, to estymatorem nieobciążonym nie-
znanej wariancji w populacji X jest wariancja z próby, tj.
2
2
ˆ
n
X
S
.
Karol J. Andrzejczak, MPiS30 W10: Estymacja parametrów populacji
21
Jeżeli wartość oczekiwana m
X
populacji X jest znana, to es-
tymatorem nieobciążonym nieznanej wariancji dla danych
szczegółowych jest statystyka S
n
2
określoną wzorem:
n
i
i
n
m
X
n
m
S
1
2
2
1
)
,
(X
.
C. Estymator wskaźnika struktury. Wskaźnikiem struktury
w populacji X~B(p) nazywamy prawdop. p zaobserwowania
wyróżnionej cechy w populacji. Estymatorem wskaźnika p
jest częstość w próbie X
n
, tj.
n
P
p
ˆ
, gdzie
n
X
P
i
n
,
X
i
~B(p), n jest licznością próby.
Karol J. Andrzejczak, MPiS30 W10: Estymacja parametrów populacji
22
6. Szeregi: szczegółowy, pozycyjny i rozdzielczy
Dane statystyczne najczęściej zestawiane są w postaci ta-
bel. Jeżeli danych dotyczących jednej cechy jest mało, to
zwykle są zestawiane wszystkie x
1
, x
2
,…, x
n
. Mówimy wtedy
o
szeregu szczegółowym
. Uporządkowany zestaw danych
x
(1)
x
(2)
…
x
(n)
nazywamy
szeregiem pozycyjnym
. Duże ilości danych (n
30)
najczęściej są zestawiane w postaci
Szereg rozdzielczy
jest syntetycznym sposobem prezenta-
cji danych. Uzyskuje się go poprzez podział danych szczegó-
łowych x
1
, x
2
,…, x
n
na klasy reprezentowane przez pewne
liczby k
1
, k
2
,…, k
r
i ustalenie liczebności n
i
i/lub
i
Karol J. Andrzejczak, MPiS30 W10: Estymacja parametrów populacji
23
n
i
/n (dla i
1, 2,…, r) zbiorów danych przypadających na
każdą z tych klas. Zwykle szereg rozdzielczy jest podawany
w postaci ciągu par (k
i
, n
i
), i
1, 2,…, r.
Jeśli cecha ma charakter
, wtedy dzielimy przedział
wartości cechy na
przedziały klasowe
. Liczba i rozpiętości
przedziałów powinny być tak dobrane, aby dawały przejrzy-
sty obraz rozkładu.
Na ogół przyjmuje się, że liczba przedziałów powinna być
większa od 5 i mniejsza od 20. Zwykle klasy są reprezento-
wane przez środki przedziałów klasowych.
Karol J. Andrzejczak, MPiS30 W10: Estymacja parametrów populacji
24
Jeśli cecha jest typu dyskretnego, a liczba możliwych war-
tości jest bardzo duża, wtedy możemy postąpić podobnie jak
w przypadku cechy typu ciągłego.
Średnia ważona dla danych w postaci
i
r
i
i
n
n
k
n
1
1
x
,
gdzie k
i
to liczba reprezentująca i-tą klasę, zaś n
i
to liczebność
i-tej klasy (i
1, 2,…, r).
Wariancja ważona dla danych w postaci szeregu:
r
i
n
i
i
n
k
n
n
s
1
2
2
1
1
x
.
Karol J. Andrzejczak, MPiS30 W10: Estymacja parametrów populacji
25
7. Estymacja przedziałowa
) to grupa metod
statystycznych służących do oszacowania parametrów rozkła-
du cechy w
. Oceną nieznanego parame-
tru
nie jest konkretna wartość, ale pewien przedział, który z
określonym prawdop. pokrywa wartość tego parametru. Poję-
cie przedziału ufności wprowadził polski matematyk
.
2
Jerzy Spława-Neyman (ur.
). W
jego rodzina została deportowana do
. W
przebywał w
, gdzie został profesorem Uniwersytetu w
Karol J. Andrzejczak, MPiS30 W10: Estymacja parametrów populacji
26
Przedziałem ufności
) parametru
nazywamy przedział (θ
1
, θ
2
), którego końce są statystykami
wyznaczonymi na podstawie próby losowej, tj.
i
i
(X
n
), i
1, 2 oraz
P(θ
1
< θ < θ
2
)
1 − α
Wielkość 1
nazywamy
poziomem ufności
. Różnica l
n
2
1
jest losową długością przedziału ufności. Im bliższy 1
poziom ufności, tym dłuższy jest przedział ufności, a tym sa-
mym mniejsza dokładność estymacji parametru. Wybór po-
ziomu 1
jest kompromisem pomiędzy dokładnością esty-
macji a ryzykiem błędu. W praktyce zwykle przyjmujemy
1
0,99; 0,95 lub 0,90. Wybór najlepszych statystyk
sprowadza się do poszukiwania przedziałów najkrótszych.
Karol J. Andrzejczak, MPiS30 W10: Estymacja parametrów populacji
27
8. Przykładowa konstrukcja przedziału ufności
Skonstruować 100(1−
)% CI (przedział ufności) dla war-
tości oczekiwanej m populacji o rozkładzie N(m,
) z niezna-
nymi parametrami.
Konstrukcja. Niech X
1
,…, X
n
będzie SRS (prostą próbą
losową). Z CTG wiemy, że
)
1
(
~
n
t
n
S
m
t
n
n
X
.
Niech t
, n
1
oznacza kwantyl rzędu
tego rozkładu, wówczas
1
P
1
,
2
/
1
1
,
2
/
n
n
n
n
t
n
S
m
t
X
.
Karol J. Andrzejczak, MPiS30 W10: Estymacja parametrów populacji
28
Przekształcając nierówności i przyjmując t
/2, n
1
t
1
/2, n
1
,
otrzymujemy 100(1
)% końce przedziału ufności dla m
n
S
t
n
n
n
1
,
2
/
1
1
X
n
S
t
n
n
n
1
,
2
/
1
2
X
.
Przykład 5. W wielkoseryjnej produkcji pewnych urządzeń
poddano szczegółowej kontroli 500 z nich. Otrzymano nastę-
pujący rozkład liczby usterek:
Liczba usterek
0
1
2 3 4 5 6
Liczba urządzeń 112 168 119 63 28 9
1
Karol J. Andrzejczak, MPiS30 W10: Estymacja parametrów populacji
29
a) Ocenić wartość oczekiwaną i odchylenie standardowe
liczby usterek w każdym z produkowanych urządzeń.
Ocenić wskaźnik struktury urządzeń bez usterek.
b) Wyznaczyć na poziomie ufności 0,95 przedział ufności
dla przeciętnej liczby usterek produkowanych urządzeń.
c) Na poziomie ufności 0,99 wyznaczyć przedział ufności
dla odchylenia standardowego liczby usterek.
d) Na poziomie ufności 0,90 wyznaczyć przedział ufności
dla wskaźnika produkowanych urządzeń bez usterek.
Rozwiązanie.
Niech X oznacza liczbę usterek urządzeń w ba-
danej ich populacji. Zm. l. X ma nieznany rozkład. Zakłada-
my, że ma skończoną wariancję. Próba jest bardzo duża, n
500, więc możemy skorzystać z CTG.
Karol J. Andrzejczak, MPiS30 W10: Estymacja parametrów populacji
30
a) Obliczone z próby wartości statystyk wynoszą:
52
,
1
n
x
,
24
,
1
n
s
.
Stąd oceny nieznanych parametrów:
52
,
1
ˆ
X
m
,
24
,
1
ˆ
X
,
224
,
0
500
112
ˆ
n
x
p
i
.
b) Ocenę końców przedziału wyznaczamy z modelu:
n
s
z
2
/
1
x
.
Karol J. Andrzejczak, MPiS30 W10: Estymacja parametrów populacji
31
Kwantyl z
0,975
stand. rozkładu normalnego odczytany z tablic
wynosi z
0,975
1,96. Wstawiając dane otrzymujemy
500
24
,
1
96
,
1
52
,
1
.
Wniosek:
95
procentową realizacją przedziału ufności dla
nieznanej przeciętnej liczby usterek produkowanych urządzeń
jest 1,46 < m < 1,63, a maksymalny błąd oszacowania prze-
ciętnej m wynosi (1,63
1,41)/2
0,22.
c) Próba jest bardzo duża, więc korzystamy z granicznego
rozkładu statystyki S, tj. z rozkładu normalnego. Przedział uf-
ności dla odchylenia standardowego
jest postaci
Karol J. Andrzejczak, MPiS30 W10: Estymacja parametrów populacji
32
n
z
s
n
z
s
2
1
1
2
1
1
2
/
1
2
/
1
.
Wstawiając dane n
500, s
1,24, 1
0,99 oraz kwantyl
z
0,995
2,5758, otrzymujemy
1000
576
,
2
1
24
,
1
1000
576
,
2
1
24
,
1
Wniosek:
99 procentową realizacją przedziału ufności dla
nieznanego odchylenia standardowego liczby usterek produ-
kowanych urządzeń jest przedział (1,15; 1,35).
Karol J. Andrzejczak, MPiS30 W10: Estymacja parametrów populacji
33
d) Badana cecha ma rozkład B(p), gdzie p jest nieznanym
wskaźnikiem urządzeń bez usterek. Próba jest tak duża, że do
wyznaczenia realizacji końców przedziału ufności dla p ko-
rzystamy z modelu:
n
p
p
z
p
n
n
n
)
1
(
2
/
1
.
Dla danych: n
500,
224
,
0
n
p
, 1
0,90, z
0,95
1,645
otrzymujemy
03067
,
0
22400
,
0
500
776
,
0
224
,
0
645
,
1
224
,
0
.
Wniosek:
90 procentową realizacją przedziału ufności dla
wskaźnika p jest przedział (0,19333; 0,25467).
Karol J. Andrzejczak, MPiS30 W10: Estymacja parametrów populacji
34
9. Minimalna liczebność próby
Maksymalny błąd estymacji to połowa przedziału ufności
2
1
2
Ustalamy minimalną liczebność próby zapewniająca, przy
danym poziomie ufności 1
, nie przekroczenie przez mak-
symalny błąd szacunku z góry założonej wielkości d:
przy estymacji m w populacji normalnej ze znaną oraz nie-
znaną wariancją
2
2
2
2
/
1
d
z
n
,
2
2
2
1
;
2
/
1
0
d
s
t
n
n
Karol J. Andrzejczak, MPiS30 W10: Estymacja parametrów populacji
35
przy estymacji wskaźnika p w rozkładzie Bernoulliego:
a) jeśli znamy p
0
, tj. spodziewany rząd wielkości p
2
0
0
2
2
/
1
)
1
(
d
p
p
z
n
b) jeśli nie znamy rzędu wielkości p
2
2
2
/
1
4d
z
n
,
gdzie
x
oznacza funkcję sufit.
Karol J. Andrzejczak, MPiS30 W10: Estymacja parametrów populacji
36
Przykład 6. Ustalić tak liczebność próby, aby na poziomie
ufności 0,99 można było oszacować oczekiwany czas zdatno-
ści akumulatorów z dokładnością do i) 20h; ii) 10h, jeśli od-
chylenie standardowe w populacji jest
a) znane i wynosi
40h;
b) nieznane i wyznaczone z n
0
-elementowej próby wstęp-
nej wynosi s
40h.