dr Mirosława Szewczyk
1
Statystyka
Wykład 5
Elementy teorii estymacji
5.1.
Podstawowe poj
ę
cia
Proces uogólniania zaobserwowanych w próbie losowej wyników na cał
ą
zbiorowo
ść
statystyczn
ą
nazywamy wnioskowaniem statystycznym. Metody wnioskowania statystycznego obejmuj
ą
estymacj
ę
parametrów zbiorowo
ś
ci generalnej oraz weryfikacj
ę
hipotez statystycznych.
Wnioskowanie statystyczne jako oparte na cz
ęś
ciowej informacji dostarcza jedynie wniosków
wiarygodnych. Dowolne dwie n-elenentowe próby z populacji s
ą
na ogół ró
ż
ne. Wygodnie jest
zatem traktowa
ć
ci
ą
g liczbowy x
1
, x
2
, …, x
n
jako realizacj
ę
ci
ą
gu X
1
, X
2
, …, X
n
, gdzie X
i
, i=1, 2, …, n,
jest zmienn
ą
losow
ą
, której zbiorem mo
ż
liwych warto
ś
ci s
ą
warto
ś
ci i-tego spo
ś
ród n wylosowanych
elementów. Ci
ą
g zmiennych losowych X
1
, X
2
, …, X
n
nazywa si
ę
n-elementow
ą
prób
ą
losow
ą
,
natomiast je
ś
li zmienne X
1
, X
2
, …, X
n
s
ą
niezale
ż
ne i ka
ż
da z nich ma rozkład taki jak rozkład
badanej cechy populacji, to prób
ę
nazywamy prób
ą
prost
ą
.
Jednym z rodzajów wnioskowania jest estymacja. Estymacja (szacowanie, ocenianie) jest
procesem wnioskowania o numerycznych warto
ś
ciach nieznanych wielko
ś
ci charakteryzuj
ą
cych
populacj
ę
generaln
ą
na podstawie danych próbkowych.
Estymatorem parametru
Q
nazywa si
ę
statystyk
ę
(84)
słu
żą
c
ą
do oszacowania nieznanej warto
ś
ci parametru zbiorowo
ś
ci generalnej
Q
.
Wyró
ż
nia si
ę
dwa rodzaje estymacji:
estymacj
ę
punktow
ą
, czyli metod
ę
szacunku za pomoc
ą
której jako warto
ść
parametru
zbiorowo
ś
ci generalnej przyjmuje si
ę
konkretn
ą
warto
ść
estymatora wyznaczonego na podstawie n-
elementowej próby
estymacj
ę
przedziałow
ą
, za pomoc
ą
której wyznacza si
ę
przedział liczbowy, który
z ustalonym prawdopodobie
ń
stwem zawiera nieznana warto
ść
szacowanego parametru zbiorowo
ś
ci
generalnej. Prawdopodobie
ń
stwo to nosi nazw
ę
współczynnika (poziomu) ufno
ś
ci i oznaczane jest
jako 1-
α
, a znaleziony przedział nazywany jest przedziałem ufno
ś
ci.
Interpretacja poziomu ufno
ś
ci jest nast
ę
puj
ą
ca: przy wielokrotnym pobieraniu prób n-
elementowych i wyznaczaniu na ich podstawie granic przedziałów ufno
ś
ci,
ś
rednio w (1-
α
)
⋅
100%
przypadków otrzymujemy przedziały pokrywaj
ą
ce nieznan
ą
warto
ść
Q
.
5.2.
Estymacja punktowa
Warto
ść
liczbow
ą
n
qˆ
estymatora
n
Qˆ
policzon
ą
na podstawie realizacji (x
1
, x
2
, …, x
n
) próby prostej
(X
1
, X
2
, …, X
n
) nazywamy ocen
ą
parametru Q.
)
,...,
,
(
ˆ
2
1
n
n
X
X
X
f
Q
=
dr Mirosława Szewczyk
2
Statystyka
0
)
ˆ
(
lim
=
∞
→
n
n
Q
b
Wyra
ż
enie
Q
Q
n
−
ˆ
nazywa si
ę
bł
ę
dem szacunku, a jego miar
ą
jest zwykle
2
)
ˆ
(
Q
Q
E
n
−
.
Wielko
ść
bł
ę
du szacunku zale
ż
y od doboru próby i od wyboru mo
ż
liwie najlepszego estymatora.
O wykorzystaniu estymatora dla dokonania oszacowania decyduj
ą
jego własno
ś
ci, spo
ś
ród których
szczególnie po
żą
dane s
ą
:
•
nieobci
ąż
ono
ść
•
zgodno
ść
•
efektywno
ść
.
Estymatorem
zgodnym
nazywamy
estymator
stochastycznie
zbie
ż
ny
do
parametru
estymowanego, tzn. taki, który dla ka
ż
dego
ε
>0 spełnia równo
ść
:
(85)
Estymator nieobci
ąż
ony to taki estymator, którego warto
ść
oczekiwana jest równa
estymowanemu parametrowi, tzn.
Q
Q
E
n
=
)
ˆ
(
. Je
ś
li równo
ść
ta nie zachodzi, to estymator nazywa
si
ę
obci
ąż
onym. Obci
ąż
eniem estymatora nazywamy wyra
ż
enie
Q
Q
E
Q
b
n
n
−
=
)
ˆ
(
)
ˆ
(
. Estymator,
dla którego
nazywamy estymatorem asymptotycznie nieobci
ąż
onym.
Estymator
nieobci
ąż
ony
o najmniejszej
wariancji
nazywamy
estymatorem najefektywniejszym. Efektywno
ś
ci
ą
estymatora
n
Qˆ
nazywamy wyra
ż
enie
(86)
gdzie
*
n
Q
oznacza estymator najefektywniejszy.
Estymator, dla którego
1
)
ˆ
(
lim
=
∞
→
n
n
Q
e
nazywamy
estymatorem asymptotycznie najefektywniejszym.
Estymator
n
Qˆ
jest dostateczny, je
ż
eli zawiera wszystkie informacje o parametrze
Q
, które
wyst
ę
puj
ą
w próbie.
Korzystanie z estymatora posiadaj
ą
cego własno
ś
ci zgodno
ś
ci, nieobci
ąż
ono
ś
ci i b
ę
d
ą
cego
najbardziej efektywnym pozwala najlepiej oszacowa
ć
nieznany parametr
Q
, poniewa
ż
z du
ż
ym
prawdopodobie
ń
stwem mo
ż
na przyj
ąć
,
ż
e wyznaczona ocena estymatora jest bliska rzeczywistej.
Podstawowymi parametrami, które szacowane s
ą
dla populacji generalnej s
ą
: warto
ść
oczekiwana
(
ś
rednia), wariancja, odchylenie standardowe, frakcja.
Nieobci
ąż
onym, zgodnym i efektywnym estymatorem warto
ś
ci oczekiwanej (
ś
redniej) m
w populacji jest
ś
rednia w próbie
(87)
Estymatorem zgodnym, ale obci
ąż
onym wariancji
σ
2
w populacji jest wariancja w próbie
(88)
{
}
1
Q
Q
ˆ
P
lim
n
n
=
ε
<
−
∞
→
)
ˆ
(
)
(
)
ˆ
(
2
*
2
n
n
Q
D
Q
D
Q
e
n
=
∑
=
−
=
n
i
i
X
X
n
S
1
2
2
)
(
1
∑
=
=
n
i
i
x
n
X
1
1
dr Mirosława Szewczyk
3
Statystyka
Q
Nieobci
ąż
onym i zgodnym estymatorem wariancji
σ
2
w populacji jest wyra
ż
enie
(89)
W badaniach statystycznych cz
ę
sto pojawia si
ę
problem oszacowania prawdopodobie
ń
stwa
wyst
ą
pienia danego wariantu cechy (zwanego sukcesem) lub oszacowania, jaki procent zbiorowo
ś
ci
generalnej posiada wyró
ż
nion
ą
cech
ę
(ewentualnie wariant cechy). Jest to szczególnie wa
ż
ne
w przypadkach, gdy cecha opisuj
ą
ca zbiorowo
ść
jest cech
ą
niemierzaln
ą
i podstawow
ą
charakterystyk
ą
populacji jest frakcja (procent) wyró
ż
nionych elementów, zwana te
ż
wska
ź
nikiem
struktury w populacji. Zadanie sprowadza si
ę
do estymacji parametru p w rozkładzie dwumianowym
(90)
W przypadku, gdy szacujemy p na podstawie n-elementowej próby prostej, estymatorem
zgodnym, nieobci
ąż
onym i efektywnym jest cz
ę
sto
ść
wzgl
ę
dna
(91)
gdzie k – liczba elementów wyró
ż
nionych, zaobserwowanych w n-elementowej próbie.
5.3.
Estymacja przedziałowa
Przypomnijmy,
ż
e interpretacja poziomu ufno
ś
ci jest nast
ę
puj
ą
ca: przy wielokrotnym pobieraniu
prób n-elementowych i wyznaczaniu na ich podstawie granic przedziałów ufno
ś
ci, otrzymujemy
ś
rednio w (1-
α
)
⋅
100% przypadków przedziały pokrywaj
ą
ce nieznan
ą
warto
ść
Q (porównaj rysunek
.
Rys. 18. Interpretacja (1-
α
)
⋅
100% realizacji przedziałów ufno
ś
ci dla parametru
Q
.
Ź
ródło: Opracowanie własne.
Wzrostowi deklarowanego poziomu ufno
ś
ci odpowiada wzrost przedziału ufno
ś
ci, co prowadzi do
znanego paradoksu statystycznego,
ż
e im chcemy by
ć
bardziej ufni, tym jeste
ś
my mniej precyzyjni
i odwrotnie. Wzrostowi ufno
ś
ci odpowiada wzrost długo
ś
ci przedziałów, a zatem spadek precyzji
oszacowania parametru
Q
. Dlatego te
ż
nie nale
ż
y ustala
ć
przesadnie wysokich prawdopodobie
ń
stw
1-
α
, bowiem mo
ż
e odpowiada
ć
im zbyt niska precyzja oszacowa
ń
parametrów. Deklarowany poziom
ufno
ś
ci zawiera si
ę
zazwyczaj w granicach od 0,90 do 0,99.
∑
=
−
−
=
n
i
i
X
X
n
S
1
2
2
)
(
1
1
1
k
n
k
q
p
k
n
k
X
P
−
=
=
)
(
n
k
p
=
ˆ
dr Mirosława Szewczyk
4
Statystyka
1)
Przedziały ufno
ś
ci dla warto
ś
ci przeci
ę
tnej m
Ś
rednia warto
ść
badanej cechy jest najcz
ęś
ciej stosowanym parametrem populacji generalnej.
Estymatorem warto
ś
ci przeci
ę
tnej jest
ś
rednia arytmetyczna z próby. Jest ona zmienn
ą
losow
ą
, ma
swój rozkład i spełnia wszystkie własno
ś
ci dobrego estymatora. Konkretna warto
ść
liczbowa
ś
redniej
arytmetycznej jest punktow
ą
ocen
ą
warto
ś
ci oczekiwanej. Dlatego te
ż
, wykorzystuj
ą
c rozkład
ś
redniej
i deklaruj
ą
c poziom ufno
ś
ci 1-
α
, konstruujemy przedział ufno
ś
ci dla warto
ś
ci przeci
ę
tnej. W zale
ż
no
ś
ci
od przyj
ę
tych zało
ż
e
ń
, otrzymuje si
ę
konkretne przedziały ufno
ś
ci w oparciu o rozkład normalny lub
rozkład t-Studenta.
a)
Populacja generalna ma rozkład N(m,
σ
);
σ
– znane
Przedział ufno
ś
ci wyznaczamy na podstawie wzoru:
(92)
gdzie u
α
– warto
ść
odczytana z tablic dystrybuanty rozkładu normalnego standaryzowanego tak,
aby był spełniony warunek
(93)
Uwaga!
W zale
ż
no
ś
ci od typu tablic zawieraj
ą
cych dystrybuant
ę
rozkładu normalnego mo
ż
e zaj
ść
potrzeba
skorzystania z innej zale
ż
no
ś
ci. Na przykład dla tablic zamieszczonych w S. tasiewicz, Z. Rusnak,
U. Siedlecka, Statystyka. Elementy teorii i zadania, Wydawnictwo Akademii Ekonomicznej im. Oskara
Langego, Wrocław 1997, warto
ść
u
α
odczytuje si
ę
z tablic dystrybuanty rozkładu normalnego
standaryzowanego tak, aby był spełniony warunek
(94)
b)
Populacja generalna ma rozkład N(m,
σ
);
σ
– nie jest znane, próba – mała
Przedział ufno
ś
ci wyznaczamy na podstawie wzoru:
(95)
gdzie t
α
,n-1
– warto
ść
odczytana z tablic rozkładu t-Studenta dla poziomu istotno
ś
ci
α
oraz n-1 stopni
swobody, tak aby spełniony był warunek
(96)
n
u
X
m
n
u
X
σ
+
<
<
σ
−
α
α
2
1
)
u
(
α
−
=
Φ
α
1
1
1
,
1
,
−
+
<
<
−
−
−
−
n
S
t
X
m
n
S
t
X
n
n
α
α
2
1
)
(
α
α
−
=
Φ
u
α
α
=
>
−
)
|
(|
1
,n
t
t
P
dr Mirosława Szewczyk
5
Statystyka
Uwaga!
W zale
ż
no
ś
ci od typu tablic mo
ż
e zaj
ść
potrzeba skorzystania z innej zale
ż
no
ś
ci. Je
ż
eli korzystamy
z tablic zbudowanych wył
ą
cznie dla obszaru dwustronnego, chc
ą
c ustali
ć
warto
ść
krytyczn
ą
dla
obszaru jednostronnego, bierzemy podwojon
ą
warto
ść
poziomu istotno
ś
ci 2
α
.
c)
Rozkład dowolny,
σ
– nie jest znana, próba – du
ż
a
Przedział ufno
ś
ci wyznaczamy na podstawie wzoru:
(97)
gdzie u
α
– warto
ść
odczytana z tablic dystrybuanty rozkładu normalnego standaryzowanego tak, aby
był spełniony warunek
(98)
2)
Przedziały ufno
ś
ci dla wariancji i odchylenia standardowego
W badaniach statystycznych ze wzgl
ę
du na cech
ę
mierzaln
ą
do najcz
ęś
ciej szacowanych
parametrów populacji obok
ś
redniej nale
ż
y wariancja (lub odchylenie standardowe) badanej cechy.
W zale
ż
no
ś
ci od przyj
ę
tych zało
ż
e
ń
, otrzymuje si
ę
konkretne przedziały ufno
ś
ci w oparciu o rozkład
normalny lub rozkład
χ
2
.
a)
Populacja generalna ma rozkład N(m,
σ
); próba – mała
Przedział ufno
ś
ci wyznaczamy na podstawie wzoru:
(99)
(100)
gdzie:
–
warto
ś
ci odczytane z tablic rozkładu chi-kwadrat dla n-1 stopni swobody w ten
sposób, aby spełniały równo
ś
ci:
(101)
(102)
b) Populacja generalna ma rozkład N(m,
σ
); próba – du
ż
a
Przedział ufno
ś
ci wyznaczamy na podstawie wzoru:
(103)
n
S
u
X
m
n
S
u
X
α
α
+
<
<
−
S
n
S
n
2
2
2
1
χ
<
σ
<
χ
2
)
(
P
2
1
2
α
=
χ
≥
χ
2
2
2
1
,
χ
χ
2
1
)
(
P
2
2
2
α
−
=
χ
≥
χ
2
2
2
2
2
1
2
χ
σ
χ
nS
nS
<
<
2
2
2
2
2
)
2
1
(
)
2
1
(
n
u
S
n
u
S
α
α
σ
−
<
<
+
2
1
)
u
(
α
−
=
Φ
α
dr Mirosława Szewczyk
6
Statystyka
(104)
gdzie u
α
– warto
ść
odczytana z tablic dystrybuanty rozkładu normalnego standaryzowanego tak, aby
był spełniony warunek
(105)
3) Przedziały ufno
ś
ci dla wska
ź
nika struktury (prawdopodobie
ń
stwa sukcesu, procentu,
odsetka, frakcji)
Nie zawsze badanie statystyczne jest prowadzone ze wzgl
ę
du na cech
ę
mierzaln
ą
. Czasami
badana cecha ma charakter jako
ś
ciowy. Wtedy, zamiast warto
ś
ci liczbowej badanej cechy, z badania
próbnego uzyskujemy jedynie informacj
ę
o tym, czy dany element populacji generalnej ma badan
ą
,
wyró
ż
nion
ą
cech
ę
jako
ś
ciow
ą
, czy te
ż
jej nie ma. Elementy mo
ż
emy podzieli
ć
wówczas na dwie klasy:
posiadaj
ą
ce dan
ą
cech
ę
(tj. elementy wyró
ż
nione)
nie posiadaj
ą
ce danej cechy (tj. elementy niewyró
ż
nione).
Podstawowym parametrem szacowanym w przypadku bada
ń
statystycznych ze wzgl
ę
du na cech
ę
niemierzaln
ą
jest frakcja elementów wyró
ż
nionych w populacji, zwana tak
ż
e wska
ź
nikiem struktury
w populacji. Wska
ź
nik struktury (frakcj
ę
) oznacza si
ę
zwykle liter
ą
p.
Podstaw
ą
konstrukcji przedziału ufno
ś
ci dla prawdopodobie
ń
stwa sukcesu p jest cz
ę
sto
ść
wyst
ę
powania tego sukcesu, czyli k/n, gdzie k – liczba wyst
ą
pie
ń
sukcesu w n-elementowej próbie.
Przedział ufno
ś
ci wyznaczamy tylko na podstawie du
ż
ej próby (przyjmuje si
ę
nawet n
≥
100) ze
wzoru:
(106)
gdzie u
α
– warto
ść
odczytana z tablic dystrybuanty rozkładu normalnego standaryzowanego tak, aby
był spełniony warunek
(107)
4) Wyznaczanie minimalnej liczebno
ś
ci próby
Wyznaczenie niezb
ę
dnej liczebno
ś
ci próby nale
ż
y do podstawowych problemów badawczych.
Chodzi bowiem o wyznaczenie takiej liczebno
ś
ci próby, która pozwala oszacowa
ć
podstawowe
parametry populacji generalnej z zakładan
ą
dokładno
ś
ci
ą
.
Mo
ż
na wskaza
ć
nast
ę
puj
ą
ce sposoby okre
ś
lania liczebno
ś
ci próby:
badacz wybiera prób
ę
na podstawie własnych os
ą
dów
liczebno
ść
próby jest okre
ś
lona poprzez minimalne liczby potrzebnych w tablicy kontyngencji
obserwacji (porównaj testowanie hipotez nieparametrycznych – test niezale
ż
no
ś
ci
χ
2
)
liczebno
ść
próby zostaje ograniczona w zwi
ą
zku z kosztami (ograniczenia bud
ż
etowe)
n
2
u
1
S
n
2
u
1
S
α
α
−
<
σ
<
+
n
n
k
n
k
u
n
k
p
n
n
k
n
k
u
n
k
)
1
(
)
1
(
−
+
<
<
−
−
α
α
2
1
)
u
(
α
−
=
Φ
α
2
1
)
u
(
α
−
=
Φ
α
dr Mirosława Szewczyk
7
Statystyka
ustalenie liczebno
ś
ci próby na podstawie okre
ś
lonego z góry poziomu precyzji (konstruowanie
przedziałów ufno
ś
ci).
Praktyczna u
ż
yteczno
ść
wyznaczonych przedziałów ufno
ś
ci zale
ż
y od popełnianego
maksymalnego bł
ę
du szacunku. Z kolei długo
ść
przedziału zale
ż
y od współczynnika ufno
ś
ci 1-
α
oraz liczebno
ś
ci próby n. W calu zapewnienia odpowiedniej dokładno
ś
ci estymacji przy zadanym
poziomie ufno
ś
ci istnieje konieczno
ść
obliczania niezb
ę
dnej liczebno
ś
ci próby dla konstruowanych
przedziałów ufno
ś
ci.
Niech cecha X na rozkład normalny N(m,
σ
). Minimaln
ą
liczebno
ść
próby, niezb
ę
dn
ą
do oszacowania
warto
ś
ci m na poziomie ufno
ś
ci 1-
α
, z maksymalnym bł
ę
dem szacunku nie przekraczaj
ą
cym
x
d
,
przy zało
ż
eniu,
ż
e
σ
2
jest znane, obliczamy ze wzoru:
(108)
gdzie
u
α
– warto
ść
odczytana z tablic dystrybuanty rozkładu normalnego standaryzowanego tak, aby był
spełniony warunek
(109)
Je
ż
eli
σ
2
nie jest znane, to na podstawie wst
ę
pnej próby licz
ą
cej n
0
elementów, przedstawionych
w postaci szeregu szczegółowego wyznacza si
ę
:
(110)
Z tablic rozkładu t-Studenta odczytujemy t
α
,n0-1
dla n
0
-1 stopni swobody, tak aby spełniony był warunek
(111)
Wówczas:
(112)
Uwagi!
Je
ż
eli n nie jest liczb
ą
całkowit
ą
, to wynik nale
ż
y zaokr
ą
gli
ć
w gór
ę
.
Je
ż
eli obliczona liczebno
ść
próby jest ze wzgl
ę
dów praktycznych za du
ż
a, to mniejsz
ą
liczebno
ść
otrzymamy zwi
ę
kszaj
ą
c maksymalny bł
ą
d szacunku, a wi
ę
c zmniejszaj
ą
c dokładno
ść
oszacowania.
2
2
2
x
d
u
n
σ
α
⋅
=
2
1
)
u
(
α
−
=
Φ
α
∑
=
−
−
=
n
i
i
X
X
n
S
1
2
0
2
)
(
1
1
1
2
2
2
1
,
1
0
x
n
d
S
t
n
⋅
=
−
α
α
α
=
>
−
)
|
(|
1
,
n
t
t
P
dr Mirosława Szewczyk
8
Statystyka
5.4.
Zagadnienia i pytania kontrolne
Pytania kontrolne:
1. Co to jest wnioskowanie statystyczne? Jakie metody obejmuje?
2. Co oznacza poj
ę
cie „estymacja”?
3. Jakie s
ą
rodzaje estymacji?
4. Jakie własno
ś
ci estymatora uznawane s
ą
za po
żą
dane?
5. Co to jest estymator zgodny?
6. Co to jest estymator nieobci
ąż
ony?
7. Co to jest estymator efektywny?
8. Co to jest estymator dostateczny?
9. Podaj przykład estymatora zgodnego.
10. Podaj przykład estymatora efektywnego.
11. Podaj przykład estymatora nieobci
ąż
onego.
12. Podaj przykład estymatora obci
ąż
onego.
13. Uzupełnij zdanie: „Do najcz
ęś
ciej szacowanych parametrów populacji nale
żą
:…”.
Problemy do dyskusji:
1. Od czego zale
ż
y praktyczna u
ż
yteczno
ść
wyznaczonych przedziałów ufno
ś
ci?
2. Dlatego te
ż
nie nale
ż
y ustala
ć
przesadnie wysokich poziomów ufno
ś
ci 1-
α
?