Konspekt nr 5 z laboratoriów „Statystyka i rachunek prawdopodobieństwa”
1
Estymacja parametrów
rozkładów zmiennej losowej
1. Wprowadzenie
oraz podstawowe pojęcia
W statystyce matematycznej zakłada się, że populacja generalna nie jest dostępna, a jedy-
nym empirycznym (doświadczalnym) źródłem informacji o tej populacji jest próbka losowa.
Próbkę uzyskuje się poprzez losowanie jej elementów z populacji generalnej, lub przeprowa-
dza się doświadczenia. Przeprowadzenie doświadczenia w celu uzyskania próbki losowej na-
leży rozumieć, że niekiedy zamiast losować elementy (np. jakieś wyprodukowane detale) z
populacji,
które trafiają do próbki, wykonuje się je w tych samych warunkach co pozostałe
elementy. Tak uzyskane n
elementów traktuje się jako n-elementową próbę losową.
Jeśli interesuje nas jakaś cecha X populacji generalnej, to na podstawie dostępnych wyni-
ków, uzyskanych z próbki losowej
ze względu na tą samą cechę X, będziemy starali się wy-
ciągnąć wnioski dotyczące badanej cechy w całej populacji.
Do najważniejszych form wnioskowanie statystycznego zalicza się estymację (ocenę) nie-
znanych pa
rametrów lub ich funkcji, które charakteryzują rozkład badanej cechy populacji
oraz
weryfikację (badanie prawdziwości)
Wyobraźmy sobie, że mamy populację generalną Z składającą się z N elementów. Przy-
kładowo niech N = 15 a Z = {a
1
, a
2
, ..., a
15
}. Elementy zbioru
Z są tego samego typu (np.
odlewy głowic silnikowych) i posiadają jakieś interesujące nas cechy mierzalne (masa, obję-
tość, gęstość itp.). Wybierzmy sobie jakąś cechę populacji np. masę i oznaczmy ją przez X.
Wylosujmy ze zbioru
Z dwie n-elementowe próby proste
postawionych hipotez statystycznych.
Estymację
dzieli się na punktową oraz przedziałową. Określenie „punktowa” oznacza, że efektem postę-
powania estymacyjnego jest jedna liczba, a więc jeden punkt na osi liczb rzeczywistych. W
przypadku estymacji przedziałowej produktem szacowania jest pewien przedział na osi liczb
rzeczywistych (tzw. przedział ufności), który z określonym prawdopodobieństwem pokrywa
nieznaną wartość parametru.
. Niech liczność próbki wynosi
n = 3.
Załóżmy, że wylosowaliśmy próbki zawierające następujące elementy: {a
1
, a
4
, a
15
}
oraz { a
7
, a
8
, a
13
}, a
oznaczając ich masy: {x
1
, x
4
, x
15
} oraz { x
7
, x
8
, x
13
}. W ogólnym przy-
padku obie próbki będą różnić się od siebie
Dowolną funkcję g(X
1
,..., X
n
), której dziedziną będą wartości z próby losowej, nazywać
będziemy statystyką. Nietrudno jest podać jakąś statystykę. Jest nią np. średnia arytmetyczna,
mediana, wariancja, odchylenie standardowe itp.
. Dlatego, w sposób bardziej ogólny, będziemy
traktować ciąg liczbowy x
1
,...,x
n
jako realizację ciągu X
1
,..,X
n
, gdzie X
i
, i = 1,...,n
jest zmienną
losową, której zbiorem możliwych wartości są wartości i-tego spośród n wylosowanych ele-
mentów. W naszym przypadku próbka losowa
będzie wyglądać {X
1
{x
1
albo x
7
}, X
2
{x
4
albo
x
8
}, X
3
{x
15
albo x
13
}}. Każda ze zmiennych losowych X
i
może przyjąć którąś z wartości popu-
lacji generalnej, dlatego
zapisywać będziemy to jako {X
1
,..., X
n
}.
2. Estymatory i ich podstawowe
właściwości
Oznaczmy sobie szacowany parametr symbolem Q.
Może nim być np. parametr p w roz-
kładzie dwumianowym, wartość oczekiwana (μ) albo wariancja (σ
2
) zmiennej losowej o roz-
kładzie normalnym, parametr λ w rozkładzie Poissona itd. Estymator parametru Q oznaczać
będziemy symbolem
n
Qˆ
. Tym samym symbolem będziemy również oznaczać ocenę (osza-
I
Weryfikacja hipotez statystycznych będzie tematem następnego konspektu.
II
Losowanie dokonujemy ze zwrotem, tzn. po wylosowaniu pierwszego elementu a
i
zwracamy go do zbioru Z.
III
Oczywiście może zdarzyć się, że wylosujemy dwie identyczne próbki. Jednak dla dużej zbiorowości generalnej
i małej liczności próbki losowej, szansa takiego zdarzenia jest stosunkowo mała.
Konspekt nr 5 z laboratoriów „Statystyka i rachunek prawdopodobieństwa”
2
cowanie) parametru Q. Estymatorem
n
Qˆ
może być każda charakterystyka z próby losowej,
której rozkład zależy od parametru Q. Nie wszystkie statystyki spełniające ten warunek mają
odpowiednie właściwości operacyjne. Dobry estymator powinien – przede wszystkim – speł-
niać trzy warunki: być nieobciążonym, zgodnym i efektywnym.
Mówimy, że estymator
n
Qˆ
jest
nieobciążony, jeśli jego wartość oczekiwana jest równa
szacowanemu parametrowi Q, czyli
Q
Q
E
n
=
)
ˆ
(
(1).
Estymatory, które nie mają własności (1), są estymatorami obciążonymi. Generują one ob-
ciążenie oszacowania. Wielkość tego obciążenia wynika z różnicy
Q
Q
E
n
n
−
=
δ
)
ˆ
(
(2).
Estymator może być asymptotycznie nieobciążonym jeśli wielkość obciążenia (δ
n
), przy
wzroście liczności próby, dąży do zera
0
lim
=
δ
∞
→
n
n
(3).
Zwiększając liczność (n) próby losowej można zmniejszyć błąd oszacowania (oceny) do
wartości mniejszej od dowolnie małej dodatniej liczby rzeczywistej ε, co zapisuje się w na-
stępujący sposób
(
)
1
|
ˆ
|
lim
=
ε
<
−
∞
→
Q
Q
P
n
n
(4).
Estymator posiadający własność (4) będziemy nazywać zgodnym.
Miarą efektywności estymatora jest jego wariancja
)
ˆ
(
2
n
Q
D
. Estymatorem najbardziej
efektywnym jest estymator o najmniejszej wariancji. Do oceny efektywności estymatora wy-
korzystuje się następującą charakterystykę
)
ˆ
(
)
ˆ
(
)
ˆ
(
2
*
2
n
n
n
Q
D
Q
D
Q
e
=
(5),
gdzie
n
Qˆ
jest estymatorem ocenianym, natomiast
*
ˆ
n
Q
oznacza estymator najbardziej efektyw-
ny
Estymator
.
n
Qˆ
posiadający właściwość polegającą na tym, że
1
)
ˆ
(
lim
=
∞
→
n
n
Q
e
(6)
jest estymatorem asymptotycznie najefektywniejszym.
3.
Przegląd podstawowych estymatorów punktowych
Omówienie metod wyznaczania estymatorów będzie pominięte. Należy jedynie pamiętać,
że istnieją trzy podstawowe metody: metoda momentów, metoda najmniejszych kwadratów
oraz, najczęściej stosowana, metoda największej wiarygodności.
W konspekcie nr 3 przedstawione zostały wybrane rozkłady zmiennych losowych, mia-
nowicie: r
ozkład dwumianowy, rozkład Poissona oraz rozkład normalny. W dalszej części
IV
Litera e występująca w równaniu (5) nie oznacza tam podstawy logarytmu naturalnego.
Konspekt nr 5 z laboratoriów „Statystyka i rachunek prawdopodobieństwa”
3
zostaną przedstawione estymatory służące do szacowani parametrów występujących w tych
rozkładach.
Jeśli na podstawie próbki losowej (X
1
,..., X
n
)
o liczności n chcemy oszacować parametr p
w rozkładzie dwumianowym to wykorzystuje się estymator
n
pˆ
dany równaniem
∑
=
=
n
i
i
n
X
n
p
1
1
ˆ
(7).
Dla parametru
λ
z rozkładu Poissona stosujemy estymator
n
λˆ
∑
=
=
λ
n
i
i
n
X
n
1
1
ˆ
(8).
W rozkładzie normalnym wartość oczekiwana μ szacowana jest przy pomocy następują-
cego estymatora
n
µˆ
∑
=
=
µ
n
i
i
n
X
n
1
1
ˆ
(9).
Jak nietrudno zauważyć wszystkie estymatory (7) – (9) mają charakter średniej arytme-
tycznej (dalej oznacza
ć będziemy ją przez X ) z próby losowej. Są one również zgodne, nie-
obciążone oraz najefektywniejsze. Średnia arytmetyczna z próby losowej jest podstawowym
estymatorem wartości oczekiwanej E(X), niezależnie od tego, jaki rozkład ma obserwowana
zmienna losowa X
. Można też używać innych estymatorów. Przykładowo dla szacowania
wartości oczekiwanej w rozkładzie normalnym stosuje się niekiedy medianę z próby m
e
.
Efektywność takiego estymatora, przy spełnieniu pewnych warunków przez próbkę losową,
wynosi około 64% efektywności średniej arytmetycznej (9).
Dla oszacowania wariancji D
2
(X) zmiennej losowej
dowolnego rozkładu, stosuje się trzy
podstawowe statystyki (estymatory) oznaczane symbolami
2
0
S
, S
2
, S
*2
.
Jeśli zmienne losowe X
1
, ...,X
n
są niezależne, o jednakowym rozkładzie o znanej wartości
średniej μ (wartości oczekiwanej) i nieznanej wariancji, to
(
)
∑
=
µ
−
=
n
i
i
X
n
S
1
2
2
0
1
(10)
jest zgodnym,
nieobciążonym i najefektywniejszym estymatorem wariancji D
2
(X). Zastoso-
wanie tego estymatora jest jednak ograniczone do tych –
raczej nieczęstych – przypadków,
gdy znana jest wartość średnia (oczekiwana) obserwowanej zmiennej losowej. Zastępując
wartość oczekiwaną jej oszacowaniem ( X ) uzyskujemy estymatory
(
)
∑
=
−
=
n
i
i
X
X
n
S
1
2
2
1
(11)
oraz
(
)
∑
=
−
−
=
n
i
i
X
X
n
S
1
2
2
*
1
1
(12).
V
Trzymając się ściśle oznaczeń powinniśmy estymator wariancji oznaczyć jako
( )
X
D
n
2
ˆ
. Pominiemy to i bę-
dziemy stosować oznaczenia, które najczęściej spotyka się w podręcznikach.
Konspekt nr 5 z laboratoriów „Statystyka i rachunek prawdopodobieństwa”
4
Statystyka S
2
jest zgodnym i asymptotycznie nieobciążonym estymatorem wariancji w
zbiorowości generalnej. Oznacza to, że systematyczny błąd oceny (oszacowania) parametru
maleje ze wzrostem liczno
ści (n) próbki. W przypadku małych próbek zgodnym, nieobciążo-
nym i najefektywniejszym estymatorem wariancji jest statystyka S
*2
.
Odchylenie standardowe z próby jest dodatnim pierwiastkiem kwadratowym z wariancji.
Istnieją więc trzy charakterystyki (estymatory) do szacowania odchylenia standardowego po-
pulacji na podstawie próby losowej. Cha
rakterystyki te oznaczać będziemy przez S
0
, S, S
*
.
Wartość tych charakterystyk wyznacza się biorąc dodatni pierwiastek kwadratowy z wartości
2
0
S
, S
2
, S
*2
, ob
liczonych według równań (10)–(12). Pomimo tego, że statystyki
2
0
S
i S
*2
są
nieobciążonymi estymatorami wariancji, to jednak zarówno S
0
jak i S
*
są tylko asymptotycz-
nie ni
eobciążonymi estymatorami odchylenia standardowego w populacji generalnej. W
przypadku zmiennej losowej X
, która podlega rozkładowi normalnemu, obciążenie to można
usunąć. Nieobciążonymi estymatorami odchylenia standardowego D(X) (σ) są statystyki
0
S i
*
S
dane wzorami
r
c
S
S
⋅
=
0
0
(13),
r
c
S
S
⋅
=
*
*
(14),
gdzie
2
2
1
2
+
Γ
Γ
=
r
r
r
c
r
(15).
We wzorze (13) r = n, natomiast w (14) r = n – 1.
Wartość funkcji gamma Γ wylicza się
następująco
≥
π
⋅
⋅
−
⋅
−
≥
−
=
Γ
3
,
ą
nieparzyst
liczb
ą
jest
gdy
...
2
4
2
2
2
,
parzyst
ą
liczb
ą
jest
gdy
!
1
2
2
n
r
r
r
n
r
r
r
(16),
≥
−
+
≥
π
⋅
⋅
−
⋅
−
=
+
Γ
1
,
ą
nieparzyst
liczb
ą
jest
gdy
!
1
2
1
2
,
parzyst
ą
liczb
ą
jest
gdy
...
2
3
2
1
2
1
n
r
r
n
r
r
r
r
(17).
Iloczyn
⋅
⋅
−
⋅
−
...
2
4
2
2
r
r
występujący we wzorze (16) rozpisujemy na tyle czynników
aby
odejmując od wartości r, z krokiem 2, wartość licznika osiągnęła 1. W analogiczny spo-
sób postępuje się z iloczynem
⋅
⋅
−
⋅
−
...
2
3
2
1
r
r
występującym w równaniu (17). Przykła-
Konspekt nr 5 z laboratoriów „Statystyka i rachunek prawdopodobieństwa”
5
dowo dla r = 9 wspomniany iloczyn w (16)
wygląda
−
⋅
−
⋅
−
⋅
−
2
8
9
2
6
9
2
4
9
2
2
9
, a dla
r = 8 iloczyn z (17)
ma postać
−
⋅
−
⋅⋅
−
⋅
−
2
7
8
2
5
8
2
3
8
2
1
8
.
PRZYKŁAD 1. Z populacji generalnej o liczności N = 184 pobrano losową próbę prostą o n = 5 elementów.
Próbka ta wygląda następująco {51.03; 48.68; 49.85; 48.79; 47.92}. Wiadomo, że badana cecha X w populacji
podlega rozkładowi normalnemu. Oszacować następujące parametry w populacji generalnej: wartość oczekiwa-
ną, wariancję oraz odchylenie standardowe.
Aby oszacować wartość oczekiwaną tego rozkładu, stosujemy estymator
n
µˆ
dany równaniem (9), który jest
równy średniej arytmetycznej z próby losowej. Podstawiając do równania otrzymujemy
25
.
49
5
1
ˆ
5
1
5
=
=
=
µ
∑
=
i
i
X
X
.
Ponieważ nie znamy wartości oczekiwanej μ z całej populacji oraz próbka jest mała (n = 5), to w celu wyli-
czenia przybliżonej wartości wariancji należy zastosować wzór (12). Podstawiając do niego dane mamy
(
)
46
.
1
25
.
49
1
5
1
5
1
2
2
*
=
−
−
=
∑
=
i
i
X
S
.
Ten sam wynik można uzyskać korzystając z funkcji Excela o nazwie WARIANCJA.
W celu oszacowania odchylenia standardowego
postępujemy następująco. Wyliczamy najpierw wartość S
*
jako dodatni pierwiastek kwadratowy z wariancji
21
.
1
46
.
1
2
*
*
=
=
= S
S
.
Taki sam wynik można uzyskać stosując funkcję Excela o nazwie ODCH.STANDARDOWE. Należy jednak
pamiętać, że funkcja ta zwraca wartość estymatora obciążonego, który jest też asymptotycznie nieobciążony.
Dlatego w dalszej kolejności estymator ten należy odciążyć, stosując równanie (14).
Liczymy współczynnik c
r
. W równaniu (14) r = n –
1, a więc r = 4. Podstawiając równania (16) i (17) do
(15) oraz r = 4 otrzymujemy
0638
.
1
2
2
3
4
2
1
4
4
!
1
2
4
2
2
1
4
4
2
4
4
≈
⋅
π
⋅
−
⋅
−
⋅
−
=
+
Γ
Γ
=
c
.
Ostatecznie nieobciążony estymator odchylenia standardowego w populacji wynosi
29
.
1
0638
.
1
21
.
1
*
*
≈
⋅
=
⋅
=
r
c
S
S
.
4.
Wybrane zagadnienia z estymacji przedziałowej
Stosowanie estymacji punktowej
nie daje odpowiedzi na pytanie z jaką dokładnością dany
estymator został wyznaczony. Innym sposobem estymacji, pozwalającym ocenić tą dokład-
ność, jest estymacja przedziałowa. Polega ona na podaniu tzw. przedziałów ufności dla nie-
znanych parametrów danego
rozkładu.
Konspekt nr 5 z laboratoriów „Statystyka i rachunek prawdopodobieństwa”
6
Przedziałem ufności dla parametru Q na poziome ufności 1 – α (0 < α < 1) nazywamy
przedział (Z
d
, Z
g
)spełniający następujące warunki
−
jego końce Z
d
= g
1
(X
1
,..., X
n
), Z
g
= g
2
(X
1
,..., X
n
) są funkcjami g
1
i g
2
próbki losowej i
nie zależą od szacowanego parametru Q,
−
prawdopodobieństwo pokrycia przez ten przedział nieznanego parametru Q jest równe
1 –
α, tzn.
(
)
α
−
=
<
<
1
P
g
d
Z
Q
Z
(18).
Liczbę α nazywać będziemy poziomem istotności. Wartość α zazwyczaj wybiera się w
granicach (0, 0.1].
W dalszej części konspektu zostaną podane wzory na konstrukcje przedziałów ufności dla
wartości oczekiwanej (wartości średniej μ) i wariancji zmiennej losowej o rozkładzie normal-
nym.
Jeśli nie jest znane odchylenie standardowe D(X) z populacji, to przedział ufności dla war-
tości średniej konstruuje się w oparciu o rozkład Studenta. Zmienna losowa o rozkładzie stu-
denta dane jest w postaci
n
S
X
T
*
µ
−
=
(19),
o
ν = n – 1 stopniach swobody. Granice przedziału ufności dla tego przypadku wyglądają na-
stępująco
n
S
t
X
Z
n
S
t
X
Z
g
d
*
2
,
*
2
,
oraz
α
ν
α
ν
+
=
−
=
(20),
a prawdopodobieństwo tego, że pokryje on nieznaną wartość średnią, zgodnie z (18) wynosi
α
−
=
+
<
µ
<
−
α
ν
α
ν
1
P
*
2
,
*
2
,
n
S
t
X
n
S
t
X
(21).
Zmienna t
ν,α/2
oznacza kwantyl
PRZYKŁAD 1. Dokonano n = 7 pomiarów masy (kg) pewnych jednakowych detali odlewanych i obliczono
średnią
rzędu 1 – α/2 dla rozkładu Studenta z ν = n – 1 stopniami
swobody.
Kwantyl taki można odczytać z tablic statystycznych lub obliczyć go za pomocą
funkcji Excela o nazwie
ROZKŁAD.T.ODW
o następującej składni: Prawdopodobieństwo = α
(nie trzeba dzielić α przez 2); stopnie_swobody = ν.
21
.
10
=
X
oraz
obliczono wariancję S
2*
= 0.56
. Przyjmijmy, że zaobserwowane wyniki pomiarów
możemy traktować jako próbę prostą z rozkładu normalnego o nieznanej wartości średniej oraz nieznanej wa-
riancji. Należy podać 95-procentowy przedział ufności dla wartości średniej μ.
Granice przedziału obliczamy korzystając z równania (20), pamiętając, że
2
*
*
S
S
=
. Korzystaj
ąc z funk-
cji Excela obliczmy war
tość t
ν,α/2
=
ROZKŁAD.T.ODW(
α = 0.05; ν = 6) ≈ 2.4469. Ostatecznie dostajemy granice:
Z
d
= 9.52 oraz Z
g
= 10.90.
Podobnie jak dla warto
ści średniej, możemy też skonstruować przedział ufności dla wa-
riancji (
σ
2
) rozk
ładu normalnego. Granice takiego przedziału wyglądają następująco
VI
Kwantyl danego rozkładu jest to funkcja odwrotna do dystrybuanty tego samego rozkładu.
Konspekt nr 5 z laboratoriów „Statystyka i rachunek prawdopodobieństwa”
7
2
2
,
2
*
2
2
1
,
2
*
oraz
α
ν
α
−
ν
χ
ν
=
χ
ν
=
S
Z
S
Z
g
d
(22),
gdzie
2
2
,
α
ν
χ
i
2
2
1
,
α
−
ν
χ
jest odpowiednio kwantylem dolnym i górnym rozk
ładu chi-kwadrat
o
ν = n – 1 stopniach swobody. Kwantyle te będziemy obliczać za pomocą Excela.
PRZYKŁAD 2. Za pomocą funkcji Excela wyliczyć kwantyl dolny i górny zmiennej losowej chi-kwadrat o
6 stopniach swobody i poziomie istotno
ści 0.1.
Korzystamy z funkcji o nazwie
ROZKŁAD.CHI.ODW, której sk
ładnia wygląda następująco: Prawdopodo-
bieństwo =
α albo 1 – α/2; Stopnie_swobody = ν. Dolny kwantyl = ROZKŁAD.CHI.ODW(0.1/2; 6) ≈12.5916,
górny kwantyl =
ROZKŁAD.CHI.ODW(1 – 0.1/2; 6)
≈ 1.6353.
Konspekt nr 5 z laboratoriów „Statystyka i rachunek prawdopodobieństwa”
8
LITERATURA
W. Krysicki, J. Bartos, W. Dysza, K. Królikowska, M. Wasilewska: Rachunek prawdopo-
dobieństwa i statystyka matematyczna w zadaniach. Wydawnictwo Naukowe PWN, Warsza-
wa 2005.
A. Iwasiewicz, A. Paszek: Statystyka z elementami statystycznych metod monitorowania
procesów. Wydawnictwo Akademii Ekonomicznej w Krakowie, Kraków 2004.
W. Kordecki:
Rachunek prawdopodobieństwa i statystyka matematyczny. Oficyna Wy-
dawnicza GiS, Wrocław 2003.