4
MNW - uzupełnienie
Przykład.
Rozważmy próbkę prostą (X
1
, . . . , X
n
) z rozkładu normalnego X, N (m, σ). Wyznaczymy estymatory największej wiary-
godności dla nieznanych parametrów m, σ
2
.
f (x) =
1
√
2πσ
e
−
(x−m)2
2σ2
dla x ∈ R.
Funkcja wiarygodności:
l(m, σ
2
) = f (x
1
, m, σ
2
) · . . . · f (x
n
, m, σ
2
) =
1
√
2πσ
e
−
(x1−m)
2
2σ2
· . . . ·
1
√
2πσ
e
−
(xn−m)
2
2σ2
=
1
(2π)
n
2
σ
n
exp
−
1
2σ
2
n
X
i=1
(x
i
− m)
2
!
L(m, σ
2
) = ln l(m, σ
2
) = −
n
2
ln(2πσ
2
) −
1
2σ
2
n
X
i=1
(x
i
− m)
2
.
∂L
∂m
=
1
σ
2
n
X
i=1
(x
i
− m),
∂L
∂σ
2
=
−
n
2σ
2
+
1
2σ
4
n
X
i=1
(x
i
− m)
2
.
Układ równań wiarygodności
1
σ
2
n
X
i=1
(x
i
− m)
=
0,
−
n
2σ
2
+
1
2σ
4
n
X
i=1
(x
i
− m)
2
=
0.
Rozwiązanie – estymatory NW:
ˆ
m
=
1
n
n
X
i=1
x
i
= ¯
x,
ˆ
σ
2
=
1
n
n
X
i=1
(x
i
− ¯
x)
2
= s
2
.
Własności estymatorów NW
• Estymator największej wiarygodności jest zgodny
( ˆ
θ
P
−→ θ).
• Estymator największej wiarygodności jest asymptotycznie nieobciążony
( Eˆ
θ → θ).
• Jeżeli ˆ
θ jest estymatorem największej wiarygodności parametru θ, zaś g jest funkcją ciągłą, to g(ˆ
θ) jest estymatorem
największej wiarygodności parametru g(θ).
5
Estymacja przedziałowa
Estymacja punktowa omówiona na poprzednim wykładzie nie daje odpowiedzi na pytanie, jak pewny jest otrzymany
wynik estymacji, czyli jak dokładnie przybliża on prawdziwą wartość parametru.
P (θ = ˆ
θ) = 0
Niedogodność tę można częściowo pokonać, wyznaczając tak zwane przedziały ufności dla określonych parametrów.
Jerzy Spława-Neyman (1894-1981)
W 1863 jego rodzina została deportowanado Rosji. Studiował matematykę w Charkowie. W 1921 wrócił do Polski, gdzie prowadził badania i wykłady.
Od 1938 przebywał w USA. Został profesorem Uniwersytetu w Berkeley. Od 1966 był członkiem zagranicznym Polskiej Akademii Nauk.
W swych pracach zajmował się głównie statystyką (zwłaszcza metody weryfikowania hipotez statystycznych) oraz teorią mnogości i rachunkiem praw-
dopodobieństwa. Wprowadził pojęcie przedziału ufności.
1
Niech α ∈ (0, 1) będzie ustaloną liczbą (zwykle α jest równe 0, 01, 0, 05 lub 0, 1), (X
1
, . . . , X
n
) - n-elementową próbą
prostą.
Definicja. Przedział I = I(X
1
, . . . , X
n
) ⊂ R nazywamy przedziałem ufności parametru θ na poziomie ufności 1 − α, jeżeli
P (θ ∈ I) = 1 − α.
Schemat konstrukcji przedziału ufności dla parametru θ
• Ustalamy α ∈ (0, 1)
• Wybieramy estymator ˆ
θ parametru θ (ENW)
• Konstruujemy statystykę U
n
, będącą funkcją estymatora ˆ
θ, której rozkład dokładny lub asymptotyczny znamy, przy
czym rozkład ten nie zależy od parametru θ
• Wyznaczamy liczby a, b takie, że
P (a ≤ U
n
≤ b) = 1 − α
• Wyznaczamy funkcje f
1
, f
2
takie, że
a ≤ U
n
≤ b ⇔ f
1
(U
n
) ≤ θ ≤ f
2
(U
n
)
• θ
1
= f
1
(U
n
), θ
2
= f
2
(U
n
), I = (θ
1
, θ
2
)
Uwaga.
• Końce przedziału I: θ
1
, θ
2
nie zależą od parametru θ,
• Końce przedziału I: θ
1
, θ
2
są zmiennymi losowymi.
Wyznaczony w oparciu o konkretną realizację próby losowej X
1
, . . . , X
n
przedział o końcach f
1
(u
n
), f
2
(u
n
) jest przedzi-
ałem liczbowym. W związku z tym θ należy do (f
1
(u
n
), f
2
(u
n
)) lub nie. Natomiast
P (f
1
(U
n
) ≤ θ ≤ f
2
(U
n
)) = 1 − α.
• Im większy współczynnik ufności, tym szerszy przedział ufności.
Uwaga.
Przy ustalonym α liczby a, b można wybrać na wiele sposobów. Najczęściej:
• P (U
n
≤ a) = P (U
n
≥ b) =
1
2
α,
ale również
• P (U
n
≤ a) = 0, P (U
n
≥ b) = α,
prawostronny przedział ufności,
• P (U
n
≤ a) = α, P (U
n
≥ b) = 0,
lewostronny przedział ufności.
5.1
Przedział ufności dla EX
Model 1 Cecha X ma rozkład normalny N (m, σ), przy czym σ jest znane.
• Dysponujemy n-elementową próbą prostą X
1
, . . . , X
n
. α ∈ (0, 1).
• Statystyka ¯
X
n
=
1
n
n
X
i=1
X
i
jest estymatorem parametru m i ma rozkład N (m,
σ
√
n
).
E
¯
X
n
=
1
n
n
X
i=1
EX
i
=
1
n
n
X
i=1
m = m
D
2
¯
X
n
=
1
n
2
n
X
i=1
D
2
X
i
=
1
n
2
n
X
i=1
σ
2
=
σ
2
n
2
• Statystyka
U
n
=
¯
X − m
σ
·
√
n
ma rozkład N (0, 1).
• Z tablic odczytujemy ε
α
takie, że
P (−ε
α
≤ U
n
≤ ε
α
) = P (|U
n
| ≤ ε
α
) = 1 − α
P (|U
n
| ≤ ε
α
) = Φ(ε
α
) − Φ(−ε
α
) = 2Φ(ε
α
) − 1
2Φ(ε
α
) − 1 = 1 − α
Φ(ε
α
) = 1 −
α
2
• |U
n
| ≤ ε
α
⇔
|
¯
X − m
σ
·
√
n| ≤ ε
α
¯
X − ε
α
σ
√
n
< m < ¯
X + ε
α
σ
√
n
• Przedział ufności:
( ¯
X − ε
α
σ
√
n
, ¯
X + ε
α
σ
√
n
)
Przykład. Kontrolując pewną hurtownię zważono 10 torebek cukru, otrzymując następujące wyniki (w gramach):
1002, 1003, 997, 997, 994, 995, 998, 997, 1003, 999.
Jaka jest średnia waga torebki cukru w tej hurtowni?
Zakładamy, że waga torebki cukru ma rozkład normalny, a dokładność wagi wynosi 3 g. Poziom ufności przyjmujemy
1 − α = 0, 95 (α = 0, 05).
• ¯
X - estymator m, ¯
x
10
= 998, 5
• U
n
=
¯
X − m
σ
·
√
n
• Φ(ε
α
) = 1 −
α
2
= 0, 975
ε
α
= 1, 96
• |U
n
| ≤ ε
α
, (¯
x − ε
α
σ
√
n
, ¯
x + ε
α
σ
√
n
)
• Realizacja przedziału ufności: (996, 64; 1000, 36).
Przykład cd. Sensowne jest też pytanie o przedział lewostronny
P (U
n
≤ a) = 0, 05
• ¯
X - estymator m, ¯
x
10
= 998, 5, U
n
=
¯
X − m
σ
·
√
n
• Φ(a) = 0, 05,
Φ(−a) = 0, 95,
a = −1, 65
• P (U
n
≥ a) = 1 − α = P (
¯
X − m
σ
·
√
n ≥ a) = P (m ≤ ¯
X −
aσ
√
n
)
• Realizacja lewostronnego przedziału ufności: (−∞; 1000, 065)
Model 2. Cecha X ma rozkład normalny N (m, σ), przy czym σ jest nieznane.
• Dysponujemy n-elementową próbą prostą X
1
, . . . , X
n
. α ∈ (0, 1).
• ¯
X
n
jest estymatorem parametru m,
S
2
=
1
n
n
X
i=1
(X
i
− ¯
X)
2
jest estymatorem σ
2
(odpowiednio S
2
∗
=
n
n − 1
S
2
=
1
n − 1
n
X
i=1
(X
i
− ¯
X)
2
dla małej próby).
3
• Statystyka
t =
¯
X − m
S
·
√
n − 1 =
¯
X − m
S
∗
·
√
n
ma rozkład t Studenta o n − 1 stopniach swobody.
William Sealy Gosset (1876 – 1937)
Publikował pod pseudonimem Student (stąd nazwa wprowadzonego przez niego - w roku 1908 - rozkładu prawdopodobieństwa: rozkład Studenta).
Przez większość życia pracował w browarach Guinnessa w Dublinie i w Londynie.
Zajmował się tam m.in.
kontrolą jakości piwa i surowców do jego
produkcji, co doprowadziło go do rozważań nad statystyką i szacowaniem nieznanych parametrów. Nie miał gruntownego wykształcenia matematycznego,
posługiwał się jednak genialną intuicją.
• Z tablic odczytujemy t
α
takie, że
P (|t| ≤ t
α
) = 1 − α
⇔
P (|t| > t
α
) = α(kwantyle rozkładu Studenta)
• |t| ≤ t
α
⇔
|
¯
X − m
S
·
√
n − 1| ≤ t
α
• Przedział ufności: ¯
X − t
α
S
√
n − 1
≤ m ≤ ¯
X + t
α
S
√
n − 1
Przykład. W pewnej firmie wylosowano niezależnie próbę 25 pracowników. Staż pracy (w latach) tych pracowników
31.12.2008 roku był nastepujący:
37, 34, 0, 5, 17, 17, 0, 2, 24, 33, 4, 0, 5, 32, 3, 19, 24, 6, 8, 26, 24, 29, 9, 29, 2.
Na poziomie ufności 0, 95 oszacować oszacować przedziałowo średni czas pracy pracowników, jeśli ma on rozkład normalny.
• n = 25, α = 0, 05
• ¯
x = 15, 56, s = 12, 449
• Statystyka t =
¯
X − m
S
·
√
24 ma rozkład Studenta o n − 1 = 24 stopniach swobody.
• Z tablic kwantyli rozkładu Studenta odczytujemy t
α
takie, że P (|t| > t
α
) = α = 0, 05,
t
α
= 2, 064.
• Przedział ufności: ¯
X − t
α
S
√
n − 1
≤ m ≤ ¯
X + t
α
S
√
n − 1
.
• Realizacja: 10, 315 ≤ m ≤ 20, 805.
Model 3. Cecha X ma nieznany rozkład o parametrach m, σ, przy czym σ jest nieznane. Duża próba.
• Dysponujemy n-elementową próbą prostą X
1
, . . . , X
n
. α ∈ (0, 1).
• ¯
X
n
jest estymatorem parametru m, S
2
=
1
n
n
X
i=1
(X
i
− ¯
X)
2
jest estymatorem σ
2
.
• Zgodnie z twierdzeniem Lindeberga-Levy’ego statystyka
˜
U
n
=
¯
X − m
σ
·
√
n
ma rozkład asymptotycznie normalny N (0, 1),
tzn. P ( ˜
U
n
≤ x) = P
P
n
i−1
X
i
− nm
√
nσ
≤ x
→ Φ(x) gdy n → ∞.
S jest estymatorem zgodnym parametru σ.
• Dowodzi się, że statystyka
U
n
=
¯
X − m
S
·
√
n
ma rozkład asymptotycznie normalny N (0, 1),
4
• dalej jak w modelu 1. Przedział ufności:
( ¯
X − ε
α
S
√
n
, ¯
X + ε
α
S
√
n
).
Przykład. Pewne przedsiębiorstwo handlowe zainteresowane budową centrum handlowego chce ocenić średnią liczbę
samochodów przejeżdżających pobliską drogą w ciągu dnia. Dla losowo wybranych 100 dni otrzymano średnią równą 2150
samochodów oraz odchylenie standardowe 450. Na poziomie ufności 0, 95 określić przedział ufności dla przeciętnej liczby
samochodów.
• n = 100 duża próba, α = 0, 05
• ¯
x = 2150, s = 450
• U
n
=
¯
X − m
S
·
√
n
• Φ(ε
α
) = 1 − 0, 025 = 0, 975,
ε
α
= 1, 96
• Przedział ufności: (2150 − 1, 96 ·
450
10
, 2150 + 1, 96 ·
450
10
)
(2061, 8; 2238, 2).
5.2
Przedział ufności dla wariancji
Model 1. Cecha X ma rozkład normalny N (m, σ), zakładamy, że m jest znane.
• Dysponujemy n-elementową próbą prostą X
1
, . . . , X
n
. α ∈ (0, 1).
• Estymator wariancji: S
2
0
=
1
n
n
X
i=1
(X
i
− m)
2
.
• Statystyka
nS
2
0
σ
2
ma rozkład χ
2
o n stopniach swobody.
nS
2
0
σ
2
=
n
X
i=1
X
i
− m
σ
2
• Z tablic rozkładu χ
2
odczytujemy wartości c
1
, c
2
takie, że P (c
1
≤
nS
2
0
σ
2
≤ c
2
) = 1 − α.
P (
nS
2
0
σ
2
≤ c
1
) = P (
nS
2
0
σ
2
≥ c
2
) =
α
2
,
P (
nS
2
0
σ
2
≤ c
1
) = 1 − P (
nS
2
0
σ
2
≥ c
1
) =
α
2
⇔
P (
nS
2
0
σ
2
≥ c
1
) = 1 −
α
2
• c
1
≤
nS
2
0
σ
2
≤ c
2
⇔
c
1
≤
n
X
i=1
X
i
− m
σ
2
≤ c
2
• Przedział ufności:
nS
2
0
c
2
≤ σ
2
≤
nS
2
0
c
1
Model 2. Cecha X ma rozkład normalny N (m, σ), nie znamy m.
• Dysponujemy n-elementową próbą prostą X
1
, . . . , X
n
. α ∈ (0, 1).
• Estymator wartości oczekiwanej: ¯
X.
Estymator wariancji: S
2
=
1
n
n
X
i=1
(X
i
− ¯
X)
2
,
S
2
∗
=
n
n − 1
S
2
=
1
n − 1
n
X
i=1
(X
i
− ¯
X)
2
.
• Statystyka:
nS
2
σ
2
=
(n − 1)S
2
∗
σ
2
Twierdzenie. Statystyka:
nS
2
σ
2
=
(n − 1)S
2
∗
σ
2
ma rozkład χ
2
o n − 1 stopniach swobody.
5
• Z tablic rozkładu χ
2
odczytujemy wartości c
1
, c
2
takie, że
P (
nS
2
0
σ
2
≥ c
1
) = 1 −
α
2
, P (
nS
2
0
σ
2
≥ c
2
) =
α
2
.
• Przedział ufności:
nS
2
c
2
≤ σ
2
≤
nS
2
c
1
lub
(n − 1)S
2
∗
c
2
≤ σ
2
≤
(n − 1)S
2
∗
c
1
Przykład. W pewnej firmie wylosowano niezależnie próbę 25 pracowników. Na poziomie ufności 0, 98 oszacować osza-
cować przedziałowo odchylenie standardowe czasu pracy pracowników
• n = 25, α = 0, 02
• ¯
x = 15, 56, s = 12, 449
• Statystyka
nS
2
σ
2
ma rozkład χ
2
o n − 1 = 24 stopniach swobody.
• Z tablic kwantyli rozkładu χ
2
odczytujemy c
1
, c
2
takie, że
P (
nS
2
0
σ
2
≥ c
1
) = 1 −
α
2
= 0, 99, P (
nS
2
0
σ
2
≥ c
2
) =
α
2
= 0, 01
c
1
= 10, 856, c
2
= 42, 980
• Przedział ufności dla wariancji:
nS
2
c
2
≤ σ
2
≤
nS
2
c
1
90, 138 ≤ σ
2
≤ 356, 867
• Przedział ufności dla odchylenia standardowego:
9, 494 ≤ σ ≤ 18, 891.
5.3
Przedział ufności dla wskaźnika struktury (frakcji)
Stosunkowo często badanie statystyczne dotyczy cechy jakościowej. W wyniku badań uzyskujemy informację czy element
ma badaną cechę czy nie.
Odpowiada to sytuacji, gdy badana cecha X ma rozkład dwupunktowy P (X = 1) = p ∈ (0, 1), P (X = 0) = 1 − p.
Definicja. Wskaźnikiem struktury (frakcją) nazywamy odsetek (część) populacji wykazujący wyróżnioną cechę, p, p ·
100%.
• Dysponujemy n-elementową próbą prostą X
1
, . . . , X
n
(duże n), α ∈ (0, 1).
• Estymatorem NW parametru p jest ˆ
p =
k
n
, gdzie k oznacza liczbę “sukcesów”.
• Statystyka
˜
U
n
=
ˆ
p − p
q
p(1−p)
n
ma rozkład asymptotycznie normalny N (0, 1).
P
P
n
i=1
X
i
− np
pnp(1 − p)
≤ x
!
→ Φ(x)
∀x ∈ R, gdy n → ∞
P
n
i=1
X
i
− np
pnp(1 − p)
=
¯
X − p
q
p(1−p)
n
=
ˆ
p − p
q
p(1−p)
n
,
Statystyka
p
ˆ
p(1 − ˆ
p) jest estymatorem wariancji
p
p(1 − p) w rozkładzie dwupunktowym.
Dowodzi się, że statystyka
U
n
=
ˆ
p − p
q
ˆ
p(1− ˆ
p)
n
ma rozkład asymptotycznie normalny N (0, 1).
6
• Statystyka U
n
=
ˆ
p − p
q
ˆ
p(1− ˆ
p)
n
ma rozkład asymptotycznie normalny N (0, 1).
• Wyznaczamy ε
α
takie, że P (|U
n
| ≤ ε
α
) = 1 − α
⇔
Φ(ε
α
) = 1 −
α
2
.
• |U
n
| ≤ ε
α
⇔
ˆ
p − ε
α
r
ˆ
p(1 − ˆ
p)
n
≤ p ≤ ˆ
p + ε
α
r
ˆ
p(1 − ˆ
p)
n
.
• Przedział ufności dla wskaźnika struktury:
ˆ
p − ε
α
r
ˆ
p(1 − ˆ
p)
n
, ˆ
p + ε
α
r
ˆ
p(1 − ˆ
p)
n
!
.
Przykład. Iluelementową próbę należy wylosować niezależnie, aby przy współczynniku ufności 0, 98 otrzymać przedział
ufności nie dłuższy niż 5% dla odsetka osób, które podjęły pracę zgodną z ukończonym kierunków studiów?
Badana cecha X ma rozkład identyczny z rozkładami:
P (X
i
= 1)
=
p
jeśli i-ta osoba podjęła pracę
zgodną z ukończonym kierunków studiów
P (X
i
= 0)
=
1 − p
w przeciwnym wypadku
dla i = 1, . . . , n. Szukamy n takiego, że
P (|p − ˆ
p| ≤ 0, 05) = 0, 98
Wyznaczyliśmy, że
ˆ
p − ε
α
r
ˆ
p(1 − ˆ
p)
n
≤ p ≤ ˆ
p + ε
α
r
ˆ
p(1 − ˆ
p)
n
Stąd mamy długość przedziału ufności ε
α
r
ˆ
p(1 − ˆ
p)
n
.
Zatem szukamy n takiego, aby
ε
α
r
ˆ
p(1 − ˆ
p)
n
≤ 0, 05
n ≥
ε
2
α
0, 05
2
ˆ
p(1 − ˆ
p)
Nie znamy ˆ
p. Ale możemy oszacować ˆ
p(1 − ˆ
p) ≤
1
4
. Stąd
n ≥
ε
2
α
0, 05
2
·
1
4
n ≥
ε
2
α
0, 05
2
·
1
4
U nas α = 0, 02, ε
α
= 2, 33
n ≥ 542, 89
Wystarczy próba 543 osób.
7