Metody probabilistyczne i statystyka Wykład
7
Estymacja
Dr Joanna Banaś
Zakład Matematyki Stosowanej
Katedra Metod Sztucznej Inteligencji i Matematyki Stosowanej Wydział Informatyki Zachodniopomorskiego Uniwersytetu Technologicznego w Szczecinie
Metody probabilistyczne i statystyka Wykład 7
20. Estymacja punktowa
Estymacja punktowa – metoda szacowania pewnego nieznanego parametru rozkładu zmiennej losowej X (cechy populacji), np. EX, D 2 X, na podstawie wyników próby losowej dla zmiennej X
(tj. na podstawie wartości pewnej konkretnej próbki)
Estymator parametru θ rozkładu zmiennej X to dowolna statystyka T = T ( X ,…, X ), której wartości przyjmujemy za ocenę wielkości n
n
1
n
parametru θ
(20.1) Uwagi
a)
Jeśli ( x ,…, x ) jest dowolną próbką dla cechy X i t = T ( x ,…, x ), 1
n
n
n
1
n
to θ ≈ tn
b)
Dla dowolnego parametru θ można określić wiele estymatorów (np. dla θ = EX można rozważać średnią arytmetyczną, geometryczną, harmoniczną, medianę z próbki), ale zależy nam, aby estymator spełniał
pewne własności gwarantujące jego jakość
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka Wykład 6
Estymatory zgodne
Estymator T to estymator zgodny parametru θ, jeśli n
(20.2)
∀
P T − θ ≥ ε =
ε>0 lim
(| n
|
) 0
n→∞
⇔
∀
P T − θ < ε =
ε>0 lim
(| n
|
) 1
n→∞
(20.3) Uwagi
a)
Zbieżność z warunków (20.2) jest zbież noś cią według prawdopodobień stwa lub zbież noś cią stochastyczną b)
Dla estymatora zgodnego ze wzrostem liczebności próbki wzrasta dokładność oszacowania parametru θ
c)
Dla danego parametru θ można utworzyć wiele estymatorów zgodnych
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka Wykład 6
Estymatory obciążone i nieobciążone
Estymator T to estymator nieobciąż ony parametru θ, jeśli n
(20.4) E( T ) = θ dla każdego n ∈ »
n
(20.5) Uwaga
Estymator nieobciążony szacuje parametr θ bez błędu systematycznego
Jeżeli E( T ) istnieje, ale E( T ) ≠ θ, n
n
to T nazywamy estymatorem obciąż onym parametru θ, n
zaś różnicę E( T ) – θ nazywamy obciąż eniem estymatora n
Estymator T to estymator asymptotycznie nieobciąż ony n
parametru θ, jeśli
(20.6)
lim E( T ) − θ =
n
0
n→∞
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka Wykład 6
Estymatory efektywne
Kolejnym kryterium, umożliwiającym ocenę estymatorów jest wariancja, która powinna być jak najmniejsza
(20.7) Twierdzenie
Jeśli estymator T parametru θ jest (asymptotycznie) nieobciążony oraz n
2
lim D ( T ) =
n
0, to n
T jest estymatorem zgodnym
n→∞
T i T * – dwa estymatory nieobciążone parametru θ, mające skończone n
n
wariancje D2( T ) i D2( T * )
n
n
Estymator T jest estymatorem efektywniejszym niż estymator T * , jeśli n
n
(20.8)
2
2
*
D ( T ) <
n
D ( n
T )
Estymator najefektywniejszy ( efektywny) – estymator nieobciążony Tn danego parametru θ, który ma najmniejszą wariancję spośród wszystkich nieobciążonych estymatorów parametru θ
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka Wykład 6
Nierówność Rao-Cramera
Dla prawie wszystkich rozkładów zmiennych losowych (za wyjątkiem rozkładu jednostajnego) wariancja dowolnego nieobciążonego estymatora T parametru θ spełnia tzw. nierówność Rao-Cramera: n
1
(20.9)
2
D ( n
T ) ≥
n ⋅ E [ ∂ ln f ( X , ) θ
∂θ
]2
gdzie f jest gęstością zmiennej losowej X typu ciągłego lub rozkładem prawdopodobieństwa zmiennej losowej X typu skokowego n ⋅ E [ ∂
f X θ
∂θ
]2
ln ( , ) – informacja Fishera, zawarta w próbce
(20.10) Wniosek
Jeśli dla pewnego estymatora nieobciążonego T parametru θ
n
w warunku (20.9) zachodzi równość, to estymator ten jest najefektywniejszy
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka Wykład 7
21. Estymacja podstawowych parametrów
rozkładu
(21.1) Twierdzenie
Jeśli istnieje wartość oczekiwana m = EX zmiennej losowej X
(cechy w populacji), to średnia z próby
1
X = ( X + X +
+
1
2
...
X n )
n
jest zgodnym i nieobciążonym estymatorem wartości oczekiwanej m = EX
(21.2) Twierdzenie
Jeśli zmienna losowa X ma rozkład normalny N( m,σ) o znanej wartości σ, to średnia z próby
X jest najefektywniejszym estymatorem wartości oczekiwanej m = EX
(21.3) Uwaga
Jeśli chcemy oszacować wartość oczekiwaną m cechy X w pewnej populacji o nieznanym rozkładzie, to na podstawie n-elementowej próbki ( x ,…, x ) 1
n
obliczamy średnią arytmetyczną
1
x = ( x + x +
+
1
2
...
xn )
i przyjmujemy
n
m ≈ x
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka Wykład 7
Estymacja wariancji
(21.4) Twierdzenie
Jeśli istnieje skończona wariancja σ2 = D2X zmiennej losowej X, to statystyka
S = ∑ n ( X − X
i
n
)2
2
1
i 1
=
gdzie
X
= 1 X
X
X
n ( +
+
+
1
2
. . . n ) , jest zgodnym
i asymptotycznie nieobciążonym estymatorem wariancji σ2
(21.5) Twierdzenie
Estymator
ˆ
S =
S =
∑ n
n
X − X
−
−
( i
n
n
)2
2
2
1
1
1
i 1
=
jest estymatorem zgodnym i nieobciążonym wariancji σ2
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka Wykład 7
Estymacja wariancji
(21.6) Twierdzenie
Jeżeli wartość oczekiwana m = EX zmiennej losowej X jest znana, to statystyka
S = ∑ n ( X −
i
m
n
)2
2
1
*
i 1
=
jest estymatorem zgodnym i nieobciążonym wariancji σ2
(21.7) Twierdzenie
Jeśli zmienna losowa X ma rozkład normalny N( m,σ) i m jest znane, to
S 2* jest estymatorem
najefektywniejszym wariancji σ2
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka Wykład 7
Estymacja wskaźnika struktury
X ma charakter niemierzalny – podstawowym parametrem populacji jest frakcja p elementów wyróżnionych przez tą cechę w populacji, zwana wskaź nikiem struktury badanej cechy populacji (częstość względna)
Jeśli populacja jest n-elementowa, zaś m jej elementów posiada badaną cechę, to
m
p = n
Jeśli w próbce n-elementowej z populacji, m elementów posiada badaną cechę, to
m
p ≈ n
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka Wykład 7
Estymacja wskaźnika struktury
Aby utworzyć model matematyczny rozkładu cechę jakościową zamienia się na ilościową dla dowolnego elementu populacji ω:
1
gdy
ω posiada wyróżnioną cechę
X ( )
ω = 0 gdy
ω nie posiada wyróżnionej cechy
Tak zdefiniowana zmienna losowa ma rozkład 0-1 z parametrem p, tj. P ( X = 1) = p, P ( X = 0) = q = 1− p
Jeśli ( x ,…, x ) jest próbką dla zmiennej losowej X, odpowiadającą 1
n
próbce elementów (ω ,…, ω ), w której m elementów ma wyróżnioną 1
n
cechę, to w ciągu tym jest m jedynek, a zatem x +…+ x = m 1
n
W rezultacie
1
p ≈ ( x +
+
1
... xn )
n
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka Wykład 7
Estymacja wskaźnika struktury
(21.8) Twierdzenie
Średnia arytmetyczna z próby
M
1
=
( X +
+
1
...
X n )
n
n
jest zgodnym, nieobciążonym i najefektywniejszym
estymatorem parametru p rozkładu 0-1 zmiennej losowej X, tj. P ( X = 1) = p, P ( X = 0) = q = 1− p Opracowała Joanna Banaś
Metody probabilistyczne i statystyka Wykład 7
Zestawienie estymatorów
Tablica 21.1. Podstawowe estymatory
Parametr
Estymator
Własności estymatora
Klasy rozkładów
dla N( m,σ) – estymator
1
X = ( X +
+
1
...
X n ) zgodny, nieobciążony
Wartość
n
najefektywniejszy
oczekiwana
zgodny, asymptotycznie
m = EX
mediana z próby
dowolny
nieobciążony
dla N( m,σ) – estymator
S = ∑ n ( X −
i
m
n
)2
2
1
*
zgodny, nieobciążony
i 1
=
najefektywniejszy
Wariancja
zgodny, asymptotycznie
S = ∑ n ( X −
i
X
n
)2
2
1
dowolny
σ2 = D2X
i 1
=
nieobciążony
2
2
ˆ
S = n S
zgodny, nieobciążony
dowolny
n 1
−
Wskaźnik
M
1
zgodny, nieobciążony
=
( X +
+
1
...
X n )
0-1
struktury p
najefektywniejszy
n
n
Współczynnik
S
V =
zgodny
dowolny
zmienności
X
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka Wykład
7
Dziękuję za uwagę
Opracowała Joanna Banaś