W powyższych rozważaniach pojawia się pojęcie rozkładu statystki
z próby. Co to takiego jest?? Zacznijmy od samej defincji statystyki Pojęcie estymacji
z próby.
Szacowanie wartości parametrów lub rozkładu zmiennej losowej
Definicja
w populacji generalnej na podstawie rozkładu empirycznego,
uzyskanego z próby losowej pobranej z tej populacji nazywamy
Statystyką nazywamy zmienną losową , będącą funkcją zmiennych
estymacją.
losowych X 1 , X 2 , . . . , Xn stanowiących próbę.
Można wyróżnić estymację punktową (polegającą na
Statystyka jako zmienna losowa posiada pewien rozkład, który
wyznaczeniu oszacowania w postaci liczbowej) oraz estymację
nazywamy rozkładem statystyki z proby. Zależy on przede
przedziałową, która polega na wyznaczeniu oszacowania w
wszystkim od rozkładu populacji, z której pochodzi próba oraz od
postaci przedziału nazywanego przedziałem ufnosci Co to
liczebności próby.
takiego jest estymator??
Ze względu na liczebność n próby rozkłady statystyk dzielimy na Załóżmy, że rozkład zmiennej losowej X w populacji generalnej
• dokładne - rozkłady prawdopodobieństwa wyznaczone dla
zależy od nieznanego parametru θ. Estymatorem parametru θ
dowolnej liczby naturalnej n, będącej liczebnością próby. Są rozkładu zmiennej X nazywamy taką statystykę
one wykorzystywane dla małych prób.
ˆ
θ
• graniczne - rozkład prawdopodobieństwa statystyki, który
n = g ( X 1 , . . . Xn) ,
otrzymuje się przy założeniu nieograniczenie dużej
będącą funkcją próby losowej pobranej z tej populacji, której
próby, n → ∞ .
rozkład prawdopodobieństwa zależy od szacowanego parametru.
Jednakże należy wspomnieć, że nie ma jednej, określonej wartości
2.EMK (estymacja metoda kwantyli)
n od której uznajemy probę za dużą. W niektórych przypadkach Niech X
rozkład dokładny już dla n > 30 niewiele różni się od rozkładu 1 , X 2 , . . . , Xn będą- niezależnymi zmiennymi losowymi o tym samym rozkładzie P
granicznego, w innych przypadkach potrzebujemy n > 100.
θ , θ- nieznany parametr.
METODY WYZNACZANIA ESTYMATORÓW
a) θ ∈ R (jednowymiarowa przestrzeń parametrów), rozwiąż
równanie (niewiadoma jest θ):
1. EMM (estymacja metoda momentów)
1
q 1 ( θ) = Q 1 ⇐⇒ F
) =
Niech X
θ ( Q 1
1 , X 2 , . . . , Xn będą- niezależnymi zmiennymi losowymi o 2
2
2
2
tym samym rozkładzie Pθ, θ- nieznany parametr.
b) θ = ( θ 1 , θ 2) ∈ R 2, rozwiąż układ równań (niewiadomą jest a) θ ∈ R (jednowymiarowa przestrzeń parametrów),
θ):
rozwiąż równanie (niewiadoma jest θ):
( q 1 ( θ) = Q 1
4
4
EθX = X .
q 3 ( θ) = Q 3
4
4
b) θ = ( θ 1 , θ 2) ∈ R 2, rozwiąż układ równań (niewiadomą lub układ równowazny:
jest θ):
(
(
E
F
) = 1
θ X = X
θ ( Q 1
4
4
D 2 X = ˆ
S 2
F
) = 3
θ
θ ( Q 3
4
4
3. ENW (estymacja metoda najwiekszej wiarogodnosci) Niech X 1 , X 2 , . . . , Xn będą- niezależnymi zmiennymi losowymi jednakowego rozkładu o gęstości fθ( x), gdzie θ jest nieznanym lub równoważnie
parametrem.
∂ ln L( θ, x )
Definicja
= 0
j = 1 , 2 , . . . , k
∂θj
Funkcją wiarogodności nazywamy funkcję zmiennej θ równą
L( θ, x ) = f
Dla rozkładu normalnego metodą ENW uzyskuje się następujące
θ ( x 1) fθ ( x 2) . . . fθ ( xn) gdzie x = ( x 1 , x 2 , . . . , xn) jest próbka zaobserwowanych wartości zmiennych X
estymatory
1 , X 2 , . . . , Xn.
1 n
X
Estymatorem najwiekszej wiarogodnosci parametru θ ENW ( θ) ˆ
µ = X =
xi ,
n
nazywamy argument maksimum funkcji L
i =1
oraz
ENW ( θ) = arg max L( θ, x ) .
v
u 1 n
θ
X
ˆ
σ = S = u
t
( xi − X )2 .
n
Jeżeli θ = ( θ
i =1
1 , . . . , θk ) jest parametrem ciagłym i L jest funkcją
różniczkowalną, to ENW wyznaczamy rozwiązując układ równań:
∂L( θ, x ) = 0 j = 1 , 2 , . . . , k
∂θj
Estymacja przedziałowa dla średniej
Estymacja przedziałowa
Budowa przedziału ufności dla wartości średniej (oczekiwanej)
Estymacja przedziałowa polega na konstruowaniu przedziału
µ = m = E ( X ) rozkładu populacji zależy od: liczbowego, który z góry określonym - bliskim jedności -
prawdopodobieństwem będzie zawierał nieznaną wartość
• typu rozkładu cechy X w populacji generalnej
szacowanego parametru θ. Przedział ten nosi nazwę przedziału
• znajomości wariancji (odchylenia standardowego)
ufności:
• wielkości próby
P[ g 1( θn) < θ < g 2( θn)] = 1 − α
MODEL 1.
gdzie:
Załóżmy, że badana cecha ma rozkład normalny N( µ, σ) o θn jest- estymatorem parametru θ,
nieznanym parametrze µ i znanym σ > 0. Niech 1 − α będzie g 1( θn) - dolny kraniec przedziału ufności,
zadanym poziomem ufności oraz ( X 1 . . . Xn) będzie próbą g 2( θn) - górny kraniec przedziału ufności,
pobraną z danej populacji. Metodą estymacji punktowej
1 − α - prawdopodobieństwo tzw. poziom ufności.
otrzymujemy ENW ( µ) = EMM( µ) = X . Zauważmy, że X ma Pojecie przedziału ufności precyzuje ideę estymacji z określoną
rozkład N( µ, σ
√ ). Wtedy zmienna
n
dokładnością. Zamiast pojedynczego oszacowania nieznanego
parametru, podajemy dolną i górną granicę oszacowania. Nie
X − µ √
U =
n
możemy gwarantować, że parametr leży na pewno między tymi
σ
granicami, ale możemy wymagacćby tak było z odpowiednio
ma rozkład normalny N(0 , 1). Zatem rozkład statystyki U jest dużym prawdopodobieństwem.
niezależny od parametru m.
Szukamy z takich, aby
Załóżmy, że badana cecha ma rozkład normalny N( µ, σ) o nieznanych parametrach µ, σ > 0 i n ¬ 30. Przypuśćmy, ze P[ |U| ¬ z] = 1 − α.
chcemy wyznaczyć przedział ufności dla µ na poziomie 1 − α. Z
Wynika stąd, że z = u
estymacji punktowej wiemy, że X jest estymatorem parametru
1 − α jest kwantylem rzedu 1 − α w
2
2
rozkładzie normalnym N(0,1). Rozwiązując nierówność
µ, zaś S 2 jest estymatorem parametru σ 2. W tym przypadku korzystamy z tego, ze statystyka
X − µ √
n ¬ u
X − µ √
X − µ √
σ
1 − α
2
T =
n − 1 =
n,
S
ˆ
S
otrzymujemy, że przedział ufności na poziomie ufności 1 − α dla µ
ma rozkład t-studenta z ( n − 1) stopniami swobody.
ma postać:
σ
σ
Analogicznie, jak poprzednio szukamy liczby z tak aby
X − u 1 − α √ , X + u 1 − α √
.
2
n
2
n
P[ |T | ¬ z] = 1 − α.
Liczbę 2 d = 2 u
σ
√
1 − α
nazywamy długością przedziału ufności, zaś
2
n
d nazywamy błędem oszacowania.
Wynika stąd, że z = t( n − 1 , 1 − α ) jest kwantylem rzedu 1 − α
2
2
w rozkładzie t-Studenta z n-1 stopniami swobody.
Rozwiazując nierowność (wyznaczamy µ)
MODEL 3.
√
Jeżeli próba jest dość duża ( n 100) i badana cecha ma
X − µ
α
n − 1 ¬ t( n − 1 , 1 −
)
dowolny rozkład (niekoniecznie normalny N( µ, σ), ale o S
2
skończonej wariancji σ 2). Wtedy statystyka
otrzymujemy, że szukany przedział ufności na poziomie 1 − α jest X − µ √
postaci:
U =
n
σ
α
S
α
S
X − t( n − 1 , 1 −
) √
, X + t( n − 1 , 1 −
) √
,
ma rozkład (asymptotycznie normalny N(0 , 1). Szukamy 2
n − 1
2
n − 1
przedział ufności na poziomie 1 − α jest postaci:
lub
σ
σ
X − uα √ , X + uα √
.
"
#
α
ˆ
S
α
ˆ
S
n
n
X − t( n − 1 , 1 −
) √ , X + t( n − 1 , 1 −
) √
.
2
n
2
n
Jeśli σ jest parametrem nieznanym, to za σ wstawiamy S lub ˆ
S .
Rozwiązując nierówność (wyznaczamy σ 2)
Estymacja przedziałowa dla wariancji
MODEL 1.
α
nS 2
α
χ 2 1 −
, n − 1
¬
¬ χ 2
, n − 1
Załóżmy, że badana cecha ma rozkład normalny N( µ, σ) o 2
σ 2
2
nieznanych parametrach µ i σ. Niech 1 − α będzie zadanym otrzymujemy przedział ufności w postaci
poziomem ufności. Chcemy wyznaczyć przedział ufności dla σ 2
"
#
nS 2
nS 2
lub σ na tym poziomie. W tym przypadku korzystamy z faktu,
,
.
χ 2 1 − α , n − 1 χ 2 α , n − 1
ze statystyka:
2
2
nS 2
MODEL 2.
χ 2 = σ 2
Załóżmy, że badana cecha ma rozkład normalny N( µ, σ) o znanym parametrze µ i nieznanym σ. Niech 1 − α będzie ma rozkład χ 2 z n − 1 stopniami swobody. Szukamy takich a i zadanym poziomem ufności. W tym przypadku korzystamy z
b, aby
nS 2
faktu, ze statystyka:
P[ a ¬
¬ b] = 1 − α.
nS 2
σ 2
χ 2 = σ 2
Otrzymujemy a = χ 2 1 − α , n − 1 jest wartością krytyczną 2
ma rozkład χ 2 z n stopniami swobody. Korzystamy z tablic rzędu 1 − α lub rówoważnie kwantylem rzędu α w rozkładzie χ 2
2
2
rozkładu χ 2 wyznaczając takie dwie wartości:
z n − 1 stopniami swobody, zaś b = χ 2 α , n − 1 jest wartością 2
α
α
krytyczną rzędu α lub rówoważnie kwantylem rzędu 1 − α w 2
2
χ 2
, n
i
χ 2 1 −
, n ,
rozkładzie χ 2 z n − 1 stopniami swobody.
2
2
że
"
#
α
P n
α
P χ 2
, n
¬
i =1( xi − µ)2 ¬ χ 2 1 − , n
= 1 − α.
2
σ 2
2
Zatem przedział ufności ma postać
"
P n
P n
#
i =1( xi − µ)2
,
i =1( xi − µ)2
.
χ 2 1 − α , n − 1
χ 2 α , n − 1
2
2
Tablice rozkładu χ 2 najczęściej podają wartości dla n ¬ 50. Jeśli n > 50 to korzystamy z faktu, że statystyka
s
2 nS 2
σ 2
√
ma rozkład (asymptotycznie normalny N( 2 n − 3 , 1), czyli statystyka
s
2 nS 2
√
U =
−
2 n − 3
σ 2
ma rozkład N(0 , 1). Wtedy przedział ufności dla σ jest postaci:
√
√
"
#
2 nS
2 nS
√
, √
.
uα +
2 n − 3
2 n − 3 − uα