wykład3 statystyka


Wykład 3
Estymacja przedziałowa
Wartości estymatorów, tzn. oceny punktowe nieznanych parametrów, nie dają informacji o
tym, jaka jest dokładność uzyskanej oceny.
Sposobem estymacji, dającym możliwość oceny dokładności szacowania jest metoda prze-
działowa, polegająca na podaniu tzw. przedziałów ufności dla nieznanych parametrów (lub
funkcji) danego rozkładu.
Definicja 1 Przedziałem ufności dla parametru  na poziomie ufności 1 - ą (0 < ą < 1)
nazywamy przedział (1, 2) spełniający warunki:
" końce przedziału 1 = 1(X1, . . . , Xn), 2 = 2(X1, . . . , Xn) są funkcjami próby losowej
X1, . . ., Xn i nie zależą od szacowanego parametru ;
" prawdopodobieństwo pokrycia przez ten przedział nieznanego parametru  jest równe 1-ą,
tzn.
P (1(X1, . . . , Xn) <  < 2(X1, . . . , Xn)) = 1 - ą.
Liczbę 1 - ą nazywamy współczynnikiem ufności.
Przykład
Kontrolując pewną hurtownię zważono 10 torebek cukru, otrzymując następujące wyniki (w
gramach): 1002, 1003, 997, 997, 994, 995, 998, 997, 993, 999.
Jaka jest średnia waga torebki cukru w tej hurtowni?
Zakładając, że waga torebki cukru ma rozkład normalny, można na przykład użyć metody
największej wiarygodności i obliczyć estymator:
x10 = 997.5.
Ż
Jednak nas interesuje coś więcej  od czego jest mniejsza średnia waga torebki cukru, przy
czym nie musimy (i nie potrafimy) mieć absolutnie pewnego wyniku. Mówiąc inaczej, szukamy
liczby b takiej, że:
P (m b) = 0.9,
gdzie m oznacza wartość oczekiwaną wagi torebki cukru w hurtowni.
W tym przypadku wynik wynosi: b = 999.716 (został otrzymany przy założeniu, że dokład-
ność wagi wynosi 3 g).
Używając języka potocznego możemy więc powiedzieć, że mamy 90% pewności, że średnia
waga torebki cukru jest mniejsza niż 999.716g.
Przedział:
(-", 999.716)
nazywamy 90% przedziałem ufności dla wartości oczekiwanej. Można mówić także o innych prze-
działach ufności, np. 95%, 99%. W naszym przypadku 95% przedział ufności to (-", 1000.060),
zaś 99% przedział ufności to (-", 1000.707). Tak więc nie możemy już twierdzić, że na 95%,
ani tym bardziej na 99%, waga jednej torebki cukru jest mniejsza od 1 kg.
Problem w postaci ogólnej
Podstawą konstrukcji każdego przedziału jest statystyka o znanym rozkładzie.
1
Załóżmy, że dana jest próbka prosta X1, . . . , Xn z rozkładu N(m, ), przy czym zakładamy
najpierw, że znamy odchylenie standardowe  (w przypadku ważenia cukru może ono odpowia-
dać znanej dokładności wagi, którą dysponujemy).
Dla ustalonej liczby ą " (0, 1) szukamy takich liczb u1, u2 że:
P (u1 < U < u2) = 1 - ą.
Wiadomo, że estymator:
Ż
"
X - m
U = n

ma rozkład N(0, 1). Zatem:
P (u1 < U < u2) = F (u2) - F (u1) = 1 - ą.
Dla danego ą można dobrać na różne sposoby liczby ą1, ą2 aby ą1 + ą2 = ą, oraz 0 <
ą1, ą2 < ą, a także przyjąć, za u1 taką wartość zmiennej o rozkładzie N(0, 1), że P (U < u1) = ą1
i za u2 wartość spełniającą warunek P (U < u2) = 1 - ą2.
Liczby u1, u2 są kwantylami rzędu odpowiednio ą1 i 1 - ą2 zmiennej u i oznaczamy je uą1,
u1-ą2.

Ż
"
X - m
P uą1 < n < u1-ą2 = 1 - ą.

Stąd

 
Ż Ż
" "
P X - u1-ą2 < m < X - uą1 = 1 - ą.
n n
W praktyce przyjmuje się, że ą1 = ą2 = ą/2. W takim przypadku otrzymujemy przedział:

 
Ż Ż
P X - u1- ą " < m < X - uą " = 1 - ą.
2 2
n n
Ponieważ dla rozkładu N(0, 1) mamy uą = -u1- ą , więc
2 2

 
Ż Ż
P X - u1- ą " < m < X + u1- ą " = 1 - ą,
2 2
n n

gdzie u1- ą spełnia warunek P |U| < u1- ą = 1 - ą.
2 2
Własności
" Długość przedziału zależy od współczynnika ufności 1 - ą. Im większy współczynnik, tym
dłuższy przedział i na odwrót.
2
" Długość przedziału zależy od liczebności próby n. Im większa liczebność, tym krótszy
przedział i na odwrót.
" Przy danym współczynniku ufności 1 - ą i ustalonej liczebności próby n przedział syme-
tryczny względem średniej jest przedziałem ufności o najkrótszej długości.
Przykład c.d.
n = 10
 = 3 (dokładność wagi)
Ponieważ obserwujemy próbkę, więc w otrzymanym wyżej wzorze w miejsce estymatora śred-
niej podstawiamy wartość odpowiadajacej mu statystyki (obliczonej na podstawie tej próbki),
czyli:
Ż
10 = x10 = 998.5.
Ż
Teraz przyjmując za ą kolejno liczby 0.1, 0.05, oraz 0.01, można wyznaczyć odpowiednie prze-
działy ufności.
Opisane powyżej zagadnienie można modyfikować na różne sposoby. Po pierwsze, może
nas interesować przedział ufności innego typu, na przykład postaci: (ą, "). Po drugie, nie
zawsze można założyć, że znamy odchylenie standardowe . Po trzecie, założenie, że rozkład jest
normalny, często nie jest spełnione. Możemy także być zainteresowani znalezieniem przedziału
ufności dla innego, niż wartość oczekiwana, parametru rozkładu.
Istnieją różne metody radzenia sobie w wymienionych przypadkach, ale większość z nich
polega na zastosowaniu podobnego do poprzedniego schematu postępowania, który polega na
wykorzystaniu pewnej zmiennej losowej o znanym rozkładzie, będącej funkcją estymatora inte-
resującego nas parametru, a następnie na obliczeniu na jej podstawie (oraz na podstawie za-
obserwowanej próbki) końców przedziału ufności na określonym z góry poziomie ufności 1 - ą.
W naszych wcześniejszych rozważaniach tą zmienną losową była zmienna U, zaś jej rozkład był
znany na podstawie odpowiedniego twierdzenia granicznego (patrz: rachunek prawdopodob.),
przy czym uwzględniliśmy założoną wcześniej znajomość .
1. Przedziały ufności dla średniej w populacji
Model I Cecha ma w populacji rozkład normalny N(m, ), przy czym odchylenie standardowe
 jest znane. Przedział postaci:


x - u1-ą " , +"
Ż
n
nazywamy prawostronnym przedziałem ufności


Ż
"
P (X - m) : > uą = 1 - ą.
n
3
Przedział postaci

 
-", x - uą " = -", x + u1-ą "
Ż Ż
n n
nazywamy lewostronnym przedziałem ufności


Ż
"
P (X - m) : < u1-ą = 1 - ą.
n
Przy danej liczności n próby i danym współczynniku ufności 1 - ą najkrótszym
przedziałem ufności jest przedział:

 
x - u1- ą " , x + u1- ą "
Ż Ż
2 2
n n


Ż
"
P |X - m| : < u1- ą = 1 - ą.
2
n

Ma on długość 2u1- ą "
. Nie zależy ona od wartości xi, ale od obranego współczyn-
n
2
nika ufności 1 - ą (im większy współczynnik, tym dłuższy przedział) i od liczności
próby n (im większa liczność, tym krótszy przedział).
Model II Cecha ma w populacji rozkład normalny N(m, ), przy czym odchylenie standardowe
, średnia i wariancja są nieznane, próba jest mała (n 30). Przedział ufności dla
parametru m tego rozkładu ma postać:

s s
x - t1- ą " , x + t1- ą " ,
Ż Ż
,n-1 ,n-1
2 2
n - 1 n - 1
gdzie
n
1
s2 = (xi - x)2,
Ż
i=1
n
t1- ą  ma rozkład t-Studenta z n - 1 stopniami swobody (odczytujemy z tablic
,n-1
2
rozkładu).
4
Model III Próba duża (n > 30), nieznane odchylenie standardowe, średnia i wariancja. Prze-
dział ufności dla parametru m tego rozkładu ma postać:

s s
x - u1- ą " , x + u1- ą "
Ż Ż
2 2
n n
gdzie u1- ą odczytujemy z tablic rozkładu normalnego.
2
Ze względu na dużą liczebność, wyniki próby grupuje się zwykle w szereg rozdzielczy
i średnią oraz odchylenie standardowe liczymy biorąc pod uwagę środki przedziałów
klasowych. Gdy liczba przedziałów klasowych jest mała, tzn. gdy długość każdego
przedziału klasowego jest duża, przy wyliczaniu odchylenia standardowego należy
1
zastosować poprawkę na grupowanie, tj. odjąć od s2 liczbę b2.
12
2. Przedziały ufności dla wariancji i odchylenia standardowego
Model I Cecha ma rozkład N(m, ). Próba mała o liczności n 50.
Konstrukcja przedziału opiera się na statystyce:
Ż
ns2 (Xi - X)2
2 = = Łn ,
2 i=1 2
która ma rozkład 2 o n - 1 stopniach swobody.
2 , 2 ą oznaczają kwantyle tego rozkładu.
ą
,n-1 1- ,n-1
2 2
Przedział ufności dla 2:
ns2 ns2
< 2 < ,
2 ą 2
ą
1- ,n-1 ,n-1
2 2
dla odchylenia standardowego :

n n
s <  < s.
2 ą 2
ą
1- ,n-1 ,n-1
2 2
5
Model II Próba duża (n 50) pochodząca z populacji o rozkładzie N(m, ).
(1 - ą)100%-owy przedział ufności dla  :
" "
s 2n s 2n
" <  < " ,
2n - 3 + u1- 1 2n - 3 - u1- 1
ą ą
2 2
i dla wariancji:
2ns2 2ns2
" < 2 < " .
( 2n - 3 + u1- 1 )2 ( 2n - 3 - u1- 1 )2
ą ą
2 2
3. Przedział ufności dla wskaznika struktury populacji
Ocenę wskaznika struktury wyznacza się w zależności od liczby k elementów wyróżnionych
w losowej próbie prostej o liczności n. Należy wyznaczyć takie dwie funkcje f1(k, n, ą) i
f2(k, n, ą), że
P (f1(k, n, ą) < p < f2(k, n, ą)) = 1 - ą.
Wartości f1 i ff stablicowane są dla małych n w zależności od liczb k i n-k przy poziomie
ufności 1 - ą = 0, 95.
Model I Cecha populacji ma rozkład dwupunktowy z parametrem p (tzn. frakcja wyróżnio-
nych elementów populacji jest równa p). Próbka o niewielkiej liczności n. Liczba
wyróżnionych elementów próbki wynosi k,
p " (f1(k, n, ą), f2(k, n, ą)).
Model II Cecha populacji generalnej ma rozkład dwupunktowy z parametrem p. Próba o licz-
ności n 100.


p(1-p)
k
Statystyka p = ma w przybliżeniu rozkład N p, . Po standaryzacji p
Ć Ć
n n
otrzymujemy statystykę
k - np

U = ,
np(1 - p)
która dla dużych n ma w przybliżeniu rozkład N(0, 1).
Przedział ufności dla p:

p(1 - p) p(1 - p)
Ć Ć Ć Ć
p - u1- ą
Ć < p < p + u1- ą
Ć .
2 2
n n
4. Wyznaczanie minimalnej liczności próby niezbędnej do uzyskania przedziału
ufności o zadanej długości.
Ponieważ wraz ze wzrostem liczności próby otrzymujemy na ogół  przy ustalonym pozio-
mie ufności  przedziały o coraz mniejszej długości, więc chcemy tak dobrać liczność próby,
aby otrzymać przedział ufności nie przekraczający z góry obranej długości 2d, bądz też,
aby długość ta nie przekraczała p% wartości szacowanego parametru (długość względna).
Model I Badana cecha populacji ma rozkład N(m, ) o znanym . Szukana jest  dla danego
poziomu ufności 1-ą, taka minimalna liczność próby, aby otrzymać przedział ufności
dla wartości przeciętnej nie większy niż 2d.

2
u1- 1 
ą
2
n0 = + 1.
d
6

Model II Badana cecha X ma rozkład N(m, ) o znanym współczynniku zmienności  = .
m
Szukamy na danym poziomie ufności 1 - ą takiej minimalnej liczności próby, aby
otrzymać przedziały ufności dla wartości przeciętnej m o długości nie większej niż
2mp%, gdzie p jest ustalone.

2

n0 = u1- ą 100 + 1.
2
p
Model III Badana cecha populacji ma rozkład N(m, ) o nieznanych parametrach. Szukamy
na danym poziomie ufności 1 - ą takiej minimalnej liczności próby, aby dla wartości
przeciętnej otrzymać przedział ufności o długości nie większej niż 2d.
Z populacji wybieramy próbkę wstępną o liczności n0 i obliczamy
n0 n0

1 1
x0 = xi oraz s2 = (xi - x0)2.
Ż Ż
n0 i=1 n0 i=1
Z tablic kwantyli rozkładu Studenta odczytujemy t1- 1 i obliczamy
ą,n0-1
2
2
s
k = t1- 1 + 1.
ą,n-1
2
d
Jeśli k-n0 0, to przedziałem ufności jest przedział określony wzorem jak w Modelu
II dla wartości średniej.
Gdy k - n0 > 0, wtedy do wstępnej próbki dobieramy jeszcze próbkę o liczności n1
równej najmniejszej liczbie całkowitej większej od k - n0, tzn.
n1 = [k] - n0 + 1.
Następnie obliczamy
n0+n1

1
x = xi
Ż
n0 + n1 i=1
i przedziałem ufności dla nieznanej wartości przeciętnej na poziomie ufności 1 - ą o
długości nie przekraczającej 2d jest przedział:
t1- ą s t1- ą s
,n0-1 ,n0-1
2 2
x - " < m < x + " ,
Ż Ż
n0 + n1 - 1 n0 + n1 - 1
gdzie s2 jest obliczone z próbki wstępnej.
Miary precyzji estymacji:
%5ń
"x = tą "n  precyzja bezwzględna,
Ż
"x
Ż
x = 100  wskaznik precyzji względnej.
Ż
x
Ż
Jeśli:
x < 5%  wnioskowanie o poszukiwanym parametrze jest uprawnione i całkowicie bez-
Ż
pieczne,
5% x < 10%  wnioskowanie o poszukiwanym parametrze jest możliwe, ale z zalecaną
Ż
ostrożnością,
x 10%  należy przerwać wnioskowanie, ponieważ jest ono nieuprawnione.
Ż
7


Wyszukiwarka

Podobne podstrony:
Wyklad4 statystyka
Wyklad2 statystyka
wykład statystyka matematyczna cz 4
wykład 1 Statystyka
wykład9 statystyka
wykład10 statystyka
Wykład 2 statystyka opisowa
2010 TB wyklady statystyka
wykład5 statystyka
Wyklad1 statystyka
Wyklad3 statystyka
Wyklad 7 Nieparametryczne metody statystyczne PL [tryb zgodności]
Statystyka wyklad 7
wyklad 1 wprowadzenie statystyki oisowe
Wykłady z metod statystycznych
Tikhonenko O Wykłady ze statystyki matematycznej Wykład 6
Statystyka wyklad 4
Statystyka wyklad4nowy

więcej podobnych podstron