STATYSTYKA
Estymacja przedziałowa parametrów
rozkładów prawdopodobieństwa
Przedziały ufności
Niech będzie dana próba losowa (X1,X2,....,Xn), której rozkład zależy od pewnego parametru rzeczywistego qÎQ. Przedziałem ufności dla parametru qÎQ na poziomie ufności b (0<b<1) nazywamy przedział (q1,q2), spełniający warunki:
q1= q1(X1,X2,....,Xn) oraz q2= q2(X1,X2,....,Xn) są funkcjami próby losowej (X1,X2,....,Xn), które nie zależą od q;
dla każdego qÎQ,
Granice przedziału losowego (q1,q2) są zmiennymi losowymi, takimi że prawdopodobieństwo pokrycia przedziałem (q1,q2) nieznanego parametru q wynosi b.
Oznacza to, że w przypadku wykonania wielu eksperymentów mających na celu oszacowanie przedziałowe parametru q w 100b% przypadkach wyznaczony przedział ufności będzie zawierał q.
Istnieje wiele przedziałów ufności spełniających powyższe warunki. Interesuje nas zawsze znalezienie takiego przedziału, którego długość ln= q2(X1,X2,....,Xn)-q1(X1,X2,....,Xn)
jest najmniejsza.
Jednostronne przedziały ufności
W pewnych przypadkach interesuje nas wyłącznie górne lub dolne ograniczenie na wartość estymowanego parametru. Wyznaczamy wówczas jednostronne przedziały ufności
dla ograniczenia górnego , taki że
dla ograniczenia dolnego , taki że
Uniwersalny przedział ufności dla wartości oczekiwanej
Niech będzie dana próba losowa (X1,X2,....,Xn), a obserwowana zmienna losowa X odznacza się następującymi własnościami: E(X)=q oraz Var(X)=s2.
Korzystając z tzw. nierówności Czebyszewa można pokazać, że dla dowolnego e>0 mamy
Przyjmijmy, że s=1, tzn. że s jest jednostką na skali pomiarowej, na której dokonuje się pomiaru wartości zmiennej losowej X. Wówczas możemy przyjąć: .
Występuje więc związek
oraz
Powyższe wzory pozwalają określić dokładność estymacji dla danego poziomu ufności b i danej liczności próby n lub niezbędną liczność próby n dla danego poziomu ufności b i danej dokładności estymacji e.
Przykład 1:
Wartość oczekiwaną q oszacowywano na podstawie wyniku badania próby o liczności n=100 elementów. Określić dokładność estymacji za pomocą uniwersalnego przedziału ufności na poziomie ufności b=0.9.
Jeżeli znamy postać rozkładu prawdopodobieństwa zmiennej losowej X, to możemy uzyskać dokładniejszą ocenę estymowanego parametru q.
Przedziały ufności dla wskaźnika struktury
(prawdopodobieństwa w rozkładzie dwupunktowym)
Estymujemy parametr p w rozkładzie dwupunktowym zmiennej losowej X.
Estymator punktowy nieznanego prawdopodobieństwa zajścia zdarzenia losowego wynosi
gdzie n jest licznością próby, a K jest losową liczbą przypadków zajścia analizowanego zdarzenia w próbie o liczności n (jej realizację w danej próbie oznaczamy przez k).
Dokładne granice przedziałów ufności dla nieznanej wartości p można wyznaczyć wykorzystując tablice kwantyli rozkładu F-Snedecora.
Oznaczmy przez p1(b) dolną granicę dwustronnego przedziału ufności dla nieznanego prawdopodobieństwa p na poziomie ufności b, zaś przez p2(b), odpowiednio, górną granicę tego przedziału ufności.
Oznaczmy przez F(b,k1,k2) kwantyl rzędu b w rozkładzie F-Snedecora o parze stopni swobody (k1,k2) [podawany w tablicach statystycznych].
Wówczas:
W przypadku jednostronnych przedziałów ufności mamy:
pg(b)=p2(2b-1) oraz pd(b)=p1(2b-1)
Wartości granic przedziałów ufności dla p podane są również w tablicach statystycznych (np. Ryszard Zieliński: Tablice statystyczne, PWN).
Przykład
Przeprowadzono eksperyment oszacowania prawdopodobieństwa wyrzucenia „orła” na podstawie n=40 rzutów monetą. W eksperymencie wzięło udział 123 osoby. Uzyskano następujące wyniki (m - liczba osób, które uzyskały dany wynik)
k |
m |
p* |
p1 |
p2 |
14 |
4 |
0,35 |
0,206 |
0,517 |
15 |
2 |
0,375 |
0,227 |
0,542 |
16 |
8 |
0,4 |
0,249 |
0,567 |
17 |
9 |
0,425 |
0,270 |
0,591 |
18 |
20 |
0,45 |
0,293 |
0,615 |
19 |
14 |
0,475 |
0,315 |
0,639 |
20 |
13 |
0,5 |
0,338 |
0,662 |
21 |
18 |
0,525 |
0,361 |
0,685 |
22 |
10 |
0,55 |
0,385 |
0,707 |
23 |
9 |
0,575 |
0,409 |
0,730 |
24 |
4 |
0,6 |
0,433 |
0,751 |
25 |
8 |
0,625 |
0,458 |
0,773 |
26 |
3 |
0,65 |
0,483 |
0,794 |
27 |
1 |
0,675 |
0,509 |
0,814 |
Przybliżone przedziały ufności
dla wskaźnika struktury
Jeżeli liczność próby jest duża (na przykład nł100) granice przedziału ufności dla nieznanego prawdopodobieństwa p można wyznaczyć ze wzorów przybliżonych:
gdzie
jest kwantylem rzędu (1+b)/2 w standaryzowanym rozkładzie normalnym.
Kwantyle za standaryzowanego rozkładu normalnego (z1-a= - za).
a |
0.0 |
0.001 |
0.002 |
0.003 |
0.004 |
0.005 |
0.006 |
0.007 |
0.008 |
0.009 |
0.90 |
1.282 |
1.287 |
1.293 |
1.299 |
1.305 |
1.311 |
1.317 |
1.323 |
1.329 |
1.335 |
0.91 |
1.341 |
1.347 |
1.353 |
1.359 |
1.366 |
1.372 |
1.379 |
1.385 |
1.392 |
1.398 |
0.92 |
1.405 |
1.412 |
1.419 |
1.426 |
1.433 |
1.440 |
1.447 |
1.454 |
1.461 |
1.468 |
0.93 |
1.476 |
1.483 |
1.491 |
1.499 |
1.506 |
1.514 |
1.522 |
1.530 |
1.538 |
1.546 |
0.94 |
1.555 |
1.563 |
1.572 |
1.580 |
1.589 |
1.598 |
1.607 |
1.616 |
1.626 |
1.635 |
0.95 |
1.645 |
1.655 |
1.665 |
1.675 |
1.685 |
1.695 |
1.706 |
1.717 |
1.728 |
1.739 |
0.96 |
1.751 |
1.762 |
1.774 |
1.787 |
1.799 |
1.812 |
1.825 |
1.838 |
1.852 |
1.866 |
0.97 |
1.881 |
1.896 |
1.911 |
1.927 |
1.943 |
1.960 |
1.977 |
1.995 |
2.014 |
2.034 |
0.98 |
2.054 |
2.075 |
2.097 |
2.120 |
2.144 |
2.170 |
2.197 |
2.226 |
2.257 |
2.290 |
0.99 |
2.326 |
2.366 |
2.409 |
2.457 |
2.512 |
2.576 |
2.652 |
2.748 |
2.878 |
3.090 |
Długość przedziału ufności spełnia warunek
Z warunku tego możemy wyznaczyć minimalną liczność próby niezbędnej do oceny p z zadaną dokładnością.
Przykład
Zaprojektować badanie ankietowe (odpowiedzi TAK lub NIE), tak by na poziomie ufności b=0.9 długość przedziału ufności nie przekraczała 5%.
Z warunku
znajdujemy, że n=1076.
Jeżeli w wyniku badania 1076 osób uzyskamy, na przykład, k=324 odpowiedzi pozytywne, to oszacowanie prawdopodobieństwa pozytywnej odpowiedzi wynosi 324/1076=0.301 (czyli 30,1%), a przedział ufności wynosi (0.278,0.324). Długość przedziału ufności wynosi 0.324-0.278=0.046 (czyli 4,6 %).
W takim przypadku mówimy o dopuszczalnym błędzie statystycznym oceny ln/2=2,3%.
Przedziały ufności dla wartości oczekiwanej
w rozkładzie normalnym
Przypadek znanego odchylenia standardowego
Niech X będzie zmienną losową o rozkładzie normalnym N(m,s), przy czym parametr m jest nieznany i jest oszacowany (wyestymowany) na podstawie próby losowej (X1, X2,...,Xn).
Ponieważ wartość średnia z próby (estymator wartości oczekiwanej w rozkładzie normalnym) ma rozkład normalny o wartości oczekiwanej m i odchyleniu standardowym , przedział ufności dla m (przy znanym s) wyznaczamy z zależności:
gdzie z(1+b)/2 jest kwantylem rzędu (1+b)/2 w rozkładzie standaryzowanym normalnym N(0,1) (Tablice !)
Przykład
Zaobserwowano 10 realizacji zmiennej losowej o rozkładzie normalnym N(m,1)
-.604 -.980 -.008 -.611 .536 .810 2.022 -1.372 1.064 -.519
Wyznaczyć przedział ufności na poziomie ufności b=90% dla wartości oczekiwanej m Mamy = 0.034 , z0.95=1.645, a więc
Przypadek nieznanego odchylenia standardowego
Jeżeli odchylenie standardowe s nie jest znane, to musimy je wyestymować z próby wykorzystując np. skorygowane odchylenie standardowe z próby
Następnie korzystamy z własności rozkładu normalnego, zgodnie z którą rozkład statystyki
jest rozkładem t-Studenta o n-1 stopniach swobody. Wobec tego granice dwustronnego przedziału ufności dla m można wyznaczyć z zależności.
gdzie tn-1,(1+b)/2 jest kwantylem rzędu (1+b)/2 w rozkładzie t-Studenta o n-1 stopniach swobody (stabelaryzowany)
Kwantyle tk,a rzędu a w rozkładzie t-Studenta o k stopniach swobody
k |
tk,0.95 |
tk,0.975 |
k |
tk,0.95 |
tk,0.975 |
1 |
6,314 |
12,706 |
18 |
1,734 |
2,101 |
2 |
2,920 |
4,303 |
19 |
1,729 |
2,093 |
3 |
2,353 |
3,182 |
20 |
1,725 |
2,086 |
4 |
2,132 |
2,776 |
21 |
1,721 |
2,080 |
5 |
2,015 |
2,571 |
22 |
1,717 |
2,074 |
6 |
1,943 |
2,447 |
23 |
1,714 |
2,069 |
7 |
1,895 |
2,365 |
24 |
1,711 |
2,064 |
8 |
1,860 |
2,306 |
25 |
1,708 |
2,060 |
9 |
1,833 |
2,262 |
26 |
1,706 |
2,056 |
10 |
1,812 |
2,228 |
27 |
1,703 |
2,052 |
11 |
1,796 |
2,201 |
28 |
1,701 |
2,048 |
12 |
1,782 |
2,179 |
29 |
1,699 |
2,045 |
13 |
1,771 |
2,160 |
30 |
1,697 |
2,042 |
14 |
1,761 |
2,145 |
40 |
1,684 |
2,021 |
15 |
1,753 |
2,132 |
60 |
1,671 |
2,000 |
16 |
1,746 |
2,120 |
120 |
1,658 |
1,980 |
17 |
1,740 |
2,110 |
Ą |
1,645 |
1,960 |
Przykład
Zaobserwowano 10 realizacji zmiennej losowej o rozkładzie normalnym N(m,s)
-.604 -.980 -.008 -.611 .536 .810 2.022 -1.372 1.064 -.519
Wyznaczyć przedział ufności na poziomie ufności b=90% dla wartości oczekiwanej m Mamy = 0.034 , S0= 1.056 oraz (z tablic)
t9,0.95 =1.833, a więc
Przedziały ufności dla odchylenia standardowego
w rozkładzie normalnym
Można wykazać, że statystyka
gdzie
jest zmienną losową niezależną od statystyki i ma rozkład chi-kwadrat o n-1 stopniach swobody.
Stąd przedział ufności dla wariancji s2 wynosi
gdzie jest kwantylem rzędu (1-b)/2 w rozkładzie chi-kwadrat o n-1 stopniach swobody, zaś jest kwantylem rzędu (1+b)/2 w rozkładzie chi-kwadrat o n-1 stopniach swobody (tablice).
Przedział ufności (s1,s2) dla odchylenia standardowego jest następujący:
Dla dużych (n>50) liczności próby możemy skorzystać z przybliżenia
Przykład
Zaobserwowano 10 realizacji zmiennej losowej o rozkładzie normalnym N(m,s)
-.604 -.980 -.008 -.611 .536 .810 2.022 -1.372 1.064 -.519
Wyznaczyć przedział ufności na poziomie ufności b=90% dla odchylenia standardowego s Mamy = 0.034 , S0= 1.056 oraz (z tablic) c0.05,9=3.33, c0.95,9=16.9, a więc
Kwantyle rozkładu chi-kwadrat.
K\a |
0.01 |
0.025 |
0.05 |
0.1 |
0.9 |
0.95 |
0.975 |
0.99 |
2 |
0.0201 |
0.0506 |
0.103 |
0.211 |
4.61 |
5.99 |
7.38 |
9.21 |
3 |
0.115 |
0.216 |
0.352 |
0.584 |
6.25 |
7.81 |
9.35 |
11.3 |
4 |
0.297 |
0.484 |
0.711 |
1.06 |
7.78 |
9.49 |
11.1 |
13.3 |
5 |
0.554 |
0.831 |
1.15 |
1.61 |
9.24 |
11.1 |
12.8 |
15.1 |
6 |
0.872 |
1.24 |
1.64 |
2.20 |
10.6 |
12.6 |
14.4 |
16.8 |
7 |
1.24 |
1.69 |
2.17 |
2.83 |
12.0 |
14.1 |
16.0 |
18.5 |
8 |
1.65 |
2.18 |
2.73 |
3.49 |
13.4 |
15.5 |
17.5 |
20.1 |
9 |
2.09 |
2.70 |
3.33 |
4.17 |
14.7 |
16.9 |
19.0 |
21.7 |
10 |
2.56 |
3.25 |
3.94 |
4.87 |
16.0 |
18.3 |
20.5 |
23.2 |
11 |
3.05 |
3.82 |
4.57 |
5.58 |
17.3 |
19.7 |
21.9 |
24.7 |
12 |
3.57 |
4.40 |
5.23 |
6.30 |
18.5 |
21.0 |
23.3 |
26.2 |
13 |
4.11 |
5.01 |
5.89 |
7.04 |
19.8 |
22.4 |
24.7 |
27.7 |
14 |
4.66 |
5.63 |
6.57 |
7.79 |
21.1 |
23.7 |
26.1 |
29.1 |
15 |
5.23 |
6.26 |
7.26 |
8.55 |
22.3 |
25.0 |
27.5 |
30.6 |
16 |
5.81 |
6.91 |
7.96 |
9.31 |
23.5 |
26.3 |
28.8 |
32.0 |
17 |
6.41 |
7.56 |
8.67 |
10.1 |
24.8 |
27.6 |
30.2 |
33.4 |
18 |
7.01 |
8.23 |
9.39 |
10.9 |
26.0 |
28.9 |
31.5 |
34.8 |
19 |
7.63 |
8.91 |
10.1 |
11.7 |
27.2 |
30.1 |
32.9 |
36.2 |
20 |
8.26 |
9.59 |
10.9 |
12.4 |
28.4 |
31.4 |
34.2 |
37.6 |
21 |
8.90 |
10.3 |
11.6 |
13.2 |
29.6 |
32.7 |
35.5 |
38.9 |
22 |
9.54 |
11.0 |
12.3 |
14.0 |
30.8 |
33.9 |
36.8 |
40.3 |
23 |
10.2 |
11.7 |
13.1 |
14.8 |
32.0 |
35.2 |
38.1 |
41.6 |
24 |
10.9 |
12.4 |
13.8 |
15.7 |
33.2 |
36.4 |
39.4 |
43.0 |
25 |
11.5 |
13.1 |
14.6 |
16.5 |
34.4 |
37.7 |
40.6 |
44.3 |
26 |
12.2 |
13.8 |
15.4 |
17.3 |
35.6 |
38.9 |
41.9 |
45.6 |
27 |
12.9 |
14.6 |
16.2 |
18.1 |
36.7 |
40.1 |
43.2 |
47.0 |
28 |
13.6 |
15.3 |
16.9 |
18.9 |
37.9 |
41.3 |
44.5 |
48.3 |
29 |
14.3 |
16.0 |
17.7 |
19.8 |
39.1 |
42.6 |
45.7 |
49.6 |
30 |
15.0 |
16.8 |
18.5 |
20.6 |
40.3 |
43.8 |
47.0 |
50.9 |
40 |
22.2 |
24.4 |
26.5 |
29.1 |
51.8 |
55.8 |
59.3 |
63.7 |
50 |
29.7 |
32.4 |
34.8 |
37.7 |
63.2 |
67.5 |
71.4 |
76.2 |
Przedziały ufności dla wartości oczekiwanej
w dowolnym rozkładzie (duże próby)
Niech X będzie zmienną losową o dowolnym rozkładzie o nieznanych EX=m oraz Var(X)=s2. Dla dużych (nł100) liczności próby mamy w przybliżeniu
Statystyka15 Wykład9 6