7.4. Przedział ufności
Druga z metod wnioskowania statystycznego jest oparta na tzw. przedziałach ufności.
Przedziałem ufności dla parametru n nazywamy przedział liczbowy (a, b), gdzie a i b są
zmiennymi losowymi, który pokrywa prawdziwą średnią
µ
z określonym prawdopodobień-
stwem. Jeżeli to prawdopodobieństwo jest równe 0,95 lub 0,99, to odpowiedni przedział na-
zywamy 95-lub 99-procentowym.
Na ogół każdemu z testów istotności można przyporządkować przedział ufności.
Przedział ufności dla średniej
µµµµ
rozkładu normalnego.
Przedział ufności ma postać następującej podwójnej nierówności:
(1)
y
— L<
µ
<
y
+ L , gdzie (2) L = t
α
)
1
(
2
−
n
n
nS
, przy czym
y
jest średnią zmiennej
Y, a nS
2
— sumą kwadratów odchyleń pojedynczych wyników od średniej.
Symbol t
α
oznacza
α
-procentową wartość t, którą odczytuje się z tablic t Studenta przy
poziomie ufności
α
i
ν
= n – 1 stopniach swobody. Za
α
najczęściej obiera się 0,05 lub 0,01.
Wyrażenie z pierwiastkiem jest błędem standardowym średniej. Poziom istotności przy prze-
działach ufności nazywa się poziomem ufności.
Z przedziału ufności (1) można korzystać, gdy zmienna Y ma rozkład normalny z pew-
ną nieznaną średnią
µ
oraz gdy n wartości próby uzyskano w jednakowych warunkach.
Ze wzoru (2) widać, że przedział ufności określony wzorem (1) jest tym krótszy (dłu-
gość jego jest równa 2L), im większa jest ilość obserwacji n i im mniejsza jest wariancja S
2
,
tj. im wyniki są bardziej skupione wokół średniej.
Przykład 1.
Zawartości witaminy C wyrażone w mg na 100 g w 17 próbkach konserwowanego soku po-
midorowego reprezentują następujące liczby:
16, 22, 21, 20, 23, 21, 19, 15, 13, 23, 17, 20, 29, 18, 22, 16,25.
Określ przedział, w jakim znajduje się prawdziwa zawartość
µ
. witaminy C w soku pomido-
rowym.
To proste zagadnienie rozwiązuje przedział ufności (1). Średnia zawartość witaminy C
w n = l7 próbkach wynosi
y
= 20 mg na 100 g. W celu wyznaczenia L obieramy poziom uf-
ności
α
= 0,05 i odczytujemy z tablic t Studenta t
0,05
= 2,120 przy
ν
= n – 1 = 17 — 1 = 16
stopniach swobody.
Ponieważ, jak łatwo sprawdzić, suma kwadratów odchyleń
nS
2
=
∑
2
y
-
n
y
∑
2
)
(
= 7054 – 6800 = 254,
więc długość L (półprzedziału ufności) z uwagi na wzór (2) jest równa
L = 2,12
16
17
254
⋅
= 2,12
⋅
0,9663 = 2,05
≈
2.
W rezultacie otrzymujemy następujący przedział ufności:
20 - 2 <
µ
< 20 + 2 lub 18
g
mg
100
<
µ
< 22
g
mg
100
.
Oznacza to, że prawdziwa zawartość witaminy C w badanym gatunku soku pomidorowego
przy poziomie ufności 5% znajduje się między 18 i 22 mg/100 g.
Przedział ufności obliczony przy 5-procentowym poziomie ufności nosi nazwę 95-
procentowego przedziału ufności. Ma to następującą interpretację: gdybyśmy przeprowadzili
100 identycznych doświadczeń i w każdym z nich dokonali 17 pomiarów zawartości witami-
ny C, a następnie wyznaczyli przedział ufności dla każdego doświadczenia, to należy oczeki-
wać, że 95 przedziałów spośród 100 otrzymanych pokryje nie znaną prawdziwą wartość
µ
, a
5 przedziałów nie pokryje jej. Zatem w około pięciu przypadkach na sto
µ
znajduje się poza
granicami 18-22. Dzieje się tak dlatego, że krańce przedziału ufności na skutek wahań próby
zmieniają się od próby do próby, tj. od doświadczenia do doświadczenia.
Gdybyśmy obrali 1-procentowy poziom ufności, to odpowiedni 100% - 1 % = 99-
procentowy przedział ufności ze względu na t
0,01
=2,921 miałby postać
20 - 2,921 • 0,9663 <
µ
< 20 + 2,921•0,9663, czyli 17
g
mg
100
<
µ
< 23
g
mg
100
.
Przedział ufności 95-procentowy był krótszy: długość jego wynosi 2L= 4. Długość 99-
procentowego przedziału wynosi 2L = 6 = 23 —17. Tak więc ze zmniejszeniem się poziomu
ufności z 5% do 1 % wzrasta długość przedziału ufności. Tłumaczy się to wzrostem pewności
wniosku z 95% do 99%.
Przykład 2.
Badaniu samochodów na giełdzie poddano dwie cechy: wiek samochodu oraz jego cenę.
Obserwacje dotyczą siedmiu wybranych lat samochodu marki Ford Escort.
Wiek X samochodu cena Y samochodu
1
40,9
2
38,5
4
35,3
5
33,5
9
23,7
11
21
12
19,9
Zbuduj model regresji liniowej wyjaśniający zależność ceny samochodu od jego wieku. Po-
daj prognozę ceny samochodu 6 letniego oraz 95% przedział ufności dla tej prognozy.
Rozwiązanie
1. Wyznaczamy średnie arytmetyczne z próby, n = 7:
x
=
7
7
1
∑
=
i
i
x
=
6,285714
;
y
= 30,4
2. Wariancje z próby dla zmiennych x, y wynoszą
S
x
2
= 19,2381 ; S
y
2
= 75,49667
3. Odchylenie standardowe z próby - błąd standardowy z próby
S
x
=
2
x
S
= 4,386125 ; S
y
=
2
y
S
= 8,688882
4. Kowariancja zmiennych x, y: S
xy
= -32,5571.
5. Współczynnik korelacji r
xy
=
y
x
xy
S
S
S
⋅
, r
xy
= -0,99666.
6. Współczynnik regresji (wzór b
yx
=
2
x
xy
S
S
= r
xy
x
y
S
S
), b
yx
= -1,97438.
7. Prosta regresji ma równanie (wzór y =
y
+ b
yx
(x
−−−−
x
):
y = 30,4
−−−−
1,97438(x
−−−−
6,285714),
po przekształceniu y = 42,810388
−−−−
1,97438 x.
y = -1,9744x + 42,81
R
2
= 0,9933
0
5
10
15
20
25
30
35
40
45
1
2
3
4
5
6
7
8
9
10
11
12
8. Prognoza dla x = 6 (podstawiamy x = 6 w równaniu prostej y = 42,810388
−−−−
1,97438 x)
otrzymujemy y = 30,964108.
Wniosek: Wg prognozy cena samochodu sześcioletniego wynosi 30,964108
9. Błąd standardowy prognozy S
y
= 8,688882 (zob. pkt. 3)
Wniosek: Błąd prognozy wynosi 8,688882 .
10. Przedział ufności dla średniej z próby Y (wzór
y
— L<
µ
<
y
+ L ,
gdzie L = t
α
)
1
(
2
−
n
n
nS
)
W naszym przypadku
y
= 30,4 ; suma kwadratów odchyleń zmiennej Y od średniej
y
wynosi 452,98.
Wtedy
42
98
,
452
= 10,7852 ;
42
98
,
452
= 3,284.
Przyjmujemy
α
= 0,05 i
ν
= 7 – 1 = 6 stopni swobody.
Odczytujemy z tablic t Studenta t
0,05
= 2,447.
Wtedy L = 2,447
⋅
3,284 = 8,036
11. Przedział ufności dla prognozy y(6) = 30,964108:
(30,9641 – 8,036 ; 30,9641 + 8,036) = (22,9281 ; 39,0001).
Wniosek: 95% przedział ufności dla prognozy y(6) = 30,964108 jest następujący
(22,9281 ; 39,0001).