background image

7.4. Przedział ufności 

 

Druga z metod wnioskowania statystycznego jest oparta na tzw. przedziałach ufności. 

Przedziałem ufności dla parametru nazywamy przedział liczbowy (a, b), gdzie a i b są 

zmiennymi losowymi, który pokrywa prawdziwą średnią 

µ

 z określonym prawdopodobień-

stwem. JeŜeli to prawdopodobieństwo jest równe 0,95 lub 0,99, to odpowiedni przedział na-

zywamy 95-lub 99-procentowym. 

Na ogół kaŜdemu z testów istotności moŜna przyporządkować przedział ufności.  

 

Przedział ufności dla średniej 

µµµµ

 rozkładu normalnego. 

Przedział  ufności  ma  postać  następującej   podwójnej   nierówności: 

(1)         

y

 — L< 

µ

 < 

y

 + L , gdzie   (2)  L = t

α

 

)

1

(

2

n

n

nS

, przy czym 

y

 jest średnią zmiennej 

Y, a nS

2

 — sumą kwadratów odchyleń pojedynczych wyników od średniej.  

Symbol t

α

  oznacza 

α

-procentową wartość t, którą odczytuje się z tablic Studenta przy 

poziomie ufności 

α

 i 

ν

 = n – 1  stopniach swobody. Za 

α

 najczęściej obiera się 0,05 lub 0,01. 

WyraŜenie z pierwiastkiem jest błędem standardowym średniej. Poziom istotności przy prze-

działach ufności nazywa się poziomem ufności.  

Z przedziału ufności (1) moŜna korzystać, gdy zmienna Y ma rozkład normalny z pew-

ną nieznaną średnią 

µ

 oraz gdy wartości próby uzyskano w jednakowych warunkach. 

Ze wzoru (2) widać, Ŝe przedział ufności określony wzorem (1) jest tym krótszy (dłu-

gość jego jest równa 2L), im większa jest ilość obserwacji i im mniejsza jest wariancja S

2

tj. im wyniki są bardziej skupione wokół średniej.  

 

Przykład 1. 

Zawartości witaminy C wyraŜone w mg na 100 g w 17 próbkach konserwowanego soku po-

midorowego reprezentują następujące liczby: 

                       16, 22, 21, 20, 23, 21, 19, 15, 13, 23, 17, 20, 29, 18, 22, 16,25. 

Określ przedział, w jakim znajduje się prawdziwa zawartość 

µ

witaminy C w soku pomido-

rowym. 

To proste zagadnienie rozwiązuje przedział ufności (1). Średnia zawartość witaminy C 

w n = l7 próbkach wynosi 

y

= 20 mg na 100 g. W celu wyznaczenia obieramy poziom uf-

background image

ności  

α

 = 0,05 i odczytujemy z tablic Studenta t

0,05

  = 2,120 przy 

ν

 = n – 1  = 17 — 1 = 16 

stopniach swobody. 

 PoniewaŜ, jak łatwo sprawdzić, suma kwadratów odchyleń 

                    nS

2

y

n

y

2

)

(

 = 7054 – 6800 = 254, 

więc długość L (półprzedziału ufności) z uwagi na wzór (2) jest równa 

                       L = 2,12 

16

17

254

 = 2,12 

 0,9663 = 2,05 

 2. 

W rezultacie otrzymujemy następujący przedział ufności: 

20 - 2  < 

µ

  < 20 + 2  lub  18 

g

mg

100

   < 

µ

  < 22 

g

mg

100

Oznacza to, Ŝe prawdziwa zawartość witaminy C w badanym gatunku soku pomidorowego 

przy poziomie ufności 5% znajduje się między 18 i 22 mg/100 g.  

Przedział ufności obliczony przy 5-procentowym poziomie ufności nosi nazwę 95-

procentowego przedziału ufności. Ma to następującą interpretację: gdybyśmy przeprowadzili 

100 identycznych doświadczeń i w kaŜdym z nich dokonali 17 pomiarów zawartości witami-

ny C, a następnie wyznaczyli przedział ufności dla kaŜdego doświadczenia, to naleŜy oczeki-

wać, Ŝe 95 przedziałów spośród 100 otrzymanych pokryje nie znaną prawdziwą wartość 

µ

5 przedziałów nie pokryje jej. Zatem w około pięciu przypadkach na sto 

µ

 znajduje się poza 

granicami 18-22. Dzieje się tak dlatego, Ŝe krańce przedziału ufności na skutek wahań próby 

zmieniają się od próby do próby, tj. od doświadczenia do doświadczenia. 

Gdybyśmy obrali 1-procentowy poziom ufności, to odpowiedni 100% - 1 % = 99-

procentowy przedział ufności ze względu na t

0,01

 =2,921  miałby postać 

20 - 2,921 • 0,9663 < 

µ

  < 20 + 2,921•0,9663, czyli  17 

g

mg

100

   < 

µ

  < 23 

g

mg

100

Przedział ufności 95-procentowy był krótszy: długość jego wynosi 2L= 4. Długość 99-

procentowego przedziału wynosi 2L =  6 = 23 —17. Tak więc ze zmniejszeniem się poziomu 

ufności z 5% do 1 % wzrasta długość przedziału ufności. Tłumaczy się to wzrostem pewności 

wniosku z 95% do 99%. 

 

 

 

 

 

background image

Przykład 2.  

         Badaniu samochodów na giełdzie poddano dwie cechy: wiek samochodu oraz jego cenę. 

Obserwacje dotyczą siedmiu wybranych lat samochodu marki Ford Escort.   

 

Wiek X samochodu    cena Y samochodu  

1

 

                             40,9 

2

 

                             38,5 

4

 

                             35,3 

5

 

                             33,5 

9

 

                             23,7 

11

 

                  21 

12

 

                 19,9     

 
 Zbuduj model regresji liniowej wyjaśniający zaleŜność ceny samochodu od jego wieku. Po-

daj prognozę ceny samochodu 6 letniego oraz 95% przedział ufności dla tej prognozy. 

 
Rozwiązanie 
 
1. Wyznaczamy średnie arytmetyczne z próby, n = 7: 

                       

x

 

7

7

1

=

i

i

x

 = 

6,285714

 ;    

y

  = 30,4 

 
2. Wariancje z próby dla zmiennych x, y wynoszą   

  

                 S

x

2

  = 19,2381 ;           S

y

2

  = 75,49667 

 

3. Odchylenie standardowe z próby - błąd standardowy z próby   
 

          S

x

 = 

2

x

S

 = 4,386125  ;      S

y

 = 

2

y

S

 = 8,688882   

 

4. Kowariancja zmiennych x, y:  S

xy

 = -32,5571. 

 

5. Współczynnik korelacji r

xy 

 = 

y

x

xy

S

S

S

 ,  r

xy

 =  -0,99666.  

6. Współczynnik regresji (wzór  b

yx

 = 

2

x

xy

S

S

 = r

xy 

x

y

S

S

 ),  b

yx

 =  -1,97438.  

 

7. Prosta regresji ma równanie (wzór  

y

 + b

yx 

(x 

−−−−

 

x

 ):  

           y = 30,4 

−−−−

  1,97438(x 

−−−−

 6,285714),   

         po przekształceniu       y =  42,810388 

−−−−

1,97438 x. 

 

background image

y = -1,9744x + 42,81

R

2

 = 0,9933

0

5

10

15

20

25

30

35

40

45

1

2

3

4

5

6

7

8

9

10

11

12

 

 

    8. Prognoza dla x = 6  (podstawiamy x = 6  w równaniu prostej y =  42,810388 

−−−−

1,97438 x) 

 
           otrzymujemy  y = 30,964108. 

  

              

Wniosek: Wg prognozy cena samochodu sześcioletniego wynosi 30,964108 

 
 

 

    9. Błąd standardowy prognozy S

y

 =  8,688882  (zob. pkt. 3) 

 
                       Wniosek: Błąd prognozy wynosi 8,688882 .  

 

  10. Przedział ufności dla średniej z próby Y (wzór   

y

 — L< 

µ

 < 

y

 + L ,  

                      gdzie L = t

α

 

)

1

(

2

n

n

nS

 ) 

         W naszym przypadku 

         

y

  = 30,4 ;  suma kwadratów odchyleń zmiennej Y od średniej 

y

  wynosi 452,98.  

           Wtedy 

42

98

,

452

 = 10,7852 ;  

42

98

,

452

   = 3,284. 

       Przyjmujemy 

α

 = 0,05 i 

ν

 = 7 – 1 = 6 stopni swobody.  

         Odczytujemy z tablic Studenta  t

0,05

  =   2,447.  

           Wtedy  L =  2,447 

 3,284 = 8,036 

11.  Przedział ufności dla prognozy   y(6)  = 30,964108: 

                (30,9641 – 8,036 ; 30,9641 +  8,036)  =  (22,9281 ; 39,0001). 

 

Wniosek: 95% przedział ufności dla prognozy y(6)  = 30,964108 jest  następujący  

                (22,9281 ; 39,0001).