Wnioskowanie statystyczne estymacja zadania przykładowe


WNIOSKOWANIE STATYSTYCZNE
ESTYMACJA
ZADANIA PRZYKAADOWE
1. Instytut Badań Marketingowych chciał uzyskać od mężczyzn, na podstawie próby 400-osobo-
wej, informacje na temat przyzwyczajeń dotyczących golenia. 240 ankietowanych odpo-
wiedziało, że regularnie używa elektrycznej maszynki do golenia. Wyznacz 99% przedział
ufności dla frakcji mężczyzn golących się za pomocą maszynki elektrycznej.
2. Spośród pracowników pewnego przedsiębiorstwa wylosowano niezależnie 240 pracowników
i okazało się, że połowa z nich ma wykształcenie średnie, z czego wykształcenie techniczne
ma 50%, wykształcenie ekonomiczne  20%, wykształcenie ogólne  20% i inne  10%.
Przyjmij współczynnik ufności na poziomie 0,99 i oszacuj punktowo oraz przedziałowo od-
setek pracowników o wykształceniu:
a) średnim ekonomicznym,
b) innym niż średnie.
3. Z książki adresowej pewnego domu wysyłkowego wybrano próbę losową o liczebności n =
900, aby oszacować udział gospodyń domowych wśród wszystkich klientów. W próbie na-
liczono 360 gospodyń domowych. Wyznacz 95% przedział ufności dla udziału gospodyń
domowych w ogólnej liczbie klientów.
4. Aby ocenić jakość partii towaru wybrano losowo 140 sztuk i okazało się, że 6 sztuk miało
pewne braki. Na poziomie ufności 0,9 oceń, jaki procent całej populacji stanowią produkty
uszkodzone. Dokonaj także estymacji punktowej odsetka produktów uszkodzonych.
5. Spośród gmin wiejskich województwa zachodniopomorskiego wylosowano 14 gmin, w któ-
rych liczba mieszkań oddanych do użytku w 2003 roku kształtowała się następująco:
29, 5, 19, 25, 5, 3, 37, 6, 8, 3, 22, 9, 3, 26.
Oszacuj przedziałowo:
a) przeciętną liczbę mieszkań oddanych do użytku w gminach wiejskich województwa Za-
chodniopomorskiego (współczynnik ufności 0,95),
b) odchylenie standardowe liczby mieszkań oddanych do użytku w gminach wiejskich (współ-
czynnik ufności 0,90).
6. Dla 180 czteroosobowych rodzin wylosowanych niezależnie w pewnym mieście otrzymano
następujący rozkład ich dochodów:
Dochód rodziny [zł] 0 - 800 800 - 1200 1200 - 1600 1600 - 2000 2000 - 2400
Liczba rodzin 25 50 40 35 30
Przy założeniu, że dochód czteroosobowych rodzin ma rozkład normalny, oszacuj punktowo
i przedziałowo przeciętny dochód oraz odchylenie standardowe dochodu rodzin w badanym
mieście (współczynnik ufności 0,9).
7. W styczniu 1996 roku w pewnym przedsiębiorstwie dla 300 wylosowanych niezależnie pra-
cowników obliczono współczynnik korelacji między liczbą zwolnień a liczbą nadgodzin w
1
ciągu 1995 roku, który wyniósł 0,2. Oszacuj punktowo i przedziałowo (1 - ą = 0,9) współ-
czynnik korelacji liniowej między liczbą zwolnień a liczbą nadgodzin w ciągu 1995 roku
w populacji pracowników badanego przedsiębiorstwa. Sprawdz precyzję oszacowania. Jakie
założenie należy przyjąć na wstępie, aby estymacja współczynnika korelacji była przepro-
wadzona prawidłowo?
8. Spośród usługowych firm informatycznych działających w Polsce wylosowano niezależnie
27 firm i otrzymano dla tej próby następujące dane dotyczące przychodów z usług w 1998
roku (yi  w mln zł) oraz stanu zatrudnienia na dzień 31.12.1998 roku (xi  w osobach):
27 27 27 27 27

2
xi = 1342; x2 = 129156; yi = 123; yi = 1756, 54; xi · yi = 9793.
i
i=1 i=1 i=1 i=1 i=1
Na podstawie tych informacji zbuduj przedział ufności dla współczynnika korelacji liniowej
między przychodami z usług a stanem zatrudnienia w populacji usługowych firm informa-
tycznych.
ROZWIZANIA I ODPOWIEDZI
1. Stosujemy wzór na estymator z tablic (s. 18):
Å„Å‚ üÅ‚



ôÅ‚ ôÅ‚
ôÅ‚ m m m m ôÅ‚

òÅ‚ żł
· 1 - · 1 -
m m
n n n n
P - uÄ… · p + uÄ… · = 1 - Ä…
ôÅ‚ ôÅ‚
n n n n
ôÅ‚ ôÅ‚
ół þÅ‚
W naszej próbie m = 240 a n = 400. Współczynnik ufności wynosi 1 - ą = 0,99, potrzebna
nam jest wartość uą, którą odczytamy z tablic dystrybuanty rozkładu normalnego (tablice,
Ä…
s. 30) dla wartości 1 - (pamiętamy, że w przypadku rozkładu normalnego sami musimy
2
zadbać o usunięcie obu ogonów rozkładu). W naszym przypadku szukaną wartością uą jest
2,58. Po podstawieniu do wzoru otrzymujemy
P {0, 5368 p 0, 6632} = 0,99,
zatem przedział o końcach w 53,68% i 66,32% jest jednym z przedziałów, które z prawdopo-
dobieństwem 0,99 pokrywają nieznaną prawdziwą wartość odsetka mężczyzn, używających
elektrycznej maszynki do golenia w populacji generalnej.
2. Punktowo odsetek szacujemy z wzoru



m m

· 1 -
m
n n
p = Ä…
n n
zatem po podstawieniu m = 24 i n = 240 otrzymujemy odsetek pracowników badanej firmy,
którzy mają wykształcenie średnie ekonomiczne dany jako p = 0,1 ą 0,01936, tzn. mylimy
się średnio o 1,94 punktu procentowego twierdząc, że odsetek ten wynosi 10%.
Przedziałowo szacujemy podobnie jak w zadaniu poprzednim, zatem po podstawieniu do
wzoru stwierdzimy, że przedział o końcach w 5,0% i 15,0% jest jednym z przedziałów, które
z prawdopodobieństwem 99% pokrywają nieznaną wartość odsetka pracowników badanej
firmy, którzy mają wykształcenie średnie ekonomiczne.
2
Analogiczne obliczenia w przypadku drugiego podpunktu dajÄ… wyniki p = 0,5 Ä… 0,03227
oraz 0,4167 p 0,5833.
m 360 Ä…
3. Mamy = . Ponieważ 1 - ą = 0, 95, więc 1 - = 0, 975 i uą = 1,96, zatem 0,3680
n 900 2
p 0,4320 tzn. przedział o końcach w 36,8% i 43,2% jest jednym z przedziałów, które
z prawdopodobieństwem 0,95 pokrywają nieznaną prawdziwą wartość odsetka gospodyń
domowych w ogólnej liczbie klientów owego domu wysyłkowego.
4. uą = 1, 65, zatem przedział o końcach w 1,46% i 7,11% jest jednym z przedziałów które z
prawdopodobieństwem 0,9 pokrywają nieznaną wartość odsetka uszkodzonych produktów
w badanej partii.
Szacując punktowo odsetek uszkodzonych produktów, mylimy się średnio o 1,71 punktu
procentowego twierdząc, że wynosi on 4,29%.
5. W tym zadaniu podane są surowe dane, dlatego musimy samodzielnie obliczyć wartości x,
S2(x) i S(x). ÅšredniÄ… obliczamy, korzystajÄ…c z wzoru
n

xi
i=1
x = ,
n
zatem
29 + 5 + 19 + 25 + 5 + 3 + 37 + 6 + 8 + 3 + 22 + 9 + 3 + 26 200
x = = = 14,2857.
14 14
WariancjÄ™ obliczamy jako
n

(xi - x)2
i=1
S2(x) = ,
n
a odchylenie standardowe  jako pierwiastek kwadratowy z wariancji. Odpowiednie oblicze-
nia  w poniższej tabeli.
xi xi - x (xi - x)2
29 14,7143 216,5102
5 -9,2857 86,2245
19 4,7143 22,2245
25 10,7143 114,7959
5 -9,2857 86,2245
3 -11,2857 127,3673
37 22,7143 515,9388
6 -8,2857 68,6531
8 -6,2857 39,5102
3 -11,2857 127,3673
22 7,7143 59,5102
9 -5,2857 27,9388
3 -11,2857 127,3673
26 11,7143 137,2245

200 1756,8571
a) Wariancja wynosi
1756, 8571
S2(x) = = 125,4898
27
3
natomiast odchylenie standardowe jest równe

S(x) = S2(x) = 11,2022
Przeciętną liczbę mieszkań oddanych do użytku szacujemy, korzystając z wzoru z tablic (s.
17, środek strony),

S(x) S(x)
P x - tÄ… "
µ x + tÄ… "
= 1 - Ä…,
n - 1 n - 1
1 - ą = 0,95, więc szukamy w tablicy kwantyli rozkładu t-Studenta (s. 31) wartości w
kolumnie dla ą = 0,05 i w wierszu dla k = n - 1 = 13 (uwaga  tu już szukamy wartości tą
wewnątrz tabeli i nie dzielimy ą przez dwa). Szukana wartość tą to 2,16.
Po podstawieniu do wzoru otrzymujemy przedziaÅ‚ 7,5747 µ 20,9967, zatem przedziaÅ‚
o końcach w 7,57 i 21,0 jest jednym z przedziałów, które z prawdopodobieństwem 0,95
pokrywają nieznaną wartość przeciętnej liczby mieszkań oddawanych do użytku w gminach
wiejskich badanego województwa.
b) Próba jest mała (n - 1 30), więc odchylenie standardowe szacujemy pośrednio, ko-
rzystając z wzoru dla wariancji, a następnie pierwiastkując końce otrzymanego przedziału
ufności. Wzór (s. 18, u góry) jest postaci
Å„Å‚ üÅ‚
òÅ‚
n · S2(x) n · S2(x)żł
P Ã2 = 1 - Ä….
ół þÅ‚
Ç2 Ç2 Ä…
Ä…
;n-1 1- ;n-1
2 2
Szukamy teraz dwóch różnych wartoÅ›ci w tablicy kwantyli rozkÅ‚adu Ç2 (s. 32), dla każdego
Ä…
końca przedziału osobno: w wierszu z k = n-1 = 13 i w kolumnach z = 0,05 (prawa strona
2
tabeli) dla lewego końca przedziału oraz z 1-ą = 0,95 (lewa strona tabeli) dla prawego końca
2
Ä…
przedziaÅ‚u. Mamy Ç2 Ä… = 5,892 i Ç2 = 22,362, co po podstawieniu do wzoru daje
1- ;n-1 ;n-1
2 2
przedziaÅ‚ dla wariancji 78,5644 Ã2 298,1767, a po spierwiastkowaniu koÅ„ców przedziaÅ‚u
otrzymujemy 8,8637 à 17,2678. Przedział o końcach 8,86 i 17,27 jest zatem jednym
z przedziałów, które z prawdopodobieństwem 0,9 pokrywają nieznaną wartość odchylenia
standardowego liczby mieszkań oddawanych do użytku w gminach wiejskich województwa
Zachodniopomorskiego.
6. W zadaniu tym mamy dane w postaci szeregu przedziałowego. Średnią oraz odchylenie
standardowe liczymy zatem według wzorów (tablice, s. 6 i s. 7):
k

‹i · ni
i=1
x =
n
i


k


(‹i - x)2 · ni


i=1
S(x) = ,
n
gdzie ‹i to Å›rodki przedziałów klasowych, a k to ich liczba (w zadaniu k = 5). Odpowiednie
obliczenia zawiera poniższa tabela.
4
Dochód ‹ ni ‹i · ni ‹i - x (‹i - x)2 (‹i - x)2 · ni
0 - 800 400 25 10000 -961,11 923734,57 23093364,20
800 - 1200 1000 50 50000 -361,11 130401,23 6520061,73
1200 - 1600 1400 40 56000 38,89 1512,35 60493,83
1600 - 2000 1800 35 63000 438,89 192623,46 6741820,99
2000 - 2400 2200 30 66000 838,89 703734,57 21112037,04

245000 -5,55 57527777,78

"
245000 57527777,78
Mamy zatem x = = 1361,1111 i S(x) = = 319598,77 = 565,3307.
180 180
Próba jest duża, więc punktowo szacujemy wartość przeciętną jako (tablice, s. 17)
S(x)
"
µ = x Ä… ,
n
co daje µ = 1361, 11 Ä… 42, 14  a wiÄ™c mylimy siÄ™ Å›rednio o 42,14 zÅ‚ twierdzÄ…c, że przeciÄ™tny
dochód czteroosobowych rodzin w badanym mieście wynosi 1361,11 zł.
Przedziałowo szacujemy tę wielkość korzystając z wzoru dla dużej próby,

S(x) S(x)
P x - uÄ… " µ x + uÄ… " = 1 - Ä…,
n n
Ä…
dla 1 - = 0, 95 odczytana z tablic wartość uą = 1,65. Po podstawieniu otrzymujemy prze-
2
dziaÅ‚ 1291,59 µ 1430,64. Jest to jeden z przedziałów, które z prawdopodobieÅ„stwem 0,9
pokrywają nieznaną wartość średniego dochodu w rodzinach czteroosobowych w badanym
mieście.
7. Kolejne zadanie dotyczy estymacji współczynnika korelacji liniowej (miary zależności między
dwiema zmiennymi losowymi). Podobnie jak w poprzednich przykładach, korzystamy z
odpowiednich wzorów (dla dużej próby) z tablic (s. 24):
2
1 - ryx
Áyx = ryx Ä… "
n
oraz

2 2
1 - ryx 1 - ryx
P ryx - uÄ… · " Áyx ryx + uÄ… · " = 1 - Ä….
n n
Ä…
W tablicy z wartościami dystrybuanty rozkładu normalnego znajdujemy 1 - = 0, 95 i
2
odczytujemy uÄ… = 1,65.
Podstawiamy współczynnik korelacji liniowej Pearsona z próby ryx = 0,2, liczbę obserwacji
n = 300 i uÄ… do wzorów i otrzymujemy Áyx = 0,2Ä…0,0554 oraz P {0,1085 Áyx 0,2915} =
0,9.
Mylimy się średnio o 0,0554 twierdząc, że współczynnik korelacji liniowej między liczbą
zwolnień a liczbą nadgodzin w roku 1995 w populacji generalnej (tj. wśród wszystkich
pracowników badanego przedsiębiorstwa) wynosi 0,2.
Przedział o końcach w 0,1085 i 0,2915 jest jednym z przedziałów, które z prawdopodobień-
stwem 0,9 pokrywają nieznaną wartość współczynnika korelacji liniowej Pearsona między
liczbą zwolnień a liczbą nadgodzin wśród pracowników badanego przedsiębiorstwa w 1995
roku.
5
Precyzję oszacowania liczymy według wzoru
2
1 - ryx
|uÄ…| · "
n
´r = · 100%.
yx
ryx
W zadaniu precyzja oszacowania wyniosła 45,73%, zatem jest ona zdecydowanie zbyt mała,
aby wyniki można było uogólniać na populację generalną (oczywiście, jeśli liczba pracowni-
ków jest dużo większa niż 300 osób).
Konieczne jest założenie o liniowości związku pomiędzy badanymi zmiennymi losowymi,
w przypadku zależności nieliniowej należałoby w miejsce współczynnika korelacji liniowej
zastosować inną miarę.
8. W przypadku małej próby szacujemy współczynnik korelacji liniowej pośrednio, z wykorzy-
staniem statystyki zyx, według wzoru

1 1
" "
P zyx - uÄ… · E (zyx) zyx + uÄ… · = 1 - Ä…
n - 3 n - 3
przy czym przeliczamy ryx na zyx i z powrotem z pomocą wzorów
1 1 + ryx
zyx = ln
2 1 - ryx
i
yx-1
e2z
ryx = .
yx
e2z +1
Na podstawie danych z zadania obliczamy kolejno x = 49,704, x2 = 4783,5556 i S(x) =


x2 - x2 = 48,0947 oraz y = 4,556, y2 = 65,057 i S(y) = y2 - y2 = 6,6561. Następnie
obliczamy xy = 362,703 i wyznaczamy współczynnik korelacji liniowej z wzoru
xy - x · y
ryx = ,
S(x) · S(y)
po podstawieniu otrzymujemy ryx = 0,4257, który po przeliczeniu daje zyx = 0,2773.
Ä…
Dla 1 - = 0,95 znajdujemy uÄ… = 1,65 i podstawiamy zyx, uÄ… oraz liczbÄ™ stopni swobody
2
n - 3 = 24 do wzoru na estymator przedziałowy. Uzyskujemy przedział 0,1178 E (zyx)
0,7914, którego końce przekształcamy na odpowiednie wartości ryx podanym wyżej wzorem.
Otrzymujemy ostatecznie 0,1173 ryx 0,6592. Oznacza to, że przedział o końcach w 0,117
i 0,659 jest jednym z przedziałów, które z prawdopodobieństwem 0,9 pokrywają nieznaną,
prawdziwą wartość współczynnika korelacji liniowej między przychodami w 1998 roku a
stanem zatrudnienia na koniec tego roku w populacji generalnej firm świadczących usługi
informatyczne.
6


Wyszukiwarka

Podobne podstrony:
Przekształcenia liniowe zadania i przykłady
LISTA ZADA â 3 WNIOSKOWANIE STATYSTYCZNE
technik informatyk egzamin praktyczny probny zadanie1 przyklad rozwiazana
Statystyka matematyczna zadania 2 F
Statystyka matematyczna zadania 3 F
si zadania przykladowe
zadania przykladowe 3 10
estymacja zadania
LISTA ZADA â 1 WNIOSKOWANIE STATYSTYCZNE
Wnioskowanie statystyczne
zadania przykladowe 4 10
skrypt kombinatoryka (zadania przyklady)
Zadania przykladowe Nr 1
Elektronika analogowa Zadania i przykłady
zadania przykladowe

więcej podobnych podstron