EKO-ZIP.08 A.Lenarcik, Z.Piasta
Pytania do rozmowy o statystyce (część II)
Na etykiecie naturalnej wody mineralnej „Muszynianka” podana jest zawartość głównych składników mineralnych. Z etykiety można się m.in. dowiedzieć, że udział kationów magnezowych wynosi 134,7 mg/l, zaś kationów wapniowych 180 mg/l. Jak należy rozumieć te dane? Czy pomiary zawartości wymienionych kationów w kilku butelkach wody mineralnej, zakupionych w pewnym sklepie, dadzą dokładnie takie same wyniki? Czym jest w rozważanym przykładzie zbiorowość i jednostka statystyczna? W jakiej skali wyrażone są wartości obu wymienionych cech? Jakie są zalety tej skali? Zaproponować sposób przeprowadzenia badań, których celem byłoby oszacowanie wartości oczekiwanej zawartości wymienionych kationów w wodzie mineralnej „Muszynianka”. Czy na określenie zbiorowości i jednostki statystycznej ma wpływ cel i zakres prowadzonych badań (rozważyć badania przeprowadzone w konkretnym sklepie oraz u producenta)? Jak liczna powinna być próbka w badaniach, które zostałyby zrealizowane w konkretnym punkcie sprzedaży? W jaki sposób przebiegałoby wnioskowanie statystyczne
w przypadku posłużenia się estymacją przedziałową? Jakie praktyczne wnioski można byłoby sformułować na podstawie otrzymanych przedziałów? Jaki wpływ na precyzję oszacowania wartości oczekiwanej udziału kationów magnezowych i wapniowych miałaby liczność próbki i zadany poziom ufności?
Na pudełku zapałek podana jest informacja, że zawiera ono 38 sztuk. Czy oznacza to, że producent gwarantuje, iż w każdym pudełku znajduje się taka liczba zapałek? Jaki jest typ rozważanej cechy? Zaproponować sposób przeprowadzenia badań, których celem byłoby zweryfikowanie prawdziwości informacji o liczbie zapałek w pudełku. Rozważyć trzy przypadki - badania realizowane u producenta, w konkretnym punkcie sprzedaży oraz w punktach sprzedaży w pewnym mieście. Określić w każdym przypadku zbiorowość oraz sposób doboru reprezentatywnej próbki. Jak wykorzystać dane otrzymane w przeprowadzonych badaniach we wnioskowaniu statystycznym? Kiedy otrzymany przedział ufności dla wartości oczekiwanej liczby zapałek uprawniałby do zakwestionowania informacji znajdującej się na pudełku zapałek?
Podać przykłady trzech cech jakościowych i trzech cech ilościowych charakteryzujących właściwości czekolad oferowanych w pewnym sklepie. W jakich skalach wyrażone są wartości tych cech? Dostępne w sklepie czekolady mleczne pochodzą od dwóch producentów. Nominalna masa tych czekolad wynosi 100g. W jaki sposób należy pobrać próbki czekolad z obu rozważanych zbiorowości, by można było przeprowadzić wnioskowanie statystyczne dotyczące porównania wartości oczekiwanych masy czekolad mlecznych obu producentów? Jak liczne powinny być pobrane próbki? Co należy uwzględnić podejmując decyzję o liczności próbek? Jakie praktyczne wnioski można sformułować na podstawie realizacji przedziału ufności dla różnicy wartości oczekiwanych masy czekolad?
Poniżej zamieszczona jest pewna tablica dwudzielcza oraz wyniki testu chi-kwadrat wykonanego w StatCrunchu na podstawie danych zawartych w pliku ankieta2007_09.xls. Zinterpretować wyniki przeprowadzonej analizy kontyngencji. Sformułować wnioski. Jaka forma wizualizacji ma zastosowanie w przypadku analizy kontyngencji?
Contingency table results (Wyniki analizy kontyngencji)
Rows (Wiersze): rok
Columns (Kolumny): P4 (Przewidywany rozwój sytuacji ekonomicznej w Polsce
w najbliższych dwóch latach)
Cell format (Zawartość komórek) |
Count (liczebność) Expected count (Oczekiwana liczebność) |
|
1 (poprawi się) |
2 (nie zmieni się) |
3 (pogorszy się) |
Total |
2007_08 |
197 |
137 |
56 |
390 |
2008_09 |
153 |
93 |
99 |
345 |
Total (Ogółem) |
350 |
230 |
155 |
735 |
Statistic |
DF |
Value (Wartość) |
P-value (p-wartość) |
Chi-square (chi-kwadrat) |
2 |
23.21 |
<0.0001 |
Poniżej zamieszczona jest tablica zawierająca wartości podstawowych charakterystyk rozkładu pewnej cechy oraz wykresy ramkowe sporządzone w programie StatCrunch na podstawie danych zawartych w pliku ankieta2007_09.xls. Zinterpretować zamieszczone wyniki. Sformułować wnioski. Czy są podstawy, by stwierdzić, że studenci określający swą sytuację materialną jako dobrą przeznaczają większe średnio kwoty na korzystanie
z telefonu komórkowego niż studenci deklarujący, iż ich sytuacja materialna jest nieco lepsza od przeciętnej? Posługując się danymi zawartymi w tabeli przeprowadzić odpowiednie wnioskowanie statystyczne.
Summary statistics for M7 (Zbiorcze statystyki dla cechy M7 - przeciętne miesięczne wydatki na telefon komórkowy):
Group by: M4 (Grupowanie według cechy M4 - Ocena własnej sytuacji materialnej)
M4 |
n (liczność) |
Mean (średnia) |
Std. Dev. (odch. stand.) |
Median (mediana) |
Range (rozstęp) |
Min |
Max |
Q1 |
Q3 |
1 (dobra) |
320 |
43,7 |
39,3 |
30 |
500 |
0 |
500 |
25 |
50 |
2 (nieco lepsza od przec.) |
227 |
40,69 |
34,1 |
30 |
450 |
0 |
450 |
25 |
50 |
3 (nieco gorsza od przec.) |
156 |
33,53 |
31,9 |
30 |
350 |
0 |
350 |
20 |
35 |
4 (zła) |
31 |
34,32 |
19,0 |
30 |
90 |
10 |
100 |
20 |
50 |
Poniżej zamieszczone są wyniki analizy regresji przeprowadzonej w StatCrunchu na danych pochodzących z pliku 93cars.dat. W jakim przypadku posługujemy się analizą regresji? Jaka cecha pełni w rozważanym przypadku rolę zmiennej niezależnej, a jaka - zmiennej zależnej? Zinterpretować wartości współczynnika korelacji i współczynnika determinacji. Na podstawie jakiego kryterium wyznaczone zostało równanie prostej regresji? Jaka jest interpretacja współczynnika regresji? Jakie wnioski wynikają z danych zawartych w dwóch tabelkach?
Skomentować wykres punktowy z zaznaczonym przebiegiem prostej regresji.
Simple linear regression results:
Dependent Variable: Highway MPG (Dystans wyrażony w milach, jaki można przebyć na jednym galonie paliwa poruszając się po autostradzie)
Independent Variable: Weight (Masa pojazdu)
Highway MPG = 51.601364 - 0.0073270593 Weight
Sample size: 93
R (correlation coefficient) = -0.8107 (współczynnik korelacji)
R-sq = 0.6571665 (Współczynnik determinacji)
Estimate of error standard deviation: 3.1389375
Parameter estimates:
Parameter |
Estimate |
Std. Err. |
DF |
T-Stat |
P-Value |
Intercept |
51.601364 |
1.7355498 |
91 |
29.732 |
<0.0001 |
Slope |
-0.0073270593 |
5.5476994E-4 |
91 |
-13.207383 |
<0.0001 |
Analysis of variance table for regression model:
Source |
DF |
SS |
MS |
F-stat |
P-value |
Model |
1 |
1718.6953 |
1718.6953 |
174.43495 |
<0.0001 |
Error |
91 |
896.6165 |
9.852929 |
|
|
Total |
92 |
2615.3118 |
|
|
|
EKO-ZIP.08 A.Lenarcik, Z.Piasta
Pytania do rozmowy o statystyce (część I - uzupełnienie)
22. (4.4) Obliczyć wartość współczynnika zmienności pewnej cechy ilościowej na podstawie realizacji czteroelementowej próbki. Podać interpretację otrzymanej wartości.
23. (4.5) Obliczyć medianę i rozstęp międzykwartylowy na podstawie realizacji 15-elementowej próbki pewnej cechy ilościowej. Podać interpretację otrzymanych wartości.
24. (4.6) Oszacować medianę i średnią pewnej cechy ilościowej ciągłej na podstawie danych przedstawionych w zbiorczej postaci za pomocą szeregu rozdzielczego z trzema przedziałami klasowymi równej długości i przypisanymi do tych przedziałów częstościami.
25. (5.1) Obliczyć wartość statystyki chi-kwadrat na podstawie danych zawartych w tablicy dwudzielczej zbudowanej dla dwóch cech jakościowych, z których każda przyjmuje dwie wartości. Przyjąć, że liczność próby wynosi 100.
26. (5.2) Obliczyć wartość współczynnika korelacji na podstawie czterech par wartości dwóch cech ilościowych, z których jedna pełni rolę zmiennej niezależnej, zaś druga zmiennej zależnej. Zinterpretować uzyskany wynik.
27. (5.3) Sporządzić wykres punktowy na podstawie sześciu par wartości dwóch cech ilościowych, z których jedna pełni rolę zmiennej niezależnej, zaś druga zmiennej zależnej. Narysować przybliżony przebieg prostej regresji. Na podstawie jakiego kryterium wyznaczane jest równanie prostej regresji? Jaka jest interpretacja współczynnika regresji?
28. (5.4). Wyznaczyć krańce 95%-owego przedziału ufności dla różnicy wskaźników struktury, jeżeli rolę tego wskaźnika pełni wadliwość oraz wiadomo, że wśród 100 wyrobów wylosowanych z partii A było 12 wadliwych, zaś wśród 400 wyrobów wylosowanych z partii B było 40 wadliwych. Czy są podstawy, by jedną z partii wyrobów uznać za gorszą pod względem wadliwości?
29. (5.5). Wyznaczyć krańce 95%-owego przedziału ufności dla odsetka palaczy w pewnej zbiorowości, jeżeli wśród 100 losowo wybranych osób z tej zbiorowości było 25-ciu palaczy?
30. (5.6). Trzydzieści osób zostało poddanych badaniu, które polegało na pomiarze czasu reakcji na pewne zagrożenie. To samo badanie zostało powtórzone, po wypiciu przez każdą z uczestniczących osób dużego kufla piwa. Za pomocą jakiego testu można zweryfikować przypuszczenie o wydłużeniu się średniego czasu reakcji po wypiciu piwa? Zapisać hipotezę zerową i alternatywną.
31. (6.1). Wiadomo, że czas X, wyrażony w godzinach, bezawaryjnej pracy pewnego typu urządzeń podlaga rozkładowi N(16,2). Jaki procent urządzeń będzie działać bezawaryjnie dłużej niż 14 godzin? (Obliczyć P(X>14)). Podać interpretację geometryczną uzyskanego wyniku.
32. (6.2). Wiadomo, że czas X, wyrażony w godzinach, bezawaryjnej pracy pewnego typu urządzeń podlaga rozkładowi N(30,5). Jaki procent urządzeń będzie działać bezawaryjnie krócej niż 25 godzin? (Obliczyć P(X<25)). Podać interpretację geometryczną uzyskanego wyniku.
33. (6.3). Wiadomo, że czas X, wyrażony w godzinach, bezawaryjnej pracy pewnego typu urządzeń podlaga rozkładowi N(50,10). Jakie jest prawdopodobieństwo, że losowo wybrane urządzenie będzie działać bezawaryjnie dłużej niż 50 godzin?. Jakie jest prawdopodo-bieństwo, że z trzech losowo wybranych urządzeń każde będzie działać dłużej niż 50 godzin?
34. (6.4). Określić rozkład prawdopodobieństwa zmiennej losowej przyjmującej wartości równe liczbie orłów w trzech rzutach symetryczną monetą. Wyznaczyć wartość oczekiwaną tej zmiennej.
35. (6.5). Określić rozkład prawdopodobieństwa zmiennej losowej przyjmującej wartości równe liczbie rzutów zakończonych uzyskaniem parzystej liczby oczek w dwóch rzutach symetryczną kostką. Wyznaczyć wartość oczekiwaną tej zmiennej.
36. (6.6). Oszacować rozstęp międzykwartlowy pewnej cechy ilościowej ciągłej na podstawie danych przedstawionych w zbiorczej postaci za pomocą szeregu rozdzielczego z pięcioma przedziałami klasowymi równej długości i przypisanymi do tych przedziałów liczebnościami.