Wykład 4.
Wnioskowanie statystyczne
Estymacja przedziałowa parametrów rozkładu zmiennej losowej
Przedział ufności dla średniej m w populacji normalnej ( lub gdy mamy dużą próbę n>30) ze znanym odchyleniem standardowym
,
gdzie:
poziom istotności,
współczynnik ufności,
wartość odczytana z tablic rozkładu normalnego (Tablica B).
Przykład: W pewnym zakładzie produkcyjnym postanowiono zbadać staż pracowników umysłowych. W tym celu z populacji tych pracowników wylosowano próbę o liczebności n=196 pracowników, z której obliczono
. Dotychczasowe doświadczenie wskazuje, że rozkład stażu pracowników umysłowych jest normalny z odchyleniem standardowym 2,8 lat. Przyjmując współczynnik ufności
, zbudować przedział ufności dla nieznanego średniego stażu pracy w populacji pracowników umysłowych w tym zakładzie.
Rozwiązanie:
, czyli
.
(Tablica B).
.
-Przedział ufności dla średniej m w populacji normalnej z nieznanym odchyleniem standardowym
,
gdzie
poziom istotności,
współczynnik ufności,
wartość odczytana z tablic rozkładu t-Studenta (n-1 określa ilość stopni swobody) ( Tablica C).
Przykład: Stan zdrowia czterolatków oceniany jest w skali od 30 do 70. Dla 25 losowo dobranych przedszkolaków średnia tego wskaźnika wynosi
, a
odchylenie standardowe S=9. Oszacuj średni wskaźnik zdrowia dla populacji
4-latków z prawdopodobieństwem 0,95.
Rozwiązanie:
, czyli
.
( Tablica C).
Przedział ufności dla wariancji i odchylenia standardowego
Przedział ufności dla odchylenia standardowego
w populacji normalnej z nieznaną średnią (duża próba n>30):
,
gdzie
poziom istotności,
współczynnik ufności,
wartość odczytana z tablic rozkładu normalnego ( Tablica B)
Przykład: Na podstawie losowej próby 120 jednokilogramowych opakowań cukru otrzymano
i S=10dag. Zbuduj przedział ufności dla
odchylenia standardowego w rozkładzie wagi wszystkich produkowanych
jednokilogramowych opakowań cukru. Przyjmij współczynnik ufności 0,90.
Rozwiązanie:
( Tablica B),
Przedział ufności dla wariancji
w populacji normalnej z nieznaną średnią (mała próba n<30):
,
gdzie
poziom istotności,
współczynnik ufności,
,
wartości odczytane z tablic rozkładu
(n-1 określa ilość stopni swobody) (Tablica F).
Przykład: Na podstawie informacji uzyskanych w 12 losowo wybranych
stacjach meteorologicznych wyznaczono (w dniach) średnią długość okresu wegetacyjnego
oraz S=31,44dnia. Zakładając, że rozkład
badanej cechy jest normalny, zbuduj przedział ufności dla średniej i wariancji
długości okresu wegetacyjnego. Przyjmij współczynnik ufności 0,90.
Rozwiązanie:
;
;
(Tablica F)
,
(Tablica C)
.
Przedział ufności dla prawdopodobieństwa
W badaniach statystycznych spotykamy się z cechami jakościowymi, niemierzalnymi. Wówczas zachodzi konieczność szacowania m.in. frakcji (tzw. wskaźnik struktury) elementów posiadających wyróżnioną cechę w populacji generalnej. Frakcja jest w swej istocie prawdopodobieństwem sukcesu.
, (duża próba)
gdzie
m- liczba jednostek w próbie posiadających wyróżnioną cechę,
n- liczebność próby,
poziom istotności,
współczynnik ufności,
wartość odczytana z tablic rozkładu normalnego ( Tablica B).
Przykład: Spośród 10000 pracowników wylosowano próbę losową liczącą 200 osób, którym zadano pytanie, czy w najbliższym czasie zamierzają dalej pracować w Polsce, czy też zamierzają wyjechać za granicę w poszukiwaniu pracy. Okazało się, że20 spośród 200 pytanych pracowników zamierza opuścić kraj. Przyjmując współczynnik ufności 0,90, wyznaczyć przedział ufności dla wskaźnika struktury (frakcji, prawdopodobieństwa) pracowników, którzy zamierzają opuścić kraj.
Rozwiązanie:
(Tablica B),
Parametryczne testy istotności
Testy istotności dla wartości oczekiwanej (średniej)
Załóżmy, że populacja generalna ma rozkład normalny
o nieznanej wartości średniej.
Formułujemy hipotezę zerową oraz alternatywną postaci:
oraz
a)
lub b)
lub c)
,
gdzie
- pewna hipotetyczna wartość średniej w populacji
Do weryfikacji hipotezy zerowej na danym poziomie istotności
stosujemy test postaci:
gdy odchylenie standardowe
jest znane lub jest duża próba (statystyka Z ma rozkład normalny N(0,1))
W przypadku małej próby oraz nieznanym
stosujemy test istotności postaci:
(statystyka t ma rozkład Studenta o n-1 stopniach swobody).
Hipotezę zerową odrzucamy, gdy wartość obliczona statystyki z lub t znajduje się w tzw. obszarze krytycznym danego testu. W przeciwnym wypadku nie mamy podstaw do odrzucenia hipotezy zerowej na danym poziomie istotności
.
Rysunek na tablicy!!!
Tabela wartości krytycznych dla testu z dla kilku przykładowych poziomów
Poziom odrzucenia
|
Wartość testu z, przy której można odrzucić |
||
|
Test dwustronny |
Test lewostronny |
Test prawostronny |
0,05
|
|
z < -1,64 |
z > 1,64 |
0,02
|
|
z < -2,05 |
z > 2,05 |
0,01
|
|
z < -2,34 |
z > 2,34 |
0,001
|
|
z < -3,09 |
z > 3,09 |
Przykład:
Reprezentacyjnym badaniem objęto losową próbę 18 wiejskich indywidualnych
gospodarstw ze względu na rozmiary zadłużenia. Okazało się m.in., że średnia
arytmetyczna zadłużenia wynosi 2613 zł, a odchylenie standardowe zadłużenia
414 zł. Zweryfikować hipotezę zerową mówiącą, że pochodzi z takiej
zbiorowości generalnej, w której wartość oczekiwana zadłużenia wynosi 2600
zł, wobec dwustronnej hipotezy alternatywnej na poziomie ufności 0,95.
Rozwiązanie:
.
Ze względu na małą próbę stosujemy statystykę t.
Dla testu dwustronnego wyznaczamy wartość statystyki t (Tablica C)
.
Skoro
,
więc nie ma podstaw do odrzucenia hipotezy zerowej mówiącej, że wartość oczekiwana zadłużenia wynosi 2600zł.
2. Test istotności dla dwóch wartości oczekiwanych (średnich)
W praktyce zastosowania często zachodzi konieczność porównania dwóch średnich
i
w dwóch populacjach (np. porównanie starej i nowej technologii produkcji, porównanie populacji zdrowych z populacją chorych itp.).
Załóżmy, że dwie populacje generalne mają rozkłady normalne
,
o nieznanych wartościach średnich.
Formułujemy hipotezę zerową oraz alternatywną postaci:
oraz
a)
lub b)
lub c)
.
Do weryfikacji hipotezy
na danym poziomie istotności
stosujemy test:
gdy odchylenia standardowe
,
są znane lub są duże próby (statystyka Z ma rozkład normalny N(0,1)).
W przypadku małych prób oraz nieznanych
,
stosujemy test istotności postaci (
):
(statystyka t ma rozkład Studenta o
stopniach swobody).
Hipotezę zerową odrzucamy, gdy wartość obliczona statystyki z lub t znajduje się w tzw. obszarze krytycznym danego testu. W przeciwnym wypadku nie mamy podstaw do odrzucenia hipotezy zerowej na danym poziomie istotności
.
Przykład:
W celu porównania przeciętnego stażu pracy pracowników w dwóch zakładach wylosowano z każdego z tych zakładów grupę pracowników i zbadano ich ze względu na długość stażu pracy. Otrzymano wyniki:
ZAKŁAD1:
ZAKŁAD2:
Na poziomie istotności 0,01 zweryfikować hipotezę, że średnie staże pracy dla wszystkich pracowników każdego z tych zakładów są jednakowe względem hipotezy alternatywnej mówiącej, że średni staż pracy w Zakładzie1 jest krótszy niż w Zakładzie2.
Rozwiązanie:
(hipoteza lewostronna)
Skoro
, to wyznaczamy statystykę t.
.
Skoro
więc hipotezę zerową odrzucamy.
Nieparametryczne testy istotności - testy zgodności
W testach zgodności weryfikujemy hipotezę zerową postaci:
: rozkład empiryczny jest zgodny z rozkładem teoretycznym,
względem hipotezy alternatywnej:
: rozkład empiryczny nie jest zgodny z rozkładem teoretycznym.
Test zgodności
Pearsona - stosujemy statystykę (warunkiem stosowalności testu jest duża próba. Z wyników próby należy utworzyć rozkład empiryczny o r rozłącznych klasach. Liczba klas nie powinna być zbyt mała (co najmniej 5), a liczebności w każdej klasie nie mniejsze od 10):
,
gdzie
r- liczba przedziałów klasowych,
-liczebność empiryczna i-tego przedziału klasowego,
- częstość teoretyczna (prawdopodobieństwo),
n - liczebność próby.
W/w statystyka ma rozkład
o r-k-1 stopniach swobody ( k - ilość parametrów rozkładu np. rozkład normalny ma dwa parametry).
Przykład:
Przeprowadzono badanie wagi noworodków. Próba licząca n=200 obserwacji dała następujące wyniki:
Waga |
1,0-1,4 |
1,4-1,8 |
1,8-2,2 |
2,2-2,6 |
2,6-3,0 |
Liczebność |
15 |
45 |
70 |
50 |
20 |
Na poziomie istotności 0,05 zweryfikować hipotezę, że rozkład wagi noworodków jest rozkładem normalnym.
Rozwiązanie:
Na podstawie próby szacujemy parametry rozkładu normalnego:
(do sprawdzenia !!!).
Oznaczenia:
- wartość prawego końca przedziału klasowego,
,
wartość dystrybuanty rozkładu normalnego (Tabela A),
(prawdopodobieństwo dla ostatniego przedziału klasowego
).
|
|
|
|
|
|
|
1,4 1,8 2,2 2,6 3,0 |
15 45 70 50 20 |
-1,39 -0,46 0,46 1,39 - |
0,082 0,323 0,677 0,918 - |
0,082 0,241 0,354 0,241 0,082 |
16,4 48,2 70,8 48,2 16,4 |
0,12 0,21 0,01 0,07 0,79 |
Suma |
200 |
X |
X |
1,000 |
200,0 |
|
Wartość krytyczna dla rozkładu
odczytujemy z Tablicy F dla 5-2-1 stopni swobody oraz
, czyli
.
Ponieważ
, nie ma podstaw do odrzucenia hipotezy, że rozkład wagi noworodków jest rozkładem normalnym.
Przykłady innych testów:
Test zgodności
Kołmogorowa
Test normalności rozkładu Shapiro-Wilka.
Zadanie 1.
Wyniki egzaminu ze statystyki na jednym z uniwersytetów przedstawiały się następująco:
Liczba punktów |
0-20 |
20-40 |
40-60 |
60-80 |
80-100 |
Liczba studentów |
60 |
80 |
30 |
20 |
10 |
Przyjmując współczynnik ufności 0,99 zbuduj przedział ufności dla średniej liczy punktów uzyskanych przez studentów we wszystkich uniwersytetach.
Zadanie2.
W czasie sondażu przed wyborami prezydenckimi przeprowadzonego przez Ośrodek Badania Opinii Społecznej na temat oczekiwanej frekwencji wyborczej okazało się, że w grupie 1200 losowo wybranych osób w wieku 18 lat i więcej 720 osób miało zamiar wziąć udział w głosowaniu. Zakładając, że frakcja osób zamierzających wziąć udział w głosowaniu jest zmienną losową, przy współczynniku ufności 0,98 zbudować przedział ufności dla nieznanego odsetka ogółu dorosłych mieszkańców Polski, zamierzających wziąć udział w wyborach prezydenckich.
Zadanie 3.
W wylosowanej niezależnie próbie 81 zakładów zbadano koszty własne produkcji pewnego wyrobu. Z wyników próby otrzymano
zł oraz S=150 zł. Przy poziomie istotności 0,05 zweryfikuj hipotezę, że średnie koszty własne w populacji generalnej są równe 500 zł względem hipotezy alternatywnej mówiącej, że średnie koszty własne są większe niż 500 zł.
Zadanie 4.
W wyniku ewidencji dziennej sprzedaży dwóch rodzajów zegarków na rękę szwajcarskiej firmy Swatch w wybranych 20 dniach roboczych ustalono, co następuje:
Zegarki tradycyjne:
, S=7,5,
Zegarki z dodatkowymi funkcjami:
, S=8,2.
Zweryfikować hipotezę zerową, że średnia sprzedaż zegarków tradycyjnych jest równa średniej sprzedaży zegarków z dodatkowymi funkcjami względem hipotezy alternatywnej mówiącej, że średnia sprzedaż zegarków tradycyjnych jest większa niż średnia sprzedaż zegarków z dodatkowymi funkcjami.
Zadanie 5.
Zbadano 200 losowo wybranych czteroosobowych gospodarstw domowych pod względem miesięcznych wydatków na kulturę (teatr, kino, książki) dostarczyło następujących danych:
Miesięczne wydatki |
20-50 |
50-80 |
80-110 |
110-140 |
140-170 |
Liczba gospodarstw |
20 |
45 |
70 |
50 |
15 |
Na poziomie istotności 0,05 przy wykorzystaniu testu
zweryfikować hipotezę, że wydatki na kulturę w czteroosobowych gospodarstwach domowych mają rozkład normalny.
33