Wnioskowanie statystyczne (wykład ASZ)


Wnioskowanie statystyczne  dr Alicja Szuman
Literatura:
J. Józwiak, J. Podgórski  Statystyka od podstaw PWE Warszawa 2006
J. Kudelski, I. Roeske  Slomka  Statystyka AE Poznań 1995
J. Greń  Statystyka matematyczna. Modele i zadania PWN Warszawa 1984
J. Paradysz (red.)  Statystyka AE Poznań 2005
Kalkulatory
Na egzamin suche wzory na jednej kartce A4 może być dwustronnie zapisana
Wnioskowanie statystyczne a statystyka opisowa
Statystyka opisowa oparta jest na indukcji zupełnej, ukazuje metody gromadzenia,
opracowania, prezentacji danych wraz z sumarycznym ich opisem przy wykorzystaniu
właściwych narzędzi statystycznych.
Statystyka matematyczna (wnioskowanie statystyczne) oparta jest na indukcji niezupełnej.
" teoria estymacji  metoda estymacji umożliwia szacunek nieznanych parametrów w
populacje na podstawie próby.
" teoria weryfikacji hipotez statystycznych  pozwala na sprawdzenie hipotez o
parametrach lub kształcie rozkładu populacji na podstawie wyników z próby.
Wnioskowanie statystyczne to procedura podejmowania decyzji o parametrach i rozkładach
w zbiorowości generalnej na podstawie wyników z próby.
Podstawowymi kategoriami stosowanymi w procedurze wnioskowania statystycznego są
zmienne losowe i ich rozkłady teoretyczne.
Zdarzenia losowe to takie wyniki uzyskane przez relację danego procesu, które mogą w
określonym zespole warunków wystąpić lub nie wystąpić.
Jeżeli każdorazowa realizacja określonego doświadczenia daje to samo zdarzenie A, to
zdarzenie to nazywamy zdarzeniem pewnym. Natomiast jeśli każdorazowa realizacja
doświadczenia nie daje zdarzenia A, to realizację zdarzenia A uważamy za niemożliwe.
Jeżeli realizacja przypadkowego zdarzenia niekiedy prowadzi do zdarzenia A, a niekiedy nie,
nazywamy to zdarzeniem przypadkowym.
Zmienna losowa  w wyniku doświadczenia przyjmuje określoną wartość o zrealizowaniu
tego doświadczenia, a nie dającą się przewidzieć przed tym doświadczeniem.
Zmienna losowa może przybierać wartości z przedziału liczb rzeczywistych i to z określonym
prawdopodobieństwem.
P(x = xi) = pi <- prawdopodobieństwo
pi  można traktować jako wartość przyjmowaną przez zmienną losową.
Pi = f(xi)
Suma prawdopodobieństwa pi = 1
Zmienne losowe oznaczamy dużymi literami alfabetu np. X, Y, Z. Małymi literami alfabetu
oznaczają realizację czyli wartości przybierane przez zmienne losowe zwane realizacjami x,
y, z.
Pojęciem związanym ze zmienną losową i jej rozkładu jest pojęcie dystrybuanty.
Dystrybuanta zmiennej losowej to funkcja zmiennej rzeczywistej określona wzorem:
Właściwości dystrybuanty:
" przyjmuje wartości od 0 do 1
" funkcja malejąca, tzn. dla x1" funkcja lewostronna ciągła
" F(-") = 0; F(+") = 1
Rozkłady empiryczne i teoretyczne zmiennej losowej warunkują przeprowadzenie
wnikliwego opisu zbiorowości statystycznej.
Rozkłady empiryczne pochodzą z obserwacji ustalane są na podstawie konkretnych
wielkości.
Rozkłady teoretyczne aproksymowane są za pomocą rozkładów probabilistycznych. Rozkład
zmiennej losowej może być przedstawiony za pomocą funkcji matematycznej(& )
Najważniejszymi parametrami zmiennej losowej X są:
" wartość oczekiwana (nadzieja matematyczna) średniej arytmetycznej rozkładu
zmiennej X w zbiorowości generalnej
" wariancja oraz odchylenie standardowe
Zmienna losowa skokowa to taka zmienna, która ma przeliczony i skończony zbiór wartości.
Zmienna losowa ciągła przybiera dowolne wartości z określonego przedziału.
Rozkłady:
" dla zmiennej losowej skokowej:
- zerojedynkowy
- dwumianowy (Bernoulliego)
- Pojssona
" dla zmiennej losowej ciągłej:
- normalny Gaussa  Laplace a
Rozkład zerojedynkowy - jest on rezultatem takiego doświadczenia, którego określone
zdarzenie wystąpi lub nie. Zdarzeniem elementarnym realizującym zadanie A jest liczba 1, a
nie realizującym zdarzenia A jest liczba 0.
Rozkład dwumianowy  korzystamy z niego, gdy określamy prawdopodobieństwo
wystąpienia k razy określonego zdarzenia w n niezależnych doświadczeniach, przy danym
k n
k n
k n
prawdopodobieństwie p
p
p
p
Jeśli: p = q rozkład symetryczny
p `" q rozkład asymetryczny
- asymetria dodatnia, gdy p < q
- asymetria ujemna, gdy p > q
Jeśli p, q i n dążą jednocześnie do nieskończoności, to rozkład ten przekształca się w rozkład
p q n
p q n
p q n
normalny.
Wartość oczekiwana: E(x) = np
np
np
np
 (x) = npq
npq
npq
npq
 (x)
Rozkład Pojssona  szczególny przypadek rozkładu dwumianowego. Wykorzystujemy go,
gdy liczba serii doświadczenia jest nieskończona (n p
n "), prawdopodobieństwo p maleje do
n p
n p
zera (p np = 2 jest wartością stałą ( > 0).
p0), a iloczyn np
p np
p np
gdzie e = 2,718 (podstawa logarytmu naturalnego)
e
e
e
k  liczba realizacji elementów wyróżnionych w doświadczeniu
k
k
k
Rozkład normalny
Zmienna losowa ciągła X ma rozkład normalny, jeśli jej funkcja gęstości
prawdopodobieństwa wyraża się wzorem:
gdzie: M = n(x)  wartość oczekiwana
f(x)  funkcja gęstości rozkładu normalnego
Właściwości krzywej funkcji normalnej:
" krzywa w kształcie dzwonu
" funkcja ta posiada jedno maksimum i jest ono medianą, średnią arytmetyczną,
dominantą rozkłady oraz wartością oczekiwaną
" pole funkcji f(x) obejmuje zbiór liczb rzeczywistych
" wewnątrz przedziału od M- do M+ krzywa jest wypukła, a na zewnątrz jest wklęsła
" krzywa ma dwa punkty przegięcia, a współrzędnych M- oraz M+
" lewe i prawe ramię zbliża się asymptotycznie do osi odciętych, ale jej nie przecinają.
Reguła trzech sigm  przyjmuje ona jako bliskie 1 prawdopodobieństwo, że realizacja
zmiennej losowej ciągłej nie będzie różniła się od wartości oczekiwanej więcej aniżeli o trzy
odchylenia standardowe.
Zmienna standaryzowana  to duża litera  U , a realizacja  to mała litera  u .
Estymacja (szacowanie)  polega na tym, że na podstawie niekompletnych danych ze zbioru
pochodzących z próby, wnioskuje się o wartościach liczbowych zbioru, a otrzymane w ten
sposób wnioski służą do podejmowania decyzji.
Metody estymacji:
" estymacja punktowa
" estymacja przedziałowa
Estymacja punktowa oblicza pojedynczą liczbę dla każdego nieznanego parametru, np.:
- estymatorem średniej arytmetycznej jest średnia arytmetyczna z próby,
- estymatorem wariancji populacji generalnej jest wariancja z próby.
Estymacja przedziałowa polega na szacunku parametru w postaci takiego przedziału
zwanego przedziałem ufności, który z dużym prawdopodobieństwem obejmuje prawdziwą
wartość parametru.
Właściwości dobrego estymatora:
" nieobciążony  estymator jest nie obciążony, gdy wartość estymatora jest równa
parametrowi z próby.
" zgodność z prawem wielkich liczb  prawdopodobieństwo, że estymator jest zgodny z
prawem wielkich liczb, z wielkością liczebności próby. Wówczas estymator będzie
przyjmował wartości bliskie parametru. Ryzyko popełnienia błędu jest niewielkie.
" efektywny - posiadać powinien możliwie małą wariancję.
Każdy estymator jest zmienną losową mającą określony rozkład prawdopodobieństwa.
Przedział ufności dla średniej arytmetycznej:
Model 1
Jeśli populacja generalna ma rozkład normalny N(m, ), ze znanym odchyleniem
standardowym , z populacji pobrano próbę N elementową i przy takich założeniach dla
średniej m przy współczynniku ufności 1  Ź ma postać:
x  średnia arytmetyczna obliczana na podstawie próby
uŹ  wartość zmiennej losowej mającej rozkład normalny standaryzowany
  znane odchylenia standardowe populacji generalnej
n  liczebność próby
m  średnia populacji generalnej
1- Ź prawdopodobieństwo przyjęte z góry, nazwane współczynnikiem ufności.
Współczynnik ten przyjmuje się subiektywnie jako dowolnie duże, blisko jedności
prawdopodobieństwo. Jest miarą zaufania dla przeprowadzonego szacunku.
Najczęściej stosowane współczynniki ufności:
0,90 uŹ = 1,64 Przykładowo współczynnik ufności 0,95 oznacza, że pragniemy
0,95 uŹ = 1,96 by w 95 przypadkach na 100 estymowany parametr mieścił się
0,99 uŹ = 2,58 w oszacowanym przez nas przedziale.
Długość przedziału ufności przy danej liczebności n zależy od przyjętego współczynnika
ufności 1-Ź. Wraz ze wzrostem współczynnika 1-Ź, długość przedziału rośnie. Im większy
jest przedział, tym większą mamy pewność że średnia mieści się w podanych granicach, a to
z kolei oznacza, że przeprowadzony szacunek jest mniej dokładny.
Przyjmując wąski przedział mniejsza jest realność, że znajdzie się w przedziale, ale szacunek
jest bardziej dokładny.
Ocenę precyzji szacowanego parametru m można ustalić za pomocą zależności:
Jeśli:
B(x) d" 5% - duża precyzja szacunku
5% < B(x) d" 10% - dostateczna precyzja szacunku
B(x) > 10% - niedostateczna precyzja szacunku, nie należy wnioskować o parametrze
Model 2
Populacja generalna ma rozkład normalny, gdzie nie znamy ani średniej arytmetycznej, ani
odchylenie standardowego populacji. Z populacji tej pobrano małą próbę (d" 30). W oparciu o
wyniki tej próby, przedział ufności dla średniej budujemy:
tŹ - wartość statystyki z rozkładu t-Studenta dla n-1 stopnia swobody, przy poziomie
istotności Ź.
Liczba stopni swobody to liczba niezależnych obserwacji niezbędnych do oszacowania
nieznanego parametru populacji generalnej.
Ocena względnej precyzji oszacowania modelu:
Model 3
Populacja generalna ma rozkład normalny, lub dowolnie inny. Nie znamy ani średniej
arytmetycznej ani odchylenia standardowego populacji. Z populacji tej pobieramy dużą
próbę.
s(x)  odchylenie standardowe z próby
Ocena względnej precyzji oszacowania modelu:
m  średnia populacji generalnej
`x  średnia populacji generalnej z próby
  odchylenie standardowe w populacji generalnej
s(x)  odchylenie standardowe obliczane na podstawie próby.
Zadanie 1
W pewnym mieście postanowiono zbadać miesięczne zużycie wody (w mł) przez
mieszkańców. W celu tym z populacji tej wylosowano 81 mieszkań i otrzymano średnie
miesięczne zużycie wody 11,25mł. Dotychczasowe badania wykazują, że rozkład zużycia
wody przez mieszkańców jest normalny z odchyleniem standardowym () wynoszącym
3,10mł. Przyjmując współczynnik ufności 0,90 oszacować metodą przedziałową średnie
zużycie wody przez mieszkańców tego miasta oraz ocenić precyzję dokonanego szacunku
(wartość odpowiedniej statystyki 1,64).
3,10 3,10
P= {11,25  1,64 < m < 11,25 + 1,64 }
"81 "81
10,69 < m < 11,81
Przedział liczbowy o końcach 10,69 i 11.81 obejmuje z prawdopodobieństwem 0,90 nieznane
średnie zużycie wody w mł, przez mieszkańców badanego miasta.
1,64 * 3,1
B(`x) = 11,25 * "81
* 100
B(`x) = 5%
Błąd względny szacunku wynosi 5%, co oznacza dobrą precyzję oszacowania i dopuszcza do
wnioskowania na podstawie próby.
Zadanie 2
Aby ustalić średnie tygodniowe wydatki na prasę studentów UEPu, wylosowano niezależnie
od próby dziesięciu studentów i otrzymano wyniki (w zł):
4,6 5,2 6,2 5,8 4,9 5,7 5,5 6,2 5,5 6,0
Na podstawie uzyskanych wyników oszacować metodą przedziałową średnie wydatki na
prasę wszystkich studentów UEPu, przyjmując współczynnik ufności 0,95 oraz ocenić
precyzję dokonanego szacunku. Doświadczenie wskazuje na to, że rozkład wydatków na
prasę jest w przybliżeniu normalny (wartość odpowiedniej statystyki 2,262).
xi xi - `x (xi - `x)
4,6
`x = 56/10 = 5,6
-1 1
5,2
- 0,4 0,16
6,2
s(x) = "(2,68/10) = 0,52
0,6 0,36
5,8
0,2 0,04
0,52
5,6  2,262 < m < 5,6 + 2,262 0,52
4,9
- 0,7 0,49 " 9 " 9
5,7
5,21 < m < 5,99
0,1 0,01
5,5
0,3 0,09
2,262 * 0,52
6,2
B(`x) = * 100
0,6 0,36
5,6 * " 9
5,5
- 0,1 0,01
B(`x) = 7, 02%
6,0
0,4 0,16
56 2,68
Przedział liczbowy o końcach 5,21 i 5,99 zł obejmuje z prawdopodobieństwem 0,95 średnie
wydatki na prasę przez studentów UEPu.
Błąd względny szacunku wynosi 7%, co oznacza dostateczną precyzję oszacowania i
dopuszcza do wnioskowania na podstawie podanej próby.
Zadanie 3
W celu oszacowania średniej wagi bagażu osób udających się samolotem na dwutygodniowy
urlop do Hiszpanii wylosowano niezależnie od próby 64 podróżnych uzyskując dla tej próby
średnią wagę bagażu wynoszącą 24,81kg i odchylenie standardowe 4,82kg. Przyjmując
współczynnik ufności 0,95 zbudować przedział ufności dla średniej wagi bagażu oraz ocenić
precyzję dokonanego szacunku ( wartość statystyki 1,96).
4,82
24,81  1,96 < m < 24,81 + 1,96 4,82
" 64 " 64
23,63 < m < 25,99
1,96 * 4,82
B(`x) = = 4,76%
24,81 * " 64
Przedział liczbowy o końcach 23,63kg i 25,99kg z prawdopodobieństwem 0,95, obejmuje
średnią wagę bagażu podróżnych udających się samolotem na urlop.
Błąd względny szacunku wynosi 5%, co oznacza dobrą precyzję oszacowania i dopuszcza do
wnioskowania na podstawie próby o średniej wadze bagażu.
Przedział ufności dla wskaznika struktury
W przypadku analizy statystycznej prowadzonej ze względu na cechę jakościową
podstawowym parametrem populacji generalnej jest wskaznik struktury zwany frakcją lub
prawdopodobieństwem szacunku, po przemnożeniu przez 100% elementów posiadających
wyróżnioną cechę w zbiorowości.
Wskaznik struktury w populacji określający udział wyróżnionej części w całej populacji
oznaczać będziemy symbolem p, zaś jego estymatorem jest wskaznik struktury z próby
p
p
p
losowej m/n
m/n.
m/n
m/n
m to liczba jednostek w próbie mających wyróżnioną cechę, natomiast n
m n
m n to liczebność próby
m n
uŹ - odczytujemy z tablicy dystrybuanty rozkładu normalnego standaryzowanego.
N(0,1) w sposób, aby spełniona była relacja:
Względne precyzje szacowania:
B(p)  względna precyzja szacowania wskaznika struktury
Zadanie 4
W roku 2006 wśród losowo wybranych 450 mieszkańców Poznania przeprowadzono badania
ankietowe, w których pytano między innymi o ulubione miejsce spędzania urlopu. Z badania
wynika, że 288 osób preferuje urlop nad morzem. Przyjmując współczynnik ufności 0,95
oszacować metodą przedziałową procent mieszkańców Poznania, którzy lubią spędzać urlop
nad morzem oraz ocenić precyzję dokonanego szacunku (wartość statystyki 1,96).
n = 450
m = 288
m/n = 0,64
0,64 (1  0,64) 0,64 (1  0,64)
0,64  1,96 " < p< 1,96 "
450 450
0,595 < p < 0,685
59,5% < p < 68,5%
0,64 (1  0,64)
450
B(p) = (1,96 : 0,64) * "
B(p) = 7,04%
Przy współczynniku ufności 0,95 odsetek mieszkańców Poznania preferujących urlop nad
morzem mieści się w przedziale od 59,5 do 68,5%. Błąd względny mieszkańców wynosi
7,04%, co oznacza dostateczną precyzję oszacowania i dopuszcza do wnioskowania na
podstawie próby.
Wyznaczanie niezbędnej liczebności próby
Model 1
Minimalna liczebność próby niezbędna do oszacowania wartości średniej n na poziomie
ufności 1-Ź z maksymalnym błędem szacunku nie przekraczającym d obliczanym ze wzoru:
2 2
uą *
n =
2
d
  odchylenie standardowe populacji
uŹ  wartość zmiennej losowej w standaryzowanym rozkładzie normalnym odczytana z
tablicy rozkładu normalnego, dla przyjętego z góry współczynnika ufności 1-Ź
d  dopuszczalny ustalony z góry maksymalny błąd szacunku średniej
Model 2
Minimalna liczebność próby przy estymacji średniej z nieznanym odchyleniem
standardowym:
2
tą * s(2x)
n =
2
d
no - próba wstępna
nd" no  liczebność próby wstępnej jest wystarczająca, gdy ne" no, to trzeba dostosować do
właściwej próby n-no elementów
Model 3
W przypadku, gdy możliwe jest przeprowadzenie badania wstępnego, to minimalna
liczebność próby , która gwarantuje żądaną precyzję przy szacowaniu wskaznika struktury p
przy założonym maksymalnym błędzie szacunku d ze wzoru:
2
uą * p *q
n =
2
d
p  spodziewany rząd wielkości szacowanych wskazników struktury
d  maksymalny dopuszczalny błąd szacunku
Model 4
Gdy nie znamy rządu wielkości szacowanego wskaznika struktury, to wzór na minimalną
liczebność przyjmuje postać:
2
uą
n =
2
4d
Zadanie 1
Ile rodzin należących do określonej grupy zamożności należy wylosować niezależnie do
próby by oszacować średnią miesięczną kwotę wydatków na cele kulturalne tych rodzin z
dopuszczalnym maksymalnym błędem szacunku wynoszącym 10 zł. Wiadomo, że
odchylenie standardowe populacji wynosi 80 zł., a przyjmowany współczynnik ufności 0,90
(wartość statystyczna 1,64)
(1,64)2 *802
n = =172,13 H"173
102
Aby oszacować miesięczne wydatki na cele kulturalne z dopuszczalnym błędem 10 zł. do
próby należy wylosować 173 rodziny.
Zadanie 2
W celu uzyskania przeciętnego dziennego czasu poświęcanego przez emerytów na oglądanie
TV wylosowano do próby 10 osób i otrzymano dla nich średnią 3,75 godziny oraz
odchylenie standardowe 1,10 godziny. Wyznaczyć niezbędną liczebność próby, dla ustalenia
średniego czasu poświęcanego na oglądanie TV z dokładnością do 0,5 godziny, przy
współczynniku ufności 0,95 (wartość statystyczna 2,262).
(2,262)2 * (1,1)2
n = = 24,76 H" 25
(0,05)2
Aby oszacować średni dzienny czas poświecony przez emerytów na oglądanie TV należy
wylosować 25 osób, czyli oprócz 10 już wylosowanych należy jeszcze wylosować 15
emerytów.
Zadanie 3
Jak liczna powinna być próba, by z maksymalnym dopuszczalnym błędem 3% przy
współczynniku ufności 0,95 oszacować odsetek osób, które wezmą udział w najbliższych
wyborach. Wyniki ostatniego sondażu przeprowadzonego przez OBOP wskazują, że udział w
wyborach deklaruje 38% uczestników badania (wartość statystyczna 1,96).
(1,96)2 *0,38*0,62
n = = 1005,65 H"1006
(0,03)2
Chcąc zagwarantować postulowaną dokładność należy do próby wylosować 1006 osób.
Zadanie 4
Wśród rodzin pewnego osiedla zamierza przeprowadzić się ankietę w celu oszacowania
odsetka rodzin chcących mieć stałe połączenie z Internetem. Ile rodzin należy wylosować do
próby, aby z maksymalnym błędem próby 5% przy współczynniku ufności 0,90 oszacować
odsetek rodzin zainteresowanych stałym połączeniem z Internetem (wartość statystyczna
1,64).
(1,64)2
n = = 269
4*(0,05)2
Do próby należy wylosować 269 rodzin.
Przedział ufności dla wariancji
Estymacji przedziałowej wariancji dokonujemy i dla dużej i dla małej próby.
Model 1
Zakładamy ze populacja generalna ma rozkład normalny o nieznanej średniej i odchyleniu
standardowym. Z populacji tej wylosowano dużą próbę n>30, to przedział ufności dla 1-Ź
wyznaczamy według wzoru:
ł
ńł
ł
s( s( x) ł
ł
Pł x) <  < =1-ą
ł
uą żł
ł1+ uą ł
1-
ł
ł
2n 2n
ół
ł
Względną precyzję szacowanego parametru wyznaczamy według wzoru:
uą
B( ) = *100
2n
Model 2
Populacja generalna ma rozkład normalny, nie znamy ani średniej ani odchylenia
standardowego. Pobieramy próbę n<30 wówczas przedział ufności dla wariancji
wyznaczamy według wzoru:
ńł -1)* s(2x) (n -1)*s(2x) ł
(n
ł
Pł <  < =1-ą
ł żł
c2 c1 ł
ł
ół
ł
c1, c2  wartości zmiennych wyznaczane z tablic CHI dla n-1 stopnia swobody oraz
współczynnik ufności 1-Ź
Dla określonego współczynnika ufności 1-Ź wartość c1 znajdujemy z tablic rozkładu dla
prawdopodobieństwa 1-Ź, natomiast c2 dla Ź.
Zadanie 1
W pewnym mieście w losowo wybranych 200 gospodarstwach domowych badano miesięczne
wydatki na usługi telekomunikacyjne. Okazało się, że odchylenie standardowe miesięcznych
opłat wyniosło 28 zł. Zakładając, ze badana cecha ma rozkład normalny oszacować metodą
przedziałową nieznane odchylenie standardowe miesięcznych wydatków na usługi
telekomunikacyjne w tym mieście, przyjmując współczynnik ufności 0,90 i ocenić precyzję
dokonanego szacunku (wartość statystyczna 1,64)
28 28
<  <
1,64 1,64
1+ 1-
2*200 2*200
25,88 <  < 30,50
1,64
B( )= *100 = 8,2%
2*200
Przedział liczbowy o końcach 25,88 i 30,50 złotych z prawdopodobieństwem 0,90 obejmuje
nieznane odchylenie standardowe wydatków na usługi telekomunikacyjne. Błąd względny
wynosi 8,2% co wskazuje na dostateczną precyzję oszacowania i dopuszcza do wnioskowania
na podstawie próby.
Zadanie 2
W celu zbadania zróżnicowania wielu kandydatów na studia niestacjonarne II stopnia w UEP
wylosowano 10 osób i otrzymano średni wiek 24,3 lata i odchylenie standardowe wynoszące
4,7 lat. Zakładając, że badana cecha ma rozkład normalny oszacować metodą przedziałową
nieznane odchylenie standardowe wieku kandydatów na studia niestacjonarne II stopnia,
przyjmując współczynnik ufności 0,90 (wartość statystyczna c1 = 3,325 i c2 = 16,919)
UWAGA!!! - c2 zawsze jest większą wartością !!!
(10 -1)*(4,7)2 2 (10 -1)*(4,7)2
<  <
16,919 3,325
2
11,75 <  < 59,79
3,43 <  < 7,73
Przedział liczbowy o końcach 11,75 i 59,79 z prawdopodobieństwem 0,90 pokrywa nieznaną
wariancję wieku wszystkich kandydatów na studia niestacjonarne II stopnia w UEP.
Natomiast przedział liczbowy o końcach 3,43 i 7,73 z prawdopodobieństwem 0,90 pokrywa
nieznane odchylenie standardowe wieku kandydatów.
Przedział ufności dla współczynnika korelacji (Pearsona)
Model
Dwuwymiarowy rozkład dwóch cech mieszanych X, Y, jest normalny lub zbliżony do
normalnego. Losujemy dużą próbę i dla tej próby wyznaczamy współczynnik korelacji p
ńł
1- r(2 y) 1- r(2 y) ł
x, x, ł
łr( x, y) - uą * <  < r( x, y) + uą * = 1-ą
ł żł
ł n n
ł
ół
ł
Zadanie 1
Na podstawie 500 obserwacji ustalono współzależności między poziomem dochodów a
oszczędności. Uzyskano współczynnik korelacji N(x,y) = 0,82. Przyjmując współczynnik
ufności 1-Ź = 0,95 zbudować przedział ufności dla współczynnika korelacji w populacji
generalnej (wartość statystyczna 1,96).
UWAGA!!! Współczynnik Pearsona nie może przekroczyć 1. !!!
1- (0,82)2 1- (0,82)2
0,82 -1,96* <  < 0,82 -1,96*
500 500
0,791 <  < 0,849
Przedział liczbowy o końcach 0,791 i 0,849 z prawdopodobieństwem 0,95 pokrywa nieznaną
wartość współczynnika korelacji Pearsona.
Weryfikacja hipotez statystycznych
Weryfikacja to sprawdzenie hipotez rozkładów lub założeń populacji generalnej.
Hipoteza statystyczna to sąd dotyczący rozkładu lub wartości pewnych parametrów
określonej zmiennej wydany bez przeprowadzenia badania wyczerpującego.
Hipoteza parametryczna to przypuszczenia dotyczące parametrów populacji.
Hipoteza nieparametryczna to przypuszczenia dotyczące rozkładu populacji.
Hipoteza zerowa (H0) jest bezpośrednio sprawdzana
Hipoteza alternatywna (H1) jest konkurencyjna względem hipotezy zerowej (jest jej
zaprzeczeniem).
Hipoteza zerowa zakłada, że pomiędzy estymatorem i parametrem nie ma statystycznie
istotnej różnicy (zawsze ma znak równości).
Hipoteza alternatywna dopuszcza różnice między estymatorem i parametrem.
Testem statystycznym nazywamy regułę postępowania, która każdej możliwej próbie
losowej przyporządkowuje decyzje przyjęcia bądz odrzucenia postawionej hipotezy.
Wyróżnia się:
Testy parametryczne służą do weryfikacji hipotez parametrycznych.
Testy nieparametryczne służą do weryfikacji hipotez nieparametrycznych.
Błąd pierwszego rodzaju polega na odrzuceniu hipotezy zerowej gdy jest ona prawdziwa.
Błąd drugiego rodzaju polega na przyjęciu hipotezy zerowej gdy jest ona fałszywa.
Poziom istotności to prawdopodobieństwo popełnienia błędu pierwszego rodzaju. Jest on
ustalany z góry jako dowolnie małe, bliskie zeru prawdopodobieństwo. Do najczęstszych
należą 0,1; 0,05; 0,01; 0,001. Im wyższy poziom, tym większe prawdopodobieństwo
odrzucenia hipotezy.
Testy istotności, to testy w których na podstawie wyników próby możemy podjąć decyzję o
odrzuceniu hipotezy zerowej lub stwierdzamy, że nie ma podstaw do jej odrzucenia.
W testach nie podejmuje się decyzji o przyjęciu hipotez.
Obszar krytyczny to obszar odrzucenia hipotezy zerowej przy założeniu jej prawdziwości.
W zależności od hipotezy alternatywnej, wyróżnia się obszar krytyczny:
- dwustronny
- lewostronny
- prawostronny
Etapy testowania hipotez:
" sformułowanie hipotezy zerowej i hipotezy alternatywnej
" ustalanie poziomu istotności
" wybór odpowiedniej statystyki testowej związanej z hipotezą zerową
" określenie obszaru krytycznego
" obliczenie wartości wybranej statystyki na podstawie wyników z próby
" porównanie dwóch wartości: obliczonej z próby i odczytanej z tablic
" podjęcie decyzji weryfikującej
Test istotności dla wartości średniej populacji generalnej
Model 1
Populacja generalna ma rozkład normalny ze znanym odchyleniem standardowym. Z
populacji tej wybieramy n - elementową próbę. Na podstawie wyników tej próby
weryfikujemy hipotezę zerową, że średnia populacji generalnej jest równa wartości
hipotetycznej, według hipotezy alternatywnej jest różna.
H0::m = mo H1::m `" mo
x - m0
u = * n

Jeżeli: |u|e"uŹ  są podstawy do odrzucenia hipotezy zerowej
|u|d"uŹ  nie ma podstaw do odrzucenia hipotezy zerowej
W tych testach nie podejmuje się decyzji przyjęcia.
Model 2
Populacja generalna ma rozkład normalny o nieznanej średniej o odchyleniu standardowym.
Z populacji tej pobieramy małą próbę, w oparciu o wyniki tej próby weryfikujemy hipotezę
zerową:
x - m0
t = * n -1
s( x)
mo  wartość hipotetyczna
|t|e"tŹ  odrzucamy hipotezę zerową na korzyść hipotezy alternatywnej
|t|d"tŹ  nie ma podstaw do odrzucenia hipotezy zerowej
Model 3
Zakładamy, że populacja generalna ma rozkład normalny lub inny, ale nie znamy ani średniej,
ani odchylenia standardowego. Z populacji pobieramy dużą próbę (n>30).
Do weryfikacji hipotezy zerowej wykorzystuje się u:
x - m0
u = * n
s(x)
Konstrukcja przebiega identycznie jak w modelu 1.
Zadanie 1
Wiadomo, że rozkład stażu pracy pracowników pewnego zakładu jest normalny z
odchyleniem standardowym wynoszącym 2,3 lata. Na podstawie próby liczącej 16
pracowników stwierdzono, że średni staż pracy wynosi 7,4 lata. Czy na poziomie istotności
0,05 można twierdzić, że średni staż pracy pracowników w tym zakładzie jest większy od 7
lat (wartość krytyczna 1,64).
H0::m = 7 H1::m > 7
7,4 - 7
u = * 16 = 0,7
2,3
uZadanie 2
Czy prawdą jest, że średni czas realizacji zamówienia na dostarczenie pizzy do domu
konsumenta wynosi 28 minut i jeżeli w 17 elementowej próbie takich zamówień średni czas
realizacji to 24 minuty i odchylenie standardowe to 10 minut. Przyjąć poziom istotności 0,05
(wartość krytyczna 2,12).
H0::m = 28 H1::m `" 28
24 - 28
t = * 17 -1 = -1,16
10
|t|Zadanie 3
Wysunięto przypuszczenie, że przeciętny czas dokonania zakupów przez klientów w pewnym
supermarkecie w Poznaniu wynosi 65 minut. W celu sprawdzenia tego przypuszczenia
wylosowano niezależnie próbę liczącą 100 klientów i otrzymano dla niej średni czas 62
minuty i odchylenie standardowe 22,96 minut. Zakładając, że rozkład czasu zakupu jest
normalny oraz, że poziom istotności jest równy 0,05 zweryfikować to przypuszczenie
(wartość krytyczna 1,96).
H0::m = 65 H1::m `" 65
62 - 65
u = * 100 = -1,31
22,96
u Test istotności dla dwóch wartości średnich
Model 1
Zakładamy, że dwie badane populacje generalne mają rozkłady normalne, ze znanymi
wariancjami. Z populacji tych pobieramy dwie próby o liczebności n1 i n2
x1 - x2
u =
2 2
1 
2
+
n1 n2
H0::m1 = m2 H1::m1 `" m2
H1::m1 > m2
H1::m1 < m2
Model 2
Badamy dwie populacje generalne mające rozkłady normalne o nieznanych odchyleniach
standardowych. Z populacji pobieramy dwie małe próby o liczebności n1 i n2 < 30. Na
podstawie prób wyznaczamy średnią i odchylenie standardowe.
x1 -x2
t =
2 2
ł ł
n1s1 + n2s2 ł 1 1
+ ł
ł
n1 + n2 - 2 n1 n2 ł
ł łł
Porównujemy wynik ze statystyką rozkładu studenta o n1 + n2 stopnia swobody.
Model 3
Badamy dwie populacje generalne, gdy obu rozkłady są nieznane. Pobieramy dwie duże
próby i weryfikujemy hipotezę:
x1 -x2
u =
2 2
s1 s2
+
n1 n2
Model 4
Poziom wartości pewnej cechy dokonuje się przed lub po poddaniu badanych jednostek
określonemu zabiegowi. W tej sytuacji przedmiotem analizy są różnice obserwowanych
wartości.
Sprawdzamy H0 jest tu H0::mR = 0 mR średnia w populacji różnic
r
t = * n -1
s(r )
gdzie:
ri = xi - xi
1 2
n
"ri
i=1
r =
n
n n
2
- r )2
"(ri "ri
i=1 i=1
sr = sr = - (r)2
n n
lub
Przy założeniu, że hipoteza zerowa jest prawdziwa, statystyka t ma rozkład T-studenta z n-1
stopnia swobody.
Zadanie 1
Zbadano w losowo wybranych indywidualnych gospodarstwach rolnych województwa
pomorskiego i wielkopolskiego. Średnie zużycie nawozu w kilogramach na hektar użytków
rolnych. Wiadomo, że w obu województwach zużycie nawozów ma rozkład normalny z
jednakowym odchyleniem standardowym 43kg/ha. Średnia z próby o liczebności n1 = 18
wylosowanej z województwa pomorskiego wyniosła 111,2 kg/ha natomiast liczebności n2 =
22 wylosowanej z województwa wielkopolskiego wyniosła 90,7 kg/ha. Przyjmując poziom
istotności 0,05 sprawdzić hipotezę, że średnie zużycie nawozu w obu województwach jest
jednakowa (wartość krytyczna 1,96).
111,2 - 90,7
u = = 1,54
432 432
+
18 22
uZadanie 2
Czy prawdą jest, że średnie oceny z przedmiotów ścisłych uzyskanych przez studentów
wydziału ekonomii i zarządzania nie różnią się istotnie, przy istotności 0,05. Jeśli na
podstawie prób otrzymamy:
Wydział Ekonomii Wydział Zarządzania
n1 = 15 n2 = 10
s1 = 0,35 s2 = 0,54
x1 = 3,93 x2 = 3,68
Rozkład na obu wydziałach średnich ocen jest normalny (wartość krytyczna 2,069)
3,93 - 3,68
t = = 1,34
15*(0,35)2 +10*(0,54)2
15 +10 - 2
|t| Zadanie 3
Powszechnie panuje pogląd, że średnia liczba dni opuszczonych w pracy przez kobiety z
powodu choroby jest wyższa od absencji chorobowej mężczyzn. Na podstawie badania
absencji w pracy uzyskano dla losowo wybranych prób n1 = 80 i n2 = 60. Następujące dane
dotyczące czasu przebywania na zwolnieniu lekarskim:
 x1 = 31 s1 = 14,3
 x2 = 24 s2 = 9,6
Przyjmując poziom istotności 0,05 sprawdzić hipotezę, że absencja kobiet w pracy z powodu
choroby jest wyższa aniżeli mężczyzn (wartość krytyczna 1,64).
31- 24
u = = 3,46
(14,3)2 (9,6)2
+
80 60
u>uŹ Hipotezę zerową odrzucamy.
Zadanie 4
Pewnej grupie 10 pacjentów, którzy poddali się kuracji odchudzającej podano odpowiedni
lek. Wyniki wagi w tej grupie przed kuracją i po kuracji umieszczono w tabeli poniżej:
Kg przed (x1) Kg po (x2) r=x1  x2 r
102 97 5 25
113 102 11 121
97 88 9 81
122 118 4 16
109 99 10 100
98 87 11 121
87 81 6 36
101 98 8 64
119 108 11 121
105 97 8 64
SUMA 83 749
Czy dane te dowodzą, że średnia waga przed i po kuracji jest jednakowa. Poziom istotności
0,1 (wartość krytyczna 1,8830
H0:m = 0 H1:m `" 0
R R
r = 83:10 = 8,3
749
s(x) = - (8,3)2 = 2,45
10
8,3
t = * 10 -1 =10,16
2,45
t > tą
Hipotezę zerową odrzucamy.
Test istotności dla wskaznika struktury
Do weryfikacji hipotezy dotyczącej wskaznika struktury p w populacji generalnej, gdy
dysponujemy odpowiednio liczną próbą (n>100) można wykorzystać statystykę u dla
weryfikacji hipotezy.
H0:p = p0 H1:p `" p0 H1:p > p0 H1:p < p0
m
- p0
n
u =
p0(1- p0)
n
| u |e" uą hipotezę zerową odrzucamy
| u |< uą nie ma podstaw do odrzucenia hipotezy zerowej
Zadanie 1
Wysunięto hipotezę, iż 65% ekonomistów podejmuje systematyczne dodatkową pracę. Czy
jest to przypuszczenie słuszne, jeśli w wylosowanej próbie 200 ekonomistów dodatkową
pracę podejmuje 100 osób? Na poziomie Ź = 0,05 zweryfikuj tę hipotezę (wartość krytyczna
1,96)
H0:p = 0,65 H1:p `" 0,65
120
- 0,65
200
u = = -1,67
0,65(1- 0,65)
200
| u |= -1,67
uą = 1,96
Nie ma podstaw do odrzucenia hipotezy zerowej.
* * *
Przy badaniu i porównaniu dwóch populacji ze względu na wyróżnioną cechę często
formułujemy przypuszczenie, że wskazniki struktury, czyli frakcje elementów wyróżnionych
w obu tych populacjach są identyczne.
H0:p = p2 H1:p `" p2 H1:p > p2 H1:p < p2
1 1 1 1
Procedurę weryfikacji realizujemy w odniesieniu o próby n1 i n2 przy czym każda z nich liczy
ponad 100 elementów. W obu tych próbach otrzymujemy liczbę m1 i m2 elementów z cechą
wyróżnioną .
Test istotności dla postawionej hipotezy
1) Obliczamy wartość średniego wskaznika struktury z obu prób:
m1 + m2
p =
n1 + n2
2) Wartość pseudoliczebności próby n:
n1 *n2
n =
n1 + n2
3) Sformułowaną hipotezę zerową sprawdzamy testem:
m1 m2
-
n1 n2
u =
q = 1- p
p *q
n
| u |e" uą hipotezę zerową odrzucamy
| u |< uą nie ma podstaw do odrzucenia hipotezy zerowej
Zadanie 1
W dwóch biurach podróży Neckerman i TUI przeprowadzono badania ankietowe, w których
pytano między innymi o preferowany środek transportu w przypadku wykupienia w tym
biurze wczasów. Z pośród 300 wylosowanych klientów Neckerman 54 osoby oświadczyły, że
wolą samolot, natomiast z pośród 200 klientów TUI, ten sam środek transportu preferowało
46 osób. Czy na poziomie istotności 0,05 można twierdzić, że odsetek klientów preferujących
samolot jako środek transportu w obu biurach podróży jest jednakowy (wartość krytyczna
1,96)?
H0: p1 = p2 H1:p `" p2
1
54 + 46
p = = 0,2
300 + 200
300*200
n = = 120
300 + 200
54 46
-
300 200
u = = -1,25
0,2*0,8
120
Nie ma podstaw do odrzucenia hipotezy zerowej.
Test istotności dla wariancji
Badana populacja ma rozkład normalny przy czym żaden z parametrów populacji nie jest
znany. Z populacji tej pobieramy próbę n<30 stawiamy hipotezę zerową, że wariancja
populacji generalnej jest równa wartości hipotetycznej.
W przypadku wariancji hipoteza alternatywna zawsze będzie większa od hipotezy
hipotetycznej.
2 2 2 2
H0: = 0 H1: > 
0
Weryfikujemy tę hipotezę za pomocą statystyki  (chi kwadrat):
n* s(2x)
2
 =
2
0
2
hipotezę zerową odrzucamy
 e" wartośa _ krytyczna
2
nie ma podstaw do odrzucenia hipotezy zerowej
 < wartośa _ krytyczna
Dla dużej próby (n>30) rozkład  zmierza do postaci rozkładu normalnego:
2
u = 2 *  - 2n - 3
Zadanie 1
Czy jest możliwe, że średnie zróżnicowanie cen 1m mieszkań oferowanych przez firmy
budowlane w Poznaniu w III kwartale 2006 roku wynosi ą 0,4 tys. zł. jeśli dla 10
elementowej próby ofert uzyskano przeciętne zróżnicowanie cen równe 0,38 tys. zł.
Przyjmując Ź = 0,05 (wartość krytyczna 16,919).
2 2
H0: = 0,16 H1: > 0,16
10*(0,38)2
2
 = = 9,025
(0,4)2
2 2
 < 0
Nie ma podstaw do odrzucenia hipotezy zerowej.
Zadanie 2
Dokonano 50 pomiarów opóznień pociągów przybyłych na stację Poznań Główny w stosunku
do czasu zgodnego z rozkładem jazdy. Otrzymano średnią wielkość opóznienia wynoszącego
20 minut. Zakładając, że rozkład czasów opóznień pociągów ma rozkład normalny,
zweryfikuj hipotezę, iż dyspersja opóznień przekracza 8 minut przyjmując poziom istotności
0,05 (wartość krytyczna 1,64).
2 2
H0: = 64 H1: > 64
50* (10)2
2
 = = 78,125
(8)2
u = 2* 78,125 - 2 *50 - 3 = 2,65
Hipotezę zerową odrzucamy.
Test istotności dla dwóch wariancji
Pobieramy dwie próby n1 i n2, i weryfikujemy hipotezę zerową, że wariancje w obu
populacjach są jednakowe wobec przeciwstawnego przypuszczenia
2 2 2
H0:1 =  H1:12 > 
2 2
Duża wariancja w populacji jest nie korzystna.
Przy konstrukcji testu weryfikującego powyższą hipotezę zerową korzystamy z rozkładu F-
Sendecora:
2
s1
F =
2
s2
Ze względu na postać hipotezy alternatywnej niezbędne jest ponumerowanie prób w taki
sposób by spełniona była relacja:
2 2
s1 > s2
...... indeksem 1 numerujemy & & .
Zadanie 1
W celu porównania dwóch miejscowości nadmorskich ze względu na liczbę miejsc w
pensjonatach z każdej z tych miejscowości wylosowano po 10 takich obiektów zbiorowego
zakwaterowania. Dla pierwszej miejscowości otrzymano wariancję 39,4 dla drugiej 24,1.
poziom istotności 0,05. Sprawdzić wariancję liczby miejsc w pensjonacie w obu
miejscowościach są jednakowe (wartość krytyczna 3,18)
2 2 2
H0:1 =  H1:12 > 
2 2
39,4
F = =1,63
24,1
Nie ma podstaw do odrzucenia hipotezy zerowej.
Test istotności dla korelacji liniowej Pearsona.
Badane cechy (X,Y) populacji generalnej mają dwumianowy rozkład normalny o nieznanym
współczynniku korelacji . Z populacji tej pobrano n - elementową próbę, na podstawie której
obliczono współczynnik korelacji z próby. Wysunięto hipotezę, że badane cechy są nie
skorelowane w populacji generalnej.
H0: = 0 H1: `" 0 H1: > 0 H1: < 0
Dla n<122
rxy
t = * n - 2
2
1- rxy
Dla ne"122
rxy
u = * n
2
1- rxy
Zadanie 1
Z losowej próby o liczebności n=11 partii gotowych wyrobów otrzymano współczynnik
korelacji r=0,4 między wielkością partii, a wadliwością. Na poziomie istotności Ź = 0,10
zweryfikować hipotezę o braku korelacji między wielkością produkowanych partii wyrobów,
a ich wadliwością (wartość krytyczna 1,833).
H0: = 0 H1: `" 0
0,4
t = * 11- 2 =1,3
1- (0,4)2
Nie ma podstaw do odrzucenia hipotezy zerowej.
Zadanie 2
W wylosowanej próbie 324 pracowników zakładu  X badano tygodniowy czas
przeznaczony na podnoszenie poziomu kulturalnego i zawodowego oraz czas wolny.
Współczynnik korelacji między tymi zmiennymi wynosi 0,94 na poziomie istotności Ź = 0,05.
zweryfikuj hipotezę, że badane cechy są liniowo nie skorelowane (wartość krytyczna 1,96).
H0: = 0 H1: `" 0
0,94
u = * 324 = 49,76
1- (0,94)2
Hipotezę zerowa odrzucamy.
Test istotności dla współczynnika korelacji rang
H0:s = 0 H1:s `" 0 H1:s > 0 H1:s < 0
Dla n <10
rs
t =
1- rs2
n - 2
Dla ne"10
u = rs * n -1
Zadanie 1
W celu sprawdzenia czy istnieje zależności między liczbą reklam pewnego środka czystości
w TVN w ciągu danego miesiąca, a wielkość sprzedaży tego środka w ciągu następnego
miesiąca przeprowadzono w pewnej miejscowości badanie.
Rangi
L. reklam (x) Sprzedaż (y) d'= Rx - Ry d
r(x) r(y)
18 10 5 3,5 1,5 2,25
10 9 3 2 1 1
7 8 1 1 0 8
25 16 9 9 0 2,25
8 10 2 3,5 -1,5 4
17 15 6 3 -2 4
12 13 4 5 -1 1
18 14 7 6,5 0,5 0,25
20 14 8 6,5 1,5 2,25
- - - - - Ł 13
Na poziomie istotności Ź = 0,05 sprawdzić istotność współczynnika korelacji rang wiedząc, iż
wartość krytyczna odpowiedniego testu wynosi 2,365
H0: = 0 H1: `" 0
r
2
6*
"di
6*13
i=1
rs = 1- = 0,8917 rs =1-
93 - 9 n3 - n
0,8917
t = = 5,21
1- (0,8917)2
9 - 2
Hipotezę zerową odrzucamy.
Zadanie 2
W pewnej szkole zasięgnięto opinii nauczycieli i kolegów o 12 uczniach. Współczynnik
korelacji rang wynosi 0,189. na poziomie istotności Ź = 0,05 sprawdzić hipotezę, czy opinie
nauczycieli i kolegów są zbieżne (wartość krytyczna 1,96).
H0: = 0 H1: `" 0
u = 0,189* 12 -1 = 0,63
Nie ma podstaw do odrzucenia hipotezy zerowej.


Wyszukiwarka

Podobne podstrony:
LISTA ZADA â 3 WNIOSKOWANIE STATYSTYCZNE
Statystyka wyklad 7
Wnioskowanie statystyczne estymacja zadania przykładowe
Statystyka wyklad 4
Statystyka wyklad4nowy
LISTA ZADA â 1 WNIOSKOWANIE STATYSTYCZNE
sdz statystyka wyklad 4
Wnioskowanie statystyczne
Statystyka wykłady
Statystyka wyklad5
Statystyka wyklad 8
Statystyka wyklad 3
Statystyka wyklad 9
Statystyka1st Wyklad2
Manipulacja edukacją – wykład oraz wnioski po wykładzie
Statystyka wyklad 6
Statystyka Wykłady
Statystyka1st Wyklad6 Regresja

więcej podobnych podstron