Wnioskowanie statystyczne


Wnioskowanie statystyczne.
Milena Bieniek
13 maja 2014
Zmienna losowa
" zmienna losowa - zmienna, która przyjmuje różne wartości
liczbowe, wyznaczone przez los.
" rozkład prawdopodobieństwa zmiennej losowej -
przyporządkowanie prawdopodobieństw różnym wartościom
zmiennej losowej
Rodzaje zmiennych losowych:
" skokowa (dyskretna) - przyjmuje wartości ze zbioru
przeliczalnego
" ciągła - przyjmuje wartości z dowolnego przedziału liczbowego
Zmienna losowa
" Zmienna losowe oznaczamy dużymi literami tj. X , Y i inne.
" Małych liter używamy do oznaczenia poszczególnych wartości
przybieranych przez zmienne losowe. Zapis P(X = x) oznacza
prawdopodobieństwo, że zmienna losowa X przyjmie wartość
x.
" Na przykład P(X = 5) = 0, 5 oznacza, że zmienna losowa X
przyjmie wartość 5 z prawdopodobieństwem 0, 5.
Zmienna losowa skokowa
Rozkład prawdopodobieństwa skokowej zmiennej losowej X spełnia
następujące warunki:
1 P(x) 0 dla wszystkich wartości x.
2

P(x) = 1.
wszystkie x
Każdego dnia gazeta otrzymuje zamówienia na ogłoszenia do
wydania w następnym dniu. Liczba ogłoszeń zamieszczonych w
gazecie w danym dniu jest zmienną losową X i wyraża się jedną z
liczb naturalnych 0, 1, 2, 3, . . . . X jest zmiennÄ… losowa skokowÄ….
Rozkład tej zmiennej losowej:
x 0 1 2 3 4
P(x) 0,1 0,2 0,3 0,2 0,2
Nie zamieszcza się nigdy więcej niż 4 ogłoszeń dziennie.
Rozkład prawdopodobieństwa
x 0 1 2 3 4
P(x) 0,1 0,2 0,3 0,2 0,1
można zobrazować za pomocą wykresu.
Skąd biorą się prawdopodobieństwa? Częstości z jakimi pojawią się
różne liczby ogłoszeń w przeciagu wielu dni uznajemy za
prawdopodobieństwa.
Skumulowana funkcja rozkładu
Skumulowaną funkcją rozkładu zmiennej losowej X jest funkcja:

F (x) = P(X x) = P(i).
wszystkie i x
Dystrybuanta liczby ogłoszeń:
x P(x) F (x)
0 0,1 0,1
1 0,2 0,3
2 0,3 0,6
3 0,2 0,8
4 0,2 1
Wykres funkcji F (x) schodkowy.
Wartość oczekiwana zmiennej losowej
" Rozkład prawdopodobieństwa można traktować jako rozkład
częstości w długiej serii obserwacji.
" Średnia rozkładu zmiennej losowej jest średnią ważoną
wszystkich możliwych wartości zmiennej losowej, w której
wagami są prawdopodobieństwa.
Oczekiwana wartość skokowej zmiennej losowej X jest równa sumie
wszystkich możliwych wartości tej zmiennej losowej mnożonych
przez ich prawdopodobieństwa:

µ = E(X ) = xP(x).
wszystkie x
Przykład
Znajdz wartość oczekiwana liczby ogłoszeń pojawiających się w
gazecie.
x P(x) xP(x)
0 0,1 0
1 0,2 0,2
2 0,3 0,6
3 0,2 0,6
4 0,2 0,8
suma 1 2,2
E(X ) = 2, 2 czyli przeciętnie dziennie zamieszcza się 2,2
ogłoszenia.
Wartość oczekiwana funkcji zmiennej
losowej
Oczekiwaną wartością funkcji zmiennej losowej h(X ) jest

E[h(X )] = h(x)P(x).
wszystkie x
Przykład: Dzienną sprzedaż pewnego produktu charakteryzuje
rozkład prawdopodobieństwa podany w tablicy. Firma ponosi stały
koszt produkcji 100 dolarów i na każdej wyprodukowanej jednostce
zarabia 2 dolary. Jaki jest miesięczny oczekiwany zysk firmy?
Funkcja zysku jest dla firmy funkcja h(x) = 2X - 100. StÄ…d
sprzedaż-x P(x) h(x) h(x)P(x)
100 0,2 100 20
200 0,4 300 120
300 0,2 500 100
400 0,2 700 140
suma 1 E[h(X)]=380
Wariancja skokowej zmiennej losowej
WariancjÄ… skokowej zmiennej losowej X jest:

Ã2 = V (X ) = E[(X - µ)2] = (x - µ)2P(x).
wszystkie x
Wygodny do stosowania wzór obliczania wariancji zmiennej losowej:
2
Ã2 = V (X ) = E(X ) - [E(X )]2.
Standardowe odchylenie zmiennej losowej:

à = V (X ).
Znaczenie wariancji i odchylenia
standardowego
" Wariancja to średnie kwadratowe odchylenie wartości zmiennej
losowej od jej średniej (miara rozproszenia).
" Wariancja daje wyobrażenie o zmienności (niepewności)
związanej z przyszłymi wartościami zmiennej.
" Z dwóch zmiennych losowych zmienna o większej wariancji
(lub odchyleniu standardowym) wykazuje większe
rozproszenie.
" Standardowe odchylenie stopy przychodu z określonej lokaty
kapitału jest uznane za miarę ryzyka.
Liniowe funkcje zmiennej losowej
Oczekiwana wartość liniowej funkcji zmiennej losowej:
E(aX + b) = aE(X ) + b.
Wariancja liniowej funkcji zmiennej losowej:
V (aX + b) = a2V (X ) = a2Ã2.
Rozkład dwumianowy
Przykłady:
" Rzucamy cztery razy monetÄ…. Niech H oznacza liczbÄ™
wyrzuconych reszek.
" W pewnym mieście 30% mieszkańców woli korzystać z
komunikacji miejskiej, niż z własnego samochodu. Wybrano
próbę dwudziestoosobową. Niech T będzie liczbą mieszkańców
w próbie, którzy wolą korzystać z komunikacji miejskiej.
Zmienne losowe H i T mają rozkład Bernouliego zwanego również
rozkładem dwumianowym.
Rozkład dwumianowy
Doświadczenia Bernouliego to ciągi identycznych doświadczeń
spełniających następujące warunki:
" Są dwa możliwe wyniki każdego doświadczenia: sukces i
porażka. Wyniki te się dopełniają i wykluczają.
" Prawdopodobieństwo sukcesu wynosi p, a porażki q = 1 - p.
" Doświadczenia są niezależne.
Zmienna losowa X jest liczbą sukcesów w serii n doświadczeń
Bernouliego z prawdopodobieństwem sukcesu p.

n n!
P(X = x) = pxqn-x = pxqn-x.
x x!(n - x)!
Średnia i wariancja rozkładu dwumianowego:
µ = E(X ) = np, Ã2 = V (X ) = npq.
Zmienna losowa ciągła
DEFINICJA Ciągła zmienna losowa przyjmuje wartości z pewnego
przedziału liczbowego. Własności funkcji gęstości f (x):
" f (x) 0 dla wszystkich x.

b
" P(a < X < b) = f (x) - prawdopodobieństwo, że X
a
przyjmie wartość między a i b jest równe mierze pola pod
wykresem f (x) między punktami a i b.

"
" f (x) = 1 - pole pod krzywÄ… f (x) ma miarÄ™ 1.
-"
Dystrybuanta ciągłej zmiennej losowej X ma postać

x
F (x) = P(X x) = f (x) i jest miarÄ… pola pod wykresem
-"
funkcji f (x) między -" a x.
Rozkład jednostajny
Pociągi metra kursują co 6 minut. Załóżmy, że pasażer przychodzi
w sposób losowy. Czas oczekiwania na pociąg-zmienna losowa,
może przyjąć wartość z przedziału [0, 6]. Funkcja gęstości:
f (x) = 1/6 dla 0 x 6,
i f (x) = 0 poza.
Oblicz prawdopodobieństwo, że pasażer będzie czekał mniej niż 3
minuty.
Rozkład normalny
Gdy wzrasta liczba doświadczeń n w rozkładzie dwumianowym
otrzymujemy rozkład normalny zwany rozkładem Gaussa. Wiele
cech osobniczych tj. waga czy wzrost ma w jednorodnych
populacjach rozkład normalny. Rozkłady wielu wielkości
obserwowanych w próbie dążydo rozkładu normalnego.
Zmienna losowa X ma rozkÅ‚ad normalny o Å›redniej µ i odchyleniu
standardowym à gdy jej funkcja gÄ™stoÅ›ci ma postać:
"
2
f (x) = (1/(Ã 2Ä„))e-(x-µ) /(2Ã2) dla - " < x < ",
gdzie e i Ä„ sÄ… liczbami 2, 78 . . . i 3, 141 . . . .
Rozkład normalny: kilka uwag
" Rozkład normalny to przybliżenie zmiennych losowych
skokowych.
" Rozkład normalny ma dwa parametry średnią i odchylenie
standardowe.
" Kształt wszystkich rozkładów normalnych jest taki sam: jest
symetryczny i ma kształt dzwonu.
" BÄ™dziemy pisać: X <" N(µ; Ã2).
Standaryzowany rozkład normalny
StandaryzowanÄ… zmiennÄ… losowa Z jest normalna zmienna losowa
o Å›redniej µ = 0 i odchyleniu standardowym à = 1. Zapiszemy:
Z <" N(0, 12).
Standaryzowany rozkład normalny
" Prawdopodobieństwo znalezienia wartości zmiennej w danym
przedziale jest reprezentowane przez pole pod krzywą gęstości
f (x) ponad danym przedziałem. Pole pod krzywą f (x) jest
równe 1.
" Standardowy rozkład normalny jest stablicowany.
" Każda normalna zmienna losowa X może być przekształcona
w standaryzowaną zmienna losową, którą oznaczamy
najczęściej przez Z:
X - µ
Z =
Ã
" Dystrybuantę rozkładu normalnego oznaczamy często przez Ś.
" Dwa ważne rozkÅ‚ady: rozkÅ‚ad t-Studenta i rozkÅ‚ad Ç2
zmierzają do rozkładu normalnego gdy wzrasta liczebność
próby. Rozkład dwumianowy również zmierza do normalnego
"
gdy roÅ›nie liczba doÅ›wiadczeÅ„ i µ = np, a à = npq.
Przykład
Producent samochodów jest przekonany, że liczba kilometrów,
które można przejechać na jednym z jego silników, ma rozkład
normalny ze średnią 100000 km i odchyleniem standardowym
20000 km. Jakie jest prawdopodobieństwo, że silnik tego typu ma
przebieg między 80000 a 120000 km, zanim trzeba go będzie
wymienić?
Po pierwsze zmienną losową X <" N(100000, 200002) należy
zestandaryzować:
80000 - µ X - µ 120000 - µ
P(80000 < X < 120000) = P( < < )
à à Ã
80000 - 100000 120000 - 100000
= P( < Z < )
20000 20000
= P(-1 < Z < 1) = 2Åš(1) - 1 = 2 " 0.841 - 1 = 0.682.
Fragment tablicy rozkładu Gaussa
z 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07
0.0 0.500 0.504 0.508 0.512 0.516 0.520 0.524 0.528
0.1 0.540 0.544 0.548 0.552 0.556 0.560 0.564 0.567
0.2 0.579 0.583 0.587 0.591 0.595 0.599 0.603 0.606
0.3 0.618 0.622 0.626 0.629 0.633 0.637 0.641 0.644
0.4 0.655 0.659 0.663 0.666 0.670 0.674 0.677 0.681
0.5 0.691 0.695 0.698 0.702 0.705 0.709 0.712 0.716
0.6 0.726 0.729 0.732 0.736 0.739 0.742 0.745 0.749
0.7 0.758 0.761 0.764 0.767 0.770 0.773 0.776 0.779
0.8 0.788 0.791 0.794 0.797 0.800 0.802 0.805 0.808
0.9 0.816 0.819 0.821 0.824 0.826 0.829 0.831 0.834
1.0 0.841 0.844 0.846 0.848 0.851 0.853 0.855 0.858
Statystyki z próby jako estymatory
parametrów populacji
" We wnioskowaniu statystycznym interesuje nas populacja.
Chcemy wykorzystać znaną próbę losową do wyciśnięcia z niej
informacji o nieznanej populacji.
" Informacja, którą otrzymujemy z próby przyjmuje postać
pewnej zbiorczej statystyki. Może być nią: średnia z próby,
odchylenie standardowe z próby i inne charakterystyki
obliczone z próby.
" Taka statystyka jak średnia z próby jest traktowana jako
estymator pewnego parametru populacji: średniej w populacji.
" Związki między statystykami - estymatorami i parametrami
określają rozkłady z próby.
Statystyki z próby jako estymatory
" Populacja może być licznym, czasem nieskończonym zbiorem
elementów.
" W populacji jest pewien rozkład częstości, z jaką pojawiają się
w niej elementy o pewnych własnościach.
" Jeśli są one częstościami względnymi, to rozkład częstości jest
rozkładem prawdopodobieństwa.
" Tak jak zmiennym losowym, możemy populacji przypisać
średnią i odchylenie standardowe; nazywamy je parametrami i
oznaczamy przez µ i Ã.
Statystyki z próby jako estymatory
" parametry populacji - liczbowe charakterystyki całej populacji
" statystyka z próby - liczbowa charakterystyka próby
" estymator parametru populacji - statystyka z próby używana
do oszacowania tego parametru;
" Przypuszczamy, że liczba będąca oceną punktową estymatora,
leży blisko parametru populacji, do szacowania którego służy.
" Ocena przedziałowa jest przedziałem, o którym z dużym
prawdopodobieństwem wiemy, że zawiera nieznany parametr
populacji. Przekazuje więcej informacji niż ocena punktowa.
Statystyki z próby jako estymatory
Å»
" Åšrednia z próby X jest estymatorem Å›redniej w populacji µ.
" Odchylenie standardowe z próby S jest estymatorem
odchylenia standardowego w populacji Ã.
" frakcja p- liczba elementów populacji należącej do pewnej
kategorii, podzielona przez liczbę wszystkich elementów
populacji
x
" frakcja w próbie p = , gdzie x jest liczba elementów próby,
Ć
n
które należą do interesującej nas kategorii, n- liczebność próby
Ć
" P szacuje p
PRZYKAAD. Chcemy oszacować frakcję konsumentów
używających zmywarki do naczyń w pewnym rejonie. Nieznaną
Ć
frakcjÄ… populacji jest p. Szacujemy p za pomocÄ… statystyki P -
frakcji w próbie. Przypuśćmy, że w próbie losowej złożonej ze 100
konsumentów, 25 używa zmywarki do naczyń. Punktową oceną
parametru p jest p = 25/100 = 0, 25.
Ć
Rozkłady z próby
" Rozkład statystyki z próby - rozkład prawdopodobieństwa
wszystkich możliwych wartości, jakie ta statystyka może
przyjąć, jeżeli obliczamy je na podstawie badania losowych
prób o tych samych rozmiarach, pobranych z określonej
populacji.
Å»
" Rozkład średniej z próby X - rozkład prawdopodobieństwa
Å»
wszystkich możliwych wartości X , gdy próba o liczebności n
jest pobierana z określonej populacji.
Oczekiwana wartość i standardowy błąd średniej z próby:
"
Å»
E(X ) = µ, Ãx = Ã/ n.
Å»
Jeśli rozkład w populacji normalny to rozkład średniej jest
normalny
Å»
X <" N(µ, Ã2/n).
Przeciętnie średnia z próby pokrywa się ze średnią w populacji.
Przy wzroście liczebności próby odchylenie standardowe maleje
Å»
czyli X jest coraz bliższe µ.
CENTRALNE TWIERDZENIE
GRANICZNE
Jeżeli pobieramy próbÄ™ z populacji o Å›redniej µ i skoÅ„czonym
odchyleniu standardowym à to rozkÅ‚ad Å›redniej z próby dąży do
rozkÅ‚adu normalnego o Å›redniej µ i odchyleniu standardowym
"
Ã/ n, gdy wzrasta nieograniczenie liczebność próby czyli
Å»
X <" N(µ, Ã2/n).
Często nie znamy kształtu populacji. Pożyteczne jest stosowanie
reguły kiedy liczebność próby jest dostatecznie duża, by stosować
CTG. Próba dostatecznie duża - zawiera przynajmniej 30
elementów. Regułę tę stosujemy z ostrożnością!
Przykład zastosowania CTG
Firma Mercury produkuje 2,4 litrowe silniki używane w łodziach
motorowych. Inżynierowie pracujący w firmie uważają, ze silniki
osiągają przeciętną moc 220 KM i że standardowe odchylenie mocy
wynosi 15 KM. Nabywca silników zamierza zbadać próbę 100
silników (z których każdy zostanie wypróbowany dokładnie raz).
Å»
Jakie jest prawdopodobieństwo, że średnia z próby X przyjmie
wartość mniejszą niż 217 KM?
217 - µ 217 - 220
Å»
P(X < 217) = P(Z < " ) = P(Z < " ) =
Ã/ n
15/ 100
= P(Z < -2) = 0, 0228.
Prawdopodobieństwo, to jest znikome.
Przedziały ufności. Przykład
" Estymator punktowy jest liczbą, która szacuje parametr, ale
nie dajemy żadnej informacji o dokładności oszacowania.
Mówimy, że średnia w próbie jest równa 550. Tym samym
dajemy ocenę średniej w populacji. Ale ta ocena nic nie mówi
o tym jak dalece Å›rednia w populacji µ może odbiegać od 550.
" Przypuśćmy, że dodatkowo powiedzieliśmy, że mamy 99%
pewnoÅ›ci (ufnoÅ›ci), że µ leży w przedziale [449, 551]. W ten
sposób przekazaliÅ›my wiÄ™cej informacji o możliwej wartoÅ›ci µ.
" Porównajmy ten przedział z innym. Powiedzmy, że mamy 90%
pewnoÅ›ci (ufnoÅ›ci), iż µ leży w przedziale [400, 700].
Stwierdzenie to przekazuje mniej informacji o µ, gdyż
przedział jest szerszy, a poziom ufności mniejszy.
Definicja przedziału ufności
Przedziałem ufności nazywamy przedział liczbowy, o którym
przypuszczamy, że mieści się w nim nieznany parametr populacji. Z
przedziałem tym związana jest miara ufności (pewności), że ten
przedział naprawdę zawiera interesujący nas parametr, zwana
poziomem ufności.
PrzedziaÅ‚y ufnoÅ›ci dla Å›redniej µ w
populacji gdy odchylenie standardowe
à w populacji jest znane
CTG mówi, że gdy pobieramy próbę losową z dowolnej populacji o
Å»
Å›redniej µ i odchyleniu standardowym à to Å›rednia z próby X ma w
przybliżeniu rozkÅ‚ad normalny ze Å›redniÄ… µ i odchyleniu
"
standardowym Ã/ n.
Definicje
" Przez zą/2 będziemy oznaczać taką wartość standaryzowanej
zmiennej losowej Z, która odcina pod prawym ogonem krzywej
gęstości normalnej pole o mierze ą/2.
" Miara pola pod krzywą z wyłączeniem pól pod ogonami,
równa 1 - ą jest nazywana współczynnikiem ufności. Miara
obu pól pod ogonami ą nazywa się prawdopodobieństwem
błędu. Współczynnik ufności pomnożony przez 100 daje
poziom ufności wyrażony w procentach.
" (1 - Ä…)% przedziaÅ‚ ufnoÅ›ci dla µ, gdy znane jest Ã, a próba
pochodzi z populacji normalnej lub jest dużą próbą, wyznacza
wzór
Ã
x Ä… zÄ…/2 .
Å» "
n
Przykład
Chcemy znalezć 80% przedział ufności. Wtedy
1 - Ä… = 0, 8, Ä… = 0, 2
Ä…/2 = 0, 1, 1 - Ä…/2 = 0, 9.
Ponadto
Åšz0,1 = 0, 9
czyli z0,1 = 1, 28.
" Jeżeli pobieramy próby o tej samej liczebności z tej samej
populacji, to im wyższy poziom ufności, tym szerszy jest
przedział ufności.
" Jeżeli pobieramy próbę z tej samej populacji, to przy
ustalonym poziomie ufności im liczniejsza jest próba, tym
węższy jest przedział ufności.
Przykład
" Wyznaczmy teraz nie 95%, a 80% przedział ufności przy
n = 25, średniej x = 122 i à = 20. Mamy
Å»
à 20
xÄ…1, 28 = 122Ä…1, 28 = 122Ä…5, 12 = [116, 88; 127, 12].
Å» " "
n
25
Przedział ten jest węższy niż 95%.
" Jeżeli chcemy mieć wąski przedział ufności przy wysokim
poziomie ufności, musimy zgromadzić dużo informacji, czyli
pobrać dużą próbę.
" Wyznaczmy 80% przedział ufności, ale dla próby 2500
elementowej. Nowy przedział ufności jest 10 razy węższy od
wyznaczonego poprzednio.
à 20
xÄ…1, 28 = 122Ä…1, 28 = 122Ä…0, 512 = [121, 49; 122, 51].
Å» " "
n
2500
" Rozpiętość tego przedziału: 2 " 0, 52 = 1, 024, dla próby
25-elementowej: 2 " 5, 12 = 10, 24.
PrzedziaÅ‚y ufnoÅ›ci dla Å›redniej µ gdy
à w populacji NIE jest znane
" W realnych sytuacjach badawczych standardowe odchylenie w
populacji rzadko jest znane.
" Jeżeli rozkład w populacji jest normalny, to standaryzowana
statystyka
Å»
X - µ
t = "
S/ n
ma rozkład t-Studenta z n - 1-stopniami swobody.
" Rozkład ten jest rozkładem symetrycznym podobnym w
kształcie do normalnego, ale bardziej płaskim z dłuższymi
ogonami.
" Im większa liczba stopni swobody tym rozkład jest bardziej
stromy i zbliża się do standardowego rozkładu normalnego.
Definicja przedziału ufności
(1 - Ä…)100% przedziaÅ‚ ufnoÅ›ci dla µ, gdy à nie jest znane, a
rozkład w populacji jest normalny, wyznacza wzór
s
x Ä… tÄ…/2 "
Å»
n
gdzie tą/2 jest wartością z rozkładu t-Studenta o n - 1-stopniach
swobody, która odcina pod ogonem krzywej gęstości rozkładu pole
o mierze Ä…/2 z prawej strony.
Przykład
Analityk giełdowy chce oszacować przeciętny przychód z pewnej
akcji (w procentach). Losowa próba z 15 dni wykazała przeciętny w
skali rocznej przychód x = 10, 37%, przy odchyleniu standardowym
Å»
s = 3, 5%. Zakładając, że rozkład przychodów jest normalny,
wyznaczymy 95% przedział ufności dla przeciętnego przychodu z
tej akcji.
Z tablicy odczytujemy: t0,025 = 2, 145 oraz obliczamy:
s 3, 5
x Ä… tÄ…/2 = 10, 37 Ä… 2, 145 = [8, 43; 12, 31].
Å» " "
n
15
Analityk może mieć 95% ufności, że przeciętny roczny przychód z
akcji znajdzie siÄ™ miedzy 8,43% a 12,31%.
PrzedziaÅ‚y ufnoÅ›ci dla Å›redniej µ w
populacji gdy odchylenie standardowe
à w populacji NIE jest znane
" Jeżeli à nie jest znane, a rozkÅ‚ad w populacji jest normalny,
powinniśmy się posługiwać rozkładem t- Studenta z n - 1
stopniami swobody, ale przy dużej liczbie stopni swobody
dobrym przybliżeniem jest rozkład normalny.
" Dla dużej próby (1 - Ä…)100% przedziaÅ‚ ufnoÅ›ci dla µ, gdy Ã
nie jest znane, a rozkład w populacji jest normalny, wyznacza
wzór
s
x Ä… zÄ…/2 "
Å»
n
Przykład
Ekonomista chce oszacować przeciętny stan rachunków czekowych
w bankach w danym regionie. W pobranej próbie 100 rachunków
otrzymano x = 357, 60$ i s = 140$. 95% przedziaÅ‚ ufnoÅ›ci dla µ tj.
Å»
dla przeciętnego stanu rachunków czekowych ma postać:
s 140
x Ä… zÄ…/2 = 357, 6 Ä… 1, 96 = [330, 16; 385, 04].
Å» " "
n
100
Ekonomista może mieć 95% ufności, że przeciętny stan rachunków
czekowych mieści się w przedziale od 330,16$ a 385,04$.
Przedziały ufności dla frakcji w
populacji gdy próba jest duża
" Czasami interesujemy się względną częstością pojawiania się
pewnej cechy czyli frakcją elementów mających pewną cechą.
Ć
" Wiadomo, że statystyka z dużej próby P ma rozkład normalny

ze średnią p i odchyleniem standardowym pq/n
" Próba jest duża gdy np i nq są większe od 5.
" Dla dużych prób (1 - ą)100% przedział ufności dla frakcji w
populacji wyznacza wzór

pq
ĆĆ
p Ä… zÄ…/2 ,
Ć
n
gdzie frakcja z próby p jest równa liczbie sukcesów w próbie,
Ć
x, podzielonej przez liczebność próby n.
Przykład
Firma prowadząca badania rynkowe chce oszacować udział
przedsiębiorstw zagranicznych w amerykańskim rynku pewnego
produktu. Pobrano próbę 100 konsumentów i stwierdzono, że 34
osoby kupują produkt zagraniczny. Wyznaczymy 95% przedział
ufności dla udziału produktu zagranicznego w rynku
amerykańskim. Mamy x = 34, n = 100, i stąd oceną frakcji w
populacji jest p = x/n = 34%. Na mocy wzoru 95% przedział
Ć
ufności dla frakcji w populacji ma postać:

pq 0, 34 " 0, 66
ĆĆ
p Ä… zÄ…/2 = 0, 34 Ä… 1, 96 = [0, 2472; 0, 4328].
Ć
n 100
Firma może mieć 95% zaufania do tego, że zagraniczni producenci
opanowali rynek w granicach od 24,72% do 43,28%.
Przedziały ufności dla wariancji
" Czasami interesuje nas wariancja np. w analizie procesu
produkcyjnego lub w badaniach procesów masowej obsługi.
" Estymatorem punktowym wariancji z populacji à jest
wariancja z próby S2.
" Do wyznaczenia przedziału ufności potrzebny jest rozkład
chi-kwadrat (Ç2).
" Rozkład chi-kwadrat jest rozkładem prawdopodobieństwa
sumy kwadratów niezależnych standardowych normalnych
zmiennych losowych.
" Jest on prawostronnie skośny.
Rozkład chi-kwadrat i przedział
ufności dla wariancji
" Jeżeli próba została pobrana z populacji o rozkładzie
normalnym, to zmienna losowa:
(n - 1)S2
Ç2 =
Ã2
ma rozkład chi-kwadrat o n - 1 stopniach swobody.
" (1 - Ä…)100% przedziaÅ‚ ufnoÅ›ci dla wariancji w populacji Ã2
gdy rozkład w populacji jest normalny, wyznacza wzór
(n - 1)s2 (n - 1)s2
[ , ],
Ç2 Ç2
Ä…/2 1-Ä…/2
gdzie Ç2 jest wartoÅ›ciÄ… zmiennej w rozkÅ‚adzie chi-kwadrat o
Ä…/2
n - 1 stopniach swobody, która odcina pole o mierze ą/2 z
prawej strony; Ç2 wartoÅ›ciÄ… zmiennej , która odcina pole
1-Ä…/2
o mierze Ä…/2 z lewej strony (a tym samym o mierze 1 - Ä…/2 z
prawej strony).
Przykład
Maszyna automatycznie napełnia pojemniki z kawą. Jeżeli
przeciętne napełnienie jest różne od normy, pracę maszyny można
uregulować tak by dawała żądaną przeciętną. Jeżeli jednak
wariancja procesu napełniania jest zbyt duża, pracy maszyny nie da
się uregulować i trzeba ją oddać do naprawy. Dlatego od czasu do
czasu przeprowadza się kontrolę wariancji procesu napełniania.
Wybiera się w tym celu losowo pewną liczbę pojemników, mierzy
się ilość kawy i oblicza wariancję z próby. Losowa próba 30
pojemników dała ocenę wariancji s2 = 18540. Wyznaczymy 95%
przedziaÅ‚ ufnoÅ›ci. Z tablic odczytujemy Ç2 = 45, 7 i
0,025
Ç2 = 16, 0. StÄ…d mamy:
0,975
29 " 18540 29 " 18540
[ , ] = [11765, 33604].
45, 7 16, 0
Mamy 95% pewności, że wariancja znajduje się między 11765 a
33604.
Minimalna liczebność próby
" Najlepsza jest próba jak najliczniejsza z możliwych (cała
populacja).
" Jest to nierealne, bo w większości sytuacji musimy się liczyć z
ograniczeniami czasowymi, finansowymi i innymi.
" Im większa próba tym mniejsza niepewność. Wraz ze
wzrostem liczebności próby maleją standardowe błędy
statystyk używanych jako estymatory.
" Statystyk zadaje pytania:
" Jakiego przybliżenia B domagasz się do oceny parametru?
" Jakiego poziomu ufności oczekujesz?
" jest twoja ocena wariancji?
Minimalna liczebność próby
" Minimalna wymagana liczebność próby do oszacowania
Å›redniej w populacji µ
z2 Ã2
Ä…/2
n = .
B2
" Minimalna wymagana liczebność próby do oszacowania frakcji
w populacji p:
z2 pq
Ä…/2
n = .
B2
" Jeżeli nie znamy p przyjmujemy, że jest ono równe 0,5.
Przykład
Firma zajmująca się analiza rynku chce przeprowadzić badania
ankietowe w celu oszacowania wydatków na rozrywki przeciętnego
kuracjusza Uzdrowiska Krynica. Osoba zlecajÄ…ca te badania
chciałaby znać te wydatki z przybliżeniem nie większym niż 120
złotych., przy poziomie ufności 95%. Na podstawie
dotychczasowych informacji działalności uzdrowiska odchylenie
standardowe szacuje się na 400 złotych. Jaka jest minimalna
wymagana liczebność próby? Wiemy, że B = 120,
Ã2 = 4002 = 160000. StÄ…d:
1, 962 " 160000
n = = 42, 684.
1202
Minimalna wymagana liczebność próby to 43 osoby.
Testowanie hipotez statystycznych
" Zgodnie z prawem amerykańskim , oskarżony jest uważany za
niewinnego , dopóki nie dowiedzie się mu winy  ponad
rozsądną wątpliwość . Hipotezę, ze jest niewinny nazwijmy
hipotezÄ… zerowÄ….
" Podtrzymujemy, że jest ona prawdziwa dopóki nie
udowodnimy, ze jest ona fałszywa.
" Chcemy mieć małe prawdopodobieństwo skazania niewinnego
tzn. odrzucenie hipotezy zerowej gdy jest ona prawdziwa.
" Hipoteza zerowa zakłada coś o jednym lub wielu parametrach
populacji.
Definicje
" Hipotezą zerową, oznaczaną przez H0, jest hipoteza o wartości
jednego (lub wielu) parametru populacji. TÄ™ hipotezÄ™
traktujemy jako prawdziwą, dopóki nie uzyskamy informacji
statystycznych dostatecznych do zmiany naszego stanowiska.
" Hipoteza alternatywnÄ…, oznaczanÄ… przez H1, jest hipoteza
przypisująca parametrowi populacji wartość niezgodną z
przypisanÄ… mu przez hipotezÄ™ zerowÄ….
" Hipoteza zerowa i alternatywna tworzÄ… parÄ™ hipotez
dopełniających się.
" Przykład:
H0 : µ = 100
H1 : µ = 100.

Definicje
" Sprawdzianem lub statystykÄ… testu nazywamy statystykÄ™ z
próby, której wartość obliczona na podstawie wyników
obserwacji jest wykorzystywana do ustalenia czy możemy
hipotezę zerową odrzucić, czy brak podstaw do jej odrzucenia.
" Regułą ustalającą warunki, pod którymi można odrzucić
hipotezę zerową, nazywamy regułą decyzyjną testu hipotezy
statystycznej.
" Stan rzeczy, decyzje i rodzaje błędów:
Stan rzeczy
H0 H1
Decyzje H0 słuszna decyzja Błąd rodzaju II
H1 Błąd rodzaju I słuszna decyzja
" Prawdopodobieństwo popełnienia błędu pierwszego rodzaju
oznaczać będziemy przez ą, a prawdopodobieństwo
popeÅ‚nienia bÅ‚Ä™du drugiego rodzaju przez ².
Definicje
" W rozumieniu amerykańskiego systemu prawnego błąd I
rodzaju jest poważniejszy.
" Zasada  niewinny, dopóki nie dowiedziono mu winy oznacza,
że chcemy się ustrzec skazania osoby niewinnej (błąd I
rodzaju) niż uniewinnienia osoby winnej ( błąd II rodzaju).
Ä… = P(H0|H0jest prawdziwa)
² = P(H0nieodrzucona|H0jest faÅ‚szywa).
" Chcemy, żeby Ä… i ² byÅ‚y maÅ‚e, ale ważniejsze jest
kontrolowanie poziomu Ä….
Przykład
Firma rozwożąca paczki na terenie wielkiej metropolii zapewnia, że
średni czas dostarczenia przesyłki od drzwi klienta do miejsca
przeznaczenia wynosi 28 minut. Chcemy to sprawdzić, traktując
zapewnienie firmy jako hipotezÄ™ statystycznÄ…. Mamy:
H0 : µ = 28
H1 : µ = 28.

By sprawdzić test wybieramy losowo próbę liczącą n = 100
przesyłek. Po obliczeniach: x = 31, 5 minuty, a s = 5 minut.
Å»
Zbudujmy 95% przedziaÅ‚ ufnoÅ›ci dla Å›redniej µ. Duża
próba-korzystamy z rozkładu normalnego:
s 5
x Ä… zÄ…/2 = 31, 5 Ä… 1, 96 = 31, 5 Ä… 0, 98 = [30, 52; 32, 48].
Å» " "
n
100
Możemy być w 95% pewni, że przeciętny czas dostawy przesyłki
mieÅ›ci siÄ™ miÄ™dzy 30,52 a 32,48 minuty. Ponieważ µ = 28 znajduje
się poza tym przedziałem, możemy odrzucić tę hipotezę na korzyść
hipotezy alternatywnej.
Definicje
" Poziomem istotności ą testu hipotezy statystycznej jest
prawdopodobieństwo popełnienia błędu I rodzaju.
" Obszarem odrzucenia hipotezy statystycznej jest taki zbiór
liczb, że jeżeli sprawdzian przyjmie wartość z tego zbioru, to
hipotezÄ™ zerowÄ… odrzucimy. Obszar odrzucenia nazywa siÄ™ tez
obszarem krytycznym. Obszar krytyczny wyznaczajÄ… punkty
krytyczne. Obszar krytyczny jest ustalany tak, by przed
pobraniem próby prawdopodobieństwo, że sprawdzian znajdzie
się w tym obszarze, przy założeniu, że hipoteza zerowa jest
prawdziwa, było równe ą.
" Obszarem nieodrzucenia hipotezy statystycznej jest taki zbiór
liczb, że jeżeli sprawdzian przyjmie wartość z tego zbioru, to
hipotezy zerowe nie odrzucimy. Obszar nieodrzucenia jest
ustalony tak, by przed pobraniem próby prawdopodobieństwo,
że sprawdzian znajdzie się w tym obszarze przy założeniu, że
hipoteza zerowa jest prawdziwa było równe 1 - ą.
Dwustronny test dla średniej w
przypadku dużej próby
H0 : µ = µ0
H1 : µ = µ0.

" Poziom istotności testu: ą (zwykle 0,05 lub 0,1)
x-µ0
Å»
"
" Sprawdzian (statystyka testu): z = , gdy à nie jest znane;
s/ n
w przeciwnym wypadku zamiast s w mianowniku bÄ™dzie Ã.
" Punkty krytyczne: ich położenie zależy od ą; są nimi punkty
ązą/2, między którymi znajduje się pole pod krzywą gęstości
normalnej o mierze 1 - Ä….
" Reguła decyzyjna: odrzuć hipotezę zerową, gdy z > zą/2 albo
z < -zÄ…/2.
Przykład
Linie lotnicze chciały ustalić rozmiary niezbędnej powierzchni
kabiny przeznaczonej na bagaż podręczny. W ramach badań trzeba
było sprawdzić hipotezę zerowa, że przeciętna waga bagażu
przypadająca na jednego pasażera wynosi 12 funtów, wobec
hipotezy alternatywnej, że µ = 12 na poziomie istotnoÅ›ci

ą = 0, 05. Organizator badania pobrał losową próbę 144 pasażerów
i stwierdził, że średnia waga bagażu podręcznego wynosi x = 14, 6
Å»
funta przy odchyleniu standardowym s = 7, 8 funta. Mamy:
H0 : µ = 17
H1 : µ = 17.

Punkty krytyczne dla sprawdzianu hipotezy to: ą1, 96. Wartość
x-µ0 14,6-17
Å»
" "
sprawdzianu testu wynosi: z = = = 4. Obliczona
s/ n
7,8/ 144
wartość wpada w obszar odrzucenia. Podejmujemy decyzję o
odrzuceniu hipotezy, że przeciętna waga bagażu wynosi 12 funtów
na korzyść hipotezy alternatywnej.
Przykład
Przeciętny czas potrzebny komputerowi do wykonania zadania
wynosi 3,24 sekundy. W 1984 r. uczeni z Bell Laboratories w New
Jersey testowali różne algorytmy, które mogłyby zmienić ten czas.
Nie wiedzieli jednak czy przeciętny algorytm skróci czy wydłuży
ten czas. Dlatego zdecydowano się sprawdzić hipotezę, że
przeciętny czas nie zmieni się. Wybrano losową próbę 200 cykli
obliczeń komputerowych wg nowych algorytmów i otrzymano:
x = 3, 48 sek, s = 2, 8 sek. Czy przy poziomie istotności ą = 0, 05
Å»
możemy wyciągnąć wniosek, że czas wykonania obliczeń wg
nowych algorytmów jest różny od poprzedniego?
H0 : µ = 3, 24
H1 : µ = 3, 24.

Punkty krytyczne dla sprawdzianu hipotezy to: ą1, 96. Wartość
x-µ0 3,84-3,24
Å»
" "
sprawdzianu testu wynosi: z = = = 1, 21. Obliczona
s/ n
2,8/ 200
wartość wpada w obszar nieodrzucenia. Brak podstaw do
odrzucenia hipotezy zerowej.
Dwustronny test dla średniej w
populacji w przypadku małej próby
" Sprawdzian (statystyka testu) dla Å›redniej w populacji µ w
przypadku małej próby:
x - µ0
Å»
t = " .
s/ n
" Jeżeli rozkład w populacji jest normalny, a hipoteza zerowa
jest prawdziwa, to sprawdzian ma rozkład t-Studenta o n - 1
stopniach swobody. Oznacza to, że punkty krytyczne
odczytujemy z rozkładu t-Studenta.
" Mówimy, że wynik badania statystycznego jest istotny na
poziomie istotności ą, gdy wynik ten skłania nas do
odrzucenia hipotezy zerowej na podstawie testu, w którym
zastosowano poziom istotności ą.
Przykład
Firma Canon wprowadziła na rynek kopiarkę pracującą w systemie
kompaktowym. Przeciętna prędkość tego rodzaju kopiarek to 27
kopii na minutę. Firma chce sprawdzić, czy jej nowa kopiarka ma
tę samą prędkość działania co standardowa. Przeprowadzono 24
próby z nową kopiarką i otrzymano x = 24, 6, przy s = 7, 4 kopii
Å»
na minutę. Czy na poziomie istotności ą = 0, 05 są podstawy do
przyjęcia hipotezy, że przeciętna prędkość kopiowania nowej
kopiarki różni się od prędkości kopiowania standardowej? Mamy:
H0 : µ = 27
H1 : µ = 27.

Ponieważ n = 24 to posłużymy się rozkładem t-Studenta. Punkty
krytyczne to: ą2, 069. Wartość sprawdzianu testu:
x-µ0 24,6-27
Å»
"
t = = = -1, 589. Obliczona wartość wpada w
7,4/4,899
s/ n
obszar nieodrzucenia. Brak podstaw do odrzucenia hipotezy
zerowej, że przeciętna prędkość nowej kopiarki różni się znacząco
od standardowej.
Dwustronny test dla frakcji w
przypadku dużej próby
Sprawdzian (statystyka testu) dla frakcji w populacji p:
p - p0
Ć

z = .
p0q0/n
Przykład
Kiedy Londyńska giełda została otwarta dla zagranicznych
inwestorów oczekiwano, że na giełdzie będą masowo lokowane
amerykańskie dolary. Analityk giełdowy Goldman Sachs and Co.
chciał sprawdzić hipotezę wysuniętą przez brytyjskiego eksperta, że
70% wszystkich zagranicznych inwestorów na giełdzie londyńskiej
stanowią Amerykanie. Analityk zgromadził losową próbę 210
rachunków zagranicznych inwestorów w Londynie i stwierdził, że
130 z nich to obywatele amerykańscy. Czy sa podstawy do
odrzucenia hipotezy brytyjskiego eksperta na poziomie istotności
ą = 0, 05?. Mamy sprawdzić hipotezę: H0 : p = 0, 70, przy
alternatywnej H1 = 0, 70. Sprawdzianem jest statystyka Z i wobec

tego dla Ä… = 0, 05 punktami krytycznymi sÄ… Ä…1, 96. Dla znanej
frakcji z próby: p = 130/210 = 0, 619 wartość sprawdzianu wynosi:
Ć
Ć 0,619-0,70
"p-p0 = "
z = = -2, 5614. Jest ona w obszarze
p0q0/n 0,7"0,3/210
odrzucenia. Na podstawie zbadanej próby możemy stwierdzić, że
procent rachunków amerykańskich był mniejszy niż 70%.
Testy prawostronny dla średniej dla
dużej próby
" Hipoteza zerowa: H0 : µ µ0,
" Hipoteza alternatywna: H1 : µ > µ0.
" Poziom istotności testu: ą
x-µ
Å»
"
" Sprawdzian (statystyka testu): z = , gdy à nie jest znane
s/ n
"
w przeciwnym wypadku w mianowniku wystÄ™puje Ã/ n.
" Punkt krytyczny: zÄ… odcina pole o mierze Ä… pod prawym
ogonem krzywej gęstości.
" Reguła decyzyjna: Odrzucić hipotezę zerowa, gdy z > zą.
Przykład
Agencja Ochrony Środowiska ustala dopuszczalne granice stężenia
różnych substancji w powietrzu, emitowanych przez przemysł.
Przeciętną dopuszczalną granicę stężenia chlorku winylu ustalono
na poziomie 55 ppm. Aby sprawdzić przestrzeganie normy Agencja
pobrała losową próbę 100 odczytów w obrębie 2 mil od fabryki.
Przeciętne stężenie w próbie wyniosło 60 ppm, a s = 20 ppm. Czy
są podstawy do stwierdzenia, że fabryka naruszyła normę? Agencja
wystąpi przeciw fabryce tylko wtedy, gdy będą podstawy do
przyjęcia, że stężenie przekracza dopuszczalny poziom 55 ppm.
Dlatego stosujemy test prawostronny.
H0 : µ 55
H1 : µ > 55.
Punkt krytyczny dla poziomu istotności 0,01: 2,33. Sprawdzian
x-µ
Å»
60-55
"
testu: z = = = 2, 5. Wpada on w obszar krytyczny.
20/10
s/ n
Agencja może odrzucić hipotezę o niewinności fabryki. Dla testu
dwustronnego: brak podstaw do odrzucenia hipotezy.
Test dla średniej gdy próba jest mała
Producent zapewnia, że trwałość wytwarzanego przez niego
reflektora wynosi przeciętnie 65 godzin. Konkurent podejrzewa, że
trwałość urządzenia jest mniejsza i zamierza dowieść, że
zapewnienie producenta jest fałszywe. W próbie 21 sztuk okazało
się, że przeciętna trwałość reflektora wynosi 62,5 godziny, przy
odchyleniu standardowym 3 godziny. Przyjmując poziom istotności
Ä… = 0, 01 sprawdz, czy istnieje dostateczna podstawa do uznania
zapewnienia producenta za fałszywe.
H0 : µ 65
H1 : µ < 65.
Mała próba-rozkład t-Studenta o 20 stopniach swobody. Punkt
krytyczny dla poziomu istotności 0,01, test lewostronny: -2,53.
x-µ 62,5-65
Å»
" "
Sprawdzian testu: t = = = -3, 82. Wpada on w
s/ n
3/ 21
obszar krytyczny. Odrzucamy hipotezę zerową i wnioskujemy, że
istniejÄ… statystyczne podstawy do uznania zapewnienia producenta
za fałszywe. Prawdopodobieństwo błędu I rodzaju< 0, 01.
Test dla wariancji
" Sprawdzianem (statystykÄ… testu) przy testowaniu hipotezy o
wariancji w populacji jest:
(n - 1)s2
Ç2 = ,
2
Ã0
2
gdzie Ã0 jest wartoÅ›ciÄ… wariancji zaÅ‚ożonÄ… w hipotezie zerowej.
" Z reguły obawiamy się, że wariancja przekroczy pewien
poziom, w którym to przypadku należałoby podjąć jakieś
działania zapobiegawcze. Dlatego stosujemy test
prawostronny.
" Powyższa statystyka dla populacji normalnej ma rozkÅ‚ad Ç2 o
n - 1 stopniach swobody.
Przykład
Maszyna wytwarza metalowe płytki wchodzące w skład baterii do
gier elektronicznych. Średnica płytki jest zmienną losowa o średniej
5 mm. Dopóki wariancja średnicy płytki nie przekracza 1 (mm2)
uważamy, że proces produkcyjny jest pod kontrolą i płytki mają
dopuszczalne wymiary. W przeciwnym wypadku maszynÄ™ trzeba
naprawić. KontrolÄ™ jakoÅ›ci chce sprawdzić hipotezÄ™ H0 : Ã2 1, 00,
wobec hipotezy H1 : Ã2 > 1, 00. PobraÅ‚ on w tym celu próbÄ™
losową 31 płytek i stwierdził w niej wariancję 1,62. Czy są
podstawy do przypuszczenia, że wariancja płytki przekroczyła 1,00?
(n-1)s2 30"1,62
Mamy Ç2 = = = 48, 6. Z tablic odczytujemy dla
2
Ã0 1,00
Ä… = 0, 05 Ç2 = 43, 77. Możemy wiÄ™c odrzucić hipotezÄ™ zerowÄ….
Testy dla dwóch średnich dla
niezależnych dużych prób
H0 : µ1 = µ2
H1 : µ1 = µ2.

x x
Å»
1-Ż2
Sprawdzian hipotezy: z = .
s2 s2
1 2
+
n1 n2
Przykład
Do niedawna panowała opinia, że bogatsi konsumenci posługują się
kartami American Express, a ubożsi kartami Visa. W ostatnich
latach firma Visa chce wzmocnić swoją pozycję. Chce sprawdzić
czy przeciętne miesięczne obciążenie kart obydwu rodzajów są
takie same. Pobrano losową próbę 1200 kart Visa i stwierdzono
x1 = 452$ i s = 212$. W 800 elementowej próbie kart AE
Å»
x2 = 523$ i s = 185$. Czy istnieją podstawy do przyjęcia, że
Å»
przeciętne miesięczne obciążenie różni się w zależności od rodzaju
karty? Mamy:
H0 : µ1 = µ2
H1 : µ1 = µ2.

Wartość sprawdzianu hipotezy: z = -7, 926. Wartość ta wpada w
lewostronny obszar krytyczny w każdym stosowanym poziomie
istotności. Istnieje statystycznie istotna różnica miedzy
przeciętnymi obciążeniami ww kart.
Test dla średnich przy jednakowych
wariancjach w populacji
2 2
" Gdy zakÅ‚adamy o wariancjach Ã1 i Ã2, że sÄ… jednakowe można
przeprowadzić inny test dla średnich.
" Zakłada się, że rozkłady w populacjach są w przybliżeniu
normalne.
" Aączną ocenę wspólnej wariancji dla dwóch populacji określa
wzór:
2 2
(n1 - 1)s1 + (n2 - 1)s2
2
sp = .
n1 + n2 - 2
" Oceną standardowego błędu różnicy dwóch średnich jest:

1 1
2
sp( + ).
n1 n2
Test dla średnich przy jednakowych
wariancjach w populacji
" Sprawdzianem w teście na różnicę między średnimi w dwóch
populacjach o jednakowej wariancji jest statystyka:
x1 - x2
Å» Å»

t = .
1 1
2
sp(n1 + )
n2
" LiczbÄ… stopni swobody sprawdzianu jest n1 + n2 - 2.
" Gdy próba jest duża możemy zastosować normalne
przybliżenie rozkładu t.
Przykład
Producent odtwarzaczy płyt kompaktowych chce sprawdzić, czy
niewielkie obniżenie ceny wystarczy, by zwiększyć sprzedaż. Losowo
pobrana próba wielkości sprzedaży z 15 tygodni przed obniżeniem
ceny dała średnią 6598$, przy odchyleniu standardowym 844$. Po
niewielkiej obniżce cen 12 elementowa próba losowa dała średnia
6870$, przy odch. stand. 669$. Czy istnieją podstawy do przyjęcia,
że ta obniżka cen wystarcza do wzrostu sprzedaży płyt? Gdy
sprzedaż wzrasta to µ2 - µ1 > 0 i bierzemy to za hipotezÄ™
alternatywnÄ…. StÄ…d: H0 : µ2 - µ1 0 i H1 : µ2 - µ1 > 0.
Sprawdzian ma rozkład t o 15 + 12 - 2 = 25 stp swobody. Wartość
sprawdzianu: t = 0, 91. Wartość ta nie wpada w obszar odrzucenia
przy wszystkich stosowanych poziomach istotności. Brak podstaw
do odrzucenia hipotezy, że obniżka nie wywołuje wzrostu sprzedaży.
Test dla różnicy między frakcjami -
duże próby
" Sprawdzianem w teście jest statystyka:
p1 - p2
Ć Ć
z = .
1 1
p(1 - p)n1 + )
Ć Ć
n2
gdzie p1 = x1/n1 jest frakcją z próby pobranej z populacji 1, a
Ć
p2 = x2/n2 jest frakcją z próby pobranej z populacji 2.
Ć
" p - łączna frakcja w połączonych próbach
Ć
x1 + x2
p = .
Ć
n1 + n2
Przykład
Niedawno pisano, że udogodnienia finansowe wprowadzone przez
producentów samochodów zmniejszyły udział banków w rynku
pożyczek samochodowych. W artykule stwierdzono, ze w 1980 r.
banki obsługiwały 53% pożyczek samochodowych, a w roku1986
43%. Przypuśćmy, że dane pochodzą z prob 100 elementowych.
Przeprowadzimy dwustronny test o równości udziału pożyczek
bankowych w rynku pożyczek samochodowych. Mamy:
H0 : p1 = p2 i H1 : p1 = p2. Aączna frakcja z próby: p = 0, 48.
Ć
Wartość sprawdzianu: z = 1, 415. Wpada on poza obszar
odrzucenia nawet da ą = 0, 1. Wnioskujemy, że nie możemy
powiedzieć, ze udział banków zmienił się między rokiem 1980 a
1986.
Moc testu i błąd drugiego rodzaju
" Mocą testu hipotezy statystycznej jest prawdopodobieństwo
odrzucenia hipotezy zerowej, gdy jest ona fałszywa.
" moc testu=1 - ², gdzie beta jest prawdopodobieÅ„stwem
błędu drugiego rodzaju.
" moc testu zależy od:
" odległością między wartością parametru z H0 a prawdziwa jego
wartością-im większa odległość, tym większa moc
" odchylenia standarowego-im mniejsze tym większa moc
" liczebności próby-im większa tym większa moc
" poziomu istotności-im niższy tym mniejsza moc
Testy nieparametryczne
" wykorzystujÄ… dane liczbowe
" nie zajmujÄ… siÄ™ konkretnymi parametrami populacji
" nie wymagają założeń co do konkretnych rozkładów w
populacji (w szczególności założenia o rozkładzie normalnym)
Test serii-test losowości
" William Feller znany probabilista opowiada jak ludzie zajmujÄ…
stołki w barze. Niech S oznacza miejsce zajęte, a E miejsce
wolne. Powstał ciąg: SEESSEEESESSESEESSSE. Chcemy
ustalić czy ta sekwencja liter jest wynikiem procesu losowego.
" Test serii jest statystycznym testem losowości. opiera się na
koncepcji serii.
" Seria jest sekwencją takich samych elementów, przed i po
których występują inne elementy lub nie ma żadnego.
" W nasze sekwencji liter jest 7 serii.
Test serii-test losowości
" Test losowości z dwustronną hipotezą:
H0 : obserwacje zostały wygenerowane losowo,
H1 : obserwacje nie zostały wygenerowane losowo.
" Sprawdzian hipotezy: R =liczba serii, czasami ustalana za
pomocÄ… mediany.
" Reguła decyzyjna polega na odrzuceniu H0 na poziomie ą,
jeśli R C1 lub R C2, gdzie C1 i C2 są wartościami
krytycznymi otrzymanymi z tablicy dla testu serii dla
P(R C1) + P(R C2) = Ä….
Test serii-przykład 1
Specjaliści z zakresu PR stwierdzili, że sposób prezentacji jednego
z ugrupowań politycznych w telewizyjnych wiadomościach nie jest
obiektywny. W celu weryfikacji tego przypuszczenia zestawiono 27
informacji związanych z tym ugrupowaniem, określając każdą z
nich jako pozytywnÄ… lub negatywnÄ…. Liczba negatywnych
informacji wyniosła 16, a pozytywnych 11. Jeśli liczba serii wynosi
10, czy można stwierdzić, że sposób informacji o ugrupowaniu jest
obiektywny na poziomie istotności równym 0,05?
H0 : obserwacje zostały wygenerowane losowo,
H1 : obserwacje nie zostały wygenerowane losowo.
Z tablic dla testu serii: C1 = 8 i C2 = 19. StÄ…d r " (8, 19). Brak
podstaw do odrzucenia hipotezy zerowej.
Test serii-przykład 2
Badano liczbÄ™ niewykorzystanych dni urlopu wypoczynkowego
przez pracowników Urzędu Pocztowego Lublin wg stanu na dzień
30.09.1994. Otrzymano dane: 10, 11, 14, 15, 15, 34, 40, 40, 42,
42, 42, 43, 45, 47, 47, 53, 54, 54, 55, 58, 59, 63, 63, 64, 72. Na
poziomie istotności 0,05 sprawdzić czy próba jest losowa. Mamy
Me = 45. Oznaczamy literÄ… a liczby mniejsze od Me, przez b
większe od mediany, pomijamy wartości równe medianie.
H0 : obserwacje zostały wygenerowane losowo,
H1 : obserwacje nie zostały wygenerowane losowo.
Liczba serii wynosi 14. Z tablic dla testu serii: C1 = 7 i C2 = 18,
bo n1 = 12 a n2 = 12. StÄ…d r " (7, 18). Brak podstaw do
odrzucenia hipotezy zerowej.
Testy zgodności chi2
" Formułujemy przypuszczenia co do populacji przez określenie
hipotezy zerowej i alternatywnej.
" Obliczamy częstości zdarzeń, których spodziewamy się przy
założeniu H0. Otrzymujemy oczekiwane liczebności
(teoretyczne).
" Obliczamy różnice między wartościami empirycznymi a
teoretycznymi i statystykÄ™
k


(ni - ni)2
Ç2 =

ni
i=1
" Porównujemy wartość statystyki z punktami krytycznymi
rozkładu chi-kwadrat i podejmujemy decyzję.
Testy niezależnoÅ›ci Ç2. PrzykÅ‚ad
Business Week podaje zyski i straty firm uporzÄ…dkowanych wg
rodzajów działalności. Wybrano losową próbę 100 firm i dla każdej
z nich zanotowano czy miała stratę czy zysk. Określ czy obydwa
zdarzenia firma przyniosła zyski i firma działa w sektorze usług są
niezależne.
usługi Inne
zysk 42 (28,8) 18(31,2)
strata 6(19,2) 34 (20,8)
StÄ…d:
r k
- nij)2 (42 - 28, 8)2 (34 - 20, 8)2
(nij
Ç2 = = +. . .+ = 29, 09.

nij 28, 8 20, 8
i=1 j=1
Z tablicy rozkładu chi-kwadrat z (r - 1)(k - 1) = 1 stopniem
swobody odczytujemy, że punkt krytyczny dla ą = o, 01 to 6,63.
29,09 jest większa od punktu krytycznego, odrzucamy hipotezę
zerową i wnioskujemy, że dwie badane cechy zysk/strata oraz typ
działalności nie są niezależne.
Testy niezależnoÅ›ci Ç2. PrzykÅ‚ad c.d.
" W przypadku gdy statystyka Ç2 ma 1 stopieÅ„ swobody zaleca
siÄ™ zastosowanie poprawki Yatesa.
" Statystyka po uwzględnieniu poprawki Yatesa:
k


(|ni - ni| - 0, 5)2
Ç2 z poprawkÄ… Yatesa = .

ni
i=1
" W naszym przykÅ‚adzie skorygowana wartość Ç2 = 26, 92 nadal
wpada do przedziału krytycznego.
Test istotności współczynnika
korelacji liniowej Pearsona
W firmie zbadano rentowność sprzedaży wśród głównych
odbiorców w zależności od lokalizacji siedziby odbiorcy. Na
podstawie niezależnej próby 180 odbiorców uzyskano współczynnik
korelacji liniowej między rentownością a lokalizacją -0,53. Na
poziomie istotności 0,05 zweryfikować hipotezę, że ten
współczynnik jest statystycznie istotny. Mamy: H0 : Áxy = 0 i
Áxy = 0. Dla dużej próby n 100 sprawdzian testu:

"
r n
xy
z = = 8, 39.
2
1 - rxy
Punkty krytyczne ą1, 96. Współczynnik korelacji jest statystycznie
istotny.
Test istotności współczynnika
korelacji rang Spearmana
Przeprowadzono badanie popularności książek pod względem
grubości książki. Otrzymano współczynnik korelacji rang równy
-0,37 z próby 12 elementowej. Na poziomie istotności 0,01
zweryfikować hipotezę,że im grubsza książka tym większa
popularność. Mamy: H0 : Ás = 0 i Ás = 0. Dla dużej próby n 10

sprawdzian testu:
"
z = rs n - 1 = -1, 227
Punkty krytyczne ą2, 33. Współczynnik korelacji nie jest
statystycznie istotny.
Techniki losowania z prób
" W całym wykładzie zakładaliśmy, że informacje są
gromadzone przez losowe dobieranie próby. Metoda
dotychczasowa-losowanie proste.
" losowanie proste-próba jest losowo wybierana z populacji tak,
że każde n elementów ma jednakową szansę wylosowania.
" Mówiąc o losowym doborze próby mamy na myśli wiele
różnych sposobów, które w praktyce badawczej są mieszane,
kombinowane, tak, że ostateczna próba losowa może być
funkcją kilku schematów losowania.
Techniki losowania z prób
Schematy losowania:
" losowanie systematyczne np. co k-ty element lub kolejny
zgodnie z liczbami losowymi
" losowanie warstwowe, w którym populacje dzielimy na pewną
liczbÄ™ niezachodzÄ…cych na siebie podpopulacji, czyli warstw,
między które następnie rozdzielane są części całej próby.
" grupowe, w którym podobnie jak w losowaniu warstwowym,
populacjÄ™ dzielimy na pewnÄ… liczbÄ™ niezachodzÄ…cych na siebie
niewielkich podpopulacji, czyli grup, przy czym tylko niektóre
z nich-te losowo dobrane-wejdą w skład ostatecznej próby.
Żeby otrzymać losowa próbę, powinniśmy dysponować wykazem
elementów populacji - operatem losowania. Pozwala on wybierać
elementy populacji przez losowe generowanie numerów elementów,
które znajdą się w próbie.
Pobieranie próby losowej
PRZYKAAD. Chcemy wybrać 50 elementową próbę losową z
populacji 5000 ludzi. Sporządzamy wykaz tych osób i każdemu
nadajemy numer identyfikacyjny. Zbiór 5000 numerów stanowi
operat losowania. Generujemy 50 liczb losowych np. na
komputerze, z tablicy liczb losowych (ignorujemy liczby spoza
zakresu) od 1 do 5000. Taka procedura daje takÄ… samÄ… szansÄ™
każdej osobie znalezienia się w próbie.
Przeważnie nie można tak prosto uzyskać operatu losowania dla
elementów populacji. Wtedy za losowe uznaje się pewne aspekty
eksperymentu, dzięki którym otrzymaliśmy próbę losową. Przykład:
przy szacowaniu średniego zużycia benzyny przez pewien typ
samochodu możemy losowo wybierać daty, godziny próbnych jazd,
kierowcę, trasę przejazdu, konkretny samochód, itd.


Wyszukiwarka