Wnioskowanie statystyczne. Milena Bieniek 13 maja 2014 Zmienna losowa " zmienna losowa - zmienna, która przyjmuje różne wartości liczbowe, wyznaczone przez los. " rozkład prawdopodobieństwa zmiennej losowej - przyporządkowanie prawdopodobieństw różnym wartościom zmiennej losowej Rodzaje zmiennych losowych: " skokowa (dyskretna) - przyjmuje wartości ze zbioru przeliczalnego " ciągła - przyjmuje wartości z dowolnego przedziału liczbowego Zmienna losowa " Zmienna losowe oznaczamy dużymi literami tj. X , Y i inne. " Małych liter używamy do oznaczenia poszczególnych wartości przybieranych przez zmienne losowe. Zapis P(X = x) oznacza prawdopodobieństwo, że zmienna losowa X przyjmie wartość x. " Na przykład P(X = 5) = 0, 5 oznacza, że zmienna losowa X przyjmie wartość 5 z prawdopodobieństwem 0, 5. Zmienna losowa skokowa Rozkład prawdopodobieństwa skokowej zmiennej losowej X spełnia następujące warunki: 1 P(x) 0 dla wszystkich wartości x. 2
P(x) = 1. wszystkie x Każdego dnia gazeta otrzymuje zamówienia na ogłoszenia do wydania w następnym dniu. Liczba ogłoszeń zamieszczonych w gazecie w danym dniu jest zmienną losową X i wyraża się jedną z liczb naturalnych 0, 1, 2, 3, . . . . X jest zmienną losowa skokową. Rozkład tej zmiennej losowej: x 0 1 2 3 4 P(x) 0,1 0,2 0,3 0,2 0,2 Nie zamieszcza się nigdy więcej niż 4 ogłoszeń dziennie. Rozkład prawdopodobieństwa x 0 1 2 3 4 P(x) 0,1 0,2 0,3 0,2 0,1 można zobrazować za pomocą wykresu. Skąd biorą się prawdopodobieństwa? Częstości z jakimi pojawią się różne liczby ogłoszeń w przeciagu wielu dni uznajemy za prawdopodobieństwa. Skumulowana funkcja rozkładu Skumulowaną funkcją rozkładu zmiennej losowej X jest funkcja:
F (x) = P(X x) = P(i). wszystkie i x Dystrybuanta liczby ogłoszeń: x P(x) F (x) 0 0,1 0,1 1 0,2 0,3 2 0,3 0,6 3 0,2 0,8 4 0,2 1 Wykres funkcji F (x) schodkowy. Wartość oczekiwana zmiennej losowej " Rozkład prawdopodobieństwa można traktować jako rozkład częstości w długiej serii obserwacji. " Średnia rozkładu zmiennej losowej jest średnią ważoną wszystkich możliwych wartości zmiennej losowej, w której wagami są prawdopodobieństwa. Oczekiwana wartość skokowej zmiennej losowej X jest równa sumie wszystkich możliwych wartości tej zmiennej losowej mnożonych przez ich prawdopodobieństwa:
µ = E(X ) = xP(x). wszystkie x PrzykÅ‚ad Znajdz wartość oczekiwana liczby ogÅ‚oszeÅ„ pojawiajÄ…cych siÄ™ w gazecie. x P(x) xP(x) 0 0,1 0 1 0,2 0,2 2 0,3 0,6 3 0,2 0,6 4 0,2 0,8 suma 1 2,2 E(X ) = 2, 2 czyli przeciÄ™tnie dziennie zamieszcza siÄ™ 2,2 ogÅ‚oszenia. Wartość oczekiwana funkcji zmiennej losowej OczekiwanÄ… wartoÅ›ciÄ… funkcji zmiennej losowej h(X ) jest
E[h(X )] = h(x)P(x). wszystkie x Przykład: Dzienną sprzedaż pewnego produktu charakteryzuje rozkład prawdopodobieństwa podany w tablicy. Firma ponosi stały koszt produkcji 100 dolarów i na każdej wyprodukowanej jednostce zarabia 2 dolary. Jaki jest miesięczny oczekiwany zysk firmy? Funkcja zysku jest dla firmy funkcja h(x) = 2X - 100. Stąd sprzedaż-x P(x) h(x) h(x)P(x) 100 0,2 100 20 200 0,4 300 120 300 0,2 500 100 400 0,2 700 140 suma 1 E[h(X)]=380 Wariancja skokowej zmiennej losowej Wariancją skokowej zmiennej losowej X jest:
Ã2 = V (X ) = E[(X - µ)2] = (x - µ)2P(x). wszystkie x Wygodny do stosowania wzór obliczania wariancji zmiennej losowej: 2 Ã2 = V (X ) = E(X ) - [E(X )]2. Standardowe odchylenie zmiennej losowej:
à = V (X ). Znaczenie wariancji i odchylenia standardowego " Wariancja to Å›rednie kwadratowe odchylenie wartoÅ›ci zmiennej losowej od jej Å›redniej (miara rozproszenia). " Wariancja daje wyobrażenie o zmiennoÅ›ci (niepewnoÅ›ci) zwiÄ…zanej z przyszÅ‚ymi wartoÅ›ciami zmiennej. " Z dwóch zmiennych losowych zmienna o wiÄ™kszej wariancji (lub odchyleniu standardowym) wykazuje wiÄ™ksze rozproszenie. " Standardowe odchylenie stopy przychodu z okreÅ›lonej lokaty kapitaÅ‚u jest uznane za miarÄ™ ryzyka. Liniowe funkcje zmiennej losowej Oczekiwana wartość liniowej funkcji zmiennej losowej: E(aX + b) = aE(X ) + b. Wariancja liniowej funkcji zmiennej losowej: V (aX + b) = a2V (X ) = a2Ã2. RozkÅ‚ad dwumianowy PrzykÅ‚ady: " Rzucamy cztery razy monetÄ…. Niech H oznacza liczbÄ™ wyrzuconych reszek. " W pewnym mieÅ›cie 30% mieszkaÅ„ców woli korzystać z komunikacji miejskiej, niż z wÅ‚asnego samochodu. Wybrano próbÄ™ dwudziestoosobowÄ…. Niech T bÄ™dzie liczbÄ… mieszkaÅ„ców w próbie, którzy wolÄ… korzystać z komunikacji miejskiej. Zmienne losowe H i T majÄ… rozkÅ‚ad Bernouliego zwanego również rozkÅ‚adem dwumianowym. RozkÅ‚ad dwumianowy DoÅ›wiadczenia Bernouliego to ciÄ…gi identycznych doÅ›wiadczeÅ„ speÅ‚niajÄ…cych nastÄ™pujÄ…ce warunki: " SÄ… dwa możliwe wyniki każdego doÅ›wiadczenia: sukces i porażka. Wyniki te siÄ™ dopeÅ‚niajÄ… i wykluczajÄ…. " PrawdopodobieÅ„stwo sukcesu wynosi p, a porażki q = 1 - p. " DoÅ›wiadczenia sÄ… niezależne. Zmienna losowa X jest liczbÄ… sukcesów w serii n doÅ›wiadczeÅ„ Bernouliego z prawdopodobieÅ„stwem sukcesu p.
n n! P(X = x) = pxqn-x = pxqn-x. x x!(n - x)! Åšrednia i wariancja rozkÅ‚adu dwumianowego: µ = E(X ) = np, Ã2 = V (X ) = npq. Zmienna losowa ciÄ…gÅ‚a DEFINICJA CiÄ…gÅ‚a zmienna losowa przyjmuje wartoÅ›ci z pewnego przedziaÅ‚u liczbowego. WÅ‚asnoÅ›ci funkcji gÄ™stoÅ›ci f (x): " f (x) 0 dla wszystkich x.
b " P(a < X < b) = f (x) - prawdopodobieństwo, że X a przyjmie wartość między a i b jest równe mierze pola pod wykresem f (x) między punktami a i b.
" " f (x) = 1 - pole pod krzywą f (x) ma miarę 1. -" Dystrybuanta ciągłej zmiennej losowej X ma postać
x F (x) = P(X x) = f (x) i jest miarÄ… pola pod wykresem -" funkcji f (x) miÄ™dzy -" a x. RozkÅ‚ad jednostajny PociÄ…gi metra kursujÄ… co 6 minut. Załóżmy, że pasażer przychodzi w sposób losowy. Czas oczekiwania na pociÄ…g-zmienna losowa, może przyjąć wartość z przedziaÅ‚u [0, 6]. Funkcja gÄ™stoÅ›ci: f (x) = 1/6 dla 0 x 6, i f (x) = 0 poza. Oblicz prawdopodobieÅ„stwo, że pasażer bÄ™dzie czekaÅ‚ mniej niż 3 minuty. RozkÅ‚ad normalny Gdy wzrasta liczba doÅ›wiadczeÅ„ n w rozkÅ‚adzie dwumianowym otrzymujemy rozkÅ‚ad normalny zwany rozkÅ‚adem Gaussa. Wiele cech osobniczych tj. waga czy wzrost ma w jednorodnych populacjach rozkÅ‚ad normalny. RozkÅ‚ady wielu wielkoÅ›ci obserwowanych w próbie dążydo rozkÅ‚adu normalnego. Zmienna losowa X ma rozkÅ‚ad normalny o Å›redniej µ i odchyleniu standardowym à gdy jej funkcja gÄ™stoÅ›ci ma postać: " 2 f (x) = (1/(à 2Ä„))e-(x-µ) /(2Ã2) dla - " < x < ", gdzie e i Ä„ sÄ… liczbami 2, 78 . . . i 3, 141 . . . . RozkÅ‚ad normalny: kilka uwag " RozkÅ‚ad normalny to przybliżenie zmiennych losowych skokowych. " RozkÅ‚ad normalny ma dwa parametry Å›redniÄ… i odchylenie standardowe. " KsztaÅ‚t wszystkich rozkÅ‚adów normalnych jest taki sam: jest symetryczny i ma ksztaÅ‚t dzwonu. " BÄ™dziemy pisać: X <" N(µ; Ã2). Standaryzowany rozkÅ‚ad normalny StandaryzowanÄ… zmiennÄ… losowa Z jest normalna zmienna losowa o Å›redniej µ = 0 i odchyleniu standardowym à = 1. Zapiszemy: Z <" N(0, 12). Standaryzowany rozkÅ‚ad normalny " PrawdopodobieÅ„stwo znalezienia wartoÅ›ci zmiennej w danym przedziale jest reprezentowane przez pole pod krzywÄ… gÄ™stoÅ›ci f (x) ponad danym przedziaÅ‚em. Pole pod krzywÄ… f (x) jest równe 1. " Standardowy rozkÅ‚ad normalny jest stablicowany. " Każda normalna zmienna losowa X może być przeksztaÅ‚cona w standaryzowanÄ… zmienna losowÄ…, którÄ… oznaczamy najczęściej przez Z: X - µ Z = à " DystrybuantÄ™ rozkÅ‚adu normalnego oznaczamy czÄ™sto przez Åš. " Dwa ważne rozkÅ‚ady: rozkÅ‚ad t-Studenta i rozkÅ‚ad Ç2 zmierzajÄ… do rozkÅ‚adu normalnego gdy wzrasta liczebność próby. RozkÅ‚ad dwumianowy również zmierza do normalnego " gdy roÅ›nie liczba doÅ›wiadczeÅ„ i µ = np, a à = npq. PrzykÅ‚ad Producent samochodów jest przekonany, że liczba kilometrów, które można przejechać na jednym z jego silników, ma rozkÅ‚ad normalny ze Å›redniÄ… 100000 km i odchyleniem standardowym 20000 km. Jakie jest prawdopodobieÅ„stwo, że silnik tego typu ma przebieg miÄ™dzy 80000 a 120000 km, zanim trzeba go bÄ™dzie wymienić? Po pierwsze zmiennÄ… losowÄ… X <" N(100000, 200002) należy zestandaryzować: 80000 - µ X - µ 120000 - µ P(80000 < X < 120000) = P( < < ) à à à 80000 - 100000 120000 - 100000 = P( < Z < ) 20000 20000 = P(-1 < Z < 1) = 2Åš(1) - 1 = 2 " 0.841 - 1 = 0.682. Fragment tablicy rozkÅ‚adu Gaussa z 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.0 0.500 0.504 0.508 0.512 0.516 0.520 0.524 0.528 0.1 0.540 0.544 0.548 0.552 0.556 0.560 0.564 0.567 0.2 0.579 0.583 0.587 0.591 0.595 0.599 0.603 0.606 0.3 0.618 0.622 0.626 0.629 0.633 0.637 0.641 0.644 0.4 0.655 0.659 0.663 0.666 0.670 0.674 0.677 0.681 0.5 0.691 0.695 0.698 0.702 0.705 0.709 0.712 0.716 0.6 0.726 0.729 0.732 0.736 0.739 0.742 0.745 0.749 0.7 0.758 0.761 0.764 0.767 0.770 0.773 0.776 0.779 0.8 0.788 0.791 0.794 0.797 0.800 0.802 0.805 0.808 0.9 0.816 0.819 0.821 0.824 0.826 0.829 0.831 0.834 1.0 0.841 0.844 0.846 0.848 0.851 0.853 0.855 0.858 Statystyki z próby jako estymatory parametrów populacji " We wnioskowaniu statystycznym interesuje nas populacja. Chcemy wykorzystać znanÄ… próbÄ™ losowÄ… do wyciÅ›niÄ™cia z niej informacji o nieznanej populacji. " Informacja, którÄ… otrzymujemy z próby przyjmuje postać pewnej zbiorczej statystyki. Może być niÄ…: Å›rednia z próby, odchylenie standardowe z próby i inne charakterystyki obliczone z próby. " Taka statystyka jak Å›rednia z próby jest traktowana jako estymator pewnego parametru populacji: Å›redniej w populacji. " ZwiÄ…zki miÄ™dzy statystykami - estymatorami i parametrami okreÅ›lajÄ… rozkÅ‚ady z próby. Statystyki z próby jako estymatory " Populacja może być licznym, czasem nieskoÅ„czonym zbiorem elementów. " W populacji jest pewien rozkÅ‚ad czÄ™stoÅ›ci, z jakÄ… pojawiajÄ… siÄ™ w niej elementy o pewnych wÅ‚asnoÅ›ciach. " JeÅ›li sÄ… one czÄ™stoÅ›ciami wzglÄ™dnymi, to rozkÅ‚ad czÄ™stoÅ›ci jest rozkÅ‚adem prawdopodobieÅ„stwa. " Tak jak zmiennym losowym, możemy populacji przypisać Å›redniÄ… i odchylenie standardowe; nazywamy je parametrami i oznaczamy przez µ i Ã. Statystyki z próby jako estymatory " parametry populacji - liczbowe charakterystyki caÅ‚ej populacji " statystyka z próby - liczbowa charakterystyka próby " estymator parametru populacji - statystyka z próby używana do oszacowania tego parametru; " Przypuszczamy, że liczba bÄ™dÄ…ca ocenÄ… punktowÄ… estymatora, leży blisko parametru populacji, do szacowania którego sÅ‚uży. " Ocena przedziaÅ‚owa jest przedziaÅ‚em, o którym z dużym prawdopodobieÅ„stwem wiemy, że zawiera nieznany parametr populacji. Przekazuje wiÄ™cej informacji niż ocena punktowa. Statystyki z próby jako estymatory Å» " Åšrednia z próby X jest estymatorem Å›redniej w populacji µ. " Odchylenie standardowe z próby S jest estymatorem odchylenia standardowego w populacji Ã. " frakcja p- liczba elementów populacji należącej do pewnej kategorii, podzielona przez liczbÄ™ wszystkich elementów populacji x " frakcja w próbie p = , gdzie x jest liczba elementów próby, Ć n które należą do interesujÄ…cej nas kategorii, n- liczebność próby Ć " P szacuje p PRZYKAAD. Chcemy oszacować frakcjÄ™ konsumentów używajÄ…cych zmywarki do naczyÅ„ w pewnym rejonie. NieznanÄ… Ć frakcjÄ… populacji jest p. Szacujemy p za pomocÄ… statystyki P - frakcji w próbie. Przypuśćmy, że w próbie losowej zÅ‚ożonej ze 100 konsumentów, 25 używa zmywarki do naczyÅ„. PunktowÄ… ocenÄ… parametru p jest p = 25/100 = 0, 25. Ć RozkÅ‚ady z próby " RozkÅ‚ad statystyki z próby - rozkÅ‚ad prawdopodobieÅ„stwa wszystkich możliwych wartoÅ›ci, jakie ta statystyka może przyjąć, jeżeli obliczamy je na podstawie badania losowych prób o tych samych rozmiarach, pobranych z okreÅ›lonej populacji. Å» " RozkÅ‚ad Å›redniej z próby X - rozkÅ‚ad prawdopodobieÅ„stwa Å» wszystkich możliwych wartoÅ›ci X , gdy próba o liczebnoÅ›ci n jest pobierana z okreÅ›lonej populacji. Oczekiwana wartość i standardowy bÅ‚Ä…d Å›redniej z próby: " Å» E(X ) = µ, Ãx = Ã/ n. Å» JeÅ›li rozkÅ‚ad w populacji normalny to rozkÅ‚ad Å›redniej jest normalny Å» X <" N(µ, Ã2/n). PrzeciÄ™tnie Å›rednia z próby pokrywa siÄ™ ze Å›redniÄ… w populacji. Przy wzroÅ›cie liczebnoÅ›ci próby odchylenie standardowe maleje Å» czyli X jest coraz bliższe µ. CENTRALNE TWIERDZENIE GRANICZNE Jeżeli pobieramy próbÄ™ z populacji o Å›redniej µ i skoÅ„czonym odchyleniu standardowym à to rozkÅ‚ad Å›redniej z próby dąży do rozkÅ‚adu normalnego o Å›redniej µ i odchyleniu standardowym " Ã/ n, gdy wzrasta nieograniczenie liczebność próby czyli Å» X <" N(µ, Ã2/n). CzÄ™sto nie znamy ksztaÅ‚tu populacji. Pożyteczne jest stosowanie reguÅ‚y kiedy liczebność próby jest dostatecznie duża, by stosować CTG. Próba dostatecznie duża - zawiera przynajmniej 30 elementów. ReguÅ‚Ä™ tÄ™ stosujemy z ostrożnoÅ›ciÄ…! PrzykÅ‚ad zastosowania CTG Firma Mercury produkuje 2,4 litrowe silniki używane w Å‚odziach motorowych. Inżynierowie pracujÄ…cy w firmie uważajÄ…, ze silniki osiÄ…gajÄ… przeciÄ™tnÄ… moc 220 KM i że standardowe odchylenie mocy wynosi 15 KM. Nabywca silników zamierza zbadać próbÄ™ 100 silników (z których każdy zostanie wypróbowany dokÅ‚adnie raz). Å» Jakie jest prawdopodobieÅ„stwo, że Å›rednia z próby X przyjmie wartość mniejszÄ… niż 217 KM? 217 - µ 217 - 220 Å» P(X < 217) = P(Z < " ) = P(Z < " ) = Ã/ n 15/ 100 = P(Z < -2) = 0, 0228. PrawdopodobieÅ„stwo, to jest znikome. PrzedziaÅ‚y ufnoÅ›ci. PrzykÅ‚ad " Estymator punktowy jest liczbÄ…, która szacuje parametr, ale nie dajemy żadnej informacji o dokÅ‚adnoÅ›ci oszacowania. Mówimy, że Å›rednia w próbie jest równa 550. Tym samym dajemy ocenÄ™ Å›redniej w populacji. Ale ta ocena nic nie mówi o tym jak dalece Å›rednia w populacji µ może odbiegać od 550. " Przypuśćmy, że dodatkowo powiedzieliÅ›my, że mamy 99% pewnoÅ›ci (ufnoÅ›ci), że µ leży w przedziale [449, 551]. W ten sposób przekazaliÅ›my wiÄ™cej informacji o możliwej wartoÅ›ci µ. " Porównajmy ten przedziaÅ‚ z innym. Powiedzmy, że mamy 90% pewnoÅ›ci (ufnoÅ›ci), iż µ leży w przedziale [400, 700]. Stwierdzenie to przekazuje mniej informacji o µ, gdyż przedziaÅ‚ jest szerszy, a poziom ufnoÅ›ci mniejszy. Definicja przedziaÅ‚u ufnoÅ›ci PrzedziaÅ‚em ufnoÅ›ci nazywamy przedziaÅ‚ liczbowy, o którym przypuszczamy, że mieÅ›ci siÄ™ w nim nieznany parametr populacji. Z przedziaÅ‚em tym zwiÄ…zana jest miara ufnoÅ›ci (pewnoÅ›ci), że ten przedziaÅ‚ naprawdÄ™ zawiera interesujÄ…cy nas parametr, zwana poziomem ufnoÅ›ci. PrzedziaÅ‚y ufnoÅ›ci dla Å›redniej µ w populacji gdy odchylenie standardowe à w populacji jest znane CTG mówi, że gdy pobieramy próbÄ™ losowÄ… z dowolnej populacji o Å» Å›redniej µ i odchyleniu standardowym à to Å›rednia z próby X ma w przybliżeniu rozkÅ‚ad normalny ze Å›redniÄ… µ i odchyleniu " standardowym Ã/ n. Definicje " Przez zÄ…/2 bÄ™dziemy oznaczać takÄ… wartość standaryzowanej zmiennej losowej Z, która odcina pod prawym ogonem krzywej gÄ™stoÅ›ci normalnej pole o mierze Ä…/2. " Miara pola pod krzywÄ… z wyÅ‚Ä…czeniem pól pod ogonami, równa 1 - Ä… jest nazywana współczynnikiem ufnoÅ›ci. Miara obu pól pod ogonami Ä… nazywa siÄ™ prawdopodobieÅ„stwem bÅ‚Ä™du. Współczynnik ufnoÅ›ci pomnożony przez 100 daje poziom ufnoÅ›ci wyrażony w procentach. " (1 - Ä…)% przedziaÅ‚ ufnoÅ›ci dla µ, gdy znane jest Ã, a próba pochodzi z populacji normalnej lub jest dużą próbÄ…, wyznacza wzór à x Ä… zÄ…/2 . Å» " n PrzykÅ‚ad Chcemy znalezć 80% przedziaÅ‚ ufnoÅ›ci. Wtedy 1 - Ä… = 0, 8, Ä… = 0, 2 Ä…/2 = 0, 1, 1 - Ä…/2 = 0, 9. Ponadto Åšz0,1 = 0, 9 czyli z0,1 = 1, 28. " Jeżeli pobieramy próby o tej samej liczebnoÅ›ci z tej samej populacji, to im wyższy poziom ufnoÅ›ci, tym szerszy jest przedziaÅ‚ ufnoÅ›ci. " Jeżeli pobieramy próbÄ™ z tej samej populacji, to przy ustalonym poziomie ufnoÅ›ci im liczniejsza jest próba, tym węższy jest przedziaÅ‚ ufnoÅ›ci. PrzykÅ‚ad " Wyznaczmy teraz nie 95%, a 80% przedziaÅ‚ ufnoÅ›ci przy n = 25, Å›redniej x = 122 i à = 20. Mamy Å» à 20 xÄ…1, 28 = 122Ä…1, 28 = 122Ä…5, 12 = [116, 88; 127, 12]. Å» " " n 25 PrzedziaÅ‚ ten jest węższy niż 95%. " Jeżeli chcemy mieć wÄ…ski przedziaÅ‚ ufnoÅ›ci przy wysokim poziomie ufnoÅ›ci, musimy zgromadzić dużo informacji, czyli pobrać dużą próbÄ™. " Wyznaczmy 80% przedziaÅ‚ ufnoÅ›ci, ale dla próby 2500 elementowej. Nowy przedziaÅ‚ ufnoÅ›ci jest 10 razy węższy od wyznaczonego poprzednio. à 20 xÄ…1, 28 = 122Ä…1, 28 = 122Ä…0, 512 = [121, 49; 122, 51]. Å» " " n 2500 " RozpiÄ™tość tego przedziaÅ‚u: 2 " 0, 52 = 1, 024, dla próby 25-elementowej: 2 " 5, 12 = 10, 24. PrzedziaÅ‚y ufnoÅ›ci dla Å›redniej µ gdy à w populacji NIE jest znane " W realnych sytuacjach badawczych standardowe odchylenie w populacji rzadko jest znane. " Jeżeli rozkÅ‚ad w populacji jest normalny, to standaryzowana statystyka Å» X - µ t = " S/ n ma rozkÅ‚ad t-Studenta z n - 1-stopniami swobody. " RozkÅ‚ad ten jest rozkÅ‚adem symetrycznym podobnym w ksztaÅ‚cie do normalnego, ale bardziej pÅ‚askim z dÅ‚uższymi ogonami. " Im wiÄ™ksza liczba stopni swobody tym rozkÅ‚ad jest bardziej stromy i zbliża siÄ™ do standardowego rozkÅ‚adu normalnego. Definicja przedziaÅ‚u ufnoÅ›ci (1 - Ä…)100% przedziaÅ‚ ufnoÅ›ci dla µ, gdy à nie jest znane, a rozkÅ‚ad w populacji jest normalny, wyznacza wzór s x Ä… tÄ…/2 " Å» n gdzie tÄ…/2 jest wartoÅ›ciÄ… z rozkÅ‚adu t-Studenta o n - 1-stopniach swobody, która odcina pod ogonem krzywej gÄ™stoÅ›ci rozkÅ‚adu pole o mierze Ä…/2 z prawej strony. PrzykÅ‚ad Analityk gieÅ‚dowy chce oszacować przeciÄ™tny przychód z pewnej akcji (w procentach). Losowa próba z 15 dni wykazaÅ‚a przeciÄ™tny w skali rocznej przychód x = 10, 37%, przy odchyleniu standardowym Å» s = 3, 5%. ZakÅ‚adajÄ…c, że rozkÅ‚ad przychodów jest normalny, wyznaczymy 95% przedziaÅ‚ ufnoÅ›ci dla przeciÄ™tnego przychodu z tej akcji. Z tablicy odczytujemy: t0,025 = 2, 145 oraz obliczamy: s 3, 5 x Ä… tÄ…/2 = 10, 37 Ä… 2, 145 = [8, 43; 12, 31]. Å» " " n 15 Analityk może mieć 95% ufnoÅ›ci, że przeciÄ™tny roczny przychód z akcji znajdzie siÄ™ miedzy 8,43% a 12,31%. PrzedziaÅ‚y ufnoÅ›ci dla Å›redniej µ w populacji gdy odchylenie standardowe à w populacji NIE jest znane " Jeżeli à nie jest znane, a rozkÅ‚ad w populacji jest normalny, powinniÅ›my siÄ™ posÅ‚ugiwać rozkÅ‚adem t- Studenta z n - 1 stopniami swobody, ale przy dużej liczbie stopni swobody dobrym przybliżeniem jest rozkÅ‚ad normalny. " Dla dużej próby (1 - Ä…)100% przedziaÅ‚ ufnoÅ›ci dla µ, gdy à nie jest znane, a rozkÅ‚ad w populacji jest normalny, wyznacza wzór s x Ä… zÄ…/2 " Å» n PrzykÅ‚ad Ekonomista chce oszacować przeciÄ™tny stan rachunków czekowych w bankach w danym regionie. W pobranej próbie 100 rachunków otrzymano x = 357, 60$ i s = 140$. 95% przedziaÅ‚ ufnoÅ›ci dla µ tj. Å» dla przeciÄ™tnego stanu rachunków czekowych ma postać: s 140 x Ä… zÄ…/2 = 357, 6 Ä… 1, 96 = [330, 16; 385, 04]. Å» " " n 100 Ekonomista może mieć 95% ufnoÅ›ci, że przeciÄ™tny stan rachunków czekowych mieÅ›ci siÄ™ w przedziale od 330,16$ a 385,04$. PrzedziaÅ‚y ufnoÅ›ci dla frakcji w populacji gdy próba jest duża " Czasami interesujemy siÄ™ wzglÄ™dnÄ… czÄ™stoÅ›ciÄ… pojawiania siÄ™ pewnej cechy czyli frakcjÄ… elementów majÄ…cych pewnÄ… cechÄ…. Ć " Wiadomo, że statystyka z dużej próby P ma rozkÅ‚ad normalny
ze średnią p i odchyleniem standardowym pq/n " Próba jest duża gdy np i nq są większe od 5. " Dla dużych prób (1 - ą)100% przedział ufności dla frakcji w populacji wyznacza wzór
pq ĆĆ p ą zą/2 , Ć n gdzie frakcja z próby p jest równa liczbie sukcesów w próbie, Ć x, podzielonej przez liczebność próby n. Przykład Firma prowadząca badania rynkowe chce oszacować udział przedsiębiorstw zagranicznych w amerykańskim rynku pewnego produktu. Pobrano próbę 100 konsumentów i stwierdzono, że 34 osoby kupują produkt zagraniczny. Wyznaczymy 95% przedział ufności dla udziału produktu zagranicznego w rynku amerykańskim. Mamy x = 34, n = 100, i stąd oceną frakcji w populacji jest p = x/n = 34%. Na mocy wzoru 95% przedział Ć ufności dla frakcji w populacji ma postać:
pq 0, 34 " 0, 66 ĆĆ p Ä… zÄ…/2 = 0, 34 Ä… 1, 96 = [0, 2472; 0, 4328]. Ć n 100 Firma może mieć 95% zaufania do tego, że zagraniczni producenci opanowali rynek w granicach od 24,72% do 43,28%. PrzedziaÅ‚y ufnoÅ›ci dla wariancji " Czasami interesuje nas wariancja np. w analizie procesu produkcyjnego lub w badaniach procesów masowej obsÅ‚ugi. " Estymatorem punktowym wariancji z populacji à jest wariancja z próby S2. " Do wyznaczenia przedziaÅ‚u ufnoÅ›ci potrzebny jest rozkÅ‚ad chi-kwadrat (Ç2). " RozkÅ‚ad chi-kwadrat jest rozkÅ‚adem prawdopodobieÅ„stwa sumy kwadratów niezależnych standardowych normalnych zmiennych losowych. " Jest on prawostronnie skoÅ›ny. RozkÅ‚ad chi-kwadrat i przedziaÅ‚ ufnoÅ›ci dla wariancji " Jeżeli próba zostaÅ‚a pobrana z populacji o rozkÅ‚adzie normalnym, to zmienna losowa: (n - 1)S2 Ç2 = Ã2 ma rozkÅ‚ad chi-kwadrat o n - 1 stopniach swobody. " (1 - Ä…)100% przedziaÅ‚ ufnoÅ›ci dla wariancji w populacji Ã2 gdy rozkÅ‚ad w populacji jest normalny, wyznacza wzór (n - 1)s2 (n - 1)s2 [ , ], Ç2 Ç2 Ä…/2 1-Ä…/2 gdzie Ç2 jest wartoÅ›ciÄ… zmiennej w rozkÅ‚adzie chi-kwadrat o Ä…/2 n - 1 stopniach swobody, która odcina pole o mierze Ä…/2 z prawej strony; Ç2 wartoÅ›ciÄ… zmiennej , która odcina pole 1-Ä…/2 o mierze Ä…/2 z lewej strony (a tym samym o mierze 1 - Ä…/2 z prawej strony). PrzykÅ‚ad Maszyna automatycznie napeÅ‚nia pojemniki z kawÄ…. Jeżeli przeciÄ™tne napeÅ‚nienie jest różne od normy, pracÄ™ maszyny można uregulować tak by dawaÅ‚a żądanÄ… przeciÄ™tnÄ…. Jeżeli jednak wariancja procesu napeÅ‚niania jest zbyt duża, pracy maszyny nie da siÄ™ uregulować i trzeba jÄ… oddać do naprawy. Dlatego od czasu do czasu przeprowadza siÄ™ kontrolÄ™ wariancji procesu napeÅ‚niania. Wybiera siÄ™ w tym celu losowo pewnÄ… liczbÄ™ pojemników, mierzy siÄ™ ilość kawy i oblicza wariancjÄ™ z próby. Losowa próba 30 pojemników daÅ‚a ocenÄ™ wariancji s2 = 18540. Wyznaczymy 95% przedziaÅ‚ ufnoÅ›ci. Z tablic odczytujemy Ç2 = 45, 7 i 0,025 Ç2 = 16, 0. StÄ…d mamy: 0,975 29 " 18540 29 " 18540 [ , ] = [11765, 33604]. 45, 7 16, 0 Mamy 95% pewnoÅ›ci, że wariancja znajduje siÄ™ miÄ™dzy 11765 a 33604. Minimalna liczebność próby " Najlepsza jest próba jak najliczniejsza z możliwych (caÅ‚a populacja). " Jest to nierealne, bo w wiÄ™kszoÅ›ci sytuacji musimy siÄ™ liczyć z ograniczeniami czasowymi, finansowymi i innymi. " Im wiÄ™ksza próba tym mniejsza niepewność. Wraz ze wzrostem liczebnoÅ›ci próby malejÄ… standardowe bÅ‚Ä™dy statystyk używanych jako estymatory. " Statystyk zadaje pytania: " Jakiego przybliżenia B domagasz siÄ™ do oceny parametru? " Jakiego poziomu ufnoÅ›ci oczekujesz? " jest twoja ocena wariancji? Minimalna liczebność próby " Minimalna wymagana liczebność próby do oszacowania Å›redniej w populacji µ z2 Ã2 Ä…/2 n = . B2 " Minimalna wymagana liczebność próby do oszacowania frakcji w populacji p: z2 pq Ä…/2 n = . B2 " Jeżeli nie znamy p przyjmujemy, że jest ono równe 0,5. PrzykÅ‚ad Firma zajmujÄ…ca siÄ™ analiza rynku chce przeprowadzić badania ankietowe w celu oszacowania wydatków na rozrywki przeciÄ™tnego kuracjusza Uzdrowiska Krynica. Osoba zlecajÄ…ca te badania chciaÅ‚aby znać te wydatki z przybliżeniem nie wiÄ™kszym niż 120 zÅ‚otych., przy poziomie ufnoÅ›ci 95%. Na podstawie dotychczasowych informacji dziaÅ‚alnoÅ›ci uzdrowiska odchylenie standardowe szacuje siÄ™ na 400 zÅ‚otych. Jaka jest minimalna wymagana liczebność próby? Wiemy, że B = 120, Ã2 = 4002 = 160000. StÄ…d: 1, 962 " 160000 n = = 42, 684. 1202 Minimalna wymagana liczebność próby to 43 osoby. Testowanie hipotez statystycznych " Zgodnie z prawem amerykaÅ„skim , oskarżony jest uważany za niewinnego , dopóki nie dowiedzie siÄ™ mu winy ponad rozsÄ…dnÄ… wÄ…tpliwość . HipotezÄ™, ze jest niewinny nazwijmy hipotezÄ… zerowÄ…. " Podtrzymujemy, że jest ona prawdziwa dopóki nie udowodnimy, ze jest ona faÅ‚szywa. " Chcemy mieć maÅ‚e prawdopodobieÅ„stwo skazania niewinnego tzn. odrzucenie hipotezy zerowej gdy jest ona prawdziwa. " Hipoteza zerowa zakÅ‚ada coÅ› o jednym lub wielu parametrach populacji. Definicje " HipotezÄ… zerowÄ…, oznaczanÄ… przez H0, jest hipoteza o wartoÅ›ci jednego (lub wielu) parametru populacji. TÄ™ hipotezÄ™ traktujemy jako prawdziwÄ…, dopóki nie uzyskamy informacji statystycznych dostatecznych do zmiany naszego stanowiska. " Hipoteza alternatywnÄ…, oznaczanÄ… przez H1, jest hipoteza przypisujÄ…ca parametrowi populacji wartość niezgodnÄ… z przypisanÄ… mu przez hipotezÄ™ zerowÄ…. " Hipoteza zerowa i alternatywna tworzÄ… parÄ™ hipotez dopeÅ‚niajÄ…cych siÄ™. " PrzykÅ‚ad: H0 : µ = 100 H1 : µ = 100.
Definicje " Sprawdzianem lub statystykÄ… testu nazywamy statystykÄ™ z próby, której wartość obliczona na podstawie wyników obserwacji jest wykorzystywana do ustalenia czy możemy hipotezÄ™ zerowÄ… odrzucić, czy brak podstaw do jej odrzucenia. " ReguÅ‚Ä… ustalajÄ…cÄ… warunki, pod którymi można odrzucić hipotezÄ™ zerowÄ…, nazywamy reguÅ‚Ä… decyzyjnÄ… testu hipotezy statystycznej. " Stan rzeczy, decyzje i rodzaje bÅ‚Ä™dów: Stan rzeczy H0 H1 Decyzje H0 sÅ‚uszna decyzja BÅ‚Ä…d rodzaju II H1 BÅ‚Ä…d rodzaju I sÅ‚uszna decyzja " PrawdopodobieÅ„stwo popeÅ‚nienia bÅ‚Ä™du pierwszego rodzaju oznaczać bÄ™dziemy przez Ä…, a prawdopodobieÅ„stwo popeÅ‚nienia bÅ‚Ä™du drugiego rodzaju przez ². Definicje " W rozumieniu amerykaÅ„skiego systemu prawnego bÅ‚Ä…d I rodzaju jest poważniejszy. " Zasada niewinny, dopóki nie dowiedziono mu winy oznacza, że chcemy siÄ™ ustrzec skazania osoby niewinnej (bÅ‚Ä…d I rodzaju) niż uniewinnienia osoby winnej ( bÅ‚Ä…d II rodzaju). Ä… = P(H0|H0jest prawdziwa) ² = P(H0nieodrzucona|H0jest faÅ‚szywa). " Chcemy, żeby Ä… i ² byÅ‚y maÅ‚e, ale ważniejsze jest kontrolowanie poziomu Ä…. PrzykÅ‚ad Firma rozwożąca paczki na terenie wielkiej metropolii zapewnia, że Å›redni czas dostarczenia przesyÅ‚ki od drzwi klienta do miejsca przeznaczenia wynosi 28 minut. Chcemy to sprawdzić, traktujÄ…c zapewnienie firmy jako hipotezÄ™ statystycznÄ…. Mamy: H0 : µ = 28 H1 : µ = 28.
By sprawdzić test wybieramy losowo próbÄ™ liczÄ…cÄ… n = 100 przesyÅ‚ek. Po obliczeniach: x = 31, 5 minuty, a s = 5 minut. Å» Zbudujmy 95% przedziaÅ‚ ufnoÅ›ci dla Å›redniej µ. Duża próba-korzystamy z rozkÅ‚adu normalnego: s 5 x Ä… zÄ…/2 = 31, 5 Ä… 1, 96 = 31, 5 Ä… 0, 98 = [30, 52; 32, 48]. Å» " " n 100 Możemy być w 95% pewni, że przeciÄ™tny czas dostawy przesyÅ‚ki mieÅ›ci siÄ™ miÄ™dzy 30,52 a 32,48 minuty. Ponieważ µ = 28 znajduje siÄ™ poza tym przedziaÅ‚em, możemy odrzucić tÄ™ hipotezÄ™ na korzyść hipotezy alternatywnej. Definicje " Poziomem istotnoÅ›ci Ä… testu hipotezy statystycznej jest prawdopodobieÅ„stwo popeÅ‚nienia bÅ‚Ä™du I rodzaju. " Obszarem odrzucenia hipotezy statystycznej jest taki zbiór liczb, że jeżeli sprawdzian przyjmie wartość z tego zbioru, to hipotezÄ™ zerowÄ… odrzucimy. Obszar odrzucenia nazywa siÄ™ tez obszarem krytycznym. Obszar krytyczny wyznaczajÄ… punkty krytyczne. Obszar krytyczny jest ustalany tak, by przed pobraniem próby prawdopodobieÅ„stwo, że sprawdzian znajdzie siÄ™ w tym obszarze, przy zaÅ‚ożeniu, że hipoteza zerowa jest prawdziwa, byÅ‚o równe Ä…. " Obszarem nieodrzucenia hipotezy statystycznej jest taki zbiór liczb, że jeżeli sprawdzian przyjmie wartość z tego zbioru, to hipotezy zerowe nie odrzucimy. Obszar nieodrzucenia jest ustalony tak, by przed pobraniem próby prawdopodobieÅ„stwo, że sprawdzian znajdzie siÄ™ w tym obszarze przy zaÅ‚ożeniu, że hipoteza zerowa jest prawdziwa byÅ‚o równe 1 - Ä…. Dwustronny test dla Å›redniej w przypadku dużej próby H0 : µ = µ0 H1 : µ = µ0.
" Poziom istotnoÅ›ci testu: Ä… (zwykle 0,05 lub 0,1) x-µ0 Å» " " Sprawdzian (statystyka testu): z = , gdy à nie jest znane; s/ n w przeciwnym wypadku zamiast s w mianowniku bÄ™dzie Ã. " Punkty krytyczne: ich poÅ‚ożenie zależy od Ä…; sÄ… nimi punkty Ä…zÄ…/2, miÄ™dzy którymi znajduje siÄ™ pole pod krzywÄ… gÄ™stoÅ›ci normalnej o mierze 1 - Ä…. " ReguÅ‚a decyzyjna: odrzuć hipotezÄ™ zerowÄ…, gdy z > zÄ…/2 albo z < -zÄ…/2. PrzykÅ‚ad Linie lotnicze chciaÅ‚y ustalić rozmiary niezbÄ™dnej powierzchni kabiny przeznaczonej na bagaż podrÄ™czny. W ramach badaÅ„ trzeba byÅ‚o sprawdzić hipotezÄ™ zerowa, że przeciÄ™tna waga bagażu przypadajÄ…ca na jednego pasażera wynosi 12 funtów, wobec hipotezy alternatywnej, że µ = 12 na poziomie istotnoÅ›ci
Ä… = 0, 05. Organizator badania pobraÅ‚ losowÄ… próbÄ™ 144 pasażerów i stwierdziÅ‚, że Å›rednia waga bagażu podrÄ™cznego wynosi x = 14, 6 Å» funta przy odchyleniu standardowym s = 7, 8 funta. Mamy: H0 : µ = 17 H1 : µ = 17.
Punkty krytyczne dla sprawdzianu hipotezy to: Ä…1, 96. Wartość x-µ0 14,6-17 Å» " " sprawdzianu testu wynosi: z = = = 4. Obliczona s/ n 7,8/ 144 wartość wpada w obszar odrzucenia. Podejmujemy decyzjÄ™ o odrzuceniu hipotezy, że przeciÄ™tna waga bagażu wynosi 12 funtów na korzyść hipotezy alternatywnej. PrzykÅ‚ad PrzeciÄ™tny czas potrzebny komputerowi do wykonania zadania wynosi 3,24 sekundy. W 1984 r. uczeni z Bell Laboratories w New Jersey testowali różne algorytmy, które mogÅ‚yby zmienić ten czas. Nie wiedzieli jednak czy przeciÄ™tny algorytm skróci czy wydÅ‚uży ten czas. Dlatego zdecydowano siÄ™ sprawdzić hipotezÄ™, że przeciÄ™tny czas nie zmieni siÄ™. Wybrano losowÄ… próbÄ™ 200 cykli obliczeÅ„ komputerowych wg nowych algorytmów i otrzymano: x = 3, 48 sek, s = 2, 8 sek. Czy przy poziomie istotnoÅ›ci Ä… = 0, 05 Å» możemy wyciÄ…gnąć wniosek, że czas wykonania obliczeÅ„ wg nowych algorytmów jest różny od poprzedniego? H0 : µ = 3, 24 H1 : µ = 3, 24.
Punkty krytyczne dla sprawdzianu hipotezy to: Ä…1, 96. Wartość x-µ0 3,84-3,24 Å» " " sprawdzianu testu wynosi: z = = = 1, 21. Obliczona s/ n 2,8/ 200 wartość wpada w obszar nieodrzucenia. Brak podstaw do odrzucenia hipotezy zerowej. Dwustronny test dla Å›redniej w populacji w przypadku maÅ‚ej próby " Sprawdzian (statystyka testu) dla Å›redniej w populacji µ w przypadku maÅ‚ej próby: x - µ0 Å» t = " . s/ n " Jeżeli rozkÅ‚ad w populacji jest normalny, a hipoteza zerowa jest prawdziwa, to sprawdzian ma rozkÅ‚ad t-Studenta o n - 1 stopniach swobody. Oznacza to, że punkty krytyczne odczytujemy z rozkÅ‚adu t-Studenta. " Mówimy, że wynik badania statystycznego jest istotny na poziomie istotnoÅ›ci Ä…, gdy wynik ten skÅ‚ania nas do odrzucenia hipotezy zerowej na podstawie testu, w którym zastosowano poziom istotnoÅ›ci Ä…. PrzykÅ‚ad Firma Canon wprowadziÅ‚a na rynek kopiarkÄ™ pracujÄ…cÄ… w systemie kompaktowym. PrzeciÄ™tna prÄ™dkość tego rodzaju kopiarek to 27 kopii na minutÄ™. Firma chce sprawdzić, czy jej nowa kopiarka ma tÄ™ samÄ… prÄ™dkość dziaÅ‚ania co standardowa. Przeprowadzono 24 próby z nowÄ… kopiarkÄ… i otrzymano x = 24, 6, przy s = 7, 4 kopii Å» na minutÄ™. Czy na poziomie istotnoÅ›ci Ä… = 0, 05 sÄ… podstawy do przyjÄ™cia hipotezy, że przeciÄ™tna prÄ™dkość kopiowania nowej kopiarki różni siÄ™ od prÄ™dkoÅ›ci kopiowania standardowej? Mamy: H0 : µ = 27 H1 : µ = 27.
Ponieważ n = 24 to posÅ‚użymy siÄ™ rozkÅ‚adem t-Studenta. Punkty krytyczne to: Ä…2, 069. Wartość sprawdzianu testu: x-µ0 24,6-27 Å» " t = = = -1, 589. Obliczona wartość wpada w 7,4/4,899 s/ n obszar nieodrzucenia. Brak podstaw do odrzucenia hipotezy zerowej, że przeciÄ™tna prÄ™dkość nowej kopiarki różni siÄ™ znaczÄ…co od standardowej. Dwustronny test dla frakcji w przypadku dużej próby Sprawdzian (statystyka testu) dla frakcji w populacji p: p - p0 Ć
z = . p0q0/n Przykład Kiedy Londyńska giełda została otwarta dla zagranicznych inwestorów oczekiwano, że na giełdzie będą masowo lokowane amerykańskie dolary. Analityk giełdowy Goldman Sachs and Co. chciał sprawdzić hipotezę wysuniętą przez brytyjskiego eksperta, że 70% wszystkich zagranicznych inwestorów na giełdzie londyńskiej stanowią Amerykanie. Analityk zgromadził losową próbę 210 rachunków zagranicznych inwestorów w Londynie i stwierdził, że 130 z nich to obywatele amerykańscy. Czy sa podstawy do odrzucenia hipotezy brytyjskiego eksperta na poziomie istotności ą = 0, 05?. Mamy sprawdzić hipotezę: H0 : p = 0, 70, przy alternatywnej H1 = 0, 70. Sprawdzianem jest statystyka Z i wobec
tego dla Ä… = 0, 05 punktami krytycznymi sÄ… Ä…1, 96. Dla znanej frakcji z próby: p = 130/210 = 0, 619 wartość sprawdzianu wynosi: Ć Ć 0,619-0,70 "p-p0 = " z = = -2, 5614. Jest ona w obszarze p0q0/n 0,7"0,3/210 odrzucenia. Na podstawie zbadanej próby możemy stwierdzić, że procent rachunków amerykaÅ„skich byÅ‚ mniejszy niż 70%. Testy prawostronny dla Å›redniej dla dużej próby " Hipoteza zerowa: H0 : µ µ0, " Hipoteza alternatywna: H1 : µ > µ0. " Poziom istotnoÅ›ci testu: Ä… x-µ Å» " " Sprawdzian (statystyka testu): z = , gdy à nie jest znane s/ n " w przeciwnym wypadku w mianowniku wystÄ™puje Ã/ n. " Punkt krytyczny: zÄ… odcina pole o mierze Ä… pod prawym ogonem krzywej gÄ™stoÅ›ci. " ReguÅ‚a decyzyjna: Odrzucić hipotezÄ™ zerowa, gdy z > zÄ…. PrzykÅ‚ad Agencja Ochrony Åšrodowiska ustala dopuszczalne granice stężenia różnych substancji w powietrzu, emitowanych przez przemysÅ‚. PrzeciÄ™tnÄ… dopuszczalnÄ… granicÄ™ stężenia chlorku winylu ustalono na poziomie 55 ppm. Aby sprawdzić przestrzeganie normy Agencja pobraÅ‚a losowÄ… próbÄ™ 100 odczytów w obrÄ™bie 2 mil od fabryki. PrzeciÄ™tne stężenie w próbie wyniosÅ‚o 60 ppm, a s = 20 ppm. Czy sÄ… podstawy do stwierdzenia, że fabryka naruszyÅ‚a normÄ™? Agencja wystÄ…pi przeciw fabryce tylko wtedy, gdy bÄ™dÄ… podstawy do przyjÄ™cia, że stężenie przekracza dopuszczalny poziom 55 ppm. Dlatego stosujemy test prawostronny. H0 : µ 55 H1 : µ > 55. Punkt krytyczny dla poziomu istotnoÅ›ci 0,01: 2,33. Sprawdzian x-µ Å» 60-55 " testu: z = = = 2, 5. Wpada on w obszar krytyczny. 20/10 s/ n Agencja może odrzucić hipotezÄ™ o niewinnoÅ›ci fabryki. Dla testu dwustronnego: brak podstaw do odrzucenia hipotezy. Test dla Å›redniej gdy próba jest maÅ‚a Producent zapewnia, że trwaÅ‚ość wytwarzanego przez niego reflektora wynosi przeciÄ™tnie 65 godzin. Konkurent podejrzewa, że trwaÅ‚ość urzÄ…dzenia jest mniejsza i zamierza dowieść, że zapewnienie producenta jest faÅ‚szywe. W próbie 21 sztuk okazaÅ‚o siÄ™, że przeciÄ™tna trwaÅ‚ość reflektora wynosi 62,5 godziny, przy odchyleniu standardowym 3 godziny. PrzyjmujÄ…c poziom istotnoÅ›ci Ä… = 0, 01 sprawdz, czy istnieje dostateczna podstawa do uznania zapewnienia producenta za faÅ‚szywe. H0 : µ 65 H1 : µ < 65. MaÅ‚a próba-rozkÅ‚ad t-Studenta o 20 stopniach swobody. Punkt krytyczny dla poziomu istotnoÅ›ci 0,01, test lewostronny: -2,53. x-µ 62,5-65 Å» " " Sprawdzian testu: t = = = -3, 82. Wpada on w s/ n 3/ 21 obszar krytyczny. Odrzucamy hipotezÄ™ zerowÄ… i wnioskujemy, że istniejÄ… statystyczne podstawy do uznania zapewnienia producenta za faÅ‚szywe. PrawdopodobieÅ„stwo bÅ‚Ä™du I rodzaju< 0, 01. Test dla wariancji " Sprawdzianem (statystykÄ… testu) przy testowaniu hipotezy o wariancji w populacji jest: (n - 1)s2 Ç2 = , 2 Ã0 2 gdzie Ã0 jest wartoÅ›ciÄ… wariancji zaÅ‚ożonÄ… w hipotezie zerowej. " Z reguÅ‚y obawiamy siÄ™, że wariancja przekroczy pewien poziom, w którym to przypadku należaÅ‚oby podjąć jakieÅ› dziaÅ‚ania zapobiegawcze. Dlatego stosujemy test prawostronny. " Powyższa statystyka dla populacji normalnej ma rozkÅ‚ad Ç2 o n - 1 stopniach swobody. PrzykÅ‚ad Maszyna wytwarza metalowe pÅ‚ytki wchodzÄ…ce w skÅ‚ad baterii do gier elektronicznych. Åšrednica pÅ‚ytki jest zmiennÄ… losowa o Å›redniej 5 mm. Dopóki wariancja Å›rednicy pÅ‚ytki nie przekracza 1 (mm2) uważamy, że proces produkcyjny jest pod kontrolÄ… i pÅ‚ytki majÄ… dopuszczalne wymiary. W przeciwnym wypadku maszynÄ™ trzeba naprawić. KontrolÄ™ jakoÅ›ci chce sprawdzić hipotezÄ™ H0 : Ã2 1, 00, wobec hipotezy H1 : Ã2 > 1, 00. PobraÅ‚ on w tym celu próbÄ™ losowÄ… 31 pÅ‚ytek i stwierdziÅ‚ w niej wariancjÄ™ 1,62. Czy sÄ… podstawy do przypuszczenia, że wariancja pÅ‚ytki przekroczyÅ‚a 1,00? (n-1)s2 30"1,62 Mamy Ç2 = = = 48, 6. Z tablic odczytujemy dla 2 Ã0 1,00 Ä… = 0, 05 Ç2 = 43, 77. Możemy wiÄ™c odrzucić hipotezÄ™ zerowÄ…. Testy dla dwóch Å›rednich dla niezależnych dużych prób H0 : µ1 = µ2 H1 : µ1 = µ2.
x x Å» 1-Å»2 Sprawdzian hipotezy: z = . s2 s2 1 2 + n1 n2 PrzykÅ‚ad Do niedawna panowaÅ‚a opinia, że bogatsi konsumenci posÅ‚ugujÄ… siÄ™ kartami American Express, a ubożsi kartami Visa. W ostatnich latach firma Visa chce wzmocnić swojÄ… pozycjÄ™. Chce sprawdzić czy przeciÄ™tne miesiÄ™czne obciążenie kart obydwu rodzajów sÄ… takie same. Pobrano losowÄ… próbÄ™ 1200 kart Visa i stwierdzono x1 = 452$ i s = 212$. W 800 elementowej próbie kart AE Å» x2 = 523$ i s = 185$. Czy istniejÄ… podstawy do przyjÄ™cia, że Å» przeciÄ™tne miesiÄ™czne obciążenie różni siÄ™ w zależnoÅ›ci od rodzaju karty? Mamy: H0 : µ1 = µ2 H1 : µ1 = µ2.
Wartość sprawdzianu hipotezy: z = -7, 926. Wartość ta wpada w lewostronny obszar krytyczny w każdym stosowanym poziomie istotnoÅ›ci. Istnieje statystycznie istotna różnica miedzy przeciÄ™tnymi obciążeniami ww kart. Test dla Å›rednich przy jednakowych wariancjach w populacji 2 2 " Gdy zakÅ‚adamy o wariancjach Ã1 i Ã2, że sÄ… jednakowe można przeprowadzić inny test dla Å›rednich. " ZakÅ‚ada siÄ™, że rozkÅ‚ady w populacjach sÄ… w przybliżeniu normalne. " AÄ…cznÄ… ocenÄ™ wspólnej wariancji dla dwóch populacji okreÅ›la wzór: 2 2 (n1 - 1)s1 + (n2 - 1)s2 2 sp = . n1 + n2 - 2 " OcenÄ… standardowego bÅ‚Ä™du różnicy dwóch Å›rednich jest:
1 1 2 sp( + ). n1 n2 Test dla średnich przy jednakowych wariancjach w populacji " Sprawdzianem w teście na różnicę między średnimi w dwóch populacjach o jednakowej wariancji jest statystyka: x1 - x2 Ż Ż
t = . 1 1 2 sp(n1 + ) n2 " LiczbÄ… stopni swobody sprawdzianu jest n1 + n2 - 2. " Gdy próba jest duża możemy zastosować normalne przybliżenie rozkÅ‚adu t. PrzykÅ‚ad Producent odtwarzaczy pÅ‚yt kompaktowych chce sprawdzić, czy niewielkie obniżenie ceny wystarczy, by zwiÄ™kszyć sprzedaż. Losowo pobrana próba wielkoÅ›ci sprzedaży z 15 tygodni przed obniżeniem ceny daÅ‚a Å›redniÄ… 6598$, przy odchyleniu standardowym 844$. Po niewielkiej obniżce cen 12 elementowa próba losowa daÅ‚a Å›rednia 6870$, przy odch. stand. 669$. Czy istniejÄ… podstawy do przyjÄ™cia, że ta obniżka cen wystarcza do wzrostu sprzedaży pÅ‚yt? Gdy sprzedaż wzrasta to µ2 - µ1 > 0 i bierzemy to za hipotezÄ™ alternatywnÄ…. StÄ…d: H0 : µ2 - µ1 0 i H1 : µ2 - µ1 > 0. Sprawdzian ma rozkÅ‚ad t o 15 + 12 - 2 = 25 stp swobody. Wartość sprawdzianu: t = 0, 91. Wartość ta nie wpada w obszar odrzucenia przy wszystkich stosowanych poziomach istotnoÅ›ci. Brak podstaw do odrzucenia hipotezy, że obniżka nie wywoÅ‚uje wzrostu sprzedaży. Test dla różnicy miÄ™dzy frakcjami - duże próby " Sprawdzianem w teÅ›cie jest statystyka: p1 - p2 Ć Ć z = . 1 1 p(1 - p)n1 + ) Ć Ć n2 gdzie p1 = x1/n1 jest frakcjÄ… z próby pobranej z populacji 1, a Ć p2 = x2/n2 jest frakcjÄ… z próby pobranej z populacji 2. Ć " p - Å‚Ä…czna frakcja w poÅ‚Ä…czonych próbach Ć x1 + x2 p = . Ć n1 + n2 PrzykÅ‚ad Niedawno pisano, że udogodnienia finansowe wprowadzone przez producentów samochodów zmniejszyÅ‚y udziaÅ‚ banków w rynku pożyczek samochodowych. W artykule stwierdzono, ze w 1980 r. banki obsÅ‚ugiwaÅ‚y 53% pożyczek samochodowych, a w roku1986 43%. Przypuśćmy, że dane pochodzÄ… z prob 100 elementowych. Przeprowadzimy dwustronny test o równoÅ›ci udziaÅ‚u pożyczek bankowych w rynku pożyczek samochodowych. Mamy: H0 : p1 = p2 i H1 : p1 = p2. AÄ…czna frakcja z próby: p = 0, 48. Ć Wartość sprawdzianu: z = 1, 415. Wpada on poza obszar odrzucenia nawet da Ä… = 0, 1. Wnioskujemy, że nie możemy powiedzieć, ze udziaÅ‚ banków zmieniÅ‚ siÄ™ miÄ™dzy rokiem 1980 a 1986. Moc testu i bÅ‚Ä…d drugiego rodzaju " MocÄ… testu hipotezy statystycznej jest prawdopodobieÅ„stwo odrzucenia hipotezy zerowej, gdy jest ona faÅ‚szywa. " moc testu=1 - ², gdzie beta jest prawdopodobieÅ„stwem bÅ‚Ä™du drugiego rodzaju. " moc testu zależy od: " odlegÅ‚oÅ›ciÄ… miÄ™dzy wartoÅ›ciÄ… parametru z H0 a prawdziwa jego wartoÅ›ciÄ…-im wiÄ™ksza odlegÅ‚ość, tym wiÄ™ksza moc " odchylenia standarowego-im mniejsze tym wiÄ™ksza moc " liczebnoÅ›ci próby-im wiÄ™ksza tym wiÄ™ksza moc " poziomu istotnoÅ›ci-im niższy tym mniejsza moc Testy nieparametryczne " wykorzystujÄ… dane liczbowe " nie zajmujÄ… siÄ™ konkretnymi parametrami populacji " nie wymagajÄ… zaÅ‚ożeÅ„ co do konkretnych rozkÅ‚adów w populacji (w szczególnoÅ›ci zaÅ‚ożenia o rozkÅ‚adzie normalnym) Test serii-test losowoÅ›ci " William Feller znany probabilista opowiada jak ludzie zajmujÄ… stoÅ‚ki w barze. Niech S oznacza miejsce zajÄ™te, a E miejsce wolne. PowstaÅ‚ ciÄ…g: SEESSEEESESSESEESSSE. Chcemy ustalić czy ta sekwencja liter jest wynikiem procesu losowego. " Test serii jest statystycznym testem losowoÅ›ci. opiera siÄ™ na koncepcji serii. " Seria jest sekwencjÄ… takich samych elementów, przed i po których wystÄ™pujÄ… inne elementy lub nie ma żadnego. " W nasze sekwencji liter jest 7 serii. Test serii-test losowoÅ›ci " Test losowoÅ›ci z dwustronnÄ… hipotezÄ…: H0 : obserwacje zostaÅ‚y wygenerowane losowo, H1 : obserwacje nie zostaÅ‚y wygenerowane losowo. " Sprawdzian hipotezy: R =liczba serii, czasami ustalana za pomocÄ… mediany. " ReguÅ‚a decyzyjna polega na odrzuceniu H0 na poziomie Ä…, jeÅ›li R C1 lub R C2, gdzie C1 i C2 sÄ… wartoÅ›ciami krytycznymi otrzymanymi z tablicy dla testu serii dla P(R C1) + P(R C2) = Ä…. Test serii-przykÅ‚ad 1 SpecjaliÅ›ci z zakresu PR stwierdzili, że sposób prezentacji jednego z ugrupowaÅ„ politycznych w telewizyjnych wiadomoÅ›ciach nie jest obiektywny. W celu weryfikacji tego przypuszczenia zestawiono 27 informacji zwiÄ…zanych z tym ugrupowaniem, okreÅ›lajÄ…c każdÄ… z nich jako pozytywnÄ… lub negatywnÄ…. Liczba negatywnych informacji wyniosÅ‚a 16, a pozytywnych 11. JeÅ›li liczba serii wynosi 10, czy można stwierdzić, że sposób informacji o ugrupowaniu jest obiektywny na poziomie istotnoÅ›ci równym 0,05? H0 : obserwacje zostaÅ‚y wygenerowane losowo, H1 : obserwacje nie zostaÅ‚y wygenerowane losowo. Z tablic dla testu serii: C1 = 8 i C2 = 19. StÄ…d r " (8, 19). Brak podstaw do odrzucenia hipotezy zerowej. Test serii-przykÅ‚ad 2 Badano liczbÄ™ niewykorzystanych dni urlopu wypoczynkowego przez pracowników UrzÄ™du Pocztowego Lublin wg stanu na dzieÅ„ 30.09.1994. Otrzymano dane: 10, 11, 14, 15, 15, 34, 40, 40, 42, 42, 42, 43, 45, 47, 47, 53, 54, 54, 55, 58, 59, 63, 63, 64, 72. Na poziomie istotnoÅ›ci 0,05 sprawdzić czy próba jest losowa. Mamy Me = 45. Oznaczamy literÄ… a liczby mniejsze od Me, przez b wiÄ™ksze od mediany, pomijamy wartoÅ›ci równe medianie. H0 : obserwacje zostaÅ‚y wygenerowane losowo, H1 : obserwacje nie zostaÅ‚y wygenerowane losowo. Liczba serii wynosi 14. Z tablic dla testu serii: C1 = 7 i C2 = 18, bo n1 = 12 a n2 = 12. StÄ…d r " (7, 18). Brak podstaw do odrzucenia hipotezy zerowej. Testy zgodnoÅ›ci chi2 " FormuÅ‚ujemy przypuszczenia co do populacji przez okreÅ›lenie hipotezy zerowej i alternatywnej. " Obliczamy czÄ™stoÅ›ci zdarzeÅ„, których spodziewamy siÄ™ przy zaÅ‚ożeniu H0. Otrzymujemy oczekiwane liczebnoÅ›ci (teoretyczne). " Obliczamy różnice miÄ™dzy wartoÅ›ciami empirycznymi a teoretycznymi i statystykÄ™ k
(ni - ni)2 Ç2 =
ni i=1 " Porównujemy wartość statystyki z punktami krytycznymi rozkÅ‚adu chi-kwadrat i podejmujemy decyzjÄ™. Testy niezależnoÅ›ci Ç2. PrzykÅ‚ad Business Week podaje zyski i straty firm uporzÄ…dkowanych wg rodzajów dziaÅ‚alnoÅ›ci. Wybrano losowÄ… próbÄ™ 100 firm i dla każdej z nich zanotowano czy miaÅ‚a stratÄ™ czy zysk. OkreÅ›l czy obydwa zdarzenia firma przyniosÅ‚a zyski i firma dziaÅ‚a w sektorze usÅ‚ug sÄ… niezależne. usÅ‚ugi Inne zysk 42 (28,8) 18(31,2) strata 6(19,2) 34 (20,8) StÄ…d: r k - nij)2 (42 - 28, 8)2 (34 - 20, 8)2 (nij Ç2 = = +. . .+ = 29, 09.
nij 28, 8 20, 8 i=1 j=1 Z tablicy rozkÅ‚adu chi-kwadrat z (r - 1)(k - 1) = 1 stopniem swobody odczytujemy, że punkt krytyczny dla Ä… = o, 01 to 6,63. 29,09 jest wiÄ™ksza od punktu krytycznego, odrzucamy hipotezÄ™ zerowÄ… i wnioskujemy, że dwie badane cechy zysk/strata oraz typ dziaÅ‚alnoÅ›ci nie sÄ… niezależne. Testy niezależnoÅ›ci Ç2. PrzykÅ‚ad c.d. " W przypadku gdy statystyka Ç2 ma 1 stopieÅ„ swobody zaleca siÄ™ zastosowanie poprawki Yatesa. " Statystyka po uwzglÄ™dnieniu poprawki Yatesa: k
(|ni - ni| - 0, 5)2 Ç2 z poprawkÄ… Yatesa = .
ni i=1 " W naszym przykÅ‚adzie skorygowana wartość Ç2 = 26, 92 nadal wpada do przedziaÅ‚u krytycznego. Test istotnoÅ›ci współczynnika korelacji liniowej Pearsona W firmie zbadano rentowność sprzedaży wÅ›ród głównych odbiorców w zależnoÅ›ci od lokalizacji siedziby odbiorcy. Na podstawie niezależnej próby 180 odbiorców uzyskano współczynnik korelacji liniowej miÄ™dzy rentownoÅ›ciÄ… a lokalizacjÄ… -0,53. Na poziomie istotnoÅ›ci 0,05 zweryfikować hipotezÄ™, że ten współczynnik jest statystycznie istotny. Mamy: H0 : Áxy = 0 i Áxy = 0. Dla dużej próby n 100 sprawdzian testu:
" r n xy z = = 8, 39. 2 1 - rxy Punkty krytyczne Ä…1, 96. Współczynnik korelacji jest statystycznie istotny. Test istotnoÅ›ci współczynnika korelacji rang Spearmana Przeprowadzono badanie popularnoÅ›ci książek pod wzglÄ™dem gruboÅ›ci książki. Otrzymano współczynnik korelacji rang równy -0,37 z próby 12 elementowej. Na poziomie istotnoÅ›ci 0,01 zweryfikować hipotezÄ™,że im grubsza książka tym wiÄ™ksza popularność. Mamy: H0 : Ás = 0 i Ás = 0. Dla dużej próby n 10
sprawdzian testu: " z = rs n - 1 = -1, 227 Punkty krytyczne ą2, 33. Współczynnik korelacji nie jest statystycznie istotny. Techniki losowania z prób " W całym wykładzie zakładaliśmy, że informacje są gromadzone przez losowe dobieranie próby. Metoda dotychczasowa-losowanie proste. " losowanie proste-próba jest losowo wybierana z populacji tak, że każde n elementów ma jednakową szansę wylosowania. " Mówiąc o losowym doborze próby mamy na myśli wiele różnych sposobów, które w praktyce badawczej są mieszane, kombinowane, tak, że ostateczna próba losowa może być funkcją kilku schematów losowania. Techniki losowania z prób Schematy losowania: " losowanie systematyczne np. co k-ty element lub kolejny zgodnie z liczbami losowymi " losowanie warstwowe, w którym populacje dzielimy na pewną liczbę niezachodzących na siebie podpopulacji, czyli warstw, między które następnie rozdzielane są części całej próby. " grupowe, w którym podobnie jak w losowaniu warstwowym, populację dzielimy na pewną liczbę niezachodzących na siebie niewielkich podpopulacji, czyli grup, przy czym tylko niektóre z nich-te losowo dobrane-wejdą w skład ostatecznej próby. Żeby otrzymać losowa próbę, powinniśmy dysponować wykazem elementów populacji - operatem losowania. Pozwala on wybierać elementy populacji przez losowe generowanie numerów elementów, które znajdą się w próbie. Pobieranie próby losowej PRZYKAAD. Chcemy wybrać 50 elementową próbę losową z populacji 5000 ludzi. Sporządzamy wykaz tych osób i każdemu nadajemy numer identyfikacyjny. Zbiór 5000 numerów stanowi operat losowania. Generujemy 50 liczb losowych np. na komputerze, z tablicy liczb losowych (ignorujemy liczby spoza zakresu) od 1 do 5000. Taka procedura daje taką samą szansę każdej osobie znalezienia się w próbie. Przeważnie nie można tak prosto uzyskać operatu losowania dla elementów populacji. Wtedy za losowe uznaje się pewne aspekty eksperymentu, dzięki którym otrzymaliśmy próbę losową. Przykład: przy szacowaniu średniego zużycia benzyny przez pewien typ samochodu możemy losowo wybierać daty, godziny próbnych jazd, kierowcę, trasę przejazdu, konkretny samochód, itd.