STATYSTYKA WYKŁAD
~ WYBRANE STATYSTYCZNE TESTY ISTOTNOŚCI ~
Szkic wykładu
Wprowadzenie
Przypomnienie podstawowych pojęć z zakresu testowania hipotez
Etapy testowania hipotez statystycznych
Etapy testowania hipotez statystycznych
Podstawowy podział hipotez statystycznych
Testy dla średnich populacji
Testy istotności dla jednej średniej populacji – wprowadzenie
Test U dla jednej średniej czyli test dla średniej populacji w przypadku dużej Próby
Fragment tablicy dystrybuanty rozkładu N(0,1)
Przykłady
Test Studenta dla jednej średniej czyli test dla ´średniej populacji, gdy cecha ma rozkład normalny
Fragment tablicy kwantyli rozkładu Studenta
Przykład
Testy dla średnich w dwóch populacjach – wprowadzenie
Fragment tablicy dystrybuanty rozkładu N(0,1)
Przykład
Test Studenta dla dwóch średnich czyli test dla średnich w dwóch populacjach, gdy cecha ma rozkład normalny
Przykład
Testy dla frakcji – wprowadzenie
Testy dla jednej frakcji
Wprowadzenie
Przykład
Test dla dwóch frakcji
Wprowadzenie
Przykład
Testy dla wariacji populacji
Test dla jednej wariancji – wprowadzenie
Test chi-kwadrat dla wariancji
Fragment tablicy kwantyli rozkładu chi-kwadrat
Przykład
Test normalności Shapiro-Wilka
Wprowadzenie
Fragment tablicy współczynników an − i + 1 Shapiro-Wilka
Fragment tablicy kwantyli Wα rozkładu Shapiro-Wilka
Przykład
Wprowadzenie
Przypomnienie podstawowych pojęć z zakresu testowania hipotez
Teoria weryfikacji hipotez zajmuje się metodami testowania dowolnego przypuszczenia dotyczącego nieznanego rozkładu lub nieznanych parametrów rozkładu badanej cechy w populacji.
Testem istotności nazywamy procedurę˛ pozwalająca˛ określić – w zbiorze możliwych wyników z próby losowej – dwa podzbiory: obszar odrzucenia oraz jego dopełnienie (obszar nieodrzucenia).
Podzbiory te wyznaczamy przy założeniu, że prawdziwe jest pewne przypuszczenie H0 dotyczące populacji.
Jeśli wynik z próby znajdzie si ˛e w obszarze odrzucenia, wówczas odrzucamy hipotezę H0 na rzecz hipotezy alternatywnej H1. W przeciwnym przypadku stwierdzamy, że nie ma podstaw do odrzucenia H0.
Etapy testowania hipotez statystycznych
Formułujemy parę˛ wykluczających się˛ hipotez H0, H1 dotyczących interesującej nas populacji.
Ustalamy dopuszczalny poziom istotności α.
Projektujemy i przeprowadzamy eksperyment (losujemy próbę) i obliczamy statystykę testu.
Wyznaczamy obszar odrzucenia testu, przy założeniu, że prawdziwa jest hipoteza zerowa H0.
Jeśli wartość statystyki testu znajdzie się w obszarze odrzucenia, wówczas odrzucamy hipotezę H0 na rzecz H1. W przeciwnym przypadku stwierdzamy, że nie ma podstaw do odrzucenia H0.
Rodzaje błędów przy testowaniu hipotez
Błąd I rodzaju polega na odrzuceniu hipotezy zerowej, w przypadku gdy była hipoteza˛ prawdziwa˛. Prawdopodobieństwo błędu I rodzaju jest zadane z góry i jest mała˛ liczba˛ dodatnia˛ – rzędu 0,1 lub mniej (jest to tzw. poziom istotności testu α).
Znajomość ryzyka błędu I rodzaju upoważnia do podejmowania decyzji o odrzuceniu hipotezy zerowej.
Błąd II rodzaju polega na przyjęciu hipotezy zerowej, w przypadku gdy była hipoteza˛ fałszywa˛. Prawdopodobieństwo błędu II rodzaju β zwykle nie jest znane.
W testach istotności nie podejmujemy decyzji o przyjęciu hipotezy zerowej, ponieważ nie znamy ryzyka błędu II rodzaju.
Podstawowy podział hipotez statystycznych
Hipotezy statystyczne dzielimy na:
Hipotezy parametryczne dotyczą˛ parametrów rozkładu badanej cechy, gdy znamy rodzinę rozkładów, do której należy rozkład tej cechy (np. wiemy, że jest to rozkład normalny, a hipoteza dotyczy jednego lub obu parametrów rozkładu normalnego (wartości średniej μ lub wariancji σ2).
Jeżeli nie znamy klasy rozkładów, do której należy rozkład badanej cechy, a hipoteza dotyczy parametrów lub funkcji rozkładu, to taka˛ hipotezę˛ nazywamy hipoteza˛ nieparametryczna
Testy dla średnich populacji
Testy istotności dla jednej średniej populacji – wprowadzenie
Przy sprawdzaniu hipotez statystycznych dotyczących średniej μw populacji hipoteza zerowa zakłada, że ´średnia ta jest równa pewnej, ustalonej wartości μ0, natomiast hipoteza alternatywna zakłada, że średnia przyjmuje wartość´ inna˛ niż˙ przyjęta w hipotezie zerowej.
Możemy rozważać trzy zestawy hipotez:
1. Ho: μ = μ 0 H1: μ > μ0
2. Ho: μ = μ 0 H1: μ < μ0
3. H0: μ = μ 0 H1: μ ≠ μ0
gdzie μ0 oznacza domniemana˛ wartość´ parametru μ.
Dalej rozważać będziemy dwa testy weryfikujące hipotezę˛ H0 przeciwko jednej z trzech wersji hipotezy H1: test U dla jednej średniej oraz test Studenta dla jednej średniej.
Test U dla jednej średniej czyli test dla średniej populacji w przypadku dużej
próby
Zakładamy, że dysponujemy dużą˛ próba˛ prosta˛ (o liczności n ≥30).
Statystyka testu, służąca do testowania hipotezy zerowej H0: μ = μ 0 przeciwko jednej z trzech hipotez alternatywnych (przedstawionych w punktach 1-3), ma postać:
$$\mathbf{U = \ }\frac{\overset{\overline{}}{\mathbf{X}}\mathbf{- \ }\mathbf{\mu}_{\mathbf{0}}}{\mathbf{S}}\sqrt{\mathbf{n}}$$
gdzie $\overset{\overline{}}{\mathbf{X}}$ i S oznaczają˛ odpowiednio średnia˛ arytmetyczna˛ i odchylenie standardowe z próby.
Zmienna losowa U ma przy założeniu prawdziwości hipotezy zerowej graniczny rozkład normalny N(0,1).
W przypadku hipotezy alternatywnej H1 : μ > μ0 konstruujemy prawostronny obszar odrzucenia. Jest nim przedział liczbowy [u∝ , ∞), gdzie u∝ oznacza kwantyl rzędu 1 – α rozkładu N(0,1).
W przypadku hipotezy alternatywnej H1: μ < μ0konstruujemy lewostronny obszar odrzucenia, tj. przedział liczbowy (−∞ , - u∝], gdzie u∝], jest kwantylem rzędu 1 – α rozkładu N(0,1).
W przypadku hipotezy alternatywnej H1 : μ ≠ μ0budujemy dwustronny obszar odrzucenia, określony jako suma przedziałów $\left( - \ \infty\ ,\ - \ U_{\frac{\propto}{2}} \right\rbrack \cup \lbrack\ U_{\frac{\propto}{2}}\ ,\ \infty)$ , gdzie $U_{\frac{\propto}{2}}\ $jest kwantylem rzędu 1 - $\frac{\alpha}{2}\ $ rozkładu N(0,1) (kwantyle odczytujemy z tablic rozkładu N(0,1) – por. następny slajd).
Fragment tablicy dystrybuanty rozkładu N(0,1)
Przykłady
Przykład 1.
Firma doradztwa inwestycyjnego zapewnia, że przeciętna stopa zwrotu z akcji w pewnej branży wynosi 11,5%.
Inwestor chce sprawdzić´ te˛ opinie˛. Pobiera próbę˛ złożona˛ z akcji 50 spółek należących do danej branży. Na podstawie danych z próby stwierdza, że średnia stopa zwrotu z akcji wynosi 10,4%, przy odchyleniu standardowym 3,4%.
Czy inwestor ma dostateczne podstawy do odrzucenia zapewnienia firmy doradczej na poziomie istotności 0,05?
Rozwiązanie
Niech μ oznacza średnią˛ stopę˛ zwrotu z akcji dla ogółu spółek danej branży.
Formułujemy hipotezę˛ zerowa˛ H0, iż˙ średnia ta równa jest wartości podanej przez firm˛ doradcza˛, tj. 11,5%, przeciwko hipotezie alternatywnej H1, iż ´średnia różni się od tej wartości.
Formalnie, obie hipotezy zapisujemy następująco:
H0 : |μ=| 11, 5% H1 : μ ≠ 1, 5 %
Ponieważ dysponujemy dużą˛ próba˛, więc do weryfikacji hipotezy H0 możemy skorzystać z testu U dla jednej ´średniej. W tym celu obliczamy wartość u statystyki testu U:
$$u = \ \frac{10,4 - 11,5}{3,4}\sqrt{50}\ \approx \ - 2,29$$
Budujemy dwustronny obszar odrzucenia dla α= 0,05. Jest nim suma przedziałów: ( −∞, −1,96] ∪ [ 1,96 , ∞).
Wartość u statystyki testu leży w obszarze odrzucenia.
Odrzucamy hipotezy zerowa˛ na rzecz hipotezy alternatywnej.
Wniosek: Stwierdzamy tym samym, że zapewnienia firmy doradczej nie są˛ prawdziwe. Ryzyko tego, że nasz wniosek nie jest słuszny, jest małe i wynosi α (tutaj 0,05).
Przykład 2
Istnieje opinia, że pasażerowie linii lotniczych maja˛ tendencję do zabierania coraz większego bagażu podręcznego. Kabiny w samolotach pewnej linii lotniczej umożliwiają˛ przechowywanie bagażu podręcznego o nominalnej wadze 20 kg.
Aby właściwie przeprojektować kabiny, zbadano wagę bagażu podręcznego dla losowej próby 150 pasażerów, uzyskując średnia˛ wagę˛ bagażu równa˛ 22 kg, przy odchyleniu standardowym 6 kg.
Na poziomie istotności 0,05 zweryfikować przypuszczenie, że ´średnia waga bagażu podręcznego wśród pasażerów linii lotniczych nie różni się od wagi nominalnej, przeciwko hipotezie, iż˙ ja˛ przekracza.
Rozwiązanie
Niech μ oznacza średnią˛ wagę˛ bagażu podręcznego pasażerów linii lotniczych. Hipotezę˛ zerowa˛ i alternatywna˛ możemy sformułować następująco:
H0 : μ = 20 kg , H1 : μ > 20 kg:
Ponieważ˙ również˙ w tym przypadku dysponujemy dużą˛ próba˛, więc do weryfikacji hipotezy H0 skorzystamy z testu U dla jednej ´średniej. Obliczamy wartość u statystyki testu:
$$u = \ \frac{22 - 20}{6}\sqrt{150}\ \approx 4,08$$
Definiujemy obszar odrzucenia: [1,64, ∞). Odrzucamy hipotezę˛ zerowa˛ na rzecz hipotezy alternatywnej.
Wniosek: Stwierdzamy, że ´średnia waga bagażu podręcznego jest większa od wagi nominalnej, co wskazuje na konieczność przeprojektowania kabin. Prawdopodobieństwo tego, że niesłusznie odrzuciliśmy hipotezę˛ zerowa˛ wynosi 0,05.
Przykład 3
Na opakowaniu pewnego towaru widnieje napis: ”przeciętna waga wynosi 200 g”. Do Stowarzyszenia Konsumentów napływają˛ jednak skargi klientów, iż˙ producent zaniża wagę produktu.
W celu sprawdzenia prawdziwości informacji podanej przez producenta, zważono zawartość 100 losowo wybranych opakowań´ danego produktu. Uzyskano średnia˛ wagę˛ równa˛ 199,5 g, przy odchyleniu standardowym 6 g.
Czy na podstawie uzyskanych wyników można sadzić´, że informacja na opakowaniu nie jest prawdziwa, przyjmując poziom istotności 0,05?
Rozwiązanie
Niech μ oznacza średnia˛ wagę˛ opakowania produktu. Hipotezy zerowa i alternatywna maja˛ postać´:
H0 : μ = 200 g, H1 : μ < 200 g
Ponieważ˙ dysponujemy dużą˛ próba˛, więc podobnie, jak w przykładach 1 i 2, korzystamy z tego samego testu. Wartość u statystyki testu wynosi:
$$u = \ \frac{199,5 - 200}{6}\sqrt{100}\ \approx - 0,83$$
W tym przypadku mamy lewostronny obszar odrzucenia, który dla α= 0, 05 jest postaci: (- ∞ , − 1, 64].
Nie ma podstaw do odrzucenia hipotezy zerowej.
Na poziomie istotności 0,05 nie udało si ˛e potwierdzić podejrzeń o tym, że informacja producenta dotycząca średniej wagi produktu jest nieprawdziwa.
Test Studenta dla jednej średniej czyli test dla ´średniej populacji, gdy cecha ma rozkład normalny
Drugi test dla jednej średniej (test Studenta), stosowany jest przy założeniu, że cecha ma rozkład normalny N(μ, σ), przy czym parametry μ i σ są˛ nieznane.
Test Studenta dla jednej średniej weryfikuje te˛ sama˛ hipotezę zerowa˛ H0 : μ = μ0 przeciwko jednej z trzech wersji hipotezy alternatywnej H1 : μ > μ0 lub μ < μ0 lub
μ ≠ μ0
Statystyka testu ma postać:
$$t = \ \frac{\overset{\overline{}}{X} - \ \mu_{0}}{S}\sqrt{n - 1}$$
gdzie $\overset{\overline{}}{X}$ i S – ´średnia i odchylenie standardowe z próby.
Zmienna t ma przy założeniu prawdziwości hipotezy zerowej rozkład Studenta o k =n-1 st. swobody.
Podobnie, jak poprzednio, w przypadku hipotezy alternatywnej H1 : μ > μ0 konstruujemy prawostronny obszar odrzucenia. Jest nim przedział liczbowy [tα , ∞), gdzie tα to kwantyl rz˛edu 1 – α rozkładu Studenta o k = n - 1 st. sw.
W przypadku hipotezy alternatywnej H1 : H1 : μ < μ0 konstruujemy lewostronny obszar odrzucenia, którym jest przedział liczbowy (- ∞ , - tα], gdzie tα oznacza kwantyl rzędu 1- α rozkładu Studenta o k = n - 1 stopniach swobody.
W przypadku hipotezy alternatywnej H1 : μ ≠ μ0 budujemy dwustronny obszar odrzucenia, określony jako suma przedziałów $\left( - \ \infty\ , \right.\ - t_{\frac{\propto}{2}}\rbrack\ \cup \lbrack\ t_{\frac{\alpha}{2}}\ ,\ \infty\ )\text{\ gdzie\ }t_{\frac{\alpha}{2}}\text{\ \ }$to kwantyl rzędu $\ 1 - \ \frac{\propto}{2}$ rozkładu Studenta o k=n - 1 st. sw. (następny slajd).
Fragment tablicy kwantyli rozkładu Studenta
Przykład 4
Kierownictwo pewnej firmy ubezpieczeniowej wysunęło przypuszczenie, że średnie wypłaty ponoszone z tytułu odszkodowań powodziowych przekraczają˛ kwotę˛
2 mln zł.
Przeanalizowano dane dotyczące wysokości odszkodowań poniesionych przez tę firmę podczas 5 kolejnych powodzi. Ustalono, że łączne kwoty odszkodowań powodziowych wypłaconych w rozważanych okresach wynosiły odpowiednio (w mln zł): 1,9 ; 3,7; 2,9; 2,0; 3,3.
Czy można przyjąć, że kierownictwo firmy ma racje˛? Zweryfikować´ odpowiednia˛ hipotezę˛ na poziomie istotności α = 0,05, zakładając, że rozkład wysokości odszkodowań powodziowych jest normalny.
Rozwiązanie
Niech μ oznacza średnia˛ wielkość´ odszkodowań wypłacanych podczas powodzi. Formułujemy hipotezy:
H0 : μ = 2 mln zł, H1 : μ > 2 mln zł:
Ponieważ rozkład badanej cechy jest normalny, więc korzystamy z testu Studenta. Średnia w próbie wynosi 2176 mln zł, a odchylenie standardowe 01 71 mln zł. Stąd mamy:
$$t = \ \frac{2,76 - 2}{0,71}\sqrt{4}\ \approx 2,14$$
Definiujemy prawostronny obszar odrzucenia dla α = 0; 05 oraz 4 stopni swobody. Jest nim przedział: [2,13;∞).
Odrzucamy hipotezę˛ zerowa˛ na rzecz alternatywnej.
Wniosek: Stwierdzamy, że średnia wartość odszkodowań powodziowych w tej firmie jest wyższa od 2 mln zł. Ryzyko tego, że odrzuciliśmy prawdziwa˛ hipotezę˛ wynosi 0,05.
Testy dla średnich w dwóch populacjach – wprowadzenie
W niektórych praktycznych zagadnieniach chodzi nie tyle o sprawdzenie, czy średnia w populacji jest równa pewnej wartości, a bardziej o sprawdzenie, czy średnie w dwóch populacjach nie różnią˛ się˛.
Możemy tu rozważać trzy zestawy hipotez:
1. Ho: μ1= μ 2 H1: μ1> μ2
2. Ho: μ1= μ 2 H1: μ1< μ2
3. H0: μ1= μ 2 H1: μ1≠ μ2
gdzie μ1, μ2 oznaczają˛ średnie wartości cechy w dwóch badanych populacjach.
Poznamy dwa testy weryfikujące hipotezę˛ H0 przeciwko jednej z hipotez H1: test U dla dwóch średnich oraz test Studenta dla dwóch średnich.
Zakładamy, że dysponujemy dwiema dużymi próbami prostymi pobranymi z dwóch populacji (n1, n2≥30).
Statystyka testu, służąca do testowania hipotezy zerowej H0 : μ1 = μ2 przeciwko jednej z trzech wersji hipotezy alternatywnej (przedstawionych w punktach a–c), ma postać:
$$\left| \mathbf{U} \right|\mathbf{= \ }\frac{\overset{\overline{}}{\mathbf{X}_{\mathbf{1}}}\mathbf{- \ }\overset{\overline{}}{\mathbf{X}_{\mathbf{2}}}}{\sqrt{\frac{\mathbf{s}_{\mathbf{1}}^{\mathbf{2}}}{\mathbf{n}_{\mathbf{1}}}\mathbf{+ \ }\frac{\mathbf{s}_{\mathbf{2}}^{\mathbf{2}}}{\mathbf{n}_{\mathbf{2}}}}}$$
gdzie $\overset{\overline{}}{X_{1}},\ \ \overset{\overline{}}{X_{2}}$ oznaczają˛ średnie arytmetyczne z obu prób, natomiast s12 , s22 – wariancje z prób.
Zmienna losowa U ma przy założeniu prawdziwości hipotezy zerowej graniczny rozkład normalny N(0,1).
Zasady budowy obszaru odrzucenia testu są˛ analogiczne, jak w teście U dla jednej średniej, a więc:
W przypadku hipotezy alternatywnej H1 : μ1 > μ2 konstruujemy prawostronny obszar odrzucenia. Jest nim przedział liczbowy [u∝ , ∞), gdzie u∝oznacza kwantyl rzędu 1 – α rozkładu N(0,1).
W przypadku hipotezy alternatywnejH1 : μ1 < μ2 konstruujemy lewostronny obszar odrzucenia (− ∞ , − u∝], gdzie u∝ oznacza kwantyl rzędu 1 – α rozkładu N(0,1).
W przypadku hipotezy alternatywnej H1 : μ1 ≠ μ2 budujemy dwustronny obszar odrzucenia definiowany jako suma przedziałów ($- \ \infty\ ,\ - \ u_{\frac{\propto}{2}}$] ∪ [$u_{\frac{\propto}{2}}\ ,\ \infty$),
gdzie $u_{\frac{\propto}{2}}\ $jest kwantylem rzędu 1 - $\frac{\propto}{2}$ rozkładu N(0,1) (następny slajd).
Fragment tablicy dystrybuanty rozkładu N(0,1)
Przykład 5
Istnieje powszechne przekonanie, że pracownicy z wykształceniem wyższym zarabiają˛ przeciętnie więcej niż˙ pracownicy z niższym poziomem wykształcenia.
Zbadano wysokość zarobków w dwóch losowych próbach pracowników: z wykształceniem wyższym i z wykształceniem co najwyżej gimnazjalnym.
W pierwszej próbie, liczącej 60 osób, średnia wysokość´ miesięcznych zarobków wynosiła 3 tys. zł, przy odchyleniu standardowym 0,9 tys. zł. W drugiej próbie, liczącej 100 osób, średnia zarobków wynosiła 2,5 tys. zł, przy odchyleniu standardowym 0, 5 tys. zł.
Zweryfikować´ odpowiednia˛ hipotezę˛ przyjmując α = 0,02.
Rozwiązanie
Niech μ1 i μ2 oznaczaja˛ średnie zarobki pracowników z wykształceniem wyższym i co najwyżej gimnazjalnym.
Formułujemy hipotezy: H0 : μ1 = μ2; H1 : μ1 > μ2
Ponieważ dysponujemy dużymi próbami, więc korzystamy z testu U dla dwóch średnich. Wartość statystyki testu wynosi:
$$u = \ \frac{3 - 2,5}{\sqrt{\frac{\left( 0,9 \right)^{2}}{60} + \ \frac{\left( 0,5 \right)^{2}}{100}}}\ \approx 3,95$$
Prawostronny obszar odrzucenia dla α = 0,02: [2,05; ∞).
Odrzucamy hipotezę˛ zerowa˛ na rzecz hipotezy alternatywnej. Osoby z wykształceniem wyższym zarabiają˛ średnio więcej niż osoby z wykształceniem co najwyżej gimnazjalnym.
Test Studenta dla dwóch średnich czyli test dla średnich w dwóch populacjach, gdy cecha ma rozkład normalny
Zakładamy, ˙ze badana cecha ma w obu populacjach rozkład normalny o jednakowych wariancjach, tj. rozkłady odpowiednio N(μ1 , σ), N(μ2 , σ), przy czym parametry μ1, μ2są˛ nieznane.
Statystyka testu Studenta ma postać:
$$\mathbf{t = \ }\frac{\overset{\overline{}}{\mathbf{X}_{\mathbf{1}}}\mathbf{+ \ }\overset{\overline{}}{\mathbf{X}_{\mathbf{2}}}}{\sqrt{\frac{\mathbf{n}_{\mathbf{i}}\mathbf{\ \bullet \ }\mathbf{S}_{\mathbf{1}}^{\mathbf{2}}\mathbf{+ \ }\mathbf{n}_{\mathbf{2}}\mathbf{\ \bullet \ }\mathbf{S}_{\mathbf{2}}^{\mathbf{2}}}{\mathbf{n}_{\mathbf{1}}\mathbf{+ \ }\mathbf{n}_{\mathbf{2}}\mathbf{- 2}}\left( \frac{\mathbf{1}}{\mathbf{n}_{\mathbf{1}}}\mathbf{+ \ }\frac{\mathbf{1}}{\mathbf{n}_{\mathbf{2}}} \right)}}$$
gdzie $\overset{\overline{}}{X_{1}},\ \ \overset{\overline{}}{X_{2}}$ oznaczają˛ średnie arytmetyczne z prób, S12, S22 a – wariancje z prób.
Zmienna t ma przy założeniu prawdziwości hipotezy zerowej rozkład Studenta o n1 + n2 - 2 st. swobody.
Zasady budowy obszaru odrzucenia testu są˛ analogiczne, jak w teście Studenta dla jednej średniej, czyli:
W przypadku hipotezy alternatywnej H1: μ1 > μ2konstruujemy prawostronny obszar odrzucenia: [tα , ∞), gdzie tα oznacza kwantyl rzędu 1 - α.
Studenta o n1+n2 -2 st. sw.
W przypadku hipotezy alternatywnej H1 : μ1 < μ2 konstruujemy lewostronny obszar odrzucenia: (- ∞ , - tα], gdzie tα oznacza kwantyl rzędu 1 - α r.
Studenta o n1+n2-2 st. sw.
W przypadku hipotezy alternatywnej H1 : μ1 = μ2budujemy dwustronny obszar odrzucenia: (- ∞ , - $t_{\frac{\propto}{2}}\rbrack\ \cup \lbrack\ t_{\frac{\alpha}{2}\ }\ ,\ \infty)$ gdzie $t_{\frac{\alpha}{2}\ }\ $jest kwantylem rzędu 1- $\frac{\propto}{2}\ $rozkład Studenta o n1+n2 - 2 stopniach swobody.
Przykład 6. Bank chce sprawdzić, która metoda pozyskiwania pieniędzy – ze ´źródeł publicznych czy prywatnych – prowadzi do pozyskania większego funduszu. Bank pobrał losowa˛ próbę˛ 12 firm, które zaciągnęły kredyt tylko ze źródeł publicznych, stwierdzając, że przeciętna wartość kredytu w tej próbie wynosiła 60 tys. zł, przy odchyleniu standardowym 10 tys. zł. W losowej próbie 18 firm, które zaciągnęły kredyt tylko ze źródeł prywatnych, średnia wysokość kredytu wynosiła 80 tys. zł, przy odchyleniu standardowym 15 tys. zł.
Czy można sadzić, że publiczne źródła finansowania udzielają˛, przeciętnie biorąc, mniejszych kredytów, zakładając, że wysokość´ kredytów prywatnych i publicznych ma rozkład normalny o tej samej wariancji? (przyjąć α=0,01).
Rozwiązanie
Niech μ1 i μ2 oznaczają˛ średnie wartości kredytów ze źródeł odpowiednio publicznych i prywatnych.
Formułujemy hipotezy: H0 : μ1 = μ2 H1 : μ1 < μ2
Korzystamy z testu Studenta dla dwóch średnich.
Wartość statystyki testu jest równa:
$$t = \ \frac{60 - 80}{\sqrt{\frac{12\ \bullet \ 10^{2} + 18\ \bullet \ 15^{2}}{12 + 18 - 2}\left( \frac{1}{12} + \ \frac{1}{18} \right)}}\ \approx \ - 3,92$$
Budujemy lewostronny obszar odrzucenia dla α = 0,01 i 28 stopni swobody. Jest nim przedział: ( -∞ , -2,47].
Odrzucamy hipotezę˛ zerowa˛ na rzecz alternatywnej, co pozwala wyciągnąć´ wniosek, że kredyty udzielane ze źródeł publicznych są˛, średnio biorąc, niższe.
Testy dla frakcji – wprowadzenie
Przypuśćmy, że obserwujemy pewna˛ cechę˛ dychotomiczna, która˛ przekształcamy w zmienna˛ zero-jedynkowa˛, tj. przyjmująca˛ wartość´ 1 dla jednego wariantu cechy oraz wartość 0 dla drugiego wariantu cechy.
Niech p oznacza frakcję elementów populacji, które charakteryzują się˛ wyróżnionym wariantem (tj. frakcje˛ jedynek w populacji). Tak zdefiniowany parametr p reprezentuje jednocześnie średnią˛ wartość´ zmiennej zero-jedynkowej, a iloczyn
p(1 - p) wariancje tej zmiennej.
W n-elementowej próbie losowej frakcję jedynek wyraża iloraz $\frac{m}{n}$, gdzie m jest liczba˛ jedynek w próbie. Iloraz ten jest tez˙ średnią˛ arytmetyczna˛ w próbie, natomiast iloczyn $\frac{m}{n}\left( 1 - \ \frac{m}{n} \right)\ $– wariancja˛ w próbie.
Testy dla jednej frakcji
wprowadzenie
Przy sprawdzaniu hipotezy dotyczącej parametru p, hipoteza zerowa zakłada, ˙ze frakcja p jest równa pewnej, określonej wartości, natomiast hipoteza alternatywna stwierdza, że przyjmuje wartość´ inna˛ niż˙ zakładana w hipotezie zerowej.
Możemy rozważać trzy zestawy hipotez:
1. H0 : p = p0 H1 : p > p0
2. H0 : p = p0 H1 : p < p0
3. H0 : p = p0 H1 : p ≠ p0
gdzie p0 oznacza domniemana˛ wartość´ parametru p.
Rozważać będziemy test weryfikujący hipotezę˛ H0 przeciwko jednej z trzech hipotez H1. Test ten nazywać będziemy testem dla jednej frakcji.
Zakładamy, że dysponujemy duża˛ próba˛ prosta˛ (n ≥ 100).
Konstrukcja statystyki testu jest analogiczna do statystyki testu U dla jednej średniej:
$$\mathbf{U = \ }\frac{\frac{\mathbf{m}}{\mathbf{n}}\mathbf{- \ }\mathbf{p}_{\mathbf{0}}}{\sqrt{\frac{\frac{\mathbf{m}}{\mathbf{n}}\left( \mathbf{1 - \ }\frac{\mathbf{m}}{\mathbf{n}} \right)}{\mathbf{n}}}}$$
Zmienna U ma przy założeniu prawdziwości hipotezy zerowej graniczny rozkład N(0,1).
Obszar odrzucenia testu konstruujemy wg analogicznych zasad, jak w przypadku testu U dla średniej (tu pominięte).
Przykład 7.
W pewnym roku firma Pepsi-Cola wypróbowywała nowy napój. Ośrodek badawczy firmy ustalił, ˙ze jeżeli więcej niż 60% konsumentów, którzy skosztują˛ napoju, polubi go, to roczna sprzedaż˙ osiągnie zadowalający poziom.
Postawiono sprawdzić, czy frakcja osób pozytywnie nastawionych do napoju jest większa od 0,6. W losowej próbie 1000 osób, której podano do picia nowy napój, 680 osób wyraziło się o nim pozytywnie.
Czy na tej podstawie można stwierdzić, że odsetek osób pozytywnie reagujących na napój – wśród ogółu potencjalnych konsumentów – jest wyższy niż 60%? Zweryfikować odpowiednia˛ hipotezę˛, przyjmując poziom istotności 0,01.
Rozwiązanie
Niech p oznacza frakcje potencjalnych konsumentów, którzy zaakceptują˛ nowy napój.
Formułujemy hipotezy: H0 : p = 0,6 H1 : p > 0,6
Wartość statystyki testu jest równa:
$$\mathbf{u = \ }\frac{\mathbf{0,68 - 0,60}}{\sqrt{\frac{\mathbf{0,68\ \bullet \ }\left( \mathbf{1 - 0,68} \right)}{\mathbf{1000}}}}\mathbf{\ \approx 5,42}$$
Budujemy prawostronny obszar odrzucenia dla α= 0,01. Jest nim przedział: [2,32 , ∞).
Odrzucamy hipotezę˛ zerowa˛ na rzecz alternatywnej, co pozwala sadzić´, że odsetek konsumentów, którzy polubią˛ napój, przekroczy 60%. Ryzyko tego, ˙ze odrzuciliśmy hipotezę prawdziwa˛ jest bardzo małe, równe 0,01.
Test dla dwóch frakcji
Wprowadzenie
Przy sprawdzaniu hipotezy dotyczącej dwóch frakcji, hipoteza zerowa zakłada, ˙ze frakcje p1 i p2 elementów wyróżnionych w dwóch populacjach są˛ jednakowe, natomiast hipoteza alternatywna przyjmuje, ˙ze frakcje te różnią˛ się˛.
Możemy tu sformułować trzy zestawy hipotez:
a. H0 : p1 = p2 H1 : p1 > p2
b. H0 : p1 = p2 H1 : p1 < p2
c. H0 : p1 = p2 H1 : p1 ≠ p2
Rozważać będziemy test weryfikujący hipotezę˛ H0 przeciwko jednej z trzech wersji hipotezy H1. Test ten nazywać będziemy testem dla dwóch frakcji.
Zakładamy, że dysponujemy dwiema dużymi próbami prostymi, pobranymi z obu populacji (n1, n2 ≥100).
Statystyka testu ma postać:
$$\mathbf{U = \ }\frac{\frac{\mathbf{m}_{\mathbf{1}}}{\mathbf{n}_{\mathbf{1}}}\mathbf{- \ }\frac{\mathbf{m}_{\mathbf{2}}}{\mathbf{n}_{\mathbf{2}}}}{\sqrt{\frac{\overset{\overline{}}{\mathbf{p}}\overset{\overline{}}{\mathbf{q}}}{\mathbf{n}}}}$$
gdzie m1, m2 oznaczają˛ liczby elementów wyróżnionych w obu próbach$\overset{\overline{}}{p} = \ \frac{m_{1} + \ m_{2}}{n_{1} + \ n_{2}}\ $
$\overset{\overline{}}{q} = 1 - \ \overset{\overline{}}{q}$ $\ \ \ \ \ \ \ \ \ \ n = \ \frac{n_{1}\ \bullet \ n_{2}}{n_{1} + \ n_{2}}$
Zmienna U przy założeniu prawdziwości hipotezy zerowej ma graniczny rozkład N(0, 1).
Obszar odrzucenia testu konstruujemy wg analogicznych zasad, jak w przypadku testu U dla średnich (tu pominięte).
Przykład 8
Porównywano trafność dwóch procedur diagnostycznych stosowanych do diagnozowania pewnej choroby.
W tym celu badaniu poddano dwie losowe próby chorych, liczące po 100 osób. W pierwszej próbie zastosowano pierwsza˛ procedurę˛ diagnostyczna˛, która dostarczyła 80% poprawnych diagnoz. Druga procedura – zastosowana w drugiej próbie – dostarczyła 85% trafnych diagnoz.
Czy można stwierdzić´, że obie procedury są˛ porównywalne, jeśli chodzi o poprawność diagnozowania danej choroby? Przyjąć´ poziom istotności 0,1.
Rozwiązanie
Niech p1 oraz p2 oznacza frakcję chorych właściwie zdiagnozowanych za pomocą˛ pierwszej i drugiej procedury.
Formułujemy hipotezy: H0 : p1 = p2 H1 : p1 ≠ p2
Wartość statystyki testu jest równa:
$$\mathbf{u = \ }\frac{\mathbf{0,80 - 0,85}}{\sqrt{\frac{\mathbf{0,80\ \bullet 0,175}}{\mathbf{50}}}}\mathbf{\ \approx \ - 0,93}$$
Budujemy dwustronny obszar odrzucenia dla α= 0,1. Jest nim suma przedziałów:
( − ∞ , − 1, 64]∪[ 1, 64 , ∞)
Nie ma podstaw do odrzucenia hipotezy zerowej na rzecz alternatywnej. Nie udało się potwierdzić, że jedna z tych procedur jest lepsza.
Testy dla wariacji populacji
Test dla jednej wariancji – wprowadzenie
Są˛ sytuacje, w których chcemy się˛ czegoś dowiedzieć o wariancji badanej cechy. Przykładem jest proces produkcyjny, w którym właściwości produkowanych wyrobów musza˛ mieścić się˛ w granicach określonych przez normy, np. długość, ciężar itp.
Jeśli proces jest rozregulowany, to nie spełnia zadanych kryteriów, a to przejawia się˛ m.in. zwiększoną˛ wariancja˛ badanej cechy. W tego rodzaju problemach obawiamy się często, by parametr ten nie był zbyt duży.
Z tego powodu w teście chi-kwadrat dla wariancji rozważa się zwykle tylko prawostronny obszar odrzucenia
Test chi-kwadrat dla wariancji
Zakładamy, że cecha ma rozkład normalny N(μ , σ).
Test chi-kwadrat dla wariancji weryfikuje hipotezę˛ zerowa H0: σ2= σ2 (przeciwko hipotezie alternatywnej H1: σ2> σ02, gdzie σ02 oznacza domniemana˛ wartość´ parametru σ2
Statystyka testu ma postać:
$$\mathbf{Z = \ }\frac{\mathbf{n}\mathbf{S}^{\mathbf{2}}}{\mathbf{\sigma}_{\mathbf{0}}^{\mathbf{2}}}$$
Zmienna Z ma przy założeniu prawdziwości hipotezy zerowej rozkład
chi-kwadrat o k =n - 1 st. swobody.
Obszar odrzucenia w teście jest obszarem prawostronnym, określonym jako przedział [zα , ∞), gdzie zα to kwantyl rzędu 1- α z rozkładu chi-kwadrat o k=n-1 st. sw.
Fragment tablicy kwantyli rozkładu chi-kwadrat
Przykład 9
Odstęp pomiędzy obudową a bębnem w pewnym modelu pralek automatycznych nie powinien mieć wariancji większej niż 0,25 (cm)2. W przeciwnym przypadku może to powodować niewłaściwe przyleganie uszczelki.
W trakcie zmian w procesie produkcji pojawiły się obawy, że wariancja badanej cechy może przekraczać tę wartość.
Do kontroli jakości pobrano 10 pralek. Wariancja odstępu pomiędzy obudowa˛ a bębnem w badanej próbie była równa 0,3 (cm)2.
Zweryfikować przypuszczenie, że wariancja badanej cechy w całej partii produkcji spełnia wymagania normatywne, zakładając, że rozkład tej cechy jest normalny. Przyjąć poziom istotności 0,05.
Rozwiązanie
Niech σ2 oznacza wariancję analizowanej cechy.
Formułujemy hipotezy:
H0 : σ2 = 0,25 (cm)2 H1 : σ2 > 0,25 (cm)2
Wartość statystyki testu jest równa:
$$\mathbf{Z = \ }\frac{\mathbf{10\ \bullet 0,3}}{\mathbf{0,25}}\mathbf{= 12}$$
Prawostronnym obszarem odrzucenia dla α = 0,05 oraz 9 stopni swobody jest przedział [16,919 , ∞), a więc nie ma podstaw do odrzucenia hipotezy zerowej. Innymi słowy, nie możemy na tej podstawie stwierdzić, ˙ze proces produkcyjny jest rozregulowany.
Test normalności Shapiro-Wilka
Wprowadzenie
W dotychczas zaprezentowanych testach bardzo często występowało założenie o normalności rozkładu badanej cechy.
Gdy nie mamy pewności co do tego założenia, wówczas pojawia się potrzeba weryfikacji hipotezy, że rozważany rozkład należy do rodziny rozkładów normalnych.
W takim przypadku z pomocą˛ przychodzi test normalności Shapiro-Wilka.
Hipotezę˛ zerowa˛ możemy sformułować´ słownie: H0 : Cecha ma rozkład normalny
przeciwko hipotezie alternatywnej:
H1: ∼ H0
Statystyka testu Shapiro-Wilka dana jest wzorem:
$$\mathbf{W = \ }\frac{\left\lbrack \sum_{\mathbf{i = 1}}^{\left\lbrack \frac{\mathbf{n}}{\mathbf{2}} \right\rbrack}{\mathbf{a}_{\mathbf{n - i + 1}}\left( \mathbf{X}_{\mathbf{(n - i + 1)}}\mathbf{- \ }\mathbf{X}_{\mathbf{(i)}} \right)} \right\rbrack^{\mathbf{2}}}{\sum_{\mathbf{i = 1}}^{\mathbf{n}}{\mathbf{(\ }{\mathbf{X}_{\mathbf{i}}\mathbf{- \ }\overset{\overline{}}{\mathbf{X}}\mathbf{\ )}}^{\mathbf{2}}}}$$
$\left\lbrack \frac{n}{2} \right\rbrack$ część całkowita liczby $\frac{n}{2}$
X(i) zmienna przyjmująca j-tą co do wielkości wartość w próbie (tzw. j-ta statystyka pozycyjna)
an − i + 1 – stablicowane współczynniki Shapiro-Wilka
Zmienna W ma przy założeniu prawdziwości hipotezy zerowej rozkład Shapiro-Wilka.
Obszar odrzucenia testu jest postaci [0, Wα], gdzie Wα jest kwantylem rzędu α rozkładu Shapiro-Wilka.
Fragment tablicy współczynników an − i + 1 Shapiro-Wilka
Fragment tablicy kwantyli Wα rozkładu Shapiro-Wilka
Przykład 10
Wróćmy do przykładu 4, dotyczącego odszkodowań´ powodziowych.
Przyjęto tam założenie, że wysokość odszkodowań ma rozkład normalny. Zweryfikujemy to założenie testem Shapiro-Wilka na poziomie istotności α = 0,05.
Formułujemy hipotezę˛ zerowa˛: H0 : Wysokość´ odszkodowań powodziowych podlega rozkładowi normalnemu, przeciwko hipotezie alternatywnej H1: ∼ H0
Obliczenia pomocnicze prowadzące do wartości statystyki testu Shapiro-Wilka zawarte są˛ w tablicy 1 (zob. następny slajd).
Rozwiązanie
Dane (odszkodowania w mln zł): 1,9; 2,0; 2,9; 3,3; 3,7.
Liczebność próby: n = 5, średnia z próby: $\overset{\overline{}}{x} = \ \frac{13,8}{5} = 2,76$
Część całkowita ilorazu $\frac{n}{2}\ :\ \left\lbrack \frac{5}{2} \right\rbrack = 2$
Tablica 1. Obliczenia pomocnicze statystyki Shapiro-Wilka
i | X(i) | X(n − i + 1)− X(i) |
an − i + 1 |
an − i + 1(X(n − i + 1)− X(i)) |
$$\mathbf{(\ }{\mathbf{X}_{\mathbf{i}}\mathbf{- \ }\overset{\overline{}}{\mathbf{X}}\mathbf{\ )}}^{\mathbf{2}}$$ |
---|---|---|---|---|---|
1 2 3 4 5 |
1,9 2,0 2,9 3,3 3,7 |
1,8 1,3 |
0,6646 0,2413 |
0,19628 0,31369 |
0,7396 0,5776 0,0196 0,2916 0,8836 |
Suma | 13,8 | x | x | 1,50997 | 2,5120 |
Wartość statystyki: $W = \ \frac{{(\ 1,50997)}^{2}}{2,5120}\ \approx 0,91$ nie wpada do obszaru odrzucenia [0 , 0,762], a więc nie ma podstaw do odrzucenia hipotezy zerowej.