STATYSTYKA WYKŁAD
~ PODSTAW WNIOSKOWANIA STATYSTYCZNEGO ~
Szkic wykładu
1. Przykład wprowadzający
2. Prawo wielkich liczb Bernoullego i centralne tw. graniczne
3. Podstawowe pojęcia wnioskowania statystycznego
4. Podstawy estymacji
W Polsce różne głosowania odbywają się, co kilka lat, a pytanie o preferencje wyborcze jest jednym z często zadawanych w badaniach sondażowych. Sondaż PGB przeprowadzony w´sód 1018 osób tuż przedwyborami parlamentarnymi w 2007 r. wskazywał m.in., że na kandydatów PiS glosować będzie 35% wyborców.
Zgodnie z oficjalnymi wynikami wyborów, rzeczywisty odsetek głosów oddanych na PiS w tych wyborach był równy 32,11%. Wynik sondażu był, zatem zbliżony do rzeczywistego pomimo ze próba 1018 respondentów była relatywnie bardzo mała wobec populacji ponad 30,6 mln osób uprawnionychdo głosowania (czy też ok. 16,5 mln faktycznie głosujących.
Uwaga 1: Wylosowana próba respondentów nie daje pełnej gwarancji, że udział głosów na daną partię w tej będzie taki sam, jak w całej populacji. Istnieje jednak pewna zależność między licznością próby a dokładnością oszacowania danego wskaźnika, do czego wrócimy.
Uwaga 2: Wskazane byłoby, aby oprócz pojedynczej liczby podać także średni błąd oszacowania lub też podać przedział liczbowy, który zawierałby, ze znanym prawdopodobieństwem, rzeczywista wartość szukanego wskaźnika.
Uwaga 3: Zauważymy, że gdybyśmy osobom glosującym na PiS przyporządkowali wartość 1, a pozostałym wartość 0, to udział glosujących na tę partię będzie równy średniej arytmetycznej ze zbioru zer i jedynek (taka średnią możemy zdefiniować zarówno dla próby, jak i dla populacji).
Prawo wielkich liczb i centralne twierdzenie graniczne.
W dalszych rozważaniach przedstawimy słabe prawo wielkich liczb, będące jednym z podstawowych zasad rachunku prawdopodobieństwa oraz centralne twierdzenie graniczne, które wykorzystamy w zagadnieniach szacowania nieznanych wskaźników
(parametrów) populacji.
Prawo wielkich liczb zostało sformułowane po raz pierwszy przez Jakuba Bernoullego, żyjącego na przełomie XVII i XVIII wieku, ale opublikowane zostało dopiero w 1913 r., tj. 200 lat po śmierci jego twórcy. Bernoulli nazwał je ”złotym twierdzeniem”.
Z prawdopodobieństwem dowolnie bliskim 1 można się spodziewać, iż przy dostatecznie wielkiej liczbie powtórzeń eksperymentu losowego, z których każdy kończy się sukcesem lub porażką, częstość´ wystąpienia sukcesu w serii eksperymentów
Będzie się dowolnie mało różniła od jego prawdopodobieństwa.
Prawo wielkich liczb Bernoullego
Załóżmy, że przeprowadzamy serię eksperymentów polegających na rzucaniu monetą.
Niech sukcesem będzie wyrzucenie orła w pojedynczym rzucie. Jeśli moneta jest symetryczna, to prawdopodobieństwo sukcesu w każdym eksperymencie wynosi$\frac{1}{2}$.
Załóżmy, że po każdym rzucie obliczamy częstość wyrzuconych orłów w serii dotychczas wykonanych rzutów, (czyli iloraz liczby orłów do liczby rzutów).
Prawo Bernoullego mówi, że szansa na to, by obliczona częstość była bardzo bliska prawdopodobieństwu $\frac{1}{2}$ (a dokładniej, – aby różniła się od niego dowolnie mało), zmierza do 1 wraz ze zwiększaniem liczby rzutów.
Słabe prawo wielkich liczb, – S
Podobne prawo można także sformułować w odniesieniu do średniej z próby losowej (w szczególnym przypadku, częstość wystąpienia sukcesu w serii n eksperymentów możemy traktować ´ jak średnią z elementowej próby składającej sie z zer i jedynek – zob. Uwaga 3). Prawo to nazywamy słabym prawem wielkich liczb:
Jeśli z dowolnej populacji wylosuje się próbkę o liczności n i jeśli dla takiej próbki obliczy się średnią arytmetyczną, to prawdopodobieństwo tego, że średnia próbkowa będzie różnić się dowolnie mało od średniej dla całej populacji, zbliża się do 1 wraz ze wzrostem n.
Jest to tzw. zbieżność wg prawdopodobieństwa. Mówiąc w uproszczeniu, zwiększanie liczebności próby, zwiększa szansę, że średnia z takiej próby ”trafi” w średnią z populacji.
Gdybyśmy posiadali n- elementowych próbek, to histogram średnich z tych próbek przybliżałby tzw. Rozkład średniej z próby. Przykład histogramy dla 1000 próbek (każda o liczności n=150) przybliżającego rozkład średniej z próby przedstawia wykres.
,
Agnieszka Rossa PODSTAWY WNIOSKOWA,J– cze
Jeśli zwiększymy liczebność każdej próbki np. do n=1000, wówczas histogram średnich obliczonych z tych próbek będzie bardziej „skupiony” wokół średniej z populacji ( tu średnia z populacji = 0,32). Histogram poniżej wykonano dla 1000 próbek.
Załóżmy teraz, że n=5000. Koncentracja średnich z próbek wokół średniej z populacji jest tu jeszcze bardziej wyraźna. W tym przypadku średnie dla większości próbek są bardzo bliskie wartości średniej dla całej populacji (równej nadal 0,32)
Centralne twierdzenie graniczne – ilustracja na przykładzie
Wróćmy do wykresu histogramu ´średnich z próbek liczących po n = 1000 elementów.
Na wykresie tym na osi pionowej odłożone są liczby próbek, dla których ´średnie należały do poszczególnych podprzedziałów liczbowych, każdy o długości 0, 01(podprzedziały te są określone przez podstawy słupków).
Wykreślimy teraz podobny histogram, odkładając na osi pionowej liczebności względne, przeliczone na jednostkę długości przedziałów (tj. częstości podzielone przez długości podprzedziałów).
Na tym samym wykresie umieśćmy dodatkową krzywa, który przybliżą kształt histogramu sporządzonego nap odstawie ´średnich z bardzo wielu próbek (w tym przypadku
Z 1000 próbek, zob. następny wykres).
Zauważymy, że wykreślona krzywa przypomina krzywą gęstości rozkładu normalnego. Wykres ten ilustruje w uproszczeniu sens centralnego twierdzenia granicznego przedstawionego dalej.
Centralne twierdzenie graniczne
Centralne twierdzenie graniczne jest kolejnym, ważnym twierdzeniem rachunku prawdopodobieństwa.
W skrócie mówi ono, iż rozkład standaryzowanej średniej arytmetycznej z próby dąży do rozkładu normalnego N(0; 1), gdy liczebność n próby dąży do nieskończoności (o standaryzacji była mowa przy okazji omawiania rozkładów).
Upraszczając nieco, możemy powyższe sformułowanie wyjaśnić następująco. Jeśli wylosujemy z populacji bardzo wielen-elementowych próbek i obliczymy dla każdej z nich średnia arytmetyczna to:
histogram liczebności względnych (w przeliczeniu na jednostkę długości) dla ´średnich próbkowych będzie przybierać kształt zbliżony do krzywej gęstości rozkładu normalnego, o ile liczności n próbek będą duże.
Własności średnich próbkowych
W uzupełnieniu do przedstawionego wyjaśnienia warto jeszcze przedstawić dwie własności średnich próbkowych, z których korzysta się m.in. przy standaryzacji średniej arytmetycznej z próby, (o czym jest mowa w centralnym tw. granicznym):
Własność 1. Gdybyśmy wylosowali bardzo dużo n elementowych próbek (teoretycznie zakłada się nieskończenie wiele próbek losowanych z nieskończonej populacji) i obliczyli dla każdej z nich średnią arytmetyczną, czyli średnie próbkowe, a następnie średnia ze średnich, to okazałoby się, że wielkość ta jest równa średniej badanej cechy w całej populacji. Średnia dla populacji będziemy dalej oznaczać przez μ.
W języku formalnym przedstawioną własność zapisujemy:
E( X) = μ:
Druga własność średnich próbkowych brzmi następująco:
Własność 2. Gdybyśmy, mając nieskończenie wiele n -elementowych próbek, obliczyli wariancję˛ średnich próbkowych, to okazałoby się, że jest ona n razy mniejsza
niż wariancja w populacji. Wariancję w populacji oznaczać będziemy dalej przez σ2. W zapisie formalnym własność ta ma postać: D2( X) = $\frac{\mathbf{\sigma}^{\mathbf{2}}}{\mathbf{n}}$ :
Ponieważ w mianowniku po prawej stronie występuje n, więc wynika stąd wniosek, że zwiększając liczność n wszystkich próbek, zmniejszamy tym samym zmienność średnich wyznaczonych z takich próbek. Wyjaśnią to m.in. dlaczego wraz ze wzrostem n obserwowaliśmy rosnącą koncentrację, histogramów średnich próbkowych wokół średniej z populacji (zob. wcześniejsze wykresy).
Podsumowanie rozważanych przykładów
Dotychczasowe rozważania pokazują, że możliwe jest przybliżanie rzeczywistych wartości pewnych wskaźników(parametrów) populacji na podstawie próby losowej.
Prawdopodobieństwo ”trafienia” w prawdziwą wartość parametru jest tym większe, im większa jest liczność n próby.
Jeśli szukanym parametrem jest średnia określonej cechy w populacji i jeśli dysponujemy dużą próbą (często wystarczy n ≥ 30), wówczas możemy odwołać się do własności rozkładu normalnego, w celu wyznaczenia oszacowania szukanej średniej.
Przybliżanie (estymowanie) nieznanych parametrów populacji na podstawie danych z próby losowej jest zadaniem teorii estymacji, szerzej– wnioskowania statystycznego.
Teoretyczne podejście do zagadnień wnioskowania
Przypuśćmy, że chcemy zbadać np. wartość średnią lub inne charakterystyki pewnej cechy X (zmiennej losowej) w populacji generalnej.
W tym celu przeprowadzamy eksperyment losowy polegający na n-krotnym losowaniu ze zwracaniem elementów z tej populacji (tzw. losowanie niezależne) oraz rejestrowaniu wartości badanej cechy w kolejnych losowaniach.
Oznaczmy przez Xi potencjalny wynik pomiaru badanej cechy, jaki może pojawić się si ˛e u i-tego elementu.
Przed wykonaniem eksperymentu wynik pomiaru Xi jest zmienną˛ losową, ponieważ nie wiemy, jaki element zostanie wylosowany w i-tej kolejności, a tym samym – jaki
będzie wynik pomiaru dla tego elementu.
Po wylosowaniu i dokonaniu pomiaru uzyskujemy konkretną wartość xi , tj. pojedynczą realizację zmiennej Xi .
Ponieważ losowanie z populacji jest niezależne, więc
zmienne:
X1,X2, …… ,Xn
są także niezależne i mają taki sam rozkład jak rozkład badanej cechy X.
Przedstawiony ciąg zmiennych losowych nazywamy
n-elementową próbą losowa (prostą).
Realizacją próby losowej jest ciąg konkretnych wartości
x1; x2; …. ; xn
zaobserwowanych w trakcie pomiaru badanej cechy.
Niech X1;X2; … ;Xn będzie n- elementową próbą losową.
Statystyką nazywamy zmienną losową Tn dowolną funkcją próby losowej, co zapisujemy ogólnie w postaci:
Tn = f (X1;X2; …… ;Xn):
Przykładami statystyk są: średnią arytmetyczna z próby oraz odchylenie standardowe z próby, zdefiniowane wzorami:
$\overset{\overline{}}{\mathbf{x}}$ = $\frac{\mathbf{1}}{\mathbf{n}}\sum_{\mathbf{i = 1}}^{\mathbf{n}}\mathbf{x}_{\mathbf{1}}$, S=$\sqrt{\frac{\mathbf{1}}{\mathbf{n}}}\sum_{\mathbf{i = 1}}^{\mathbf{n}}{\mathbf{(}\mathbf{x}_{\mathbf{1}}}\mathbf{-}\overset{\overline{}}{\mathbf{x}}\mathbf{)}^{\mathbf{2}}$
Zauważymy, że zarówno średnia arytmetyczna, jak i odchylenie
standardowe są tu oznaczone dużymi literami, dla podkreślenia, iż nie są to pojedyncze liczby, ale zmienne losowe, ponieważ dotyczą losowej próby.
Wnioskowanie statystyczne
Wnioskowaniem statystycznym nazywamy zbiór reguł uogólniania wyników z próby losowej na populację generalną.
W ramach wnioskowania statystycznego wyróżniamy:
– estymację,
– weryfikację hipotez statystycznych.
Teoria estymacji zajmuje się metodami szacowania (estymacji) nieznanego rozkładu lub nieznanych parametrów rozkładu badanej cechy X w populacji generalnej.
Teoria weryfikacji hipotez zajmuje się metodami testowania dowolnego przypuszczenia dotyczącego nieznanego rozkładu lub nieznanych parametrów rozkładu badanej cechy X w populacji generalnej.
~ PODSTAWY ESTYMACJI ~
Rodzaje estymacji Wyróżniamy:
estymację parametryczną
Estymacja parametryczna zajmuje się szacowaniem parametrów rozkładu populacji w przypadku, gdy znamy klasę rozkładów, do której należy rozkład badanej cechy X
(np. wiemy, że jest to rozkład normalny, ale nie znamy jego parametrów μ i σ, które estymujemy).
estymację nieparametryczną.
Jeżeli nie znamy klasy rozkładów, do której należy rozkład
badanej zmiennej X, to estymację nazywamy nieparametryczną
Inny podział na:
estymację punktową
Estymacja punktowa polega na podaniu jednej wartości (względnie wektora wartości) będącej oszacowaniem nieznanego parametru (względnie wektora parametrów).
Ilustracją takiego sposobu estymacji jest oszacowanie udziału głosów na PiS (0,35 lub zamiennie 35%) przedstawione w przykładzie wprowadzającym.
Określenie ”estymacja punktowa” bierze się stąd, że dla każdego parametru populacji znajdujemy jedną liczbę (na podstawie realizacji próby), w taki sposób, aby była ona możliwie najlepszym przybliżeniem nieznanego parametru. Jest to tzw. ocena punktowa parametru.
Ocena punktowa jest wyznaczana na podstawie wartości pewnej statystyki, o własnościach upoważniających nas do szacowania za jej pomocą danego parametru
Należy zaznaczyć, że ocena punktowana na ogół nie pokrywa się z prawdziwą wartością parametru. Na rozważanych wcześniej histogramach można było zauważyć, że dla pewnej
części próbek wartości średnie odbiegały w mniejszym lub większy stopniu od średniej w populacji (zob. wykres poniżej).
S
Agnieszka
2. estymację przedziałową
W praktyce mamy tylko jedną próbę, zatem nie mamy pewności, jak bardzo wartość obliczona z dostępnej próby różni si ˛e od szukanego parametru.
Bardziej realistyczne, zamiast oceny punktowej, wydaje się skonstruowanie przedziału, który z zadanym z góry prawdopodobieństwem, bliskim jedności, pokrywałby nieznaną wartość´ tego parametru. Jest to zadanie estymacji przedziałowej.
Przedział taki nosi miano przedziału ufności.
Konstrukcja przedziału ufności jest równoznaczna z podaniem jego dwóch krańców. Ponieważ krańce te są zależnego od wyników w losowej próbie, wiec cały przedział ma także charakter losowy.
Wprowadzenie przedziału ufności dla średniej w populacji na podstawie dużej próby
Do budowy przedziału ufności dla wartości ´średniej _ w populacji wykorzystamy wnioski płynące z centralnego tw. granicznego, w tym także własności 1 i 2 (będziemy zakładać że dysponujemy odpowiednio dużą próbą).
Wyprowadzimy wzór na przedział, który z prawdopodobieństwem 1 -α ϵ (0; 1) zawierać będzie średnią μ.
Liczbę 1-α nazywamy poziomem ufności. Przyjmuje się z reguły, że jest on równy 0,9 lub 0,95 (niekiedy 0,99).
Do wyznaczenia przedziału ufności wystarczą nam dane z jednej próbki. W przypadku, gdy jej liczność jest duża (często wystarczy n ≥ 30), wówczas przyjmujemy, że rozkład średniej $\overset{\overline{}}{x}$ z próbki jest zbliżony do rozkładu N($\mu,\frac{\sigma}{\sqrt{n}}$ ).
Skoro $\overset{\overline{}}{x}$ ma w przypadku dużej próby rozkład zbliżony do rozkładu N($\mu,\frac{\sigma}{\sqrt{n}}$ ).
to zmienna losowa: U=$\ \frac{\overset{\overline{}}{x} - \mu}{\frac{\sigma}{\sqrt{n}}}$
UU
ma rozkład zbliżony do rozkładu N(0; 1) (o tym mniej więcej mówi centralne twierdzenie graniczne).
Ustalmy poziom ufności 1-α. Niech u_ będzie kwantylem rzędu 1 -$\frac{\alpha}{2}$ rozkładu N(0; 1).
Wówczas dla wyżej zdefiniowanej zmiennej U zachodzi:
P(|U| < u2) = P(-Uα < U < Uα) ≈ 1 –α
Po podstawieniu w miejsce zmiennej U wyrażenia $\frac{\overset{\overline{}}{x} - \mu}{\frac{\sigma}{\sqrt{n}}}$ i po dokonaniu kilku przekształceń, otrzymujemy: P($\overset{\overline{}}{x} - U_{\alpha}\frac{\sigma}{\sqrt{N}} < U < \overset{\overline{}}{X} + U_{\alpha}\frac{\sigma}{\sqrt{N}}) \approx 1 - \alpha$
co oznacza, iż z prawdopodobieństwem równym w przybliżeniu 1 -α możemy oczekiwać, iż przedział o podanych poniżej krańcach zawiera nieznany parametr μ:
$\overset{\overline{}}{\mathbf{X}}\mathbf{=}\mathbf{U}_{\mathbf{\alpha}}\mathbf{\bullet}\frac{\mathbf{\sigma}}{\sqrt{\mathbf{n}}}\mathbf{,\ }$ $\overset{\overline{}}{\mathbf{X}}\mathbf{+}\mathbf{U}_{\mathbf{\alpha}}\mathbf{\bullet}\frac{\mathbf{\sigma}}{\sqrt{\mathbf{n}}}$
Uwaga: Jeśli nie znamy także parametru populacji σ,wówczas zastępujemy go przybliżeniem z próby, tj. statystyką S.
Rossa PODSTAWY WNIOSKOWANIASKOWANIA
Przykład zastosowania podziału ufności do średniej populacji
W ramach ilustracji, wyznaczymy przedział, który zawierałby rzeczywisty udział wyborców głosujących na PiS w wyborach 2007 r. (zob. przykład wprowadzający).
Niech 1 - α= 0; 95, wówczas α = 0; 05, $\frac{\alpha}{2}$ = 0; 025,
a stąd 1 - $\frac{\alpha}{2}$= 0; 975 kwantyl rzędu 0; 975 rozkładu N(0; 1) jest równy 1; 96 (zob. tablice dystrybuanty N(0; 1)).
Mamy na podstawie danych z próby (dane z sondażu):
n = 1018; $\overset{\overline{}}{X}$ = 0; 35; s ≈ 0, 48.
Krańce przedziału ufności dla szukanego wskaźnika to:
0,35-1,96$\bullet \frac{0,48}{\sqrt{1018}}$, 0,35+1,96$\bullet \frac{0,48}{\sqrt{1018}}$
Otrzymujemy przedział [0, 32; 0,38]. Możemy więc oczekiwać z prawdopodobieństwem 0,95, że w przedziale tym znalazł się rzeczywisty udział głosów oddanych na PiS.
1. W tym przykładzie szacowanym wskaźnikiem był udział(lub zamiennie – odsetek) głosujących na PiS. Uzyskaliśmy 95-procentowy przedział ufności [0, 32; 0, 38]
lub zamiennie [32%; 38%].
2. Zgodnie z Uwagą 3, ten wskaźnik możemy traktować także jako średnią w populacji składającej się z jedynek (np. gdy wyborca popiera PiS) i zer (w innych przypadkach).
3. Innymi słowy, badaną cechą w populacji była tu pewna cecha zero-jedynkowa, a nasze zadanie polegało na estymacji przedziałowej wartości średniej tej cechy.
4. Jeśli chcemy w tym zadaniu skorzystać z wyprowadzonego wzoru na przedział ufności, należy takie oszacowanie oprzeć na próbie liczącej co najmniej 100 elementów.
~ PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO CZĘŚĆ II ~
Wprowadzenie
Idea testu statystycznego i podstawowe pojęcia
Etapy testowania hipotez statystycznych
Rodzaje możliwych błędów podczas testowania hipotez statystycznych
Idea budowy obszaru odrzucenia testu
Weryfikacja hipotez statystycznych
Obok estymacji drugim działem wnioskowania statystycznego jest weryfikacja hipotez statystycznych.
Weryfikacja hipotez statystycznych (lub też testowanie hipotez) obejmuje zbiór reguł uogólniania wyników z próby na populację. Jednak algorytm postępowania przebiega
tutaj w odwrotnym kierunku niż stosowany w estymacji.
W przypadku weryfikacji hipotez, najpierw formułuje się pewne przypuszczenie dotyczące konkretnej populacji, a następnie sprawdza (odpowiednimi metodami), czy można je odrzucić, uznając za fałszywe, czy też nie.
Przykład 1.
Jedną z pierwszych prób testowania przypuszczenia dotyczącego pewnej populacji podjął John Arbuthnotw roku 1710.
Chciał się przekonać, czy populację londyńskich noworodków charakteryzuje prawidłowość, iż rodzi się więcej chłopców niż dziewczynek (obecnie tego rodzaju prawidłowość jest powszechnie uznawana).
W tym celu przeanalizował dane dotyczące płci noworodków, które urodziły się w Londynie w ciągu ostatnich 82 lat i stwierdził, że we wszystkich przeanalizowanych latach
liczba chłopców była większa niż liczba dziewczynek.
Pytanie: Czy zaobserwowane wyniki świadczą o pewnej
prawidłowości, czy też są przypadkowe?
Rozwiązanie.
Przyjmijmy na chwilę, że prawdziwe jest następujące przypuszczenie, które oznaczymy symbolem H0:
H0: Prawdopodobieństwo p urodzenia chłopca jest
takie samo, jak urodzenia dziewczynki, czyli p = $\frac{1}{2}$
Hipoteza ta implikuje jednocześnie przypuszczenie, że z takim samym prawdopodobieństwem liczba urodzonych w określonym roku chłopców jest większa lub mniejsza od liczby urodzonych dziewczynek.
Przy tym założeniu wydaje się bardzo mało prawdopodobne, aby przez kolejne 82 lata liczba chłopców przewyższała liczbę dziewczynek.
Obliczmy szansę tego wyniku, zakładając prawdziwość H0.
Weryfikacja hipotez statystycznych
Przykład 1
Nazwijmy sukcesem zdarzenie, że liczba chłopców urodzonych w danym roku jest większa niż liczba dziewczynek.
Jeśli prawdziwe jest przypuszczenie H0, to prawdopodobieństwo sukcesu wynosi w przybliżeniu $\frac{1}{2}$
Pomijamy tu zdarzenie jednakowej liczby chłopców i dziewczynek, ponieważ w dużej populacji noworodków prawdopodobieństwo takiego zdarzenia jest bardzo małe.
Niech X oznacza liczbę lat w ciągu n = 82 lat, w których liczba chłopców była większa od liczby dziewczynek. Zauważymy, że w ogólnym przypadku X jest zmienną losową o rozkładzie dwumianowym.
Obliczymy prawdopodobieństwo zdarzenia, że X = 82, przy założeniu prawdziwości H0.
Prawdopodobieństwo zrealizowania się 82 sukcesów w serii n = 82 doświadczeń (w tym przypadku doświadczeniami są kolejne lata obserwacji), przy założeniu, że prawdziwa jest
hipoteza H0, jest równe:
P(X=82)=($\frac{82}{82})(\frac{1}{2})^{82 =}\frac{1}{2^{85}}$=0; 0000000000000000000000002:
Komentarz:
Gdyby prawdopodobieństwo urodzenia chłopca było większe od $\frac{1}{2}$, to także prawdopodobieństwo P(X=82) byłoby większe od wartości $\frac{1}{2^{82}}$ .
Spostrzeżenie to pozwala sądzić, że H0 nie jest prawdziwa, co z kolei skłania do decyzji o jej odrzuceniu na rzecz hipotezy, że p > $\frac{1}{2}$
Agnieszka Rossa PO
Przedstawione rozumowanie doprowadziło nas do decyzji
o odrzuceniu hipotezy H0 postaci:
H0 : p =$\frac{1}{2}$
na rzecz innego przypuszczenia (oznaczmy go przez H1):
H1 : p >$\frac{1}{2}$
John Arbuthnot przeprowadził podobne rozumowanie, choć oczywiście nie odwoływał się do wykorzystanych tu współczesnych pojęć statystyki matematycznej. Opis jego wywodów znaleźć można w książce: Gigerenzer G.,Murray D. J. (1987), Cognition as intuitive statistics,
Hillsdale: Erlbaum.
Przykład 2:
Załóżmy, że chcemy opracować bardziej ogólną procedurę testową sprawdzającą hipotezę H0 : p = p0 przeciwko hipotezie H1 : p > p0, którą można byłoby stosować´ w przypadku innych zagadnie´ n.
Przyjmijmy, że dla ustalonej próby n niezależnych doświadczeń, z których każde kończy się sukcesem lub porażką, będziemy rejestrować´ liczbę sukcesów.
Prawdopodobieństwo sukcesu p jest nieznane, ale przypuszczamy, ze jest równe zadanej wartości p0.
Bedzię to nasza hipoteza H0. Ponadto, niech inna hipoteza H1 (tj. hipoteza konkurencyjna do H0) zakłada, że p > p0.
W ogólnym przypadku liczba sukcesów w serii n niezależnych doświadczeń´ jest zmienną losową o rozkładzie dwumianowym. Oznaczmy tę zmienną symbolem X.
Pytanie:, Jaka powinna być minimalna liczba sukcesów, przy której będziemy skłonni odrzucić hipotezę H0 : p = p0 na rzecz hipotezy H1 : p > p0, aby ryzyko, że taka decyzja
Jest błędna, nie było zbyt duże?
Wydaje się, że progiem powinna być taka liczba x, dla której prawdopodobieństwo zrealizowania się liczby sukcesów równej, co najmniej x (wyznaczone przy założeniu
Prawdziwości H0) jest dostatecznie małe i mniejsze niż analogiczne prawdopodobieństwo, uzyskane w przypadku, gdyby założyć prawdziwość hipotezy H1.
Rozważane prawdopodobieństwo można zapisać, jako P(X ≥ x). Jest ono równe następującej sumie:
P(X ≥ x) = P(X=n) + P(X=n-1) + ….. + P(X=x).
Znajdziemy składniki tej sumy, gdy n = 20 i p0 = $\frac{1}{2}$
x | P(X=x) | P(X≥x) |
---|---|---|
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 |
0,0000 0,0000 0,0002 0,0011 0,0046 0,0148 0,0370 0,0739 0,1201 0,1602 0,1762 0,1602 0,1201 0,0739 0,0370 0,0148 0,0046 0,0011 0,0002 0,0000 0,0000 |
1,0000 1,0000 1,0000 0,9998 0,9987 0,9941 0,9793 0,9423 0,8684 0,7483 0,5881 0,4119 0,2517 0,1316 0,0577 0,0207 0,0059 0,0013 0,0002 0,0000 0,0000 |
Kolorem czerwonym zaznaczono najmniejszą liczbę sukcesów x, dla której prawdopodobieństwo P(X ≥ x)
nie przekracza zadanego, dopuszczalnego poziomu. Tutaj przyjęto, że poziomem tym jest liczba 0,06.
Otrzymaliśmy, iż x = 14 jest minimalną liczbą sukcesów, dla której prawdopodobieństwo
P(X ≥x), wyznaczone przy założeniu prawdziwości H0 : p= $\frac{1}{2}$, jest mniejsze od 0,06.
Oznacza to, że jest mało prawdopodobne, aby przy założeniu prawdziwości H0 zaobserwować 14 lub więcej sukcesów w serii n = 20 niezależnych do´swiadcze´ n.
Jednocześnie taka liczba sukcesów jest bardziej prawdopodobna,
gdyby założyć prawdziwość hipotezy H1 : p>$\frac{1}{2}$.
Gdy więc odnotujemy 14 lub więcej sukcesów, to podejmiemy decyzję o odrzuceniu H0 na rzecz H1.
Zbiór liczb (14, 15, 16,……. , 20) tworzy w tym problemie tzw. obszar odrzucenia (lub zamiennie – obszar krytyczny),a liczba 0,06 jest tu przyjętym poziomem istotności.
Weryfikacja hipotez statystycznych- idea testu istotności
Przykład ten ilustruje ideę tzw. statystycznego testu istotności, który można opisać, jako: procedurę pozwalającą określić w zbiorze możliwych wyników z próby dwa podzbiory: obszar odrzucenia oraz jego dopełnienie (obszar nieodrzucenia).
Podzbiory te wyznaczamy przy założeniu, że prawdziwe jest pewne przypuszczenie H0 dotyczące populacji.
Jeśli wynik z konkretnej próby znajdzie się w obszarze
odrzucenia, wówczas odrzucamy hipotezę H0 na rzecz hipotezy alternatywnej H1. W przeciwnym przypadku stwierdzamy, że nie ma podstaw do odrzucenia H0.
Weryfikacja hipotez statystycznych – podstawowe pojęcia i oznaczenia
Poziom istotności testu statystycznego oznaczamy zwykle symbolem α.
Dopuszczalny poziom istotności α ustalamy z góry. Powinien być liczbą małą, rządu np. 0,1 lub 0,05, niekiedy przyjmuje się wartość 0,01.
Hipotezy H0, H1 nazywamy odpowiednio hipotezą zerową i hipotezą alternatywną.
Etapy testowania hipotez statystycznych
1.Formułujemy parę wykluczających się hipotez H0;H1 dotyczących interesującej nas populacji.
2. Ustalamy dopuszczalny poziom istotności α.
3. Projektujemy i przeprowadzamy eksperyment (np. losujemy próbę) i obliczamy wynik z próby.
4. Wyznaczamy obszar odrzucenia testu, przy założeniu, że prawdziwa jest hipoteza zerowa H0.
5. Jeśli wynik z próby znajduje się w obszarze odrzucenia, wówczas odrzucamy hipotezę H0 na rzecz H1. W przeciwnym przypadku stwierdzamy, że nie ma podstaw do
odrzucenia H0.
Błędy testowania hipotez – błąd pierwszego rodzaju
Z przedstawionych etapów testowania hipotez wynika, że decyzję o odrzuceniu hipotezy zerowej H0 podejmujemy wtedy, gdy wynik z próby znajduje się w obszarze odrzucenia (wyznaczonym przy zadanym poziomie istotności α).
Zauważymy, że taką decyzję podejmujemy na podstawie analizy danych z próby losowej, mając nadzieję, że jest ona prawidłowa w odniesieniu do całej populacji.
Tego jednak nie możemy stwierdzić´ z całą pewnością, ponieważ nie wiemy na ogół nic o prawdziwości lub nieprawdziwości postawionej hipotezy H0 (dotyczy ona bowiem całej populacji, a nieposiadanej próby).
Dobrze byłoby jednak znać ryzyko ewentualnego błędu, tj. odrzucenia hipotezy H0 w przypadku, gdy była prawdziwa.
Wróćmy, zatem do pytania: w jakich okolicznościach odrzucamy H0?
Zgodnie z opisaną procedurą testowania, hipotezę H0 odrzucamy, gdy wynik z próby jest w obszarze odrzucenia wyznaczonym dla zadanego α, przy czym α jest z założenia małą liczbą dodatnią (rządu 0,1 lub mniej).
Ilekroć test pozwala odrzucić hipotezę zerowa H0, wiemy, że prawdopodobieństwo błędu polegającego na odrzuceniu hipotezy prawdziwej nie przekracza małej wartości α. Innymi słowy, ryzyko błędu jest w takich przypadkach niewielkie.
Błąd polegający na odrzuceniu hipotezy prawdziwej
nazywamy błędem I rodzaju.
Błędy testowania hipotez – błąd ii rodzaju
Rozważmy teraz kolejne pytanie: jaką decyzję możemy podjąć, gdy wynik z próby nie znajdzie się w obszarze odrzucenia?
Nasuwa się pozornie oczywista odpowiedz´, że decyzja powinno być przyjęcie hipotezy H0.
Trzeba jednak pamiętać, że w przypadku takiej decyzji możemy narazić´ się na inny błąd, zwany błędem II rodzaju, polegający na przyjęciu hipotezy H0, która
w rzeczywistości mogła być fałszywa. Ponieważ na ogół nie znamy prawdopodobieństwa popełnienia błędu II rodzaju, więc w takich sytuacjach ostrożniejszym wyjściem jest stwierdzenie, że nie ma podstaw do odrzucenia H0 (stwierdzenie takie nie rozstrzyga, czy hipotezę H0 można uznać za prawdziwą lub fałszywą).
Budowa obszaru odrzucenia – przykład 3
Wróćmy do przykładu 2, w którym rozważaliśmy zagadnienie testowania hipotezy
H0 : p = p0 wobec H1 : p > p0.
W szczególności, wyznaczyliśmy obszar odrzucenia dla testowania hipotezy
H0 : p = $\frac{1}{2}$ przeciwko H1 : p > $\frac{1}{2}$, opierając się danych z próby o liczności n = 20.
Obszar odrzucenia tworzył wówczas zbiór: {14, 15,…. , 20}.
Czy obszar odrzucenia byłby taki sam, gdybyśmy pozostawili niezmienioną hipotezę zerową H0, ale zmienili hipotezę alternatywną na H’1 : p < $\frac{1}{2}$?
W jakich okolicznościach bylibyśmy skłonni teraz odrzucić H0 na rzecz H’1 ?
Wydaje się, że H0 należałoby odrzucić, gdyby liczba sukcesów była nie większą niż pewna wartość x.
Łatwo sprawdzić, odwołując się do zamieszczonej w przykładzie 2 tablicy, że największą liczbą sukcesów x dla której prawdopodobieństwo P(X ≤ x) nie przekracza założonego poziomu istotności α = 0; 06 jest liczba x = 6, więc obszarem odrzucenia w tej wersji naszego testu byłby zbiór {0,1, 2,…, 6}.
Oznacza to, że jest mało prawdopodobne, aby przy założeniu prawdziwości H0 zrealizowała si ˛e liczba sukcesywnie większa niż 6. Natomiast zdarzenie takie byłoby bardziej prawdopodobne przy założeniu, że prawdziwa jest
hipoteza H’1.
Wniosek: Jeśli więc w serii n = 20 doświadczeń odnotujemy liczbę sukcesów ze zbioru {0, 1, 2,…., 6}, wtedy odrzucimy hipotezę H0 : p = $\frac{1}{2}$ na rzecz H’1 : p < $\frac{1}{2}$
Budowa obszaru odrzucenia – przykład 4
Rozważmy teraz pytanie: jak określić obszar odrzucenia w konstruowanym przez nas teście, gdyby hipoteza alternatywna była postaci: H’’1:p$\neq \frac{1}{2}$ (przy tej samej hipotezie zerowej H’ : p = $\frac{1}{2}$).
Zauważymy, że w tym przypadku obszar odrzucenia powinien uwzględniać zarówno małe, jak i duże liczby sukcesów, bowiem takie wyniki będą przemawiały przeciwko
hipotezie zerowej H0, na korzyść hipotezy H’’1.
Poszukujemy wiec takich liczb x1 i x2, dla których P(X ≤ x1) $\leq \frac{\alpha}{2}$ oraz P(X ≥ x2) $\leq \frac{\alpha}{2}$, a tym samym P(X ≤ x1) + P(X ≥ x2) ≤α, dla ustalonego α i przy założeniu prawdziwości H0. Np. x1=5; x2=15, gdy α=0,06.
Obszar odrzucenia dla α = 0,06 i n = 20 jest tu wiec suma zbiorów: {0,1,….,5} oraz {15,16,…, 20}.
UWAGI:
Wyznaczone w przykładach 2–4 obszary odrzucenia zostały obliczone dla
p0 = $\frac{1}{2}$; n =20; α = 0,06. Obszary te zmienią się, gdy przyjmiemy inne wartości dla p0, n lub α.
Dla dowolnego testu weryfikującego wartość parametru populacji zakłada się, że w hipotezie zerowej H0 określona jest tylko jedna wartość tego parametru (np. p = $\frac{1}{2}$).
Hipoteza alternatywna jest hipotezą konkurencyjną do H0 może dopuszczać wiele możliwych wartości parametru (np. zapis H1 : p > $\frac{1}{2}$oznacza, że dopuszczamy każdą wartość prawdopodobieństwa powiększą od $\frac{1}{2}$).
Postać hipotezy alternatywnej dobieramy w zależności od problemu oraz od naszej wiedzy o badanym zagadnieniu.
Test istotności weryfikuje bezpośrednio tylko hipotezę H0,ale obszar odrzucenia testu jest zależny od hipotezy H1.
Agnieszka Rossa PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO
Agnieszka Rossa PODSTAWY WNIOSKOWANIASTAWY WNIOSKOW
UW
Agnieszka Rossa PODSTAWY WNIOSKOWANIA STATYSTYCZNEG
Agnieszka
R WNIOSKOWANIA STATYST,
Agnieszka Rossa STAWY WNIOSKOWANIA STATYSTYCZNEGO
Agnieszka Rossa
Agnieszka Rossa PODSTAWY WNIOSKOWANIA