Statystyka dzienne wyklad10, STATYSTYKA


STATYSTYKA

Weryfikacja hipotez statystycznych

(testowanie hipotez statystycznych)

Hipotezy statystyczne

Niech będzie dana przestrzeń statystyczna (W,F,P), gdzie P={Pq,qÎQ} jest rodziną rozkładów prawdopodobieństwa opisującą wynik eksperymentu, a Q jest jakąś przestrzenią parametrów przy czym Q1ČQ2=Q, Q1ÇQ2.

Stwierdzenie (hipotezę statystyczną) q Î Q1 będziemy nazywać hipotezą zerową i będziemy zapisywać

H: q Î Q1,

zaś stwierdzenie (hipotezę statystyczną) q Î Q2 będziemy nazywać hipotezą alternatywną (dla hipotezy H) i będziemy zapisywać

K: q Î Q2.

Przykład

Stawiamy hipotezę, że prawdopodobieństwo q wyrzucenia „orła” w rzucie symetryczną monetą wynosi 1/2, tzn.

H: q = 0,5

Hipotezą alternatywną jest: K: q ą 0,5

Hipotezę statystyczną nazywamy prostą, gdy zbiory Q2 oraz Q2 zawierają dokładnie po jednym elemencie, w przeciwnym razie mówimy o hipotezie złożonej.

Przykład (hipotezy prostej)

Dokładność pomiaru mierzona jest wartością odchylenia standardowego s względnego błędu pomiaru. Badane urządzenie pomiarowe należy zakwalifikować do jednej z dwu klas odpowiadających względnemu błędowi pomiaru 1% lub 2%. Mamy więc do czynienia z weryfikacją hipotezy zerowej H: s=0.01 przeciwko hipotezie alternatywnej K: s=0.02.

Przykład (hipotezy złożonej)

Badano roczny zysk wykazywany przez grupę firm. Weryfikowano hipotezę, że oczekiwany (średni) zysk jest nie mniejszy od zera, przy alternatywie, że jest on mniejszy od zera. Mamy więc do czynienia z weryfikowaniem hipotezy zerowej H: mł0 przeciwko hipotezie alternatywnej K: m<0.

Test statystyczny

Testem statystycznym nazywamy procedurę postępowania, która możliwym realizacjom próby losowej (X1,X2,...,Xn) określonej na przestrzeni statystycznej (W,F,P) przypisuje decyzje odrzucenia (albo przyjęcia) weryfikowanej hipotezy.

W celu zbudowania testu statystycznego konstruujemy dwa dopełniające się zbiory W i W' (WÇW'=Ć, WČW'=R) oraz pewną statystykę T=T(X1,X2,...,Xn) zwaną statystyką testową.

Decyzje podejmujemy w następujący sposób:

jeżeli T=T(X1,X2,...,Xn)ÎW , to H odrzucamy;

jeżeli T=T(X1,X2,...,Xn)ĎW , to H przyjmujemy.

Zbiór W nazywamy zbiorem krytycznym (zbiorem odrzuceń hipotezy H), a zbiór W' nazywamy zbiorem przyjęć.

Jeżeli weryfikowaną hipotezę nie odrzucamy, to bezpieczniej jest powiedzieć, że nie ma podstaw do jej odrzucenia, niż mówić o przyjęciu hipotezy alternatywnej.

Błędy decyzji statystycznych

Błędne decyzje statystyczne podejmowane są z określonymi prawdopodobieństwami nazywanymi, odpowiednio, prawdopodobieństwem błędu pierwszego rodzaju oraz prawdopodobieństwem błędu drugiego rodzaju.

Przy ustalonej liczności próby losowej nie jest możliwe jednoczesne minimalizowanie tych prawdopodobieństw. Zwykle ustalamy dopuszczalną wielkość prawdopodobieństwa błędu pierwszego rodzaju, którą nazywamy poziomem istotności a. Wśród testów spełniających wymaganie określone poziomem istotności poszukujemy takiego, by zminimalizowane zostało prawdopodobieństwo błędu drugiego rodzaju.

Testy zgodności

Testy zgodności służą do weryfikacji hipotez o postaci rozkładu prawdopodobieństwa.

Na podstawie wyników badania próby losowej X1,X2,...,Xn , której elementy mają rozkład prawdopodobieństwa o dystrybuancie F weryfikujemy hipotezę

H: F = F0

gdzie F0 jest zadaną dystrybuantą.

Testy zgodności są na ogół testami nieparametrycznymi, gdyż alternatywa ma zwykle postać: K: F ą F0.

Test zgodności chi-kwadrat Pearsona

Przyjmijmy, że wyniki obserwacji próby losowej zostały pogrupowane w k rozłącznych klas, o licznościach n1,n2,...,n­k, przy czym n1+n2+...+n­k=n. Należy teraz przyjąć założony rozkład prawdopodobieństwa i dla tego rozkładu wyznaczyć prawdopodobieństwa 1, p2,....,pk, że obserwowana zmienna losowa przyjmie wartość z danej klasy.

K.Pearson zaproponował wykorzystanie statystyki

Jeżeli spełniony jest warunek min(n1,n2,...,n­k)>5 i liczność próby jest duża (np. nł100), to w przypadku słuszności weryfikowanej hipotezy rozkład prawdopodobieństwa statystyki jest rozkładem chi-kwadrat o k-1 stopniach swobody.

Hipotezę o zgodności obserwacji z założonym rozkładem prawdopodobieństwa odrzucamy gdy gdzie jest kwantylem rzędu 1-a w rozkładzie chi-kwadrat o k-1 stopniach swobody (tablice).

Przykład

Badano 100 segmentów procesu produkcyjnego, po 1000 elementów każdy. Poszczególne elementy oceniano jako zgodne lub niezgodne z wymaganiami. Zaobserwowano następujące wyniki badania

Numer klasy

Liczba elementów niezgodnych

Liczba segmentów procesu

1

0

34

2

1

35

3

2

16

4

3

9

5

4 i więcej

6

Zweryfikować hipotezę, że liczba elementów niezgodnych w jednym segmencie badanego procesu opisana jest rozkładem dwumianowym o parametrach m=1000 oraz p=0.001 Poziom istotności testu ustalamy na a=0.05.

Prawdopodobieństwa pi , i=1,2,3,4 wyznaczamy z rozkładu dwumianowego

zaś p5=1-(p1+p2+p3+p4)

Wyniki obliczeń

Nr klasy i

ni

pi

npi

1

34

0,3677

36,77

2

35

0,3681

36,81

3

16

0,1840

18,40

4

9

0,0613

6,13

5

6

0,0189

1,89

Stąd

Weryfikowaną hipotezę należy więc na danym poziomie istotności odrzucić.

Test zgodności chi-kwadrat Pearsona może być stosowany zarówno w przypadku rozkładów ciągłych jak i rozkładów dyskretnych. Ma on dobre własności statystyczne dopiero przy bardzo dużych licznościach próby losowej.

Test zgodności Kołmogorowa

Test zgodności Kołmogorowa wykorzystuje się w przypadku weryfikowania hipotez dla rozkładów zmiennych losowych ciągłych.

Niech F0(s) będzie założoną dystrybuantą (hipotetyczną), a Fn(s) zaobserwowaną w próbie losowej X1,X2,...,Xn dystrybuantą empiryczną.

Statystyką testową jest statystyka Kołmogorowa

Hipotezę o zgodności z założonym rozkładem prawdopodobieństwa odrzuca się, gdy zachodzi nierówność Dn>dn(1-a), gdzie dn(1-a) jest kwantylem rzędu 1-a (stablicowanym) rozkładu prawdopodobieństwa statystyki Dn.

Dla dużych liczności próby nł100 hipotezę o zgodności z założonym rozkładem prawdopodobieństwa odrzuca się, gdy zachodzi nierówność , gdzie l1-a jest kwantylem rzędu 1-a (stablicowanym ) rozkładu prawdopodobieństwa statystyki l-Kołmogorowa.

Testy normalności

W pewnych przypadkach interesuje nas czy dany rozkład prawdopodobieństwa jest rozkładem normalnym. Do weryfikacji tej hipotezy możemy wykorzystać klasyczne testy zgodności. Konieczna jest jednak znajomość wartości parametrów rozkładu. Możliwa jest jednak weryfikacja takiej hipotezy przy pomocy testów wyspecjalizowanych, np. testu Shapiro-Wilka. Który jest zalecany jest dla przypadków, gdy liczność próbki należy do przedziału [8,50]

Zaobserwowane w próbce wartości badanej zmiennej losowej należy uporządkować w nierosnący ciąg i wyznaczyć wartość następującej statystyki

gdzie indeks sumowania k przyjmuje wartości od 1 do n/2 dla n parzystego, lub od 1 do (n-1)/2 dla n nieparzystego, a współczynniki ak podane są np. w odpowiedniej tablicy normy ISO 5479

k/n

8

9

10

1

0,6052

0,5888

0,5739

2

0,3164

0,3244

0,3291

3

0,1743

0,1976

0,2141

4

0,0561

0,0947

0,1224

5

0,0399

Przykładowe współczynniki ak testu Shapiro-Wilka.

Właściwą statystyką testu Shapiro-Wilka jest statystyka W

0x01 graphic

Wartości krytyczne statystyki W testu Shapiro-Wilka podane są w normie ISO 5479. Hipotezę o normalności rozkładu odrzucamy gdy zaobserwowana w próbce wartość statystyki W jest mniejsza od odpowiedniej wartości krytycznej.

n / a

0,01

0,05

8

0,749

0,818

9

0,764

0,829

10

0,781

0,842

11

0,792

0,850

Przykładowe wartości krytyczne statystyki W testu Shapiro-Wilka.

Przykład

Zaobserwowano 10 realizacji zmiennej losowej

-.604 -.980 -.008 -.611 .536 .810 2.022 -1.372 1.064 -.519

Zweryfikować hipotezę o normalności rozkładu prawdopodobieństwa, z którego pochodzą te obserwacje, przyjmując poziom istotności testu równy a=0,05..

Po uporządkowaniu danych mamy:

-1.372, -.980, -.611, -.604, -.519, -.008, .536, .810, 1.064, 2.022

S=0.5739(2.022+1.372)+0.3291(1.064+0.980)+ .... = 3.0847

Po dalszych obliczeniach uzyskujemy: W=0.948. Wartość ta jest większa od wartości krytycznej 0.842, a więc nie ma powodu by odrzucić hipotezę o normalności badanego rozkładu prawdopodobieństwa.

Graficzna weryfikacja hipotezy o normalności rozkładu

Wykorzystujemy specjalne siatki prawdopodobieństwa (wykresy w układzie współrzędnych o specjalnie dobranych skalach na osi X i osi Y. Na wykresie tym zaznaczamy punkty skokowe dystrybuanty empirycznej. Jeżeli punkty te układają się wzdłuż linii prostej, to analizowany rozkład jest rozkładem normalnym.

Wykresy te można wykonywać przy pomocy komputerowych pakietów statystycznych, lub też na specjalnie przygotowanych formatkach (wzory w podręcznikach z zastosowań statystyki)

Dla naszych danych mamy (podobny wykres wykonany przez program statystyczny STATISTICA)

0x01 graphic

Punkty na wykresie rzeczywiście układają się wzdłuż linii prostej, a więc nie ma podstaw do kwestionowania hipotezy o normalności analizowanego rozkładu prawdopodobieństwa.

Związek weryfikacji hipotez statystycznych z estymacją przedziałową

Hipotezy statystyczne weryfikuje się (testuje) na poziomie istotności a. Przy budowie testu można wykorzystać pojęcie przedziału ufności.

Hipotezę statystyczną na danym poziomie istotności a weryfikuje się porównując hipotetyczną (wymaganą) wartość parametru rozkładu prawdopodobieństwa z wyznaczonym na podstawie obserwacji z próbki PRZEDZIAŁEM UFNOŚCI na poziomie ufności b=1-a dla tego parametru.

Weryfikacja hipotezy typu H: m = m0.

Przyjęcie hipotezy: m0Î(m1,m­2)

Odrzucenie hipotezy: m0Î{(-Ą,m­1)Č (m2,Ą)}

Wykorzystujemy dwustronny przedział ufności dla parametru m na poziomie ufności b

0x01 graphic

Weryfikacja hipotezy typu H: m Ł m0.

Hipoteza ta jest równoważna następującemu problemowi decyzyjnemu:

H: m = m0 K: m > m0

Przyjęcie hipotezy: m0Î(md,Ą)

Odrzucenie hipotezy: m0Ď (md,Ą)

Wykorzystujemy jednostronny (górny) przedział ufności dla parametru m na poziomie ufności b


Wyszukiwarka


Podobne podstrony:
Statystyka dzienne wyklad1, Rachunek prawdopodobie˙stwa
Statystyka dzienne wyklad4, Rachunek prawdopodobie˙stwa
Statystyka dzienne wyklad13, STATYSTYKA
Statystyka dzienne wyklad15, Metody statystycznego sterowania procesami (SPC)
Statystyka dzienne wyklad11, STATYSTYKA
Statystyka dzienne wyklad2, Rachunek prawdopodobie˙stwa
Statystyka dzienne wyklad6, STATYSTYKA
Statystyka dzienne wyklad14, STATYSTYKA
Statystyka dzienne wyklad9, STATYSTYKA
podstawy rachunkowosci we dzienne wyklad 2014
ZPiU dzienne wyklady
Etyka dziennikarska wykłady
7 sopot.poik a zawadzka studia dzienne wyklad 7, Sesja, Rok 2 sem 2, WYKŁAD wstęp do psychologii org
Język wypowiedzi dziennikarskiej - wykład, Dziennikarstwo i komunikacja społeczna, Język wypowiedzi
Pytania egzaminacyjne-Makroekonomia studia dzienne, Wykłady rachunkowość bankowość
ZPiU dzienne wyklady
WARSZTAT JĘZYKOWY DZIENNIKARZA - wykłady, Filologia polska - studia (notatki, opracowania), zagadnie
4 sopot.poik a zawadzka studia dzienne wyklad 4, Sesja, Rok 2 sem 2, WYKŁAD wstęp do psychologii org

więcej podobnych podstron