Przedział ufności — losowy przedział wyznaczony za pomocą rozkładu estymatora, a mający tę własność, że z dużym, z góry danym

Przedział ufności — losowy przedział wyznaczony za pomocą rozkładu estymatora, a mający tę własność, że z dużym, z góry danym prawdopodobieństwem, pokrywa wartość szacowanego parametru Θ. Zapisujemy go zwykle w postaci P(a<Θ<b)=1-α gdzie a i b noszą nazwę dolnej i górnej granicy (końca) przedziału ufności, a prawdopodobieństwo 1-α jest dane z góry.

Współczynnik ufności — prawdopodobieństwo 1-α występujące po prawej stronie wzoru na przedział ufności, a oznaczające prawdopodobieństwo, z jakim parametr Θ jest pokryty tym przedziałem. Współczynnik ufności w praktyce wybiera się jako dowolnie duże prawdopodobieństwo. Najczęściej przyjmowanymi wartościami za 1-α są liczby 0,90, 0,95, 0,99. Im bliższy l jest współczynnik ufności, tym szerszy (więc o mniejszej użyteczności) otrzymuje się przedział ufności. Dlatego też bez specjalnej potrzeby nie należy przyjmować zbyt wysokich wartości współczynnika ufności.

Hipoteza statystyczna — Jakiekolwiek przypuszczenie dotyczące rozkładu populacji generalnej.

Hipoteza parametryczna — hipoteza statystyczna precyzująca wartość parametru w rozkładzie populacji generalnej znanego typu.

Hipoteza nieparametryczna — hipoteza statystyczna precyzująca typ rozkładu populacji generalnej.

Hipoteza zerowa — podstawowa hipoteza statystyczna sprawdzana danym testem. Oznacza się ją zwykle symbolem H₀.

Hipoteza alternatywna — hipoteza statystyczna konkurencyjna w stosunku do hipotezy zerowej w tym sensie, że jeżeli odrzuca się hipotezę zerową, to przyjmuje się hipotezę alternatywną. Oznacza się ją H₁,

Błąd pierwszego rodzaju — -możliwy do popełnienia przy weryfikacji hipotezy statystycznej błąd. polegający na odrzuceniu testowanej hipotezy prawdziwej.

Błąd drugiego rodzaju — możliwy do popełnienia przy sprawdzaniu hipotezy statystycznej błąd polegający na przyjęciu testowanej hipotezy fałszywej.

Poziom istotności — prawdopodobieństwo popełnienia błędu pierwszego rodzaju w postępowaniu testującym hipotezę. Poziom istotności oznacza się zwykle symbolem α i obiera się go z góry, zwykle jako małe prawdopodobieństwo. Do najczęściej przyjmowanych poziomów istotności należą prawdopodobieństwa 0,1, 0,05, 0,01, 0,001. Odrzucenie sprawdzanej hipotezy na poziomie istotności np. α =0,05 oznacza, że ryzyko popełnienia błędu pierwszego rodzaju przy tej decyzji wynosi tylko 5 % (inaczej mówiąc, co najwyżej 5 razy na 100 takich decyzji popełniać będziemy błąd).

Test statystyczny — reguła postępowania, która na podstawie wyników próby ma doprowadzić do decyzji przyjęcia lub odrzucenia postawionej hipotezy statystycznej. Za pomocą testu weryfikujemy zatem hipotezę statystyczną.

Moc testu — prawdopodobieństwo podjęcia decyzji prawidłowej przy weryfikacji hipotezy statystycznej danym testem, a polegającej na odrzuceniu testowanej hipotezy fałszywej.

Test istotności — najczęściej używany w praktyce statystycznej typ testu, pozwalający na odrzucenie hipotezy z małym ryzykiem popełnienia błędu (mierzonym poziomem istotności α). Ze względu na to, że w teście istotności uwzględnia się jedynie błąd pierwszego rodzaju, a nie rozpatruje! się szansy popełnienia błędu drugiego rodzaju, to w wyniku tego testu1, możliwa jest decyzja odrzucenia hipotezy zerowej lub nie ma podstaw do jej odrzucenia (co nie oznacza jej przyjęcia).

Parametryczny test istotności — test istotności weryfikujący hipotezę zerową precyzującą wartość parametru w ustalonym typie rozkładu populacji generalnej.

Nieparametryczny test istotności — test istotności dla hipotezy zerowej precyzującej ogólny typ, postać rozkładu populacji generalnej.

§ 1.1. PRZEDZIAŁ UFNOŚCI DLA ŚREDNIEJ

Podstawowe wyjaśnienia

Średnia wartość badanej cechy mierzalnej jest najczęściej szacowanym parametrem populacji generalnej. Jakkolwiek praktycy z reguły pragną wykorzystywać wynik jedynie estymacji punktowej średniej, to jednak bezpieczniejsza jest metoda estymacji przedziałom, czyli dokonanie szacunku parametru w postaci takiego przedziału (zwanego przedziałem ufności), który z dużym prawdopodobieństwem obejmuje prawdziwą wartość parametru.

Przedziały ufności dla poszczególnych parametrów populacji wyznacza się z rozkładów odpowiednich statystyk, będących estymatorami tych parametrów. Najlepszym, uzyskanym metodą największej wiarygodnością estymatorem średniej wartości m populacji generalnej jest średnia arytmetyczna x z próby. Ma ona wszystkie pożądane własności estymatorów: zgodność, nieobciążność, efektywność, dostateczność. Jej rozkład wykorzystuje się do budowy przedziału ufności dla średniej populacji. W zależności od przyjętych założeń, otrzymuje się konkretne wzory na przedziały ufności, w oparciu o rozkład normalny lub rozkład t Studenta.

Model I. Populacja generalna ma rozkład N(m,σ). Wartość średnia m jest nieznana, odchylenie standardowe σ w populacji jest znane. Z populacji tej pobrano próbę o liczebności n elementów, wylosowanych niezależnie. Wówczas przedział ufności dla średniej m populacji otrzymuje się ze wzoru

0x01 graphic

gdzie x oznacza obliczoną z wyników x_i próby średnią arytmetyczną według wzoru

0x01 graphic

1-α jest prawdopodobieństwem przyjętym z góry i nazywanym współczynnikiem ufności, a u_α jest wartością zmiennej losowej U mającej rozkład normalny standaryzowany. Wartość u_αdla danego współczynnika ufności 1- α. wyznacza się z tablicy dystrybuanty rozkładu normalnego N(0, l) w taki sposób, by spełniona była relacja P{— u_α<U< u_α }=1- α (rys, l). Na przykład dla najczęściej przyjmowanego współczynnika ufności 1- α =0,95 mamy u_α=1,96.

0x01 graphic

PARAMETRYCZNE TESTY ISTOTNOŚCI

§ 2.1. TEST DLA WARTOŚCI ŚREDNIEJ POPULACJI

Podstawowe wyjaśnienia

Drugim obok estymacji podstawowym rodzajem wnioskowania statystycznego jest weryfikacja (testowanie) hipotez statystycznych. Przed omówieniem testów, Jakimi weryfikuje się hipotezę o wartości średniej w populacji generalnej, podamy kilka wyjaśnień i uwag, które dotyczą wszystkich testów istotności omówionych w tym rozdziale.

Hipotezy statystyczne, będące sformułowanymi przypuszczeniami dotyczącymi rozkładu populacji, mogą mieć różną postać, w zależności od hipotez badawczych, wysuniętych przez specjalistów różnych dziedzin wiedzy, którym statystyka służy swymi metodami. Hipotezy parametryczne, precyzujące wartości parametrów w rozkładzie populacji, należą do najczęściej sprawdzanych hipotez statystycznych.

Weryfikacja hipotezy statystycznej odbywa się przez zastosowanie specjalnego narzędzia, zwanego testem statystycznym. Jest to reguła postępowania, która każdej możliwej próbie losowej (tj. każdemu punktowi przestrzeni próby) przyporządkowuje decyzję przyjęcia lub odrzucenia sprawdzanej hipotezy W zależności od postaci podstawionej hipotezy zerowej (tzn. bezpośrednio sprawdzanej) oraz postaci hipotezy alternatywnej (tzn. konkurencyjnej w stosunku do hipotezy zerowej), sposób budowy testu jest różny. Istota rzeczy przy budowie każdego testu polega jednak na tym, żeby uchronić się zarówno przed popełnieniem błędu pierwszego rodzaju, polegającym na odrzuceniu hipotezy prawdziwej, jak i przed popełnieniem błędu drugiego rodzaju, polegającym na przyjęciu hipotezy fałszywej.

Przyjęcie i odrzucenie hipotezy w teście statystycznym nie jest równoznaczne z logicznym udowodnieniem jej prawdziwości lub fałszywości. Należy bowiem pamiętać, że odrzucając np. w teście statystycznym sprawdzaną hipotezę kierujemy się jedynie tym, że dane liczbowe wynikające z badania rzeczywistości dają nam małą szansę prawdziwości tej hipotezy, nie zgadzają się z nią. Możliwe jednak, że jest na odwrót, tzn. hipoteza jest prawdziwa, a tylko nasze dane liczbowe z próby są złe lub po prostu mało prawdopodobne przy tej hipotezie. Wprawdzie w ogólnej teorii weryfikacji hipotez statystycznych rozpatruje się różne rodzaje testów, np. testy najmocniejsze, nieobciążone itd., ale w praktycznych zastosowaniach statystyki matematycznej do różnych dziedzin, z których pochodzą sformułowane hipotezy statystyczne, decydujące znaczenie ma jeden typ testów, zwanych testami istotności. Testy istotności to taki rodzaj testów, w których na podstawie wyników próby losowej podejmuje się jedynie decyzję odrzucenia hipotezy sprawdzanej lub stwierdza się, że brak jest podstaw do jej odrzucenia. Nie podejmuje się natomiast w teście istotności decyzji O przyjęciu sprawdzanej hipotezy, gdyż bierze się w nim pod uwagę jedynie błąd pierwszego rodzaju (którego prawdopodobieństwo nosi. nazwę poziomu istotności), u nie uwzględnia się konsekwencji popełnienia błędu drugiego rodzaju.

Testy istotności, pozwalające jedynie odrzucać sprawdzaną hipotezę zerową (z określonym, małym ryzykiem popełnienia błędu pierwszego rodzaju) są w ogromnej większości przypadków zupełnie wystarczające dla potrzeb praktyki. Jest tak dlatego, że najczęściej hipotezę badawczą, którą praktyk-eksperymentator pragnie sprawdzić, da się zamienić na odpowiednią, Jak gdyby ,,odwrotną'" hipotezę statystyczną, której odrzucenia pragnie ten praktyk, a na przyjęciu której wcale mu nie zależy. Można to zilustrować następującym typowym przykładem. Przypuśćmy, że wynaleziono nową technologię produkcji stali o podobno wyższej wytrzymałości niż otrzymywano starą technologią. Przeprowadzono eksperyment próbnej produkcji nową i starą technologią, by na podstawie wyników liczbowych tego eksperymentu wykazać przeciętnie wyższą wytrzymałość nowej metody. Do udowodnienia tej hipotezy badawczej wystarczy zastosować test istotności dla hipotezy statystyczne sformułowanej następująco: rozkłady wytrzymałości stali uzyskiwanej starą i nową metodą mają jednakowe średnie. Formalnie zapisujemy to w formie .hipotezy zerowej H₀. m₁=m₂, wobec hipotezy alternatywnej H₁: m₁>m, gdzie m₁ oznacza średnią wartość wytrzymałości stali uzyskiwanej nową metodą, a m₂ jest taką samą średnią dla starej metody. Jeżeli zastosowany test istotności dla hipotezy Ho doprowadzi do jej odrzucenia, to wyższość nowej metody została udowodniona (z odpowiednio małym ryzykiem błędu, mierzonym poziomem istotności użytym w tym teście). Jeżeli natomiast zastosowany test istotności da odpowiedź, że nie ma podstaw do odrzucenia hipotezy H₀, to oznacza to, że cały nagromadzony nieraz wielkim wysiłkiem zbiór danych liczbowych mający świadczyć o wyższości nowej metody, jest za słabym argumentem i nie może tej wyższości udowodnić. Odpowiedź taka przysparza praktykowi, twórcy nowej metody i tak dość zmartwień, natomiast nie zależy mu zupełnie na przyjęciu hipotezy H₀, bo to oznaczałoby, że marnował czas nad wynalezieniem metody identycznej pod względem przeciętnego poziomu wytrzymałości ze starą.

Powyższy przykład ilustruje fakt wystarczalności dla praktyki testów istotności, pozwalających jedynie na odrzucenie sprawdzanej hipotezy statystycznej.

Ogólnie rzecz biorąc, statystyczne testy istotności powstają w taki sposób, że w zależności od postaci hipotezy zerowej buduje się pewną statystykę Z z wyników n - elementowej próby i wyznacza się rozkład tej statystyki przy założeniu prawdziwości hipotezy H₀. W rozkładzie tym wybiera się taki obszar Q wartości statystyki Z, by spełniona była równość

P{Z⊂ Q}= α,

gdzie α jest ustalonym z góry, dowolnie małym prawdopodobieństwem. Obszar Q nazywa się obszarem krytycznym testu, gdyż ilekroć wartość statystyki Z z próby znajdzie się w nim, to podejmuje się decyzję odrzucenia hipotezy H₀ na korzyść jej alternatywy H₁. Natomiast, gdy otrzymana z konkretnej próby wartość statystyki Z nie należy do obszaru krytycznego Q, to nie ma podstaw do odrzucenia hipotezy H₀. Należy wyraźnie podkreślić, że nic jest to równoważne z jej przyjęciem.

Uzasadnienie powyższych decyzji jest następujące.

Obszar krytyczny Q został tak wyznaczony, że przy założeniu prawdziwości hipotezy H₀ prawdopodobieństwo otrzymania z próby n-elementowej wartości statystyki Z należącej do tego obszaru jest znane i jest bardzo małą liczbą. Takie zdarzenie losowe nie powinno się więc zrealizować w jednym doświadczeniu. Jeżeli jednak naprawdę zrealizowało się, to musiało mieć większe prawdopodobieństwo niż to wynika z założenia prawdziwości hipotezy H₀ , więc skłonni jesteśmy uznać hipotezę za fałszywą i odrzucamy ją. Możemy pomylić się i odrzucić hipotezę, która w gruncie rzeczy była prawdziwa (błąd pierwszego rodzaju), jednakże prawdopodobieństwo takiej pomyłki jest bardzo małe, równe obranej dowolnie liczbie α. Jeżeli natomiast wartość statystyki Z z próby n-elementowej znalazła się poza obszarem krytycznym, to prawdopodobieństwo tego zdarzenia, przy prawdziwości hipotezy Ho, jest równe 1-α (Nie należy go mylić ze współczynnikiem ufności. Zbieżność liter i odczytywania z tablic kryje za sobą jednak różną 'treść.), co jest bliskie 1. Zaszło zatem zdarzenie, które powinno przy prawdziwości hipotezy zajść, bo miało duże prawdopodobieństwo, więc nie ma podstaw do odrzucenia hipotezy Ho.

Jako poziom istotności α wybiera się najczęściej w testach istotności liczby 0,10, 0,05, 0,01, 0,001, choć nie znaczy to, że nie można wybrać np. 0,02. Oczywiście im mniejszy przyjmie się poziom istotności w teście (czyli im mniejsze dopuszcza się ryzyko popełnienia błędu pierwszego rodzaju), tym trudniej jest hipotezę Ho odrzucić, dlatego należy uważnie dobierać poziom istotności (najczęściej przyjmuje się α=0,05, a mniejsze wartości przyjmuje się w wyjątkowo ważnych badaniach, np. technicznych czy medycznych). Odrzucenie sprawdzanej hipotezy na poziomie istotności np. 0,01 oznacza, że odrzucając tę hipotezę albo się nie mylimy (tzn. hipoteza jest naprawdę fałszywa), albo też popełniamy błąd pierwszego rodzaju (tzn. w gruncie rzeczy, o czym nie wiemy, hipoteza jest prawdziwa), ale w tym ostatnim przypadku częstość popełnienia takiego błędu jest tylko l na 100 przypadków stosowania tego testu istotności. Podstawą budowy obszaru krytycznego dla danego testu istotności jest rozkład odpowiedniej statystyki z próby, wyznaczony przy założeniu prawdziwości sprawdzanej hipotezy o parametrze populacji.

Przechodząc do omówienia konkretnych testów istotności dla średniej wartości badanej cechy w populacji należy stwierdzić, że statystyką, której rozkład służy do budowy obszaru krytycznego w tych testach, jest średnia z próby x. W zależności od posiadanych informacji o populacji, wyróżnimy trzy podstawowe modele, dla których buduje się testy istotności dla średniej.