WERYFIKACJA HIPOTEZ STATYSTYCZNYCH
Podstawowym problemem, będącym przedmiotem zainteresowania statystyki matematycznej jest poznanie rozkładu prawdopodobieństwa badanej zmiennej losowej X, opisującej naturalną zmienność wyników eksperymentu. Rozkład ten nie jest zwykle znany , a posiadane informacje pozwalają na wyróżnienie szerszej lub węższej rodziny rozkładów
do której rozkład tej zmiennej należy. Wybór rodziny P zależy od konkretnego problemu praktycznego, a w szczególności od tego, jakie informacje posiadamy o badanym zjawisku. Poprawne zdefiniowanie zmiennej losowej , określenie rodziny rozkładów P nazywamy zdefiniowaniem modelu statystycznego.
Przykład 1
Przypuśćmy, że wiemy iż zmienna losowa X ma rozkład normalny ale nie znamy wartości oczekiwanej i wariancji tego rozkładu. Wówczas rodzinę P, do której należy rozkład naszej zmiennej losowej możemy zdefiniować następująco, że jest to rodzina rozkładów normalnych indeksowanych dwuwymiarowym parametrem
. zauważmy, że parametr ten jednoznacznie identyfikuje rozkłady z tej rodziny. Gdybyśmy znali wartość parametru
, to moglibyśmy wskazać , który rozkład z tej rodziny jest rozkładem naszej zmiennej.
Jest to przykład modelu statystycznego, w którym znamy klasę rozkładów, do której należy rozkład zmiennej X ,a nie znamy jedynie parametrów tego rozkładu. Model taki nazywać będziemy parametrycznym. Niekiedy jednak nie posiadamy zbyt wiele informacji o rozkładzie badanej zmiennej X, wtedy rodzinę P możliwych rozkładów tej zmiennej musimy zdefiniować znacznie szerzej.
Przykład 2
Załóżmy, że badaną cechą jest dochód na jedną osobę w gospodarstwie domowym. Najczęściej jedyną informacją jaką posiadamy jest to, że zmienna ta jest dodatnia i ciągła. W tym przykładzie rodzinę P musimy określić bardzo szeroko, jako rodzinę wszystkich rozkładów ciągłych określonych na R+. W tym przypadku
utożsamiamy z pojedynczym rozkładem z tej rodziny . natomiast
utożsamiamy z całą rodziną P. tego rodzaju model statystyczny nazywać będziemy parametrycznym.
Rodzina P jest indeksowana parametrem
o wartościach z pewnego zbioru
zwanego przestrzenią parametru. Jeżeli różnym wartościom parametru odpowiadają różne rozkłady z rodziny P to parametr taki nazywamy identyfikowanym. Poznanie prawdziwej wartości parametru pozwala jednoznacznie określić rozkład zmiennej losowej będącej przedmiotem badania. W przypadku obserwacji częściowej tj. opartej na losowej próbie wyznaczenie dokładnej wartości parametru na ogół nie jest możliwe. Możliwe jest jednak wyróżnienie najbardziej prawdopodobnej wartości parametru lub przynajmniej wskazanie podzbioru do którego z dużym prawdopodobieństwem należy prawdziwa wartość parametru. Poznaliśmy już podstawowe metody estymacji punktowej i przedziałowej realizujące powyższy cel. Obecnie zajmiemy się metodami weryfikacji hipotez statystycznych.
Def. Hipotezą statystyczną - nazywamy każde przypuszczenie dotyczące rodziny rozkładu P dla danej zmiennej losowej.
Rozważmy dwa rozłączne podzbiory przestrzeni
.Oznaczmy je symbolem
i
(
). Dalej
utożsamiać będziemy z hipotezami statystycznymi. Prawdziwa wartość parametru może należeć do podzbioru
lub
wówczas prawdziwa hipoteza jest odpowiednio
. Zadaniem metod weryfikacji hipotez statystycznych jest wskazanie, z możliwie małym prawdopodobieństwem błędu, która z hipotez jest prawdziwa.
Hipoteza parametryczna to taka, która dotyczy jedynie wartości parametrów rozkładu badanej cechy wiedząc do jakiej klasy rozkładów należy rozkład tej zmiennej.
Hipoteza nieparametryczna to taska, która dotyczy wartości parametrów nieznanego rozkładu zmiennej losowej lub też dotyczy postaci funkcyjnej tego rozkładu.
W celu zbudowania testu dla weryfikacji H0 należy skonstruować dwa rozłączne i dopełniajace się podzbiory W i W1 zbioru liczb rzeczywistych takie, że
,
∅ oraz pewną ststystyke Tn=T(X1, X2, ...,Xn) będacą funkcją wyników próby zwaną statystystyką testową. Wartosć statystyki testowej wykorzystuje się do podjęcia decyzji o przyję ciu lub odrzuceniu H0 w następujacy sposób: jeżeli T(X1,...,Xn)єW to odrzucamy H0, jeżeli T(X1,...,Xn)єW1 to przyjmujemy H0.. Zbiór W nazywa się obszarem krytycznym, a W1 obszarem przyjęcia hipotezy zerowej.Jeżeli H0 jest prawdziwa a test odrzuca tę hipotezę to popełniamy blad I rodzaju. Jeżeli H0 jest fałszywa a test decyduje o jej przyjęciu wówczas popełnimy bład II rodzaju.
Mocą M testu nazywamy prawdop. odrzucenia hipotezy fałszywej (prawdop. błędu II rodzaju) P(T(X1, X2,...,Xn)єW1\H1)=β ; M=1-β
Test, który przy ustalonym prawdop. I rodzaju min. prawdop. II rodzaju nazyw. testem najmocniejszym dla hipotezy H0 przeciwko H1.
Decyzja |
Hipoteza Zerowa |
|
|
Prawdziwa |
fałszywa |
Odrzucić |
Bład I rodzaju |
Decyzja poprawna [MOC TESTU] |
Przyjąć |
Decyzja poprawna |
Bląd II rodzaju |
================================================================================
PARAMETRYCZNE TESTY ISTOTNOŚCI
Test istotnosci dla 2 srednichm [σ1, σ2 - znane , mała próba]
Niech X1 i X2 będą dwiema zmiennymi los. o μ1=E(X1) i μ2=E(X2). Stawiamy hipotezę H0: μ1=μ2 wobec alternatywnej H1: μ1≠μ2 ( μ1<μ2 lub μ1>μ2). Wybór testu służacego do zweryfikowania powyższej hipotezy H0 zależy od tego jekie informacje posiadamy o rozkladach zmiennych X1 i X2.Pierwszy z tych testów możemy zweryfikować następujaco: założenia: X1:N(μ1, σ1) ; H1:N(μ2,σ2). Wówczas statystyka testowa ma postać:
U=
gdzie:
;
Statystyka U ma przy założeniu prawdziwosci H0 rozkład N(0,1). Obszar krytyczny konstruujemy następujaco:
a)obustronny ( H0 przeciw H1: μ1 ≠ μ2)
b)prawostronny (H0 przeciw H1: μ1 > μ2)
c)lewostronny (H0 przeciw H1: μ1 < μ2)
--------------------------------------------------------------------
--------------------------------------------------------------------
TEST STUDENTA dla 2 srednich [σ1, σ2 - nieznane, σ1=σ2]
Założenia X1: N(μ1, σ1) H0: μ1=μ2
X2: N(μ2, σ2) H1: μ1≠ μ2 (μ1< μ2 μ1> μ2)
Statystyka testowa jest postaci: t=
Statystyka t ma przy założeniu prawdziwoci hipotezy H0 rozkład Studenta o n1+n-2 st. swobody. Obszat krytyczny jak wyżej o n1+n2-2 st. swobody.
----------------------------------------------------------------------------------------------------------------------------------------
Test istotnosci dla 2 srednich w [σ1, σ2 - nieznane , duża próba]
Założenia: X1, X2 zmienne losowe o dowolnych rozkładach. Z obu populacji wylosowano 2 duże próby o liczebnościach n1 i n2.
Statystyka testowa jest postaci: U=
Statystyka przy prawdziwości H0 ma graniczny rozkład N(0,1)
----------------------------------------------------------------------------------------------------------------------------------------
Test istotnosci dla 2 wariancji (Test Fishera-Snedecora)
Niech X1 i X2 będą zmiennymi losowymi o rozkładzie Normalnym z parametrami odpowiednio X1: N(μ1, σ1) oraz X2:N(μ2, σ2) Stawiamy hipotezę H0:
wobec alternatywnej H1:
lub
. Statystyka testu wygląda następujaco:
(
)
;
Statystyka F ma przy założeniu prawdziwosci H0 rozkład Fishera - Snedecora o n1-1 i n2-1 st. swobody. Obszar krytyczny testu jest obszarem prawostronnym.
----------------------------------------------------------------------------------------------------------------------------------------
Test istotności dla 2 wskaźników struktóry
Przypuscmy, że X1, X2 sa zm. los. o rozkładzie Zero-Jedynkowym. Wtedy:
X1: Z-J
X2: Z-J
Stawiamy hipotezę: H0: p1=p2 wobec H1: p1≠ p2 (p1>p2 ; p1<p2). Statystyka testu jest następująca:
gdzie:
;
;
k1- liczba elementów wyróżnionych w pierwszej próbie n1-elementowej
k2 - liczba elementów wyróżnionych w drugiej próbie n2-elementowej
Statystyka U ma przy założeniu prawdziwości H0 rozkład N(0,1). Obszar krytyczny wygląda nast.:
obustronny ( H0: p1=p2 ; H1: p1≠ p2)
lewostronny ( H0: p1=p2 ; H1: p1> p2)
prawostronny ( H0: p1=p2 ; H1: p1< p2)
NIEPARAMETRYCZNE TESTY ISTOTNOSCI
Testy zgodności służą do weryfikacji hipotezy że populacja generalna ma określony typ rozkładu. Domniemany rozkład populacji określać będziemy mianem rozkładu teoretycznego bądź rozkładu hipotetycznego. Nazwa testów zgodności pochodzi stąd, że weryfikując hipotezę o postaci funkcyjnej rozkładu badamy zgodność uzyskanego z próby rozkładu empirycznego interesującej nas cechy z rozkładem teoretycznym. Podstawą testów zgodności jest budowa właściwej dla danego testu statystyki, która jest miarą rozbieżności pomiędzy rozkładem empirycznym a teoretycznym. Jeśli wartość tej miary przekroczy ustaloną granicę (punkt krytyczny) to hipotezę o zgodności rozkładu odrzucamy. W przeciwnym wypadku stwierdzamy, że nie ma podstaw do odrzucenia sprawdzanej hipotezy. Wynika stąd, że obszar krytyczny większości testów jest obszarem prawostronnym.
----------------------------------------------------------------------------------------------------------------------------------------
1.Test zgodności
Pearsona - w teście tym przyjmujemy następujące założenia: populacja generalna ma rozkład z nieznaną dystrybuantą
. Z populacji tej wylosowano dużą
n-elementową próbę prostą. Wyniki próby klasyfikujemy w szereg rozdzielczy o r-rozłącznych klasach
, o liczebnościach
w każdej klasie
.
Otrzymany szereg rozdzielczy stanowi tzw. rozkład empiryczny badanej cechy. Należy sprawdzić zgodność tego rozkładu z określonym w hipotezie rozkładem teoretycznym. Niech
oznacza zbiór rozkładów teoretycznych o kreślonym typie postaci funkcyjnej dystrybuanty do którego przypuszczalnie należy rozkład badanej cechy. Stawiamy hipotezy:
wobec alternatywnej hipotezy
. Sprawdzianem testu jest statystyka postaci
(*)
gdzie
- oznacza liczebności teoretyczne;
- oznacza liczebności empiryczne
Liczba stopni swobody tej statystyki zależy od liczby niezależnych składowych występujących po prawej stronie wzoru *.
Jeżeli hipotetyczny rozkład badanej populacji został jednoznacznie określony to liczba stopni swobody statystyki
równa jest r-1.
Jeżeli natomiast rozkład teoretyczny nie został jednoznacznie zdefiniowany (nie sprecyzowane zostały wartości parametrów tego rozkładu) to liczba stopni swobody statystyki jest mniejsza od r-1.
Niech k oznacza liczbę parametrów rozkładu teoretycznego które szacowaliśmy na podstawie próby. Wówczas liczba stopni swobody statystyki równa jest r-k-1. Obszar krytyczny jest obszarem prawostronnym.
----------------------------------------------------------------------------------------------------------------------------------------
2.Test zgodności
-Kołmogorowa
W przypadku rozkładu
- Kołmogorowa porównujemy dystrybuantę empiryczną z dystrybuantą teoretyczną (zakłada się, że dystrybuanta teoretyczna jest ciągła). Idea tego testu jest następująca. Jeżeli populacja generalna ma istotnie taki rozkład jak przypuszczamy w hipotezie, wówczas wartości dystrybuanty empirycznej nie powinny się różnić istotnie od wartości dystrybuanty teoretycznej. Stąd w teście tym analizujemy bezwzględne różnice pomiędzy dystrybuantą empiryczną a dystrybuantą teoretyczną. Największa bezwzględna różnica służy do określenia wartości statystyki testu. Najczęściej w praktyce korzysta się z rozkładu granicznego tej statystyki tzn. wtedy gdy próba jest duża.
Założenia testu: przypuśćmy, że z populacji generalnej wylosowano próbę prostą n-elementową. Jeżeli próba jest duża, wówczas grupujemy ją w szereg rozdzielczy o dużej liczbie klas. Na podstawie tej próby należy zweryfikować hipotezę zerową
wobec alternatywnej hipotezy
gdzie:
- reprezentuje nieznaną dystrybuantę rozkładu badanej cechy w populacji generalnej;
- oznacza dystrybuantę teoretyczną rozkładu tej cechy (najczęściej wyspecyfikowaną jednoznacznie, tzn. z parametrami)
Statystyką testu jest zmienna losowa postaci:
, gdzie
gdzie
- dystrybuanta empiryczna wyznaczona z próby.
Statystyka
ma przy założeniu poprawności hipotezy zerowej rozkład
-Kołmogorowa. Obszar krytyczny jest obszarem prawostronnym.
----------------------------------------------------------------------------------------------------------------------------------------
3.Test normalności Shapiro - Wilka
Test ten należy do grupy testów zgodności, jednak jego zastosowanie jest zawężone do przypadku, gdy sprawdzamy hipotezę, że rozkład danej populacji jest normalny. Czyli hipotezę postaci
wobec alternatywnej hipotezy
, gdzie
- rodzina dystrybuant rozkładu normalnego
Założenia testu są następujące: przypuśćmy, że z populacji generalnej o ciągłym rozkładzie z dystrybuantą
wylosowano niezależnie n-elementową próbę prostą. Próbę porządkujemy w szereg szczegółowy. Statystyką takiego testu jest zmienna losowa postaci:
- część całkowita z tej liczby
- są pewnymi współczynnikami, które odczytujemy ze specjalnych tablic zwanych tablicami współczynników Shapiro-Wilka
- statystyka pozycyjna i - tego rzędu , przyjmująca i - tą co do wielkości wartość w uporządkowanej, niemalejącej próbie.
Statystyka W ma przy założeniu prawdziwości hipotezy zerowej rozkład Shapiro-Wilka. Obszar krytyczny jest obszarem lewostronnym.
================================================================================
TEST ZGODNOSCI DLA 2 ROZKLADÓW EMPIRYCZNYCH
Stosunkowo często w praktyce występuje potrzeba porównania dwóch populacji o nieznanych typach rozkładów. Jeśli z populacji wylosujemy dwie próby proste to na ich podstawie można zweryfikować hipotezę nieparametryczną, że obie próby pochodzą z populacji, których rozkłady nie różnią się. Hipotezę taką można zapisać następująco:
wobec alternatywnej hipotezy
gdzie; F1,F2 - reprezentują nieznane dystrybuanty rozkładów odpowiednio w populacji pierwszej i drugiej.
1.Test Kołmogorowa - Smirnowa
Dane są dwie populacje o ciągłych rozkładach z nie znanymi dystrybuantami F1(X), F2(X). Z populacji tych wylosowano dwie próby proste o liczebnościach odpowiednio n1 , n2 . Na podstawie wyników obu prób należy zweryfikować hipotezę , że obie próby pochodzą z populacji o jednakowym rozkładzie, czyli:
wobec alternatywnej hipotezy
.
Test istotności dla H0 podany został przez Smirnowa, a oparty jest na statystyce podobnej do
-Kołmogorowa. Testowanie hipotezy H0 przeprowadzamy w następujących etapach:
porządkujemy wyniki obu grup w kolejności rosnącej. Dal dużych grup
grupujemy ej w stosunkowo wąskie przedziały o tych samych końcach dla obu grup.
Dla każdego wyniku próby pierwszej i drugiej (ewentualnie dla każdego przedziału klasowego) obliczamy wartości dystrybuant empirycznych
i
.
Wyznaczamy wartość statystyki Kołmogorowa - Smirnowa
, gdzie
Statystyka
ma przy
graniczny rozkład
-Kołmogorowa (przy założeniu, że hipoteza H0 jest prawdziwa)
W praktyce korzystanie z granicznego rozkładu statystyki
oznacza konieczność wylosowania dużych prób
. Z tablic wartości krytycznych
-Kołmogorowa dla zadanego poziomu
odszukujemy punkt krytyczny
, to jest taką liczbę dla której spełnione jest równanie :
. Obszar krytyczny jest obszarem prawostronnym. Zatem odrzucamy hipotezę zerową jeśli
przekroczy punkt krytyczny
----------------------------------------------------------------------------------------------------------------------------------------
2.Test serii dla dwóch rozkładów empirycznych.
Test ten służy do weryfikacji
wobec alternatywnej hipotezy
. Jest zbudowany w oparciu o tzw. TEORIĘ SERII czyli teorię zajmującą się kolejnością pojawienia się poszczególnych wyników w próbie.
Założenia tego testu są następujące: dane są dwie populacje o nieznanych lecz ciągłych rozkładach określonych przez dystrybuantę
i
z populacji tych wylosowano dwie próby proste o liczebnościach odpowiednio n1 i n2 . Na podstawie tych prób należy sprawdzić hipotezie, że pochodzą one z populacji o takim samym rozkładzie.
Etapy testowania tej hipotezy:
Wyniki grup porządkujemy w jeden niemalejący ciąg
Wyrazom pochodzącym z tych samych populacji przypisujemy symbole odpowiednio a i b W rezultacie otrzymujemy ciąg łożony z liter a i b.
Obliczamy liczbę serii „k” składających się z wyrazów a lub b
SERIĄ - nazywamy każdy podciąg ciągu wyników złożony z jednakowych symboli oddzielony innym symbolem (jeden symbol to też seria). Liczba serii - „k” jest statystyką testu jej rozkład jest znany i stablicowany. Jest to rozkład skokowy . mała liczba serii świadczy przeciwko hipotezie zerowej, dlatego obszar krytyczny jest obszarem lewostronnym.
Z tablic rozkładu Liczby Serii dla zadanego poziomu istotności
odczytujemy taki punkt krytyczny
a by zachodziła równość
. Hipotezę zerową odrzucamy jeśli obliczona wartość statystyki testu K spełnia nierówność:
================================================================================
WNIOSKOWANIE STATYSTYCZNE NA BAZIE MODELU REGRESJI LINIOWEJ.
Badając zjawiska masowe (w tym także zjawiska społeczno - ekonomiczne) stwierdzamy zawsze, że każde z tych zjawisk jest uwarunkowane działaniem innych zjawisk np.: wiadomo, że PKB = „Y” zależy od takich zmiennych jak liczba mieszkańców kraju „X” , stopy bezrobocia „Z” czy stopy inwestycji „U” itp. Na ogół powiązania pomiędzy zmiennymi losowymi nie mają charakteru ściśle funkcyjnego, który dałoby się zapisać w postaci
, gdzie f - to pewna nieznana funkcja.. zapis taki oznaczałby, ze konkretnym realizacjom zmiennych (x,z,u...w) zwanych zmiennymi objaśniającymi odpowiada dokładnie jedna wartość zmiennej Y zwanej zmienną objaśnianą, co w praktyce rzadko się zdarza. . Bardziej adekwatne jest przedstawienie zależności pomiędzy zmiennymi w następujący sposób: (*)
E gdzie:
x,z,u...w - reprezentują tu konkretne ustalone wartości zmiennych objaśniających.
Y - jest zmienną losową objaśnianą.
E - jest zmienną losową co do której zakładamy iż ma rozkład normalny o wartości oczekiwanej równej zero E(X)=0 oraz wariancji równej σ2. Zmienną tą nazywamy składnikiem wahań przypadkowych (składnikiem losowym).
Uwzględnienie składnika losowego po prawej stronie wzoru (*) powoduje, że konkretnym wartościom x,z,u..w mogą odpowiadać różne wartości zmiennej losowej Y, o takiej zależności mówimy, że jest zależnością stochastyczną . Problemem podstawowym , jaki pojawia się przy badaniu zależności stochastycznych, jest oszacowanie funkcji f zwanej także funkcją regresji. Dokonujemy tego na podstawie wyników n - elementowej próby prostej tzn. na podstawie ciągu następujących obserwacji:
dla n losowo i niezależnie wybranych obiektów. Dla każdego z obiektów przyjmujemy, że zachodzi zależność podana wzorem (*) czyli zachodzi
Ei dla i = 1,2...n Wówczas jako kryterium dopasowania funkcji f do danych empirycznych możemy przyjąć sumę postaci:
E2 =
Funkcja, która w danej klasie funkcji minimalizuje wartość powyższej sumy nazywana jest estymatorem najmniejszych kwadratów funkcji regresji f.
Przyjmijmy dla uproszczenia , że funkcja f należy do klasy funkcji liniowych oraz, ze mamy tylko jedna zmienną objaśniającą. Wówczas model (*) sprowadza się do znanej postaci regresji liniowej jednej zmiennej:
E
Oszacowanie nieznanych współczynników
i
prowadzi do znalezienia oszacowania funkcji regresji f.
Estymatorami najmniejszych kwadratów współczynników
i
są statystyki a i b.
,
gdzie:
Wówczas równanie prostej
lub inaczej
jest oszacowaniem funkcji regresji liniowej
jednej zmiennej jest Model: Model Gaussa - Markowa. W modelu tym funkcja f jest liniową funkcją o p zmiennych objaśniających (p>1) dla uproszczenia zapisu zmienne p oznaczymy symbolami: x1,x2,...xp przy tych oznaczeniach model zapisujemy następująco:
(**)
E
gdzie
są nieznanymi współczynnikami, które należy oszacować. Zauważmy, że jeżeli przyjmiemy p=2 i x1=1 to otrzymujemy model regresji liniowej omówiony powyżej
E .
Dysponując wynikami z n-elementowej próby prostej tzn. ciągiem wartości
otrzymujemy zgodnie ze wzorem (**)
E zależności postaci:
Ei ; i=1...n o składnikach losowych Ei zakładamy, ze są niezależnymi zmiennymi losowymi o jednakowym rozkładzie normalnym, o wartości przeciętnej równej E(X)=0 i wariancji
.
Ponadto jeśli wprowadzimy oznaczenia macierzowe:
;
to powyższe zależności można zapisać następująco:
W celu oszacowania wektora współczynników
stosujemy metodę minimalizacji sumy kwadratów tj. sumy postaci:
----------------------------------------------------------------------------------------------------------------------------------------
TEST ISTOTNOSCI DLA WSÓLCZYNNIKA REGRESJI LINIOWEJ
Bardzo często w analizie regresji dokonuje się sprawdzania hipotezy dotyczącej istotności otrzymanych z próby współczynników regresji. Jeśli współczynniki te okażą się istotnie różne od zera to dopiero wówczas można używać otrzymanej funkcji regresji jako narzędzia przy dokonywaniu prognozy wartości zmiennej objaśnianej na podstawie wartości zmiennych objaśniających.
Załóżmy, ze z populacji generalnej wylosowano „n” elementów i zanotowano dla nich wartości dwóch cech X i Y. W rezultacie otrzymano ciąg par postaci (x1 , y1)...(xn , yn). Na podstawie wyników tej próby należy sprawdzić hipotezę, ze współczynnik regresji
(liniowej funkcji regresji postaci
) w populacji ma określoną wartość, czyli hipotezę postaci:
, wobec
lub
, gdzie
to domniemana wartość tego współczynnika.W szczególności, gdy
hipoteza zerowa ma postać
lub
Hipoteza zerowa tej postaci oznacza, że współczynnik regresji liniowej Y względem X jest NIEISTOTNY (nie różni się istotnie od zera).
Test istotności dla powyższej hipotezy jest następujący: z wyników próby metodą najmniejszych kwadratów znajdujemy oszacowanie funkcji regresji otrzymując funkcję postaci
. Następnie obliczamy wartość statystyki testu wyrażoną wzorem:
gdzie
Statystyka „t” ma przy założeniu prawdziwości hipotezy zerowej rozkład t-Studenta o n-2 stopniach swobody. Z tablic tego rozkładu dla ustalonego poziomu istotności odczytujemy wartość krytyczną tego testu, a następnie podejmujemy decyzję o odrzuceniu bądź przyjęciu hipotezy zerowej.
----------------------------------------------------------------------------------------------------------------------------------------
TEST ISTOTNOSCI DLA WSÓLCZYNNIKA KORELACJI
Przy badaniu populacji generalnej ze względu na dwie lub więcej cech (cech ilościowych) posługujemy się pojęciami regresji i korelacji. Oba te pojęcia dotyczą współzależności pomiędzy zmiennymi. Przy czym korelacja dotyczy siły tej zależności a regresja jej kształtu.Gdy zależność między dwiema badanymi cechami jest liniowa to najlepszym miernikiem korelacji między nimi jest współczynnik korelacji
definiowany wzorem
gdzie cov(X,Y)=E[(X-E(X))(Y-E(Y))]
odchylenie standardowe zmiennej losowej X czyli
Wspólczynnik
jest unormowaną miarą korelacji gdyż zawiera się w przedziale <-1;1>. Gdy
jest równe -1 lub 1 wówczas między X i Y zachodzi ściśle funkcyjna zależność liniowa. Gdy
=0 mówimy, że zmienne są nieskorelowane. Im
bliższe zera tym silniejsza jest zależność. Znak wskazuje na kierunek korelacji. Należy zaznaczyć, że pojęcie korelacji różni się od pojęcia zależności stochastycznej pomiędzy zmiennymi losowymi.
Zmienne niezależne są zawsze nieskorelowane. Twierdzenie odwrotne nie jest prawdziwe, tzn., ze zmienne nieskorelowane nie muszą być niezależne chyba że ich rozkład jest dwuwymiarowym rozkładem normalnym.
Estymatorem nieobciążonym i zgodnym dla
jest współczynnik korelacji z próby prostej n-elementowej określany wzorem
Na podstawie tego estymatora można wyznaczyć przedział ufności dla współczynnika
. Załóżmy, że zmienne X i Y mają w populacji generalnej dwuwymiarowy rozkład normalny lub do niego zbliżony. Z populacji generalnej wylosowano dużą n-elementową próbę prostą (n - kilka sztuk) Wówczas przedział ufności dla współczynnika
wyraża się przybliżonym wzorem . Dla zadanego współczynnika ufności [1-α]
gdzie
kwantyl rzędu
rozkładu normalnego standaryzowanego.
Test istotności dla współczynnika korelacji
konstruuje się również korzystając ze współczynnika korelacji próby „r”. Zakładamy nadal, że zmienne X i Y mają rozkład normalny lub do niego zbliżony. Z populacji losujemy n-elementową próbę prostą na podstawie wyników tej próby należy sprawdzić hipotezę zerową, że zmienne losowe X,Y nie są skorelowane.
lub
Statystykę tego testu określa się wzorem
zmienna losowa "t” ma przy założeniu prawdziwości hipotezy zerowej rozkład t-Studenta o n-2 stopniach swobody. Z tablic rozkładu tej zmiennej dla ustalonego poziomu istotności i dla n-2 stopni swobody odczytujemy wartość krytyczną testu i podejmujemy decyzję o odrzuceniu bądź przyjęciu hipotezy H0.
----------------------------------------------------------------------------------------------------------------------------------------
TEST NIEZALEZNOSCI χ2
W badaniach populacji wielowymiarowych występuje często problem badania współzależności zmiennych. W przypadku, gdy zmienne te (cechy statystyczne ) są mierzalne (ilościowe) badanie współzależności sprowadza się do analizy korelacji i regresji. Natomiast jeżeli zmienne mają charakter jakościowy (niemierzalny) to wnioskowanie statystyczne współzależności tych cech opiera się przede wszystkim na teście niezależności χ2.
Rozważmy dwuwymiarową zmienną losową (X,Y), o skokowych rozkładach brzegowych. Z populacji generalnej losujemy n-elementową próbę prostą, w której odnotowujemy wartości zmiennej losowej (X,Y). Na podstawie uzyskanych wyników z próby chcemy sprawdzić hipotezę, że zmienne X,Y są niezależne. Hipotezę tą możemy zapisać następująco:
gdzie:
F(x,y) - dystrybuanta łącznego rozkładu zmiennej losowej (X,Y)
F1(x), F2(y) - dystrybuanty brzegowe obu zmiennych losowych.
Hipotezy powyższe zapisuje się niekiedy w równoważnej postaci
Test istotności dla H0 zwany testem niezależności χ2 jest następujący: wyniki dużej próby klasyfikujemy w tzw. tablicę niezależności (tablicę kontyngencyjną) o r - wierszach i s- kolumnach. Wiersze stanowią wartości zmiennej X (inaczej są to różne warianty tej zmiennej ), a kolumny odpowiadają wartościom zmiennej losowej Y. Wnętrze tablicy stanowią liczebności „nij” tych elementów próby, dla których wartości obu cech należały do i-tego wiersza i j-tej kolumny tablicy.
X |
Y |
ni. |
||
|
y1 |
... |
ys |
|
x1 |
n11 |
... |
n1s |
n1. |
... |
... |
.... |
... |
... |
xr |
nr1 |
... |
nrs |
n.r. |
Sumując w wierszach liczebności „nij” otrzymujemy wartości brzegowe ni· i analogicznie dla kolumn. Niech „pij” oznacza prawdopodobieństwo teoretyczne (czyli wyznaczone przy założeniu, że H0 jest prawdziwa) zdarzenia, że wylosowany obiekt zostanie zaklasyfikowany do i-tego wiersza i j-tej kolumny tablicy. Zakładając prawdziwość hipotezy zerowej mamy, że
, przy czym
. Prawdopodobieństwa brzegowe
oraz
nie są jednak znane. Można je jednak oszacować na podstawie próby metodą największej wiarygodności. Estymatorami tymi są:
,
stąd za estymator prawdopodob. pij przyjmujemy iloczyn
. Znając już oszacowane prawdopodobieństwa pij wyznaczamy dla każdego pola tablicy tzw. oszacowane liczebności teoretyczne równe
. Wielkości te informują ile w przybliżeniu powinno się znaleźć obserwacji w polu ij tablicy, gdyby hipoteza była prawdziwa.
Przeciwko hipotezie zerowej świadczyć będą duże rozbieżności między liczebnościami empirycznymi a teoretycznymi dla poszczególnych pól tablicy.
Statystyką testu niezależności χ2 jest zmienna losowa:
Statystyka ta ma dla dużych prób asymptotyczny rozkład χ2
stopniach swobody. Obszar krytyczny tego testu jest obszarem prawostronnym. Oznacza to, że będziemy odrzucać hipotezę zerową , jeżeli wartość statystyki χ2 przekroczy pewien punkt krytyczny. Dla zadanego punktu istotności
punktem tym jest kwantyl rzędu
rozkładu χ2 o danej liczbie stopni swobody. Punkt odczytujemy z tablicy.
5