Test zgodności π Kołomogorova – Smirnova:
Założenia: analizowana w dwóch populacjach generalnych cecha jest ciągła
Dane: wyniki prób
liczebność prób
liczba klas
poziom istotności alfa
Cel: weryfikacja hipotezy zerowej względem hipotezy alternatywnej
Hipotezy:H0: F1(x)=F2(x)
H1: F1(x)≠F2(x)
Obliczenia: klasyfikacja wyników prób w jednakowych klasach wartości i wyznaczenie liczebności w klasach i liczebności skumulowanych
Nr klasy | Ni1 | Ni2 | Liczebności skumulowane |
---|---|---|---|
1 | N11 | N12 | N11 |
2 | N21 | N22 | N11+n21 |
… | … | … | … |
I | Ni1 | Ni2 | N11+n21+…+ni1 |
… | … | … | … |
K | Nk1 | Nk2 | N11+n21+…+ni1+…+nk1 |
Dystrybuanty empiryczne:
F1(xi)=n(sk)i1/n1 | F2(xi)=n(sk)i2/n2 |
---|---|
F1(x1)=n(sk)11/n1 | F1(x1)=n(sk)12/n2 |
F1(x2)=n(sk)21/n1 | F1(x2)=n(sk)22/n2 |
… | … |
F1(xi)=n(sk)i1/n1 | F1(xi)=n(sk)i2/n2 |
… | … |
F1(xk)=n(sk)k1/n1 = 1 | F1(xk)=n(sk)i2/n2 = 1 |
Statystyka:
Dn*= supx|F1(xi)− F2(xi)|
i ostatecznie:
λ = $\mathbf{D}_{\mathbf{n}}^{\mathbf{*}}\sqrt{\mathbf{n}}$
gdzie: n=$\frac{n_{1}n_{2}}{n_{1} + n_{2}}$
Wnioskowanie: statystyka λ ma przy prawdziwości H0 rozkład λ Kołmogorowa. Z tablic rozkładu λ Kołmogorowa odczytuje się wartość krytyczną λα i sprawdza relację w stosunku do wartości λ.
Jeżeli λ>=λα to przyjmujemy H1, a badane rozkłady mają różne dystrybuanty.
Jeżeli λ<λα to nie mamy podstaw do odrzucenia H0, a badane rozkłady nie różnią się istotnie.
Test niezależności 2
Założenia: populacja generalna analizowana jest jednocześnie ze względu na dwie cechy X i Y, przynajmniej jedna z badanych cech jest niemierzalna (skokowa bądź jakościowa).
Dane: wynik próby
liczebność próby
liczebność klas
poziom istotności alfa
Cel: weryfikacja H0 względem H0
Hipotezy : H0: P(X=xi ; Y=yi)=P(X=xi)P(Y=yi)
H1: między cechami X i Y istnieje „zależność”
Obliczenia:
Tablica niezależności | Cechy Y | ni=$\sum_{\mathbf{y = 1}}^{\mathbf{k}}\mathbf{n}_{\mathbf{\text{ij}}}$ | Pi=$\frac{\mathbf{n}_{\mathbf{i}}}{\mathbf{n}}$ |
---|---|---|---|
Y1 | Y2 | … | |
Cechy X | X1 | N11 | N12 |
X2 | N21 | N22 | |
… | … | … | |
Xi | Ni1 | Ni2 | |
… | … | … | |
xw | Nw1 | Nw2 | |
Nij=$\sum_{\mathbf{y = 1}}^{\mathbf{k}}\mathbf{\text{nij}}$ | n.1 | n.2 | … |
Pi=$\frac{\mathbf{n}_{\mathbf{i}}}{\mathbf{n}}$ | p.1 | p.2 | … |
Pij=pi.pj.
Statystyka 2 :
2=$\sum_{\mathbf{i = 1}}^{\mathbf{w}}{\sum_{\mathbf{j = 1}}^{\mathbf{k}}\frac{\mathbf{(nij - npij}\mathbf{)}^{\mathbf{2}}}{\mathbf{\text{npij}}}}$
statystyka 2 prawdziwości hipotezy zerowej ma rozkład 2 df=(w-1)(k-1).
npij = np.ipj = n$\frac{\text{ni.}}{n} \bullet \frac{\text{n.j}}{n} = \ \frac{ni.\ \bullet n.j}{n}$
W przypadku gdy liczba kategorii (wartości) obydwu cech wynosi w=k=2 do obliczenia statystki 2 wprowadza się tzw. poprawkę Yeatsa, a wzór przyjmuje postać:
2=$\sum_{\mathbf{i = 1}}^{\mathbf{w}}{\sum_{\mathbf{j = 1}}^{\mathbf{k}}\frac{\mathbf{(|nij - npij}\mathbf{| - 0,5)}^{\mathbf{2}}}{\mathbf{\text{npij}}}}$
Statystka 2 przy prawdziwości H0 ma rozkład 2 o df=(w-1)(k-1)=1
Ograniczenia testu niezależności:
-minimalna liczebność brzegowa to 8 elementów
-minimalna liczebność całkowita to 100 elementów
Wg wielu autorów jedyne ograniczenie to:
-minimalna liczebność empiryczna to 5 elementów
Test Manna – Whitney’a:
Założenia: wartości analizowanej cechy w dwóch populacjach wyrażone są co najmniej w skali porządkowej.
Dane: wyniki prób
liczebność prób
poziom istotności alfa
Cel: weryfikacja H0 względem H1
Hipotezy: H0: wyniki obydwu prób pochodzą z jednej populacji
H1: wyniku obydwu prób pochodzą z różnych populacji
ale możliwe jest sformułowanie hipotezy jednostronnej Hi: wyniki w jednej populacji osiągają wyższe (/niższe) wartości niż w drugiej
Tok obliczeń:
-wyniki obydwu prób obliczeniowych n1 i n2 porządkuje się narastająco w jednym wspólnym ciągu wartości, zachowując informacje z której pochodzą próby(próbę o mniejszej liczebności oznaczamy numerem 1
-wartościom we wspólnym uporządkowanym ciągu przypisuje się rangi (numery pozycji, jakie zajmują w tym ciągu)
-jednokrotnym wartościom (jeżeli istnieją) nadaje się uśrednianie rangi (średnia arytmetyczna pozycji, na których znajdują się identyczne wartości)
-rozdzielamy rangi przypisane wynikom obydwu prób
-oblicza się sumę rang (R1) przypisanych wynikom próby 1
Jeżeli mamy prawdziwość H0 to rozkład sumy rang zależy jedynie od n1 i n2.
Wnioskowanie: gdy 3<=n1<=n2<=10 z tablicy właściwego rozkładu (z uwzględnieniem typu obszaru krytycznego) odczytuje się prawdopodobieństwo „p” uzyskania sumy rang mniejszej bądź równej R1.
Jeżeli p<=alfa przyjmujemy H1
Jeżeli p>alfa nie mamy podstaw do odrzucenia H0.
gdy n1>10 i/lub n2>10 obliczamy: m=$\frac{n1(n1 + n2 + 1)}{2}$ ; $\sigma^{2} = \ \frac{n1n2(n1 + n2 + 1)}{12}$
oraz wartości statystyki U: U = $\frac{R1 - m \pm 0,5}{\sigma}$ przy czym +0,5 gdy R1<m
-0,5 gdy R1>m
Gdy mamy prawdziwość H0 to statystyka U ma rozkład N(0,1)
Korekta na rangi wiązane:
$\mathbf{\sigma}^{\mathbf{2}}\mathbf{= \ }\frac{\mathbf{n}\mathbf{1}\mathbf{n}\mathbf{2}}{\left( \mathbf{n}\mathbf{1 + n}\mathbf{2} \right)\left( \mathbf{n}\mathbf{1 + n}\mathbf{2 + 1} \right)}\mathbf{(}\frac{\mathbf{(n}\mathbf{1 + n2}\mathbf{)}^{\mathbf{3}}\mathbf{- \ (n}\mathbf{1 + n}\mathbf{2)}}{\mathbf{12}}\mathbf{- \ }\sum_{\mathbf{j = 1}}^{\mathbf{g}}\frac{\mathbf{t}^{\mathbf{3}}\mathbf{j - \ }\mathbf{t}_{\mathbf{j}}}{\mathbf{12}}\mathbf{\ )}$
g- liczba grup rang wiązanych
tj – liczba rang wiązanych w grupie j