Test niezależności 2-tablice wielodzielcze
Tablica wielodzielcza (contingency table) dane statystyczne
dotyczące cechy statystycznej dwuwymiarowej (odpowiednik
szeregu rozdzielczego cechy jednowymiarowej), gdy obserwacje
klasyfikowane są ze względu na 2 cechy mierzone na dwóch
odrębnych skalach.
Przykład. Pracownicy zakładu wskutek wykonywania zawodu zapadają na
pewną chorobę zawodową. W celu sprawdzenia, czy występuje skłonność do
zapadania na tę chorobę w zależności od płci pracownika, przebadano 15
mężczyzn i 13 kobiet wybranych losowo. Wyniki przedstawiono w tabeli
wielodzielczej:
Klasy cechy
mierzonej na
1 skali
Klasy cechy mierzonej na 2 skali
Klas cechy (czy to 1 czy 2) może być więcej, jednak tworzenie klas dla cech
mierzonych na skalach co najmniej porządkowych, należy dokonać tak, by
uzyskane liczebności w komórkach były wystarczająco reprezentatywne (patrz
uwagi dotyczace tworzenia histogramu z tablicy szeregu rozdzielczego).
Test 2 c.d.
Tablica wielodzielcza (tablica korelacyjna gdy cechy mierzone na skali co
najmniej porządkowej) w ogólnej formie:
Klasy cechy Y y1 y2 ... yl l
"n = n
ij i .
Klasy cechy X
j=1
x1 n11 n12 ... n1l r1.
x2 n21 n22 ... n2l r2.
. . . ... . .
. . . ... . .
. . . ... . .
xk nk1 nk2 ... nkl rk.
k
c1 c2 ... cl n
"n = n
ij . j
i=1
Rozkłady brzegowe
Test 2 c.d.
Obliczenia. Bazując na założeniu że hipoteza zerowa jest prawdziwa
(cechy są niezależne od siebie), można wyznaczyć oczekiwane wartości
częstości bezwzględnych w każdej komórce tabeli wielodzielczej:
ri cj ri cj
E(nij ) = n =
n n n
Obserwowane wartości częstości bezwzględnych nij , gdy hipoteza
zerowa jest spełniona powinny odpowiadać w/w wartościom
oczekiwanym. Miarą odległości pomiędzy obserwowanym rozkładem a
rozkładem oczekiwanym (przy spełnieniu H0) jest statystyka testowa:
2
k l
ł - E(nij )ł
łł
łnij
Z =
""
E(nij )
i=1 j=1
która ma w przybliżeniu rozkład 2 o m=(k 1)(l 1) stopniach swobody
(rys). Gdy statystyka Z należy do obszaru krytycznego &!{2 > 2 (ą,m)}
hipotezę H0 można odrzucić na poziomie
ą
istotności ą .
2(ą,m)
Test 2 c.d.
Test niezależności cech statystycznych na podstawie tablicy
wielodzielczej:
Hipoteza zerowa H0 : Obie zastosowane klasyfikacje
(cechy statystyczne) są niezależne.
Hipoteza alternatywna H1 : Obie klasyfikacje są zależne
2
Statystyka testu Z :
k l
ł - E(nij )ł
łł
łnij
Z =
""
ricj
E(nij )
i=1 j=1
E(ni j ) =
gdzie
n
Obszar krytyczny &! (obszar odrzucenia H0 ): Z > 2(ą gdzie
&! ą
&! ą)
&! ą
wartość krytyczna 2(ą) wyznaczona jest z rozkładu 2 dla
(k 1)(l 1) stopni swobody.
Uwaga: rozmiar próby n jest na tyle duży, że oczekiwane wartości w
komórkach z rozkładu empirycznego spełniają E(nij)e"5 .
Test 2 c.d.
Uwagi: Aby zasadne było stosowanie granicznego rozkładu 2 każda
wartość oczekiwana ( w każdej komórce) musi być e" 5. Gdy warunek
nie jest spełniony , można łączyć ze sobą wiersze lub kolumny tabeli
wielodzielczej. Odrzucenie H0 sugeruje, że istnieje związek
między badanymi cechami statystycznymi. Do pomiaru siły
związku pomiędzy cechami służy wartość wyznaczonej statystyki Z,
która sama jest miarą rozbieżności rozkładów: empirycznego i
oczekiwanego przy spełnieniu H0 (czyli gdy cechy są niezależne).
Statystyka Z jest równa zeru przy braku związku między cechami,
zaś maksymalną wartość n(min(k,l) 1) dla ściśle funkcyjnej
zależności. Zatem do pomiaru siły związku stosuje się współczynnik
V Cramera
Z
V =
n(min(k,l) -1)
który przyjmuje wartości z przedziału [0,1].
Gdy V =1 istnieje ścisła zależność funkcyjna cech statystycznych.
Przykład:
Przypuśćmy, że mamy rozstrzygnąć wybór jednej z trzech technologii
(A,B,C), które prowadzą do uzyskania tego samego produktu
klasyfikowanego w 2 grupach jakościowych ( I klasa, II klasa ). Wykonano
100 prób ( łącznie, stosując wszystkie trzy technologie). Rezultaty badań
zestawiono w tabeli wielodzielczej:
TECHNOLOGIA PRODUKCJI
A B C
KLASYFIKACJA
Ł
Ł
Ł
Ł
E(nij)= 15.81 E(nij)= 16.83 E(nij)= 18.36 Ł E(nij)= 51.00
GAT I 21 =nij 19 =nij 11 =nij 51
E(nij)= 15.19 E(nij)= 16.17 E(nij)= 17.64 Ł E(nij)= 49.00
GAT II 10 =nij 14 =nij 25 =nij 49
Ł E(nij)= 31.00 Ł E(nij)= 33.00 Ł E(nij)= 36.00 Ł E(nij)= 100.00
Ł 31 33 36 100
Ł
Ł
Ł
2 10.07
2 2 2
3.48 0.57 6.02
ij ij ij
Ponieważ statystyka testowa Z=10.07 jest większa od wartości krytycznej,
wynoszącej 5.99 (dla (3-1)*(2-1)=2 stopni swobody i 5% istotności), hipotezę
zerową można odrzucić z marginesem błędu nie większym niż 5 %.
Przyjmujemy zatem, że istnieje związek między technologią a jakością
produktu.
Test 2 c.d
Przykład. W zakładzie przemysłowym wprowadzono nową organizację pracy.
Wylosowano 100 pracowników ze wszystkich 3 zmian, których zapytano, czy nowa
organizacja pracy wpływa na zwiększenie wydajności, wyniki przedstawiono w
tabeli
Częstości Zmiana robocza
Zweryfikować hipotezę, na poziomie
Bezwzględne nij I II III
istotności 0.05, że wzrost wydajności
Wzrost wyd. 30 5 30
pracy nie zależy od zmiany roboczej.
Brak wzrostu 10 15 10
Stawiamy hipotezę zerową: Wydajność pracy nie zależy od zmiany roboczej.
Tworzymy tabelę zawierającą w miejsce empirycznych częstości bezwzględnych ich
wart.oczekiwane oraz tabelę składowych statystyki Z {w komórce [nij-E(nij)]2/E(nij) }
Wartości ocze- Zmiana robocza Składowe Zmiana robocza
kiwane E(nij) I II III statystyki Z I II III
Wzrost wyd. 26 13 26 Wzrost wyd. 0.616 4.924 0.616
Brak wzrostu 14 7 14 Brak wzrostu 1.143 9.143 1.143
Statystyka Z = 0.616+4.924+0.616+1.143+9.143+1.143=17.582
Liczba stopni swobody m = (2 1)(3 1)=2 Wartość krytyczna 2(0.05,2) = 5.991
Wniosek: Ponieważ statystyka Z leży w obszarze krytycznym ( Z=17.582 > 5.991)
odrzucamy hipotezę zerową, czyli przyjmujemy alternatywną: wzrost wydajności
pracy zależy od zmiany roboczej .
Test 2 c.d
Przykład cd. W celu precyzyjnego określenia prawdopodobieństwa otrzymania
wartości statystyki Z = 17.582 , jeśli Z ma rozkład 2 o 2 stopniach swobody. Z tablic
rozkładu 2 odszukujemy wartość prawdopodobieństwa korespondującą z Z która
wynosi P = 0.00015 co oznacza, że przyjąwszy poziom istotności tak mały jak 0.001
także moglibyśmy odrzucić hipotezę zerową H0 .
Ponieważ poziom istotności jest prawdopodobieństwem odrzuceniu hipotezy zerowej,
gdy w rzeczywistości jest ona prawdziwa, możemy stwierdzić, że udowodniono
zależność wydajności pracy od zmiany roboczej z błędem 0.1 % (tzn. na 1000
badanych przypadków tylko 1 będzie w sprzeczności z udowodniona relacją ).
Siłę udowodnionego związku wyliczamy ze współczynnika V Cramer a :
Z 17.582 17.582
V = = = = 0.419
n(min(k,l) -1) 100(min(2,3) -1) 100
Uwagi końcowe: ogromną zaletą testu 2 jest to, iż możemy go
dokonać zarówno dla cech mierzalnych jak i niemierzalnych !!! . W
przedstawionej wersji testu nie określano, która z cech jest zależna a
która niezależna, zatem badana zależność jest wzajemna.
Wyszukiwarka
Podobne podstrony:
STAT 10 W8STAT 12 W9 ANOVA02 T INFORMATYK diagnoza 11 12 teoretyczny test czesc1id809Metodologia SPSS Jakub Niewiarkowski ćwiczenia 12 TestW8 07 12Test z ZS rozwiązywany z dr 12 06polski klasa 6 1 EK2 12 testTRATE W8 12Niezależna holenderska komisja Inwazja na Irak w 2003 r była nielegalna (12 01 2010)test (12)TEST NR 1212 ZAGAD STAT NIEWKurs podstawowy Test Nr 12 PTest 12więcej podobnych podstron