Badanie zależności statystycznych z wykorzystaniem opcji Statystyka|Opis statystyczny|Tabele krzyżowe
Opcja Tabele krzyżowe pozwala na zbadanie zależności o charakterze statystycznym pomiędzy charakterystykami (zmiennymi) różnego typu. Dostępnych jest ponad 20 testów statystycznych. Przydatność poszczególnych testów jest uzależniona od rodzaju analizowanych danych.
1.1 Test chi-kwadrat do weryfikacji hipotezy niezależności zmiennych typu kategoria
Dane:
|
|
|
Zmienna B |
|
|
|
Wartość B1 |
Wartość B2 |
Wartość B3 |
|
Wartość A1 |
n11 |
n12 |
n13 |
Zmienna A |
Wartość A2 |
n21 |
n22 |
n23 |
|
Wartość A3 |
n31 |
n32 |
n33 |
Obserwowane są liczby przypadków odpowiadające wszystkim kombinacjom możliwych wartości analizowanych zmiennych.
Wyznaczane są oczekiwane liczby obserwacji dla każdej z komórek tablicy uzyskane w przypadku założenia niezależności badanych zmiennych, a następnie wyznaczana jest wartość statystyki określającej zagregowaną odległość zaobserwowanych danych od wyznaczonych wartości oczekiwanych. Duże wartości statystyki testowej świadczą o zależności analizowanych zmiennych.
W przypadku wyboru (w oknie dialogowym) opcji chi-kwadrat wyznaczane są wartości następujących statystyk:
chi-kwadrat Pearsona
dokładnego testu Fishera (gdy minimalna oczekiwana liczba obserwacji w komórce tabeli jest nie mniejsza od 5, tylko dla przypadku 2 x 2)
testu chi-kwadrat z poprawką na ciągłość Yatesa (tylko dla przypadku 2 x 2)
testu ilorazu wiarogodności chi-kwadrat
W przypadku gdy kategorie opisane są liczbami wartość statystyki chi-kwadrat może być wykorzystana do pomiaru stopnia liniowego związku (asocjacji) pomiędzy analizowanymi zmiennymi. (Uwaga: program nie analizuje czy liczbowy opis kategorii jest naturalny, czy też tylko umowny).
Jeżeli wyznaczona wartość istotności jest większa od 0,05 możemy przyjąć, że nie występuje zależność pomiędzy analizowanymi zmiennymi.
Pierwszy z powyższych przykładów (obliczony dla tabeli o wymiarze 2 x 3) wskazuje na brak zależności. Drugi z przykładów (obliczony dla tabeli o wymiarze 2 x 2) wykazuje na bardzo silną zależność analizowanych cech.
Uwaga: Test chi-kwadrat powinien być stosowany w zasadzie tylko wtedy gdy liczba obserwacji jest duża, a najmniejsza oczekiwana liczba obserwacji w komórce tabeli jest nie mniejsza od 5. Wyliczone oczekiwane liczby obserwacji wyświetlane są w raportach jeżeli uaktywnimy odpowiednią opcję w submenu Komórki.
Testy do badania zależności pomiędzy zmiennymi nominalnymi (poszczególne kategorie nie są uporządkowane)
Wykorzystywane są następujące testy:
a) symetryczne
współczynnik kontyngencji
współczynnik Phi
współczynnik V Cramera
W przypadku testów symetrycznych wartości statystyk testowych zbliżonych do 1 świadczą o występowaniu zależności. W takim przypadku Istotność ma wartość bliską zeru (mniejszą od 0,5).
b) kierunkowe
testy Lambda (symetryczny, niesymetryczne)
test tau Goodmana-Kruskala
współczynnik niepewności
Miary kierunkowe pozwalają ocenić, w jakiej mierze wiedza o wartości jednej zmiennej pozwala przewidzieć wartość drugiej zmiennej. Małe wartości wskaźnika (bliskie zeru) świadczą o braku możliwości takiej predykcji, a więc o występowaniu niezależności.
Miary kierunkowe mogą być asymetryczne. Oznacza to, że jedna zmienna ma wpływ na wartości drugiej, ale nie odwrotnie.
Z analizy testu Lambda dla powyższych danych można wyciągnąć wniosek, że wartości zmiennej zależnej „Preferencje religijne” nie są zależne od wartości zmiennej „Region USA” (Istotność równa 0,924). Stwierdzenie odwrotne nie jest słuszne, tzn. na podstawie znajomości preferencji religijnych można lepiej przewidzieć, z którego regionu USA pochodzi dana osoba.
Testy do badania zależności pomiędzy zmiennymi porządkowymi (poszczególne kategorie są uporządkowane).
Wykorzystywane są testy:
gamma (tylko do 10 kategorii)
d-Sommersa (kierunkowy)
tau-b Kendalla
tau-c Kendalla
W powyższym przykładzie występuje bardzo silna zależność (Istotność bliska zeru) zmiennej „Liczba rodzeństwa” i zmiennej „Liczba dzieci”. Z analizy testu d-Sommersa wynika, że zależność między tymi zmiennymi nie jest symetryczna.
Test do badania zależności zmiennej liczbowej od zmiennej typu kategoria (zakodowanej liczbowo).
Do tego celu wykorzystywany jest test Eta.
W powyższym przykładzie „Liczba dzieci” (zmienna liczbowa) nie wykazuje zależności (Istotność większa od 0,05) od zmiennej „Rasa respondenta” (zmienna typu „kategoria”).
Testy do badania zależności zmiennych liczbowych. Współczynniki korelacji.
Wykorzystywane są statystyki:
współczynnik korelacji liniowej r Pearsona
współczynnik korelacji rangowej Spearmana.
Wartości bliskie zeru świadczą o braku korelacji (liniowej - w przypadku współczynnika r) pomiędzy analizowanymi zmiennymi.
W powyższym przykładzie istnieje istotna, ale niewielka, zależność pomiędzy zmienną „Liczba dzieci” a zmienną „Liczba rodzeństwa”.
Test do badania zależności zmiennych dychotomicznych.
Test wykorzystujemy w przypadkach gdy np. analizujemy odpowiedzi typu TAK lub NIE na pytania zadawane przed i po akcji promocyjnej.
Do tego celu można wykorzystać:
test McNemara
analizę oceny ryzyka względnego
Powyższe dane oznaczają, że iloraz liczby osób, które „Głosowały” do tych które „Nie głosowały” jest grupie osób (kohorcie) „Właściciele” ponad trzy razy większy niż w grupie „Najemcy”. Oznacza to, że występuje zależność pomiędzy tymi zmiennymi.
Ocena zgodności ocen zmiennych typu „kategoria” mających te same możliwe wartości. Wskaźnik kappa-Cohena.
Test ten można wykorzystać do porównania dwu ekspertów oceniających te same obiekty.
Wartość wskaźnika kappa większa od 0,75 oznacza bardzo dużą zgodność ocen.
Wartość wskaźnika kappa pomiędzy 0,4 a 0,75 oznacza zadowalającą (do dobrej) zgodność ocen.
Wartość wskaźnika kappa mniejsza od 0,4 oznacza małą zgodność ocen.
W powyższym przypadku miara zgodności „Poziomu edukacji” matki i ojca jest wystarczająco duża, by twierdzić, że te wielkości są ze soba powiązane.
O.Hryniewicz: Analiza statystyczna - komputery (8 godz.) 65