ANALIZA DANYCH
JAKOŚCIOWYCH
SPSS
Metody badań geografii społeczno-ekonomicznej
CO MOŻNA ZROBIĆ Z
DANYMI JAKOŚCIOWYMI?
!
Wskazać jedną miarę tendencji centralnej: modę (dominantę)
!
Określić współwystępowanie wartości cech (zmiennych)
!
Określić, czy dwie zmienne są niezależne, korzystając z
tabeli wielodzielczych (krzyżowych) i testu chi-kwadrat
!
Zmierzyć związek między zmiennymi zapisanymi w skali
nominalnej lub porządkowej
!
Określić, czy zmienna niezależna jest dobrym predyktorem
(pozwala wyjaśnić zmiany wartości zmiennej zależnej)
Analizowany plik: „
GSS93podzbiór
”
Wyznaczanie mody (dominanty)
Z menu ANALIZA/OPIS STATYSTYCZNY / CZĘSTOŚCI /
STATYSTYKI wybieramy opcję ‘Dominanta’
Dla wybranego zestawu zmiennych (np. zodiac, birthmo)
dominanta przedstawia się następująco:
Z tabeli częstości odczytujemy, że zodiac=12 to ‘ryby’, birthmo=3 to ‘marzec’
Statystyki
1487
1487
13
13
12
3
Ważne
Braki danych
N
Dominanta
Znak zodiaku
respondenta
Miesiąc
urodzenia
respondenta
TABELA KRZYŻOWA
ANALIZA / OPIS STATYSTYCZNY / TABELE KRZYŻOWE
Zmienne:
[race] i [cappun]
Tabela krzyżowa Rasa respondenta * Za lub przeciw karze śmierci za morderstwo
941
228
1169
80,5%
19,5%
100,0%
87,6%
72,6%
84,2%
67,8%
16,4%
84,2%
91
60
151
60,3%
39,7%
100,0%
8,5%
19,1%
10,9%
6,6%
4,3%
10,9%
42
26
68
61,8%
38,2%
100,0%
3,9%
8,3%
4,9%
3,0%
1,9%
4,9%
1074
314
1388
77,4%
22,6%
100,0%
100,0%
100,0%
100,0%
77,4%
22,6%
100,0%
Liczebność
% z Rasa respondenta
% z Za lub przeciw karze
śmierci za morderstwo
% z Ogółem
Liczebność
% z Rasa respondenta
% z Za lub przeciw karze
śmierci za morderstwo
% z Ogółem
Liczebność
% z Rasa respondenta
% z Za lub przeciw karze
śmierci za morderstwo
% z Ogółem
Liczebność
% z Rasa respondenta
% z Za lub przeciw karze
śmierci za morderstwo
% z Ogółem
Biała
Czarna
Inna
Rasa respondenta
Ogółem
Za
Przeciw
Za lub przeciw karze
śmierci za morderstwo
Ogółem
Kategorie jednej zmiennej – w kolumnach tabeli,
drugiej zmiennej – w wierszach
TEST CHI-KWADRAT
Autorem testu jest Karl Pearson. Test stosujemy wtedy, gdy
chcemy sprawdzić, czy nie ma jakiejś zależności pomiędzy
kryteriami kategoryzacji badanych obiektów do różnych grup.
Polega to na sprawdzeniu, jakie jest prawdopodobieństwo,
otrzymania takiego rozkładu liczebności, jaki akurat
otrzymaliśmy w badaniu, zakładając, że obie badane cechy
są niezależne.
Hipoteza zerowa
H
0
: pomiędzy dwiema cechami, które wykorzystano do
kategoryzacji badanych obiektów, nie zachodzi żaden
związek.
Zgodnie z hipotezą alternatywną
H
1
: pomiędzy dwiema cechami, które wykorzystano do
kategoryzacji badanych obiektów, zachodzi jakaś stała relacja
WERYFIKACJA HIPOTEZY O NIEZALEŻNOŚCI DWÓCH
CECH (ZMIENNYCH) -
TEST NIEZALEŻNOŚCI CHI-KWADRAT
Wartość chi-kwadrat jest miarą rozbieżności pomiędzy
"teoretycznym", oczekiwanym rozkładem liczebności
wartości badanych cech w tabeli, a liczebnościami
obserwowanymi.
Decyzję odnośnie hipotezy H
0
(stwierdzającej, że cechy są
niezależne) podejmujemy na podstawie poziomu
prawdopodobieństwa (Istotność).
Uznajemy, że cechy są zależne (zależność istotna
statystycznie), jeśli prawdopodobieństwo (Istotność) to jest
mniejsze od przyjętego poziomu krytycznego (zwykle 0,05).
Jeśli (P) jest większe, H
0
(o niezależności zmiennych)
odrzucamy (uznajemy, że cechy są zależne).
ANALIZA/ TABELE KRZYŻOWE / STATYSTYKI/
CHI-KWADRAT
Statystyka chi-kwadrat:
w k
(Oij – Eij)
2
Χ
2
= Σ Σ -------------;
gdzie Oij (Eij) – liczebność obserwowana (oczekiwana) w komórce
i=1 j=1
Eij
utworzonej przez kategorię ‘i’ zmiennej w wierszach oraz
kategorię ‘j’ zmiennej w kolumnach tabeli;
w – liczba wierszy, k – liczba kolumn.
Istotność testu 0,000 < 0,05 = istnieje zależność między zmiennymi (statystycznie
istotna). Innymi słowy: z prawdopodobieństwem błędu mniejszym niż 0,05 możemy
odrzucić hipotezę zerową i przyjąć, że zmienne są zależne.
Tabela krzyżowa Za lub przeciw karze śmierci za morderstwo * Rasa respondenta
941
91
42
1074
904,5
116,8
52,6
1074,0
228
60
26
314
264,5
34,2
15,4
314,0
1169
151
68
1388
1169,0
151,0
68,0
1388,0
Liczebność
Liczebność oczekiwana
Liczebność
Liczebność oczekiwana
Liczebność
Liczebność oczekiwana
Za
Przeciw
Za lub przeciw karze
śmierci za morderstwo
Ogółem
Biała
Czarna
Inna
Rasa respondenta
Ogółem
Testy Chi-kwadrat
41,226
a
2
,000
37,189
2
,000
34,785
1
,000
1388
Chi-kwadrat
Pearsona
Iloraz wiarygodności
Test związku liniowego
N Ważnych obserwacji
Wartość
df
Istotność
asymptotyczn
a
(dwustronna)
,0% komórek (0) ma liczebność oczekiwaną mniejszą niż 5.
Minimalna liczebność oczekiwana wynosi 15,38.
a.
MIARY ZWIĄZKU CECH JAKOŚCIOWYCH
Cechy mierzone w skali nominalnej
Zmienne: rasa [race]
i płeć [sex]
Założenie (H
0
): współczynnik = 0, czyli brak związku między zmiennymi
Istotność bardzo mała (<0,05), wtedy odrzucamy hipotezę H
0
, czyli związek
między zmiennymi jest istotny
W powyższym przypadku brak istotnego związku między zmiennymi (race i sex)
Współczynnik kontyngencji (C): C = 0 dla cech niezależnych; max. zawsze mniejszy od 1,
ale zależy to od liczby wierszy i kolumn w tabeli.
Zastosowanie: porównywanie danych w tablicach o jednakowych wymiarach.
V Cramera Wartości z przedziału [0;1]; cechy niezależne, gdy V = 0,
jednoznaczna zależność = 1. Dla tabel 2 x 2 równy jest współczynnikowi Phi .
Miary symetryczne
,063
,050
,063
,050
,063
,050
1500
Phi
V Kramera
Współczynnik
kontyngencji
Nominalna przez
Nominalna
N Ważnych obserwacji
Wartość
Istotność
przybliżona
Nie zakładając hipotezy zerowej.
a.
Użyto asymptotycznego błądu standardowego, przy założeniu hipotezy
zerowej.
b.
MIARY ZWIĄZKU CECH JAKOŚCIOWYCH
Cechy mierzone w skali porządkowej
Miary symetryczne
,063
,050
,063
,050
,063
,050
,056
,025
2,239
,025
,042
,019
2,239
,025
,152
,068
2,239
,025
1500
Phi
V Kramera
Współczynnik
kontyngencji
Nominalna przez
Nominalna
tau-b Kendalla
tau-c Kendalla
Gamma
Porządkowa przez
Porządkowa
N Ważnych obserwacji
Wartość
Asymptotyczny
błąd
standardowy
a
Przybliżone T
b
Istotność
przybliżona
Nie zakładając hipotezy zerowej.
a.
Użyto asymptotycznego błądu standardowego, przy założeniu hipotezy zerowej.
b.
(<0,05) = statystycznie istotny związek między cechami
Tabela krzyżowa Płeć respondenta * Rasa respondenta
552
66
23
641
537,2
71,8
32,1
641,0
705
102
52
859
719,8
96,2
43,0
859,0
1257
168
75
1500
1257,0
168,0
75,0
1500,0
Liczebność
Liczebność oczekiwana
Liczebność
Liczebność oczekiwana
Liczebność
Liczebność oczekiwana
Mężczyzna
Kobieta
Płeć respondenta
Ogółem
Biała
Czarna
Inna
Rasa respondenta
Ogółem
Miary kierunkowe
,188
,027
6,781
,000
,173
,025
6,781
,000
,205
,030
6,781
,000
Symetryczna
Zmienna zależna: Życie
jest
pasjonujące/zwyczajne
/nudne
Zmienna zależna:
Poziom wykształcenia
respondenta
d Somersa
Porządkowa przez
Porządkowa
Wartość
Asymptotyczny
błąd
standardowy
a
Przybliżone T
b
Istotność
przybliżona
Nie zakładając hipotezy zerowej.
a.
Użyto asymptotycznego błądu standardowego, przy założeniu hipotezy zerowej.
b.
ZWIĄZKI KIERUNKOWE
(ZMIENNE [skala porządkowa] JAKO PREDYKTORY)
Założenie:(H
0
): współczynnik kierunkowy = 0 (brak związku między
zmiennymi), czyli zmienna niezależna nie może być użyta do
przewidywania zmian wartości zmiennej zależnej.
Istotność bardzo mała (<0,05), wtedy odrzucamy hipotezę H
0
(związek
między zmiennymi jest istotny), czyli zmienna niezależna może być
dobrym predyktorem zmian wartości zmiennej zależnej
ZWIĄZKI KIERUNKOWE
(ZMIENNE [skala nominalna] JAKO PREDYKTORY)
Miary kierunkowe
,028
,009
2,903
,004
,000
,000
.
c
.
c
,034
,012
2,903
,004
,036
,009
,000
d
,010
,003
,000
d
,028
,006
4,469
,000
e
,064
,014
4,469
,000
e
,018
,004
4,469
,000
e
Symetryczna
Zmienna zależna:
Rasa respondenta
Zmienna zależna:
Region zamieszkania
Zmienna zależna:
Rasa respondenta
Zmienna zależna:
Region zamieszkania
Symetryczna
Zmienna zależna:
Rasa respondenta
Zmienna zależna:
Region zamieszkania
Lambda
Tau Goodmana
i Kruskala
Współczynnik
niepewności
Nominalna przez
Nominalna
Wartość
Asymptotyczny
błąd
standardowy
a
Przybliżone T
b
Istotność
przybliżona
Nie zakładając hipotezy zerowej.
a.
Użyto asymptotycznego błądu standardowego, przy założeniu hipotezy zerowej.
b.
Obliczenia nie mogą być wykonane, ponieważ asymptotyczny błąd standardowy wynosi zero.
c.
W oparciu o aproksymację rozkładu chi-kwadrat.
d.
Prawdopodobieństwo testowe ilorazu wiarygodności chi-kwadrat.
e.