ANALIZA DANYCH
JAKOŚCIOWYCH
SPSS
Metody badań geografii społeczno-ekonomicznej
CO MOŻNA ZROBIĆ Z
DANYMI JAKOŚCIOWYMI?
Wskazać jedną miarę tendencji centralnej: modę (dominantę)
Określić współwystępowanie wartości cech (zmiennych)
Określić, czy dwie zmienne są niezależne, korzystając z
tabeli wielodzielczych (krzyżowych) i testu chi-kwadrat
Zmierzyć związek między zmiennymi zapisanymi w skali
nominalnej lub porządkowej
Określić, czy zmienna niezależna jest dobrym predyktorem
(pozwala wyjaśnić zmiany wartości zmiennej zależnej)
Analizowany plik: GSS93podzbiór
Wyznaczanie mody (dominanty)
Z menu ANALIZA/OPIS STATYSTYCZNY / CZSTOŚCI /
STATYSTYKI wybieramy opcję Dominanta
Dla wybranego zestawu zmiennych (np. zodiac, birthmo)
dominanta przedstawia się następująco:
Statystyki
Miesiąc
Znak zodiaku urodzenia
respondenta respondenta
N Ważne
1487 1487
Braki danych
13 13
Dominanta
12 3
Z tabeli częstości odczytujemy, że zodiac=12 to ryby , birthmo=3 to marzec
TABELA KRZYŻOWA
ANALIZA / OPIS STATYSTYCZNY / TABELE KRZYŻOWE
Zmienne:
[race] i [cappun]
Kategorie jednej zmiennej w kolumnach tabeli,
drugiej zmiennej w wierszach
Tabela krzyżowa Rasa respondenta * Za lub przeciw karze śmierci za morderstwo
Za lub przeciw karze
śmierci za morderstwo
Za Przeciw Ogółem
Rasa respondenta Biała Liczebność
941 228 1169
% z Rasa respondenta
80,5% 19,5% 100,0%
% z Za lub przeciw karze
87,6% 72,6% 84,2%
śmierci za morderstwo
% z Ogółem
67,8% 16,4% 84,2%
Czarna Liczebność
91 60 151
% z Rasa respondenta
60,3% 39,7% 100,0%
% z Za lub przeciw karze
8,5% 19,1% 10,9%
śmierci za morderstwo
% z Ogółem
6,6% 4,3% 10,9%
Inna Liczebność
42 26 68
% z Rasa respondenta
61,8% 38,2% 100,0%
% z Za lub przeciw karze
3,9% 8,3% 4,9%
śmierci za morderstwo
% z Ogółem
3,0% 1,9% 4,9%
Ogółem Liczebność
1074 314 1388
% z Rasa respondenta
77,4% 22,6% 100,0%
% z Za lub przeciw karze
100,0% 100,0% 100,0%
śmierci za morderstwo
% z Ogółem
77,4% 22,6% 100,0%
TEST CHI-KWADRAT
Autorem testu jest Karl Pearson. Test stosujemy wtedy, gdy
chcemy sprawdzić, czy nie ma jakiejś zależności pomiędzy
kryteriami kategoryzacji badanych obiektów do różnych grup.
Polega to na sprawdzeniu, jakie jest prawdopodobieństwo,
otrzymania takiego rozkładu liczebności, jaki akurat
otrzymaliśmy w badaniu, zakładając, że obie badane cechy
są niezależne.
Hipoteza zerowa
H0: pomiędzy dwiema cechami, które wykorzystano do
kategoryzacji badanych obiektów, nie zachodzi żaden
związek.
Zgodnie z hipotezą alternatywną
H1: pomiędzy dwiema cechami, które wykorzystano do
kategoryzacji badanych obiektów, zachodzi jakaś stała relacja
WERYFIKACJA HIPOTEZY O NIEZALEŻNOŚCI DWÓCH
CECH (ZMIENNYCH) - TEST NIEZALEŻNOŚCI CHI-KWADRAT
Wartość chi-kwadrat jest miarą rozbieżności pomiędzy
"teoretycznym", oczekiwanym rozkładem liczebności
wartości badanych cech w tabeli, a liczebnościami
obserwowanymi.
Decyzję odnośnie hipotezy H0 (stwierdzającej, że cechy są
niezależne) podejmujemy na podstawie poziomu
prawdopodobieństwa (Istotność).
Uznajemy, że cechy są zależne (zależność istotna
statystycznie), jeśli prawdopodobieństwo (Istotność) to jest
mniejsze od przyjętego poziomu krytycznego (zwykle 0,05).
Jeśli (P) jest większe, H0 (o niezależności zmiennych)
odrzucamy (uznajemy, że cechy są zależne).
ANALIZA/ TABELE KRZYŻOWE / STATYSTYKI/
CHI-KWADRAT
Statystyka chi-kwadrat:
w k (Oij Eij)2
ż2 = ŁŁ-------------; gdzie Oij (Eij) liczebność obserwowana (oczekiwana) w komórce
i=1 j=1 Eij utworzonej przez kategorię i zmiennej w wierszach oraz
kategorię j zmiennej w kolumnach tabeli;
w liczba wierszy, k liczba kolumn.
Tabela krzyżowa Za lub przeciw karze śmierci za morderstwo * Rasa respondenta
Rasa respondenta
Biała Czarna Inna Ogółem
Za lub przeciw karze Za Liczebność
941 91 42 1074
śmierci za morderstwo
Liczebność oczekiwana
904,5 116,8 52,6 1074,0
Przeciw Liczebność
228 60 26 314
Liczebność oczekiwana
264,5 34,2 15,4 314,0
Ogółem Liczebność
1169 151 68 1388
Liczebność oczekiwana
1169,0 151,0 68,0 1388,0
Testy Chi-kwadrat
Istotność
asymptotyczn
a
Wartość df (dwustronna)
a
Chi-kwadrat
41,226 2 ,000
Pearsona
Iloraz wiarygodności
37,189 2 ,000
Test związku liniowego
34,785 1 ,000
N Ważnych obserwacji
1388
a.
,0% komórek (0) ma liczebność oczekiwaną mniejszą niż 5.
Minimalna liczebność oczekiwana wynosi 15,38.
Istotność testu 0,000 < 0,05 = istnieje zależność między zmiennymi (statystycznie
istotna). Innymi słowy: z prawdopodobieństwem błędu mniejszym niż 0,05 możemy
odrzucić hipotezę zerową i przyjąć, że zmienne są zależne.
MIARY ZWIZKU CECH JAKOŚCIOWYCH
Cechy mierzone w skali nominalnej
Zmienne: rasa [race]
i płeć [sex]
Miary symetryczne
Istotność
Wartość przybliżona
Nominalna przez Phi
,063 ,050
Nominalna
V Kramera
,063 ,050
Współczynnik
,063 ,050
kontyngencji
N Ważnych obserwacji
1500
a.
Nie zakładając hipotezy zerowej.
b.
Użyto asymptotycznego błądu standardowego, przy założeniu hipotezy
zerowej.
Założenie (H0): współczynnik = 0, czyli brak związku między zmiennymi
Istotność bardzo mała (<0,05), wtedy odrzucamy hipotezę H0, czyli związek
między zmiennymi jest istotny
W powyższym przypadku brak istotnego związku między zmiennymi (race i sex)
Współczynnik kontyngencji (C): C = 0 dla cech niezależnych; max. zawsze mniejszy od 1,
ale zależy to od liczby wierszy i kolumn w tabeli.
Zastosowanie: porównywanie danych w tablicach o jednakowych wymiarach.
V Cramera Wartości z przedziału [0;1]; cechy niezależne, gdy V = 0,
jednoznaczna zależność = 1. Dla tabel 2 x 2 równy jest współczynnikowi Phi .
MIARY ZWIZKU CECH JAKOŚCIOWYCH
Cechy mierzone w skali porządkowej
Tabela krzyżowa Płeć respondenta * Rasa respondenta
Rasa respondenta
Biała Czarna Inna Ogółem
Płeć respondenta Mężczyzna Liczebność
552 66 23 641
Liczebność oczekiwana
537,2 71,8 32,1 641,0
Kobieta Liczebność
705 102 52 859
Liczebność oczekiwana
719,8 96,2 43,0 859,0
Ogółem Liczebność
1257 168 75 1500
Liczebność oczekiwana
1257,0 168,0 75,0 1500,0
Miary symetryczne
Asymptotyczny
błąd Istotność
Wartość standardowya Przybliżone Tb przybliżona
Nominalna przez Phi
,063 ,050
Nominalna
V Kramera
,063 ,050
Współczynnik
,063 ,050
kontyngencji
Porządkowa przez tau-b Kendalla
,056 ,025 2,239 ,025
Porządkowa
tau-c Kendalla
,042 ,019 2,239 ,025
Gamma
,152 ,068 2,239 ,025
N Ważnych obserwacji
1500
a. Nie zakładając hipotezy zerowej.
b. Użyto asymptotycznego błądu standardowego, przy założeniu hipotezy zerowej.
(<0,05) = statystycznie istotny związek między cechami
ZWIZKI KIERUNKOWE
(ZMIENNE [skala porządkowa] JAKO PREDYKTORY)
Założenie:(H0): współczynnik kierunkowy = 0 (brak związku między
zmiennymi), czyli zmienna niezależna nie może być użyta do
przewidywania zmian wartości zmiennej zależnej.
Istotność bardzo mała (<0,05), wtedy odrzucamy hipotezę H0 (związek
między zmiennymi jest istotny), czyli zmienna niezależna może być
dobrym predyktorem zmian wartości zmiennej zależnej
Miary kierunkowe
Asymptotyczny
błąd Istotność
Wartość standardowya Przybliżone Tb przybliżona
Porządkowa przez d Somersa Symetryczna
,188 ,027 6,781 ,000
Porządkowa
Zmienna zależna: Życie
jest
,173 ,025 6,781 ,000
pasjonujące/zwyczajne
/nudne
Zmienna zależna:
Poziom wykształcenia
,205 ,030 6,781 ,000
respondenta
a. Nie zakładając hipotezy zerowej.
b. Użyto asymptotycznego błądu standardowego, przy założeniu hipotezy zerowej.
ZWIZKI KIERUNKOWE
(ZMIENNE [skala nominalna] JAKO PREDYKTORY)
Miary kierunkowe
Asymptotyczny
błąd Istotność
b
Wartość standardowya Przybliżone T przybliżona
Nominalna przez Lambda Symetryczna
,028 ,009 2,903 ,004
Nominalna
c c
Zmienna zależna:
,000 ,000 . .
Rasa respondenta
Zmienna zależna:
,034 ,012 2,903 ,004
Region zamieszkania
d
Tau Goodmana Zmienna zależna:
,036 ,009 ,000
i Kruskala Rasa respondenta
d
Zmienna zależna:
,010 ,003 ,000
Region zamieszkania
Współczynnik Symetryczna
,028 ,006 4,469 ,000e
niepewności
e
Zmienna zależna:
,064 ,014 4,469 ,000
Rasa respondenta
e
Zmienna zależna:
,018 ,004 4,469 ,000
Region zamieszkania
a. Nie zakładając hipotezy zerowej.
b. Użyto asymptotycznego błądu standardowego, przy założeniu hipotezy zerowej.
c. Obliczenia nie mogą być wykonane, ponieważ asymptotyczny błąd standardowy wynosi zero.
d. W oparciu o aproksymację rozkładu chi-kwadrat.
e. Prawdopodobieństwo testowe ilorazu wiarygodności chi-kwadrat.
Wyszukiwarka
Podobne podstrony:
Malarska A Statystyczna analiza danych wspomagana SPSS (rozdział 1, 2)Metody badań w geografii fizycznej i sedymentologiaanaliza danych jakościowych dąbrowskiPlan Wynikowy Geografii Społeczno Ekonomicznej poziom podstawowymetody badan spolecznych msm wyklad 1metody badan spolecznych msm wyklad 2metody badan spolecznych msm wyklad 41 Metody analizy danych w marketingumetody badan spolecznych msm wyklad 6Metody badan KruczekPraca mag Interaktywny system regułowej analizy danych marketingowych dotyczących satysfakcji kliewięcej podobnych podstron