1
Opis statystyczny zmiennych przy pomocy programu SPSS.
Do podstawowego opisu statystycznego zmiennych stosujemy:
• Miary tendencji centralnej
• Miary rozproszenia (dyspersji)
Opis uzupełniamy adekwatną ilustracją (właściwym wykresem), a w
przypadku danych ilościowych również informacją o skośności i kurtozie.
Poniższa tabela zawiera schemat doboru właściwych narzędzi w zależności
od rodzaju skali pomiarowej:
zmienne
Miara tendencji
centralnej
Miara
rozproszenia
Inne
Grafika
NOMINALNE
Dominanta
Liczba kategorii
Wykres kołowy
PORZĄDKOWE Mediana
Dominanta
Kwartyle
Odchylenie
ćwiartkowe
Wykres
słupkowy
ILOŚCIOWE
(interwałowe i
ilorazowe)
Średnia
Mediana
Dominanta
Odchylenie
standardowe
Kwartyle
Odchylenie
ćwiartkowe
Kurtoza
Skośność
Histogram
Należy pamiętać, iż opis statystyczny, nie polega na przepisaniu właściwych
wartości z raportów SPSS, ale przede wszystkim na właściwej ich
interpretacji. Poniżej zamieszczono kilka przykładów opisu wykonanego
przy pomocy programu SPSS.
Uruchom program SPSS i wczytaj plik GSS93 pozdzbiór.sav (w niektórych
wersjach GSS93subse.,sav)
W pierwszym kroku opiszemy zmienną Stan cywilny (marital). Zmienna ta
zaprezentowana jest na skali nominalnej. Wybieramy opcje: Analiza – Opis
statystyczny – Częstości. Z lewego okna, w którym widnieją wszystkie zmienne,
przerzucamy do prawego okna zmienną, którą chcemy opisać (stan cywilny) .
Następnie klikamy na przycisk statystyki i wybieramy Dominantę –jest to
jedyna statystyka, którą możemy zastosować do opisu zmiennych nominalnych.
Po dokonaniu wyboru, przyciskamy Dalej i wybieramy opcję Wykresy, Spośród
wykresów wybieramy najwłaściwszy dla danych nominalnych: kołowy
(niekiedy możemy użyć też wykresu słupkowego).Klikamy na Dalej i OK. i
otrzymujemy następujący raport:
2
Stan cywilny
N
Ważne
1499
Braki danych
1
Dominanta
1
W pierwszej tabeli uzyskujemy informację o liczbie badanych osób,
liczbie braków danych i wartości dominanty. Jak widać wyżej uzyskano 1499
odpowiedzi i jeden brak danych (brak odpowiedzi).
Dominanta
ma wartość 1. W zakładce ZMIENNE pakietu SPSS
możemy sprawdzić, jaka wartość zmiennej odpowiada jedynce. Jak widać 1=
żonaty/zamężna/konkubinat. Wynika z tego, że wśród naszych badanych
przeważały osoby w związkach formalnych lub nieformalnych.
Stan cywilny
Częstość
Procent
Procent
ważnych
Procent
skumulowany
Ważne
Żonaty/zamężna/KONK
795
53,0
53,0
53,0
Wdowiec/wdowa
165
11,0
11,0
64,0
Rozwiedziona/y
213
14,2
14,2
78,3
Separacja
40
2,7
2,7
80,9
Kawaler/panna
286
19,1
19,1
100,0
Ogółem
1499
99,9
100,0
Braki danych
Brak odpowiedzi
1
,1
Ogółem
1500
100,0
Druga tabela podaje dokładne informacje o liczbie obserwacji (i
procencie) dla kolejnych kategorii zmiennej. Kolumna Procent podaje odsetki
liczone z całej próby (1500 osób), a kolumna Procent ważnych podaje odsetki
bez uwzględniania braków danych (braków odpowiedzi – 1499 osób). W
przypadku danych nominalnych kolumna Procent skumulowany nie ma sensu
w opisie zmiennych nominalnych (nie da się uszeregować pomiarów wg
wielkości) i powinien być usunięty z opisu zmiennej.
W drugim kroku opiszemy zmienną Poziom wykształcenia respondenta
(degree) . Jest to zmienna porządkowa. Postępujemy podobnie jak w pierwszym
kroku, pamiętając jednocześnie o przesunięciu analizowanej poprzednio
zmiennej stan cywilny z powrotem do lewego okna (listy zmiennych). Musimy
również pamiętać o wyborze nowych statystyk (
dominanta, mediana,
kwartale
) i nowym wykresie (
wykres słupkowy
).
Po dokonaniu zmian, zatwierdzamy je przyciskiem OK. i otrzymujemy
następujący raport:
3
N
Ważne
1496
Braki danych
4
Mediana
1,00
Dominanta
1
Percentyle
25
1,00
50
1,00
75
2,00
Jak wynika z powyższej tabeli spośród 1500 respondentów 4 osoby nie
udzieliły informacji o wykształceniu (braki danych) .
Mediana
wynosi 1. Jedynka w danych odpowiada kategorii: High school.
Oznacza to, że połowa respondentów ma wykształcenie na poziomie High
school lub niższym, a druga połowa na poziomie High school lub wyższym.
Dominanta
również ma wartość 1. Wynika z tego, że High school było
najczęstszym poziomem wykształcenia wśród respondentów. 25, 50 i 75
percentyl to po prostu 1,2 i 3 kwartyl.
Wartość 1 kwartyla
wynosi 1, czyli 25% ankietowanych miało
wykształcenia na poziomie High school lub niższym.
3 kwartyl
ma wartość 2 –
wynika z tego, że 25% miało wykształcenie na poziomie Junior college lub
wyższym.
Na podstawie wartości kwartyli wyliczamy „ręcznie”
wartość odchylenia
ćwiartkowego:
Uzyskana wartość odchylenia pozwala nam na obliczenie
pozycyjnego
współczynnika zmienności:
Wartość współczynnika wynosi 0,5 mamy zatem do czynienia z umiarkowaną
zmiennością naszej zmiennej.
W raporcie SPSS odnajdujemy również tabelę częstości i wykres słupkowy
ilustrujące dokładny rozkład zmiennej poziom wykształcenia respondenta.
W kroku trzecim opiszemy zmienną ilościową : wiek respondenta (age).
Postępujemy podobnie jak w poprzednich przykładach, pamiętając by w opcji
Statystyki dołożyć miary właściwe dla danych ilościowych:
średnią,
odchylenie standardowe, skośność i kurtozę
, a w opcji Wykresy wybrać
Histogram.
5
,
0
2
1
2
2
1
3
Q
Q
Q
5
,
0
1
5
,
0
Me
Q
Q
V
4
Wiek respondenta
N
Ważne
1495
Braki danych
5
Średnia
46,23
Mediana
43,00
Dominanta
28(a)
Odchylenie standardowe
17,418
Skośność
,500
Błąd standardowy skośności
,063
Kurtoza
-,700
Błąd standardowy kurtozy
,126
Percentyle
25
32,00
50
43,00
75
59,00
a Istnieje wiele wartości modalnych. Podano wartość najmnie
jszą.
W uzyskanym raporcie widzimy, że
Średnia
czyli przeciętna wartość
wieku w naszej grupie badanych wyniosi 46,23.
Mediana
ma wartość 43,00
czyli połowa respondentów ma 43 lata lub mniej, a druga połowa 43 lub więcej.
Przy wartości
Dominanty
jest odnośnik wskazujący na to, że istnieje wiele
wartości modalnych (podana jest najmniejsza wartość dominanty – w naszym
przykładzie 28). W tabeli częstości wyszukujemy inne najczęściej występujące
wartości zmiennej wiek. Okazuje się, że występują dwie dominanty - są to
wartości 28 i 36 – wśród badanych były to najczęściej występujące wartości tej
zmiennej.
Dzieląc odchylenie standardowe przez średnią uzyskujemy wartość
współczynnika zmienności:
Uzyskana wartość wskazuje na stosunkowo niewielką wartość zmienności.
Pierwszy kwartyl wynosi 32 – czyli 25% respondentów miało 32 lata lub
mniej, kwartyl trzeci ma wartość 59, czyli 25% badanych miało 59 lat lub
więcej. Obliczone („ręcznie”) odchylenie ćwiartkowe wynosi 13,5.
Bezwzględną wartość
skośności i kurtozy
porównujemy z ich
podwojonym błędem standardowym. Jeżeli wartość bezwzględna skośności lub
kurtozy nie przekracza podwojonego właściwego błędu twierdzimy, że rozkład
nie jest skośny (kurtyczny). W przeciwnym razie opisujemy skośność i
kurtyczność rozkładu. W naszym przykładzie zarówno skośność jak i
bezwzględna wartość kurtozy przekraczają podwojone odpowiednie błędy
standardowe. Stwierdzamy zatem, że rozkład zmiennej wiek jest prawoskośny
(skośność dodatnia) i platykurtyczny (kurtoza ujemna).
W raporcie SPSS znajduje się również tabela częstości i histogram
ilustrujące dokładny rozkład zmiennej wiek respondenta.
38
,
0
23
,
46
42
,
17
x
s
v