1
Opis statystyczny zmiennych przy pomocy programu SPSS.
Do podstawowego opisu statystycznego zmiennych stosujemy:
•
Miary tendencji centralnej
•
Miary rozproszenia (dyspersji)
Opis uzupełniamy adekwatną ilustracją (właściwym wykresem), a w
przypadku danych ilościowych również informacją o skośności i kurtozie.
Poniższa tabela zawiera schemat doboru właściwych narzędzi w zależności
od rodzaju skali pomiarowej:
zmienne
Miara tendencji
centralnej
Miara
rozproszenia
Inne
Grafika
NOMINALNE
Dominanta
Liczba kategorii
Wykres kołowy
PORZĄDKOWE Mediana
Dominanta
Kwartyle
Odchylenie
ć
wiartkowe
Wykres
słupkowy
ILOŚCIOWE
(interwałowe i
ilorazowe)
Ś
rednia
Mediana
Dominanta
Odchylenie
standardowe
Kwartyle
Odchylenie
ć
wiartkowe
Kurtoza
Skośność
Histogram
Należy pamiętać, iż opis statystyczny, nie polega na przepisaniu właściwych
wartości z raportów SPSS, ale przede wszystkim na właściwej ich
interpretacji. Poniżej zamieszczono kilka przykładów opisu wykonanego
przy pomocy programu SPSS.
Uruchom program SPSS i wczytaj plik GSS93 pozdzbiór.sav
W pierwszym kroku opiszemy zmienną Stan cywilny (marital). Zmienna ta
zaprezentowana jest na skali nominalnej. Wybieramy opcje: Analiza – Opis
statystyczny – Częstości. Z lewego okna, w którym widnieją wszystkie zmienne,
przerzucamy do prawego okna zmienną, którą chcemy opisać (stan cywilny) .
Następnie klikamy na przycisk statystyki i wybieramy Dominantę –jest to
jedyna statystyka, którą możemy zastosować do opisu zmiennych nominalnych.
Po dokonaniu wyboru, przyciskamy Dalej i wybieramy opcję Wykresy, Spośród
wykresów wybieramy najwłaściwszy dla danych nominalnych: kołowy
(niekiedy możemy użyć też wykresu słupkowego).Klikamy na Dalej i OK. i
otrzymujemy następujący raport:
2
Stan cywilny
Wa
ż
ne
1499
N
Braki danych
1
Dominanta
1
W pierwszej tabeli uzyskujemy informację o liczbie badanych osób,
liczbie braków danych i wartości dominanty. Jak widać wyżej uzyskano 1499
odpowiedzi i jeden brak danych (brak odpowiedzi). Dominanta ma wartość 1.
W zakładce ZMIENNE pakietu SPSS możemy sprawdzić, jaka wartość
zmiennej odpowiada jedynce. Jak widać 1= żonaty/zamężna/konkubinat.
Wynika z tego, że wśród naszych badanych przeważały osoby w związkach
formalnych lub nieformalnych.
Stan cywilny
Cz
ę
sto
ść
Procent
Procent
wa
ż
nych
Procent
skumulowany
ś
onaty/zam
ęż
na/KONK
795
53,0
53,0
53,0
Wdowiec/wdowa
165
11,0
11,0
64,0
Rozwiedziona/y
213
14,2
14,2
78,3
Separacja
40
2,7
2,7
80,9
Kawaler/panna
286
19,1
19,1
100,0
Wa
ż
ne
Ogółem
1499
99,9
100,0
Braki danych
Brak odpowiedzi
1
,1
Ogółem
1500
100,0
Druga tabela podaje dokładne informacje o liczbie obserwacji (i
procencie) dla kolejnych kategorii zmiennej. Kolumna Procent podaje odsetki
liczone z całej próby (1500 osób), a kolumna Procent ważnych podaje odsetki
bez uwzględniania braków danych (braków odpowiedzi – 1499 osób). W
przypadku danych nominalnych kolumna Procent skumulowany nie ma
specjalnego sensu (nie da się uszeregować pomiarów wg wielkości) i powinna
być usunięta z opisu zmiennej.
W drugim kroku opiszemy zmienną Poziom wykształcenia respondenta
(degree) . Jest to zmienna porządkowa. Postępujemy podobnie jak w pierwszym
kroku, pamiętając jednocześnie o przesunięciu analizowanej poprzednio
zmiennej stan cywilny z powrotem do lewego okna (listy zmiennych). Musimy
również pamiętać o wyborze nowych statystyk (dominanta, mediana,
kwartale) i nowym wykresie (wykres słupkowy).
Po dokonaniu zmian, zatwierdzamy je przyciskiem OK. i otrzymujemy
następujący raport:
\
Poziom wykształcenia respondenta
3
Wa
ż
ne
1496
N
Braki danych
4
Mediana
1,00
Dominanta
1
25
1,00
50
1,00
Percentyle
75
2,00
Jak wynika z powyższej tabeli spośród 1500 respondentów 4 osoby nie
udzieliły informacji o wykształceniu (braki danych) .
Mediana wynosi 1. Jedynka w danych odpowiada kategorii: High school.
Oznacza to, że połowa respondentów ma wykształcenie na poziomie High
school lub niższym, a druga połowa na poziomie High school lub wyższym.
Dominanta również ma wartość 1. Wynika z tego, że High school było
najczęstszym poziomem wykształcenia wśród respondentów. 25, 50 i 75
percentyl to po prostu 1,2 i 3 kwartyl.
Wartość 1 kwartyla wynosi 1, czyli 25% ankietowanych miało
wykształcenia na poziomie High school lub niższym. 3 kwartyl ma wartość 2 –
wynika z tego, że 25% miało wykształcenie na poziomie Junior college lub
wyższym.
Na podstawie wartości kwartyli wyliczamy „ręcznie” wartość odchylenia
ćwiartkowego:
Uzyskana wartość odchylenia pozwala nam na obliczenie pozycyjnego
współczynnika zmienności:
Wartość współczynnika wynosi 0,5 mamy zatem do czynienia z umiarkowaną
zmiennością naszej zmiennej.
W raporcie SPSS odnajdujemy również tabelę częstości i wykres słupkowy
ilustrujące dokładny rozkład zmiennej poziom wykształcenia respondenta.
W kroku trzecim opiszemy zmienną ilościową : wiek respondenta (age).
Postępujemy podobnie jak w poprzednich przykładach, pamiętając by w opcji
Statystyki dołożyć miary właściwe dla danych ilościowych: średnią,
odchylenie standardowe, skośność i kurtozę, a w opcji Wykresy wybrać
Histogram.
5
,
0
2
1
2
2
1
3
=
−
=
−
=
Q
Q
Q
5
,
0
1
5
,
0
=
=
=
Me
Q
Q
V
4
Wiek respondenta
Wa
ż
ne
1495
N
Braki danych
5
Ś
rednia
46,23
Mediana
43,00
Dominanta
28(a)
Odchylenie standardowe
17,418
Sko
ś
no
ść
,500
Bł
ą
d standardowy sko
ś
no
ś
ci
,063
Kurtoza
-,700
Bł
ą
d standardowy kurtozy
,126
25
32,00
50
43,00
Percentyle
75
59,00
a Istnieje wiele warto
ś
ci modalnych. Podano warto
ść
najmnie
jsz
ą
.
W uzyskanym raporcie widzimy, że Średnia czyli przeciętna wartość
wieku w naszej grupie badanych wyniosi 46,23. Mediana ma wartość 43,00
czyli połowa respondentów ma 43 lata lub mniej, a druga połowa 43 lub więcej.
Przy wartości Dominanty jest odnośnik wskazujący na to, że istnieje wiele
wartości modalnych (podana jest najmniejsza wartość dominanty – w naszym
przykładzie 28). W tabeli częstości wyszukujemy inne najczęściej występujące
wartości zmiennej wiek. Okazuje się, że występują dwie dominanty - są to
wartości 28 i 36 – wśród badanych były to najczęściej występujące wartości tej
zmiennej.
Dzieląc odchylenie standardowe przez średnią uzyskujemy wartość
współczynnika zmienności:
Uzyskana wartość wskazuje na stosunkowo niewielką wartość zmienności.
Pierwszy kwartyl wynosi 32 – czyli 25% respondentów miało 32 lata lub
mniej, kwartyl trzeci ma wartość 59, czyli 25% badanych miało 59 lat lub
więcej. Obliczone („ręcznie”) odchylenie ćwiartkowe wynosi 13,5.
Bezwzględną wartość skośności i kurtozy porównujemy z podwojonym
błędem standardowym. Jeżeli wartość bezwzględna skośności lub kurtozy nie
przekracza podwojonego właściwego błędu twierdzimy, że rozkład nie jest
skośny (kurtyczny). W przeciwnym razie opisujemy skośność i kurtyczność
rozkładu. W naszym przykładzie zarówno skośność jak i bezwzględna wartość
kurtozy przekraczają podwojone odpowiednie błędy standardowe. Stwierdzamy
zatem, że rozkład zmiennej wiek jest prawoskośny (skośność dodatnia) i
platykurtyczny (kurtoza ujemna).
W raporcie SPSS znajduje się również tabela częstości i histogram
ilustrujące dokładny rozkład zmiennej wiek respondenta.
38
,
0
23
,
46
42
,
17
=
=
=
x
s
v