Opis statystyczny zmiennych przy pomocy programu SPSS.
Do podstawowego opisu statystycznego zmiennych stosujemy:
• Miary tendencji centralnej
• Miary rozproszenia (dyspersji)
Opis uzupełniamy adekwatną ilustracją (właściwym wykresem), a w
przypadku danych ilościowych również informacją o skośności i kurtozie.
Poniższa tabela zawiera schemat doboru właściwych narzędzi w zależności
od rodzaju skali pomiarowej:
zmienne
Miara tendencji
Miara
Inne
Grafika
centralnej
rozproszenia
NOMINALNE
Dominanta
Liczba kategorii
Wykres kołowy
PORZĄDKOWE Mediana
Kwartyle
Wykres
Dominanta
Odchylenie
słupkowy
ćwiartkowe
ILOŚCIOWE
Średnia
Odchylenie
Kurtoza
Histogram
(interwałowe i
Mediana
standardowe
Skośność
ilorazowe)
Dominanta
Kwartyle
Odchylenie
ćwiartkowe
Należy pamiętać, iż opis statystyczny, nie polega na przepisaniu właściwych
wartości z raportów SPSS, ale przede wszystkim na właściwej ich
interpretacji. Poniżej zamieszczono kilka przykładów opisu wykonanego
przy pomocy programu SPSS.
Uruchom program SPSS i wczytaj plik GSS93 pozdzbiór.sav (w niektórych wersjach GSS93subse.,sav)
W pierwszym kroku opiszemy zmienną Stan cywilny ( marital). Zmienna ta zaprezentowana jest na skali nominalnej. Wybieramy opcje : Analiza – Opis statystyczny – Częstości. Z lewego okna, w którym widnieją wszystkie zmienne, przerzucamy do prawego okna zmienną, którą chcemy opisać (stan cywilny) .
Następnie klikamy na przycisk statystyki i wybieramy Dominantę –jest to jedyna statystyka, którą możemy zastosować do opisu zmiennych nominalnych.
Po dokonaniu wyboru, przyciskamy Dalej i wybieramy opcję Wykresy, Spośród wykresów wybieramy najwłaściwszy dla danych nominalnych: kołowy
(niekiedy możemy użyć też wykresu słupkowego).Klikamy na Dalej i OK. i otrzymujemy następujący raport:
1
Stan cywilny
N
Ważne
1499
Braki danych
1
Dominanta
1
W pierwszej tabeli uzyskujemy informację o liczbie badanych osób,
liczbie braków danych i wartości dominanty. Jak widać wyżej uzyskano 1499
odpowiedzi i jeden brak danych (brak odpowiedzi).
Dominanta ma wartość 1. W zakładce ZMIENNE pakietu SPSS
możemy sprawdzić, jaka wartość zmiennej odpowiada jedynce. Jak widać 1=
żonaty/zamężna/konkubinat. Wynika z tego, że wśród naszych badanych
przeważały osoby w związkach formalnych lub nieformalnych.
Stan cywilny
Procent
Procent
Częstość
Procent
ważnych
skumulowany
Ważne
Żonaty/zamężna/KONK
795
53,0
53,0
53,0
Wdowiec/wdowa
165
11,0
11,0
64,0
Rozwiedziona/y
213
14,2
14,2
78,3
Separacja
40
2,7
2,7
80,9
Kawaler/panna
286
19,1
19,1
100,0
Ogółem
1499
99,9
100,0
Braki danych
Brak odpowiedzi
1
,1
Ogółem
1500
100,0
Druga tabela podaje dokładne informacje o liczbie obserwacji (i
procencie) dla kolejnych kategorii zmiennej. Kolumna Procent podaje odsetki liczone z całej próby (1500 osób), a kolumna Procent ważnych podaje odsetki
bez uwzględniania braków danych (braków odpowiedzi – 1499 osób). W
przypadku danych nominalnych kolumna Procent skumulowany nie ma sensu
w opisie zmiennych nominalnych (nie da się uszeregować pomiarów wg
wielkości) i powinien być usunięty z opisu zmiennej.
W drugim kroku opiszemy zmienną Poziom wykształcenia respondenta
(degree) . Jest to zmienna porządkowa. Postępujemy podobnie jak w pierwszym
kroku, pamiętając jednocześnie o przesunięciu analizowanej poprzednio
zmiennej stan cywilny z powrotem do lewego okna (listy zmiennych). Musimy
również pamiętać o wyborze nowych statystyk (dominanta, mediana,
kwartale) i nowym wykresie (wykres słupkowy).
Po dokonaniu zmian, zatwierdzamy je przyciskiem OK. i otrzymujemy
następujący raport:
2
Ważne
1496
Braki danych
4
Mediana
1,00
Dominanta
1
Percentyle
25
1,00
50
1,00
75
2,00
Jak wynika z powyższej tabeli spośród 1500 respondentów 4 osoby nie
udzieliły informacji o wykształceniu (braki danych) .
Mediana wynosi 1. Jedynka w danych odpowiada kategorii: High school.
Oznacza to, że połowa respondentów ma wykształcenie na poziomie High
school lub niższym, a druga połowa na poziomie High school lub wyższym.
Dominanta również ma wartość 1. Wynika z tego, że High school było
najczęstszym poziomem wykształcenia wśród respondentów. 25, 50 i 75
percentyl to po prostu 1,2 i 3 kwartyl.
Wartość 1 kwartyla wynosi 1, czyli 25% ankietowanych miało
wykształcenia na poziomie High school lub niższym. 3 kwartyl ma wartość 2 –
wynika z tego, że 25% miało wykształcenie na poziomie Junior college lub wyższym.
Na podstawie wartości kwartyli wyliczamy „ręcznie” wartość odchylenia
ćwiartkowego:
Q Q
2 1
3
1
Q
5
,
0
2
2
Uzyskana wartość odchylenia pozwala nam na obliczenie pozycyjnego
współczynnika zmienności:
Q
5
,
0
V
5
,
0
Q
Me
1
Wartość współczynnika wynosi 0,5 mamy zatem do czynienia z umiarkowaną
zmiennością naszej zmiennej.
W raporcie SPSS odnajdujemy również tabelę częstości i wykres słupkowy
ilustrujące dokładny rozkład zmiennej poziom wykształcenia respondenta.
W kroku trzecim opiszemy zmienną ilościową : wiek respondenta (age).
Postępujemy podobnie jak w poprzednich przykładach, pamiętając by w opcji
Statystyki dołożyć miary właściwe dla danych ilościowych: średnią,
odchylenie standardowe, skośność i kurtozę, a w opcji Wykresy wybrać
Histogram.
3
N
Ważne
1495
Braki danych
5
Średnia
46,23
Mediana
43,00
Dominanta
28(a)
Odchylenie standardowe
17,418
Skośność
,500
Błąd standardowy skośności
,063
Kurtoza
-,700
Błąd standardowy kurtozy
,126
Percentyle
25
32,00
50
43,00
75
59,00
a Istnieje wiele wartości modalnych. Podano wartość najmnie
jszą.
W uzyskanym raporcie widzimy, że Średnia czyli przeciętna wartość
wieku w naszej grupie badanych wyniosi 46,23. Mediana ma wartość 43,00
czyli połowa respondentów ma 43 lata lub mniej, a druga połowa 43 lub więcej.
Przy wartości Dominanty jest odnośnik wskazujący na to, że istnieje wiele wartości modalnych (podana jest najmniejsza wartość dominanty – w naszym przykładzie 28). W tabeli częstości wyszukujemy inne najczęściej występujące wartości zmiennej wiek. Okazuje się, że występują dwie dominanty - są to wartości 28 i 36 – wśród badanych były to najczęściej występujące wartości tej
zmiennej.
Dzieląc odchylenie standardowe przez średnią uzyskujemy wartość
współczynnika zmienności:
s
17,42
v
38
,
0
x
,
46 23
Uzyskana wartość wskazuje na stosunkowo niewielką wartość zmienności.
Pierwszy kwartyl wynosi 32 – czyli 25% respondentów miało 32 lata lub mniej, kwartyl trzeci ma wartość 59, czyli 25% badanych miało 59 lat lub więcej. Obliczone („ręcznie”) odchylenie ćwiartkowe wynosi 13,5.
Bezwzględną wartość skośności i kurtozy porównujemy z ich
podwojonym błędem standardowym. Jeżeli wartość bezwzględna skośności lub
kurtozy nie przekracza podwojonego właściwego błędu twierdzimy, że rozkład
nie jest skośny (kurtyczny). W przeciwnym razie opisujemy skośność i
kurtyczność rozkładu. W naszym przykładzie zarówno skośność jak i
bezwzględna wartość kurtozy przekraczają podwojone odpowiednie błędy
standardowe. Stwierdzamy zatem, że rozkład zmiennej wiek jest prawoskośny (skośność dodatnia) i platykurtyczny (kurtoza ujemna).
W raporcie SPSS znajduje się również tabela częstości i histogram
ilustrujące dokładny rozkład zmiennej wiek respondenta.
4