Jak można opisać nasze dane?
-miary tendencji centralnej
Średnia arytmetyczna
– suma wszystkich obserwacji podzielona przez ich liczbę
Średnia arytmetyczna jest bardzo podatna na wpływ wartości skrajnych
(dewiantów), poza tym często zdarza się tak, że wartość średniej nie jest liczbą
występującą w zbiorze danych (np. rodziny w Polsce posiadają średnio 2,5 dziecka)
Mediana
– wartość, która dzieli zbiór obserwacji na dwie równe połowy, powyżej i
poniżej której znajduje się taka sama liczba obserwacji. Mediana jest odporna na
wpływ wartości skrajnych (dewiantów), natomiast jest bardzo wrażliwa na zmiany
liczb znajdujących się w środku. Jak obliczamy medianę? Szeregujemy obserwacje
według wielkości i znajdujemy tę pośrodku, jeżeli liczba obserwacji jest parzysta, z
dwóch środkowych liczb obliczamy średnią arytmetyczną.
Modalna
/ Dominanta/ Moda – wartość najczęściej występująca w naszym zbiorze
danych. Modalna zawsze jest liczbą zwykle w naszym zbiorze występująca, czasami
jednak bywa niereprezentatywna dla naszego zbioru wyników (np.: 1, 1, 1, 15, 16,
17, 18, 19, 16, - modalna 1 nie opisuje dobrze tego zbioru).
Jakie miary tendencji centralnej możemy liczyć na poszczególnych skalach?
Skala nominalna
Skala porządkowa
Skala przedziałowa
Skala stosunkowa
modalna
+
+
+
+
mediana
-
+
+
+
średnaia
-
-
+
+
W którym miejscu w SPSSie należy ich szukać ?
W znanej nam już
zakładce „częstości”,
klikamy w klawisz
STATYSTYKI i
wybieramy
interesujące nas
miary tendencji
centralnej
Średnią znajdziemy również wybierając z górnego menu:
Analiza-opis statystyczny-statystyki opisowe (
i tam
klawisz OPCJE)
-miary rozrzutu/dyspersji
Rozstęp
– zakres danych. Od wartości największej odejmujemy wartość
najmniejszą. Wyniki ekstremalne maja duży wpływ na wartość rozstępu.
Odchylenie standardowe
– pokazuje nam jak bardzo wyniki w naszym
rozkładzie różnią się od średniej arytmetycznej. Obliczamy je w
następujący sposób: mając zbiór danych: 8,9,10,11,12; obliczamy średnią
= 10; od każdego wyniku odejmujemy 10; otrzymujemy zbiór odchyleń:
-2,-1,0,1,2; suma tych odchyleń jest równa 0 (zawsze!), dlatego
podnosimy je do kwadratu, otrzymujemy: 4,1,0,1,4; teraz je dodajemy i
obliczamy średnią – 10 podzielone przez 5 (lub jeśli uogólniamy na
populację przez 4) daje 2 – w tym momencie policzyliśmy wariancję; aby
otrzymać odchylenie standardowe wyciągamy pierwiastek z wariancji,
czyli otrzymujemy 1,4142. Jest to miara bardziej „prawdziwa” niż
wariancja (niwelujemy podniesienie do kwadratu).
Wariancja
– jak już wcześniej pokazałam, jest to odchylenie standardowe
podniesione do kwadratu. Lub innymi słowy: suma (Σ) kwadratów (
2
)
odchyleń od średniej (X
i
-X) podzielona przez liczbę obserwacji minus 1 (N-
1).
Miary rozrzutu znajdujemy w tych samych miejscach w SPSSie co miary
tendencji centralnej.
A jak można dokładniej opisać nasz rozkład częstości
(histogram)?
-w zależności od częstości występowania wartości modalnej
Jednomodalny dwumodalny wielomodalny
9,00
8,00
7,00
6,00
5,00
4,00
3,00
2,00
1,00
Li
cz
e
b
n
o
ś
ć
25
20
15
10
5
0
9,00
8,00
7,00
6,00
5,00
4,00
3,00
2,00
1,00
Li
c
z
e
b
n
o
ść
25
20
15
10
5
0
V3
18,00
16,00
14,00
13,00
12,00
10,00
9,00
8,00
7,00
6,00
5,00
4,00
3,00
2,00
1,00
Li
c
z
e
b
n
o
ść
20
10
0
ROZKŁAD JEDNOMODALNY może być symetryczny lub
asymetryczny
Miarą asymetrii (skrzywienia) rozkładu jest skośność
kształt naszego rozkładu (częstości) może się skrzywiać (być skośny)
w prawo lub w lewo – czyli wyniki mogą się koncentrować powyżej lub
poniżej średniej
.
Szczególny przypadek rozkładu symetrycznego – rozkład normalny
cechy ROZKŁADU NORMALNEGO
(krzywa Gaussa, krzywa normalna, krzywa dzwonowa)
W kształcie dzwonu
symetryczny (względem średniej)
Średnia = mediana = modalna
Większość wyników skupiona wokół średniej, niewiele
odstających wyników
Ramiona krzywej (dzwonu) dotykają linii poziomej w
nieskończoności(oczywiście w teorii)
Jeśli chcemy sprawdzić jak
wygląda rozkład naszej zmiennej
w częstościach, w klawiszu
wykresy wybieramy histogram z
krzywą normalną
9,0
8,0
7,0
6,0
5,0
4,0
3,0
2,0
1,0
25
20
15
10
5
0
Odch.Std = 2,01
Średnia = 5,0
N = 100,00
Rozkład
dodatnio-, prawoskośny
najwięcej wyników poniżej
średniej
Taka sytuacja może mieć miejsce, gdy zrobimy zbyt
trudny test i prawie wszyscy dostaną dwóje.
Skośność przyjmuje wtedy wartości powyżej zera.
Prawoskośny gdyż dłuższe ramię rozkładu wyciąga
się na prawo (albo kopiemy go prawą nogą)
Moda < mediana <
średnia
Rozkład
ujemnie, lewoskośny
najwięcej wyników powyżej
średnie
Dzieje się tak wtedy, gdy robimy zbyt prosty test i
wszyscy zaliczają go na pięć. Skośność przyjmuje
wartości ujemne. Lewoskośny, gdyż dłuższe ramię
dzwonu sięga w lewo (lub kopiemy go lewą nogą)
Moda > mediana >
średnia
SKOŚNOŚĆ
Gdy rozkład normalny wtedy
Średnia =mediana=modalna
Oprócz skrzywienia nasz rozkład może ulegać zniekształceniom
polegającym na różnej gęstości wyników – mogą się one albo
koncentrować wokół średniej, albo być bardziej rozproszone
Miarą tego zagęszczenia (koncentracji wyników wokół
miary centralnej – średniej) jest
kurtoza
Rozkład wysmukły (skoncentrowany)
–
leptokurtyczny
kurtoza przyjmuje wartości większe od
zera
duża gęstość (koncentracja) wyników
wokół wartości średnich
Rozkład spłaszczony (rozproszony) –
platykurtyczny
kurtoza przyjmuje wartości mniejsze od
zera
mała gęstość (koncentracja) wyników
wokół wartości średnich
Policz średnią, medianę i
modalną z poniższych grup
wyników:
• Grupa 1:
3; 3,5; 3,5; 4; 4; 4,5;
5; 5,5;
• Grupa 2:
3; 4; 4; 4; 4; 4; 4; 5;
A teraz proszę policzyć wariancję i odchylenie
standardowe dla każdej z tych grup
Wprowadźmy nasze dane do edytora danych
pamiętając, że zmienne umieszczamy w kolumnach a
przypadki w wierszach
Zmienne w
kolumnach
Przypadki w
wierszach
Sprawdzimy teraz czy dobrze policzyliśmy nasze
statystyki opisowe (czyli miary tendencji centralnej –
średnią, modalną i medianę oraz miary rozproszenia –
odchylenie standardowe i wariancję)
Możemy je
znaleźć w
częstościach lub
statystykach
opisowych
(Analiza – Opis
statystyczny)
Spróbujmy szczęścia w częstościach...
Aby odnaleźć
interesujące nas
miary musimy
zajrzeć do
klawisza
STATYSTYKI
Pojawia się
okno, w którym
możemy
zaznaczyć te
opcje, które
chcemy mieć w
raporcie. W
naszym
przypadku
zaznaczamy
Możemy też
zrobić
wykres i
poprosić o
wyświetleni
e tabeli
częstości
A jak to samo zrobić gdzie indziej?
W statystykach
opisowych
klikamy na
klawisz OPCJE
Ukazuje się nam
tabelka, w której
wybieramy
interesujące nas
miary.
Tutaj również znajduje się
opcja standaryzacji
wyników (tylko musimy ją
zaznaczyć).
Częstości
Wszystko, co
zaznaczyliśmy pokazało
się w oknie raportów. Na
wykresie pokazane są
procenty
poszczególnych wartości
zmiennej
Statystyki opisowe
Jak widać tutaj
mamy o wiele
mniej informacji.
Raport jest
skromniejszy.
Nie ma również
opcji wykresów
Jak obliczamy
wskaźniki?
Trzy pytania o TOWARZYSKOŚĆ:
Jak często chodzisz na imprezy?
Jak często chodzisz do kina z przyjaciółmi?
Jak często spędzasz samotnie wieczory?
Na wszystkie odpowiadamy od 1-sporadycznie do 4-bardzo często
TERAZ bardzo proszę otworzyć plik:
Otoczenie sieciowe/venus/wykladowca/anetaB_R/towarzyskosc
Jak utworzyć jednoznaczny wskaźnik towarzyskości (im więcej ktoś
ma punktów tym bardziej jest towarzyski).
Na początku musimy „odwrócić” trzecie pytanie (ZREKODOWAĆ)
Zauważmy, że dwa
pierwsze pytają
wprost o nasilenie
towarzyskości,
natomiast trzecie nie
Aby to uczynić z górnego menu
wybieramy przekształcenia
(będziemy przekształcać naszą
zmienną) i następnie: rekoduj
SPSS pozwala nam rekodować albo nie
zmieniając nazwy zmiennej (wtedy tracimy
oryginalne dane), albo tworząc nową zmienną
(tę opcję polecam, zachowujemy dane
wyjściowe, które kiedyś mogą się przydać)
Nową zmienną
musimy nazwać
Musimy również
zdefiniować co
chcemy w niej
zmienić
W klawiszu
wartości źródłowe i
wynikowe mamy
szereg opcji, które
pozwalają nam
transformować
naszą zmienną
Z górnego menu
wybieramy
Przekształcenia,
następnie Oblicz
wartości
W pojawiającym się
oknie dialogowym
definiujemy w jaki
sposób chcemy
utworzyć nasz
wskaźnik
Gdy już odpowiedzi na wszystkie pytania są jednoznaczne
możemy grzecznie utworzyć z nich wskaźnik towarzyskości
(poprzez zsumowanie lub uśrednienie poszczególnych pytań –
pamiętajmy
: jeśli tworzymy więcej niż jeden wskaźnik z pytań na
które osoby badane odpowiadały w spójny sposób, lecz każdy z
nich zawiera różną ilość tych pytań [np. jeden składa się z dwóch a
drugi z 15], należy uśredniać pytania).
Po wykonaniu
tych wszystkich
skomplikowanych
operacji na końcu
pliku z danymi
powinna pojawić
się nowa
zmienna:
wskaźnik
towarzyskości
Pytanie, kto jest średnio bardziej towarzyski:
kobiety czy mężczyźni?
Porównajmy towarzyskość w grupie kobiet z
towarzyskością w grupie mężczyzn
Poprośmy
program o
obliczenie,
oprócz
średniej,
znanych nam
już statystyk
opisowych
Widać, że kobiety różnią się od
mężczyzn pod względem
towarzyskości, nie wiemy
natomiast na ile „duża”
(fachowo mówiąc: istotna) jest
ta różnica
Możemy się o tym
przekonać robiąc słupki
błędu
Jak rozpoznać
„wielkość” różnicy?
Jeżeli wąsy
słupków zachodzą
na siebie (tak jak
na rysunku obok)
wtedy mówimy, że
grupy się nie
różnią między
sobą. Jeżeli wąsy
nie zachodzą na
siebie
, możemy
wnioskować, że
owe grupy między
sobą się
różnią
KWANTYLE
-
wartości,które dzielą wszystkie osoby na równoliczne
grupy:
• Kwartyle dzielą nasze osoby na cztery równoliczne
grupy: drugi kwartyl to mediana,
• Decyle: na dziesięć grup – piąty decyl to mediana,
• Percentyle na 100 grup - 50 percentyl to mediana,
10 percentyl to pierwszy decyl, 25 percentyl to
pierwszy kwartyl
Standaryzacja wyników:
dzięki niej możemy porównywać wyniki pochodzące z
różnych rozkładów, ponieważ wyniki wyrażone w
jednostkach standardowych Z odnoszą się do pozycji
punktu względem średniej arytmetycznej (która w
jednostkach Z zawsze jest równa zero).
możemy sprawdzić, jak daleko od średniej (poniżej lub
powyżej) leży interesujący nas wynik (np. wynik w
teście inteligencji)
e
standardow
odchylenie
średnia
wynik
z