Korelacja to związek między zmiennymi - sytuacja, w której zmianom wartości
jednej zmiennej towarzyszy zmiana wartości drugiej – skorelowanej z nią zmiennej.
Miarą siły i kierunku oraz kształtu związku jest współczynnik korelacji (dla
zmiennych porządkowych i ilościowych) lub współczynnik kontyngencji (dla
zmiennych nominalnych).
Do pomiaru siły związku między zmiennymi interwałowymi służyć może
współczynnik korelacji r Pearsona. Przyjmuje on wartości do -1 (dla bardzo silnych
związków ujemnych) do + 1 (dla bardzo silnych związków dodatnich.
Współczynnik
korelacji
r
Pearsona
to wystandaryzowany współczynnik
kowariancji:
W praktyce częściej wykorzystujemy inny, bardziej wygodny wzór do obliczania
współczynnika korelacji:
Badano, czy istnieje związek między poziomem stresu i agresji (obie zmienne
wyrażono na skali interwałowej). Otrzymane wyniki prezentowane są poniżej:
stres
agresja
lp
X
Y
X*Y
X
2
Y
2
1
2,00
1,70
3,40
4,00
2,89
2
3,00
2,20
6,60
9,00
4,84
3
3,00
2,20
6,60
9,00
4,84
4
4,00
3,10
12,40
16,00
9,61
5
5,00
3,80
19,00
25,00
14,44
6
4,00
3,20
12,80
16,00
10,24
7
3,00
2,50
7,50
9,00
6,25
8
2,00
2,70
5,40
4,00
7,29
9
3,00
2,60
7,80
9,00
6,76
10
4,00
3,00
12,00
16,00
9,00
11
2,00
1,70
3,40
4,00
2,89
12
3,00
2,20
6,60
9,00
4,84
SUMA
38,00
30,90
103,50
130,00
83,89
y
x
xy
s
s
r
cov
=
]
)
(
][
)
(
[
)
)(
(
2
2
2
2
y
y
N
x
x
N
y
x
xy
N
r
Σ
−
Σ
Σ
−
Σ
Σ
Σ
−
Σ
=
Na podstawie sum kolumn obliczono współczynnik korelacji r Pearsona:
Przed rozpoczęciem interpretacji współczynnika korelacji badacz musi również
dokonać oceny poziomu istotności dla danego współczynnika korelacji. Hipoteza
zerowa, którą testujemy , mówi o tym, że wartość współczynnika korelacji wynosi 0
(czyli nie ma związku między zmiennymi). Graniczny poziom istotności stosowany
m.in. w naukach społecznych wynosi 0,05.
Statystyka testowa testowana jest na rozkładzie t Studenta i obliczana jest według
wzoru:
58
,
5
243
,
0
10
87
,
0
87
,
0
1
2
12
87
,
0
1
2
2
2
=
=
−
−
=
−
−
=
r
N
r
t
Obliczoną statystykę t porównujemy z wartością t krytyczną odczytaną z tablic
rozkładu t Studenta. Do odczytania wartości potrzebna jest nam liczba stopni
swobody (df), która jest równa
df= N-2 = 10.
Odczytana z tablic wartość krytyczna t dla df= 10 i p=0,05 jest równa
2,228
.
Hipotezę zerową (r=0) odrzucamy wówczas, gdy spełniony jest warunek:
kryt
obl
t
t
≥
Jak widać powyżej obliczone t =5,58 jest większe od 2,228 , oznacza to, że możemy
odrzucić hipotezę zerową, czyli obliczony współczynnik korelacji jest istotny
(prawdopodobieństwo popełnienia błędu jest niższe od założonego p=0,05).
Gdyby nie udało nam się odrzucić hipotezy zerowej nie moglibyśmy twierdzić, iż
między zmiennymi istnieje związek.
W naszym przykładzie możemy stwierdzić, iż istnieje silny dodatni związek
między zmiennymi. Współczynnik determinacji jest równy (0,87)
2
= 0,76, czyli
zmienne maja 76% wspólnej wariancji.
87
,
0
87
,
51
*
116
8
,
67
]
)
9
,
30
(
89
,
83
*
12
[
*
)
38
(
130
*
12
[
9
,
30
*
38
5
,
103
*
12
]
)
(
][
)
(
[
)
)(
(
2
2
2
2
2
2
=
=
−
−
−
=
Σ
−
Σ
Σ
−
Σ
Σ
Σ
−
Σ
=
y
y
N
x
x
N
y
x
xy
N
r
W przypadku danych porządkowych (gdy korelujemy dwie zmienne porządkowe lub
jedną porządkową i jedną interwałową) stosujemy współczynniki dla danych
porządkowych np.
r
s
Spearmana.
Sprawdzano, czy istnieje związek pomiędzy poziomem stresu (pomiar interwałowy) a
deklarowanym
poziomem
nastroju
(pomiar
porządkowey).
Obie
wartości
porangowano, obliczono różnice między rangami i ich kwadrat. Wyniki
zaprezentowane są poniżej.
stres
poziom
nastroju
ranga
ranga
ró
ż
nica rang
lp
X
N
stres
nastrój
d
i
d
i
2
1
2,00
2,00
2,00
8,50
6,50
42,25
2
3,00
1,50
6,00
5,00
-1,00
1,00
3
3,00
1,00
6,00
2,00
-4,00
16,00
4
4,00
1,00
10,00
2,00
-8,00
64,00
5
5,00
1,00
12,00
2,00
-10,00
100,00
6
4,00
1,50
10,00
5,00
-5,00
25,00
7
3,00
1,50
6,00
5,00
-1,00
1,00
8
2,00
2,00
2,00
8,50
6,50
42,25
9
3,00
2,00
6,00
8,50
2,50
6,25
10
4,00
2,50
10,00
11,00
1,00
1,00
11
2,00
3,00
2,00
12,00
10,00
100,00
12
3,00
2,00
6,00
8,50
2,50
6,25
SUMA
405,00
Podobnie jak w przypadku poprzedniego współczynnika korelacji najpierw należy
sprawdzić poziom istotności. Zasada jest identyczna, jak w przypadku r Pearsona
46
,
1
82
,
0
10
42
,
0
)
42
,
0
(
1
2
12
42
,
0
1
2
2
2
−
=
=
−
−
−
−
=
−
−
=
s
s
r
N
r
t
)
1
(
6
1
2
2
−
−
=
∑
n
n
d
r
i
s
42
,
0
)
1
144
(
12
405
*
6
1
)
1
(
6
1
2
2
−
=
−
−
=
−
−
=
∑
n
n
d
r
i
s
Odczytana z tablic rozkładu t wartość krytyczna wynosi (jak poprzednio, gdyż liczba
pomiarów jest taka sama)
2,228
. Bezwzględna wartość t obliczonego jest mniejsza
od t krytycznego, co nie pozwala nam na odrzucenie hipotezy zerowej mówiącej o
braku związku między zmiennymi. . Nie możemy zatem twierdzić, by istniał
związek pomiędzy poziomem stresu, a deklarowanym poziomem nastroju.
W przypadku danych nominalnych związek badany jest przy pomocy współczynników
kontyngencji Fi Yula lub V Cramera.
Dla tablic czteropolowych stosujemy współczynnik Fi:
Dla tablic o większej liczbie pól współczynnik V:
min (w-1:k-1) w ostatnim wzorze oznacza mniejszą z dwóch wartości: liczba wierszy
minus 1 lub liczba kolumn minus 1
Jak widać w oby przypadkach konieczne jest policzenie wartości Chi kwadrat (
2
χ
)
Przed obliczeniem wartości Fi lub V należy zbadać przy pomocy rozkładu chi
kwadrat, czy obliczona wartość jest istotna statystycznie.
Badano, czy istnieje związek pomiędzy płcią a ulubionym sposobem spędzania
wolnego czasu. Uzyskano wyniki:
TV, Komputer
Sport, spacery
Spotkania z
przyjaciółmi
Suma
wiersza
Kobiety
7
8
15
30
Mężczyźni
15
10
5
30
Suma kolumny
25
18
17
60
Chi kwadrat sprawdza, czy istnieje statystycznie istotna różnica pomiędzy
wartościami obserwowanymi (empirycznymi), a oczekiwanymi (teoretycznymi,
wynikającymi z rozkładu prawdopodobieństwa).
Wartości oczekiwane oblicza się mnożąc sumę wiersza i sumę kolumny dla danej
komórki, a następnie dzieląc uzyskany iloczyn przez ogólna liczbę osób w tabeli.
Np. wartość oczekiwana dla pierwszej komórki (komórki a) wynosić będzie:
N
2
χ
ϕ
=
)
1
;
1
min(
2
−
−
=
k
w
N
V
χ
5
,
12
60
25
*
30
)
)(
(
=
=
+
+
+
=
N
d
a
c
b
a
e
a
komórka
o
e
o-e
(o-e)
2
(o-e)
2
/e
a
7,00
12,50
-5,50
30,25
2,42
b
8,00
9,00
-1,00
1,00
0,11
c
15,00
8,50
6,50
42,25
4,97
d
15,00
12,50
2,50
6,25
0,50
e
10,00
9,00
1,00
1,00
0,11
f
5,00
8,50
-3,50
12,25
1,44
SUMA:
9,55
Wartości oczekiwane zostają umieszczone w tabeli, następnie obliczamy różnicę
pomiędzy wartościami oczekiwanymi a obserwowanymi, otrzymaną wartość
podnosimy do kwadratu i dzielimy przez wartość oczekiwaną. Suma obliczonych w
ten sposób wartości to chi kwadrat. (
2
χ
= 9,55)
W pierwszym kroku sprawdzamy, czy otrzymana wartość statystyki testowej jest
wyższa od wartości krytycznej. Tę ostatnia odczytujemy z tablic rozkładu chi kwadrat,
pamiętając, iż liczba stopni swobody jest w tym przypadku zależna od liczby cech i
grup i wynosi:
df= (w-1)(k-1) = (2-1)(3-1) =2
w – liczba wierszy w tabeli z danymi
k – liczba kolumn w tabeli z danymi
Wartość krytyczna chi kwadrat dla df = 2 i dla p = 0,05 wynosi 5,991.
Ponieważ obliczona wartość (9,55) jest większa od wartości krytycznej uznajemy, że
mamy podstawy do odrzucenia hipotezy zerowej mówiącej o braku związku miedzy
zmiennymi.
Możemy zatem przejść do drugiego kroku analizy i obliczyć współczynnik
kontyngencji V Cramera.
Wartość współczynnika V wynosi 0,4 , pomiędzy zmiennymi istnieje stosunkowo
słaby związek i polega on na tym, że panie najchętniej spędzają wolny czas z
przyjaciółmi, a panowie wolą oglądać TV lub surfować po sieci.
40
,
0
)
1
2
(
*
60
55
,
9
)
1
;
1
min(
2
=
−
=
=
−
−
k
w
N
V
χ