Korelacja to związek między zmiennymi - sytuacja, w której zmianom wartości jednej zmiennej towarzyszy zmiana wartości drugiej – skorelowanej z nią zmiennej.
Miarą siły i kierunku oraz kształtu związku jest współczynnik korelacji (dla zmiennych porządkowych i ilościowych) lub współczynnik kontyngencji (dla zmiennych nominalnych).
Do pomiaru siły związku między zmiennymi interwałowymi służyć może współczynnik korelacji r Pearsona. Przyjmuje on wartości do -1 (dla bardzo silnych związków ujemnych) do + 1 (dla bardzo silnych związków dodatnich.
Współczynnik
korelacji
r
Pearsona
to wystandaryzowany współczynnik
kowariancji:
cov xy
=
r
s s
x
y
W praktyce częściej wykorzystujemy inny, bardziej wygodny wzór do obliczania współczynnika korelacji:
NΣ xy − (Σ x)(Σ y)
r =
2
2
2
2
[ NΣ x − (Σ x) ][ NΣ y − (Σ y) ]
Badano, czy istnieje związek między poziomem stresu i agresji (obie zmienne wyrażono na skali interwałowej). Otrzymane wyniki prezentowane są poniżej:
stres
agresja
lp
X
Y
X*Y
X2
Y2
1
2,00
1,70
3,40
4,00
2,89
2
3,00
2,20
6,60
9,00
4,84
3
3,00
2,20
6,60
9,00
4,84
4
4,00
3,10
12,40
16,00
9,61
5
5,00
3,80
19,00
25,00
14,44
6
4,00
3,20
12,80
16,00
10,24
7
3,00
2,50
7,50
9,00
6,25
8
2,00
2,70
5,40
4,00
7,29
9
3,00
2,60
7,80
9,00
6,76
10
4,00
3,00
12,00
16,00
9,00
11
2,00
1,70
3,40
4,00
2,89
12
3,00
2,20
6,60
9,00
4,84
SUMA
38,00
30,90
103,50
130,00
83,89
Na podstawie sum kolumn obliczono współczynnik korelacji r Pearsona: Σ
N xy − (Σ x)(Σ y)
r =
=
[
2
NΣ x − (Σ x)2][
2
Σ
N y − (Σ y)2]
12 *103 5
, − 38*30 9
,
=
1
[ 2 *130 − 3
(
)
8 2 * 1
[ 2 *83 8
, 9 − 3
( 0 9
, )2 ]
67 8
,
= 8
,
0 7
116 * 51 8
, 7
Przed rozpoczęciem interpretacji współczynnika korelacji badacz musi również
dokonać oceny poziomu istotności dla danego współczynnika korelacji. Hipoteza zerowa, którą testujemy , mówi o tym, że wartość współczynnika korelacji wynosi 0
(czyli nie ma związku między zmiennymi). Graniczny poziom istotności stosowany m.in. w naukach społecznych wynosi 0,05.
Statystyka testowa testowana jest na rozkładzie t Studenta i obliczana jest według wzoru:
N − 2
12 − 2
10
t = r
= 8
,
0 7
= 8
,
0 7
= 5
,
5 8
1
2
− r
1 − 8
,
0 72
,
0 243
Obliczoną statystykę t porównujemy z wartością t krytyczną odczytaną z tablic rozkładu t Studenta. Do odczytania wartości potrzebna jest nam liczba stopni swobody (df), która jest równa df= N-2 = 10.
Odczytana z tablic wartość krytyczna t dla df= 10 i p=0,05 jest równa 2,228.
Hipotezę zerową (r=0) odrzucamy wówczas, gdy spełniony jest warunek: t
≥ t
obl
kryt
Jak widać powyżej obliczone t =5,58 jest większe od 2,228 , oznacza to, że możemy odrzucić hipotezę zerową, czyli obliczony współczynnik korelacji jest istotny (prawdopodobieństwo popełnienia błędu jest niższe od założonego p=0,05).
Gdyby nie udało nam się odrzucić hipotezy zerowej nie moglibyśmy twierdzić, iż
między zmiennymi istnieje związek.
W naszym przykładzie możemy stwierdzić, iż istnieje silny dodatni związek między zmiennymi. Współczynnik determinacji jest równy (0,87)2 = 0,76, czyli zmienne maja 76% wspólnej wariancji.
W przypadku danych porządkowych (gdy korelujemy dwie zmienne porządkowe lub jedną porządkową i jedną interwałową) stosujemy współczynniki dla danych porządkowych np. rs Spearmana.
6
2
∑ d
rs = 1 −
i
n( 2
n − )
1
Sprawdzano, czy istnieje związek pomiędzy poziomem stresu (pomiar interwałowy) a deklarowanym
poziomem
nastroju
(pomiar
porządkowey).
Obie
wartości
porangowano, obliczono różnice między rangami i ich kwadrat. Wyniki zaprezentowane są poniżej.
poziom
stres
nastroju
ranga
ranga
różnica rang
lp
X
N
stres
nastrój
d
2
i
di
1
2,00
2,00
2,00
8,50
6,50
42,25
2
3,00
1,50
6,00
5,00
-1,00
1,00
3
3,00
1,00
6,00
2,00
-4,00
16,00
4
4,00
1,00
10,00
2,00
-8,00
64,00
5
5,00
1,00
12,00
2,00
-10,00
100,00
6
4,00
1,50
10,00
5,00
-5,00
25,00
7
3,00
1,50
6,00
5,00
-1,00
1,00
8
2,00
2,00
2,00
8,50
6,50
42,25
9
3,00
2,00
6,00
8,50
2,50
6,25
10
4,00
2,50
10,00
11,00
1,00
1,00
11
2,00
3,00
2,00
12,00
10,00
100,00
12
3,00
2,00
6,00
8,50
2,50
6,25
SUMA
405,00
6
2
∑ di
6 * 405
rs = 1−
= 1−
= − ,
0 42
n( 2
n − )
1
12 1
( 44 − )
1
Podobnie jak w przypadku poprzedniego współczynnika korelacji najpierw należy sprawdzić poziom istotności. Zasada jest identyczna, jak w przypadku r Pearsona N − 2
12 − 2
10
t = rs
= − ,
0 42
= ,
0 42
= − ,
1 46
1
2
− r
1 − (− ,
0 42)2
8
,
0 2
s
Odczytana z tablic rozkładu t wartość krytyczna wynosi (jak poprzednio, gdyż liczba pomiarów jest taka sama) 2,228. Bezwzględna wartość t obliczonego jest mniejsza od t krytycznego, co nie pozwala nam na odrzucenie hipotezy zerowej mówiącej o braku związku między zmiennymi. . Nie możemy zatem twierdzić, by istniał
związek pomiędzy poziomem stresu, a deklarowanym poziomem nastroju.
W przypadku danych nominalnych związek badany jest przy pomocy współczynników kontyngencji Fi Yula lub V Cramera.
2
χ
Dla tablic czteropolowych stosujemy współczynnik Fi:
ϕ =
N
Dla tablic o większej liczbie pól współczynnik V:
2
V =
χ
N min( w− ;
1 k − )
1
min (w-1:k-1) w ostatnim wzorze oznacza mniejszą z dwóch wartości: liczba wierszy minus 1 lub liczba kolumn minus 1
2
Jak wida
χ
ć w oby przypadkach konieczne jest policzenie wartości Chi kwadrat (
)
Przed obliczeniem wartości Fi lub V należy zbadać przy pomocy rozkładu chi kwadrat, czy obliczona wartość jest istotna statystycznie.
Badano, czy istnieje związek pomiędzy płcią a ulubionym sposobem spędzania wolnego czasu. Uzyskano wyniki:
TV, Komputer
Sport, spacery
Spotkania z
Suma
przyjaciółmi
wiersza
Kobiety
7
8
15
30
Mężczyźni
15
10
5
30
Suma kolumny
25
18
17
60
Chi kwadrat sprawdza, czy istnieje statystycznie istotna różnica pomiędzy wartościami obserwowanymi (empirycznymi), a oczekiwanymi (teoretycznymi, wynikającymi z rozkładu prawdopodobieństwa).
Wartości oczekiwane oblicza się mnożąc sumę wiersza i sumę kolumny dla danej komórki, a następnie dzieląc uzyskany iloczyn przez ogólna liczbę osób w tabeli.
Np. wartość oczekiwana dla pierwszej komórki (komórki a) wynosić będzie: ( a + b + c)( a + d )
30 * 25
ea =
=
=12 5
,
N
60
o
e
o-e
(o-e)2 (o-e)2/e
a
7,00
12,50
-5,50
30,25
2,42
b
8,00
9,00
-1,00
1,00
0,11
c
15,00
8,50
6,50
42,25
4,97
d
15,00
12,50
2,50
6,25
0,50
e
10,00
9,00
1,00
1,00
0,11
f
5,00
8,50
-3,50
12,25
1,44
SUMA:
9,55
Wartości oczekiwane zostają umieszczone w tabeli, następnie obliczamy różnicę pomiędzy wartościami oczekiwanymi a obserwowanymi, otrzymaną wartość podnosimy do kwadratu i dzielimy przez wartość oczekiwaną. Suma obliczonych w 2
ten sposób wartości to chi kwadrat. ( χ = 9,55)
W pierwszym kroku sprawdzamy, czy otrzymana wartość statystyki testowej jest wyższa od wartości krytycznej. Tę ostatnia odczytujemy z tablic rozkładu chi kwadrat, pamiętając, iż liczba stopni swobody jest w tym przypadku zależna od liczby cech i grup i wynosi:
df= (w-1)(k-1) = (2-1)(3-1) =2
w – liczba wierszy w tabeli z danymi
k – liczba kolumn w tabeli z danymi
Wartość krytyczna chi kwadrat dla df = 2 i dla p = 0,05 wynosi 5,991.
Ponieważ obliczona wartość (9,55) jest większa od wartości krytycznej uznajemy, że mamy podstawy do odrzucenia hipotezy zerowej mówiącej o braku związku miedzy zmiennymi.
Możemy zatem przejść do drugiego kroku analizy i obliczyć współczynnik kontyngencji V Cramera.
2
χ
5
,
9 5
V =
=
= ,
0 40
N min( w− ;
1 k − )
1
60 * (2 − )
1
Wartość współczynnika V wynosi 0,4 , pomiędzy zmiennymi istnieje stosunkowo słaby związek i polega on na tym, że panie najchętniej spędzają wolny czas z przyjaciółmi, a panowie wolą oglądać TV lub surfować po sieci.