Korelacja to związek między zmiennymi - sytuacja, w której zmianom wartości jednej zmiennej towarzyszy zmiana wartości drugiej – skorelowanej z nią zmiennej.

Miarą siły i kierunku oraz kształtu związku jest współczynnik korelacji (dla zmiennych porządkowych i ilościowych) lub współczynnik kontyngencji (dla zmiennych nominalnych).

Do pomiaru siły związku między zmiennymi interwałowymi słuŜyć moŜe współczynnik korelacji r Pearsona. Przyjmuje on wartości do -1 (dla bardzo silnych związków ujemnych) do + 1 (dla bardzo silnych związków dodatnich.

Współczynnik

korelacji

r

Pearsona

to wystandaryzowany współczynnik

kowariancji:

cov xy

=

r

s s

x

y

W praktyce częściej wykorzystujemy inny, bardziej wygodny wzór do obliczania współczynnika korelacji:

NΣ xy − (Σ x)(Σ y)

r =

2

2

2

2

[ NΣ x − (Σ x) ][ NΣ y − (Σ y) ]

Badano, czy istnieje związek między poziomem stresu i agresji (obie zmienne wyraŜono na skali interwałowej). Otrzymane wyniki prezentowane są poniŜej:

stres

agresja

lp

X

Y

X*Y

X2

Y2

1

2,00

1,70

3,40

4,00

2,89

2

3,00

2,20

6,60

9,00

4,84

3

3,00

2,20

6,60

9,00

4,84

4

4,00

3,10

12,40

16,00

9,61

5

5,00

3,80

19,00

25,00

14,44

6

4,00

3,20

12,80

16,00

10,24

7

3,00

2,50

7,50

9,00

6,25

8

2,00

2,70

5,40

4,00

7,29

9

3,00

2,60

7,80

9,00

6,76

10

4,00

3,00

12,00

16,00

9,00

11

2,00

1,70

3,40

4,00

2,89

12

3,00

2,20

6,60

9,00

4,84

SUMA

38,00

30,90

103,50

130,00

83,89

Na podstawie sum kolumn obliczono współczynnik korelacji r Pearsona: Σ

N xy − (Σ x)(Σ y)

r =

=

[

2

NΣ x − (Σ x)2][

2

Σ

N y − (Σ y)2]

12 *103 5

, − 38*30 9

,

=

1

[ 2 *130 − 3

(

)

8 2 * 1

[ 2 *83 8

, 9 − 3

( 0 9

, )2 ]

67 8

,

= 8

,

0 7

116 * 51 8

, 7

Przed rozpoczęciem interpretacji współczynnika korelacji badacz musi równieŜ

dokonać oceny poziomu istotności dla danego współczynnika korelacji. Hipoteza zerowa, którą testujemy , mówi o tym, Ŝe wartość współczynnika korelacji wynosi 0

(czyli nie ma związku między zmiennymi). Graniczny poziom istotności stosowany m.in. w naukach społecznych wynosi 0,05.

Statystyka testowa testowana jest na rozkładzie t Studenta i obliczana jest według wzoru:

N − 2

12 − 2

10

t = r

= 8

,

0 7

= 8

,

0 7

= 5

,

5 8

1

2

− r

1 − 8

,

0 72

,

0 243

Obliczoną statystykę t porównujemy z wartością t krytyczną odczytaną z tablic rozkładu t Studenta. Do odczytania wartości potrzebna jest nam liczba stopni swobody (df), która jest równa df= N-2 = 10.

Odczytana z tablic wartość krytyczna t dla df= 10 i p=0,05 jest równa 2,228.

Hipotezę zerową (r=0) odrzucamy wówczas, gdy spełniony jest warunek: t

≥ t

obl

kryt

Jak widać powyŜej obliczone t =5,58 jest większe od 2,228 , oznacza to, Ŝe moŜemy odrzucić hipotezę zerową, czyli obliczony współczynnik korelacji jest istotny (prawdopodobieństwo popełnienia błędu jest niŜsze od załoŜonego p=0,05).

Gdyby nie udało nam się odrzucić hipotezy zerowej nie moglibyśmy twierdzić, iŜ

między zmiennymi istnieje związek.

W naszym przykładzie moŜemy stwierdzić, iŜ istnieje silny dodatni związek między zmiennymi. Współczynnik determinacji jest równy (0,87)2 = 0,76, czyli zmienne maja 76% wspólnej wariancji.

W przypadku danych porządkowych (gdy korelujemy dwie zmienne porządkowe lub jedną porządkową i jedną interwałową) stosujemy współczynniki dla danych porządkowych np. rs Spearmana.

6

2

∑ d

rs = 1 −

i

n( 2

n − )

1

Sprawdzano, czy istnieje związek pomiędzy poziomem stresu (pomiar interwałowy) a deklarowanym

poziomem

nastroju

(pomiar

porządkowey).

Obie

wartości

porangowano, obliczono róŜnice między rangami i ich kwadrat. Wyniki zaprezentowane są poniŜej.

poziom

stres

nastroju

ranga

ranga

róŜnica rang

lp

X

N

stres

nastrój

d

2

i

di

1

2,00

2,00

2,00

8,50

6,50

42,25

2

3,00

1,50

6,00

5,00

-1,00

1,00

3

3,00

1,00

6,00

2,00

-4,00

16,00

4

4,00

1,00

10,00

2,00

-8,00

64,00

5

5,00

1,00

12,00

2,00

-10,00

100,00

6

4,00

1,50

10,00

5,00

-5,00

25,00

7

3,00

1,50

6,00

5,00

-1,00

1,00

8

2,00

2,00

2,00

8,50

6,50

42,25

9

3,00

2,00

6,00

8,50

2,50

6,25

10

4,00

2,50

10,00

11,00

1,00

1,00

11

2,00

3,00

2,00

12,00

10,00

100,00

12

3,00

2,00

6,00

8,50

2,50

6,25

SUMA

405,00

6

2

∑ di

6 * 405

rs = 1−

= 1−

= − ,

0 42

n( 2

n − )

1

12 1

( 44 − )

1

Podobnie jak w przypadku poprzedniego współczynnika korelacji najpierw naleŜy sprawdzić poziom istotności. Zasada jest identyczna, jak w przypadku r Pearsona N − 2

12 − 2

10

t = rs

= − ,

0 42

= ,

0 42

= − ,

1 46

1

2

− r

1 − (− ,

0 42)2

8

,

0 2

s

Odczytana z tablic rozkładu t wartość krytyczna wynosi (jak poprzednio, gdyŜ liczba pomiarów jest taka sama) 2,228. Bezwzględna wartość t obliczonego jest mniejsza od t krytycznego, co nie pozwala nam na odrzucenie hipotezy zerowej mówiącej o braku związku między zmiennymi. . Nie moŜemy zatem twierdzić, by istniał

związek pomiędzy poziomem stresu, a deklarowanym poziomem nastroju.

W przypadku danych nominalnych związek badany jest przy pomocy współczynników kontyngencji Fi Yula lub V Cramera.

2

χ

Dla tablic czteropolowych stosujemy współczynnik Fi:

ϕ =

N

Dla tablic o większej liczbie pól współczynnik V:

2

V =

χ

N min( w− ;

1 k − )

1

min (w-1:k-1) w ostatnim wzorze oznacza mniejszą z dwóch wartości: liczba wierszy minus 1 lub liczba kolumn minus 1

2

Jak wida

χ

ć w oby przypadkach konieczne jest policzenie wartości Chi kwadrat (

)

Przed obliczeniem wartości Fi lub V naleŜy zbadać przy pomocy rozkładu chi kwadrat, czy obliczona wartość jest istotna statystycznie.

Badano, czy istnieje związek pomiędzy płcią a ulubionym sposobem spędzania wolnego czasu. Uzyskano wyniki:

TV, Komputer

Sport, spacery

Spotkania z

Suma

przyjaciółmi

wiersza

Kobiety

7

8

15

30

MęŜczyźni

15

10

5

30

Suma kolumny

25

18

17

60

Chi kwadrat sprawdza, czy istnieje statystycznie istotna róŜnica pomiędzy wartościami obserwowanymi (empirycznymi), a oczekiwanymi (teoretycznymi, wynikającymi z rozkładu prawdopodobieństwa).

Wartości oczekiwane oblicza się mnoŜąc sumę wiersza i sumę kolumny dla danej komórki, a następnie dzieląc uzyskany iloczyn przez ogólna liczbę osób w tabeli.

Np. wartość oczekiwana dla pierwszej komórki (komórki a) wynosić będzie: ( a + b + c)( a + d )

30 * 25

ea =

=

=12 5

,

N

60

komórka

o

e

o-e

(o-e)2 (o-e)2/e

a

7,00

12,50

-5,50

30,25

2,42

b

8,00

9,00

-1,00

1,00

0,11

c

15,00

8,50

6,50

42,25

4,97

d

15,00

12,50

2,50

6,25

0,50

e

10,00

9,00

1,00

1,00

0,11

f

5,00

8,50

-3,50

12,25

1,44

SUMA:

9,55

Wartości oczekiwane zostają umieszczone w tabeli, następnie obliczamy róŜnicę pomiędzy wartościami oczekiwanymi a obserwowanymi, otrzymaną wartość podnosimy do kwadratu i dzielimy przez wartość oczekiwaną. Suma obliczonych w 2

ten sposób wartości to chi kwadrat. ( χ = 9,55)

W pierwszym kroku sprawdzamy, czy otrzymana wartość statystyki testowej jest wyŜsza od wartości krytycznej. Tę ostatnia odczytujemy z tablic rozkładu chi kwadrat, pamiętając, iŜ liczba stopni swobody jest w tym przypadku zaleŜna od liczby cech i grup i wynosi:

df= (w-1)(k-1) = (2-1)(3-1) =2

w – liczba wierszy w tabeli z danymi

k – liczba kolumn w tabeli z danymi

Wartość krytyczna chi kwadrat dla df = 2 i dla p = 0,05 wynosi 5,991.

PoniewaŜ obliczona wartość (9,55) jest większa od wartości krytycznej uznajemy, Ŝe mamy podstawy do odrzucenia hipotezy zerowej mówiącej o braku związku miedzy zmiennymi.

MoŜemy zatem przejść do drugiego kroku analizy i obliczyć współczynnik kontyngencji V Cramera.

2

χ

5

,

9 5

V =

=

= ,

0 40

N min( w− ;

1 k − )

1

60 * (2 − )

1

Wartość współczynnika V wynosi 0,4 , pomiędzy zmiennymi istnieje stosunkowo słaby związek i polega on na tym, Ŝe panie najchętniej spędzają wolny czas z przyjaciółmi, a panowie wolą oglądać TV lub surfować po sieci.