background image

Korelacja  to  związek  między  zmiennymi  -  sytuacja,  w  której  zmianom  wartości 
jednej zmiennej towarzyszy zmiana wartości drugiej – skorelowanej z nią zmiennej. 
Miarą  siły  i  kierunku  oraz  kształtu  związku  jest  współczynnik  korelacji  (dla 
zmiennych  porządkowych  i  ilościowych)  lub  współczynnik  kontyngencji  (dla 
zmiennych nominalnych). 
Do  pomiaru  siły  związku  między  zmiennymi  interwałowymi  słuŜyć  moŜe 
współczynnik  korelacji  r  Pearsona.  Przyjmuje  on  wartości  do  -1  (dla  bardzo  silnych 
związków ujemnych) do + 1 (dla bardzo silnych związków dodatnich. 
 
Współczynnik 

korelacji 

Pearsona 

to  wystandaryzowany  współczynnik 

kowariancji: 
 
 
 
 
 
W praktyce częściej wykorzystujemy inny, bardziej wygodny wzór do obliczania 
współczynnika korelacji: 
 
 
 
 
 
 
 
Badano, czy istnieje związek między poziomem stresu i agresji (obie zmienne 
wyraŜono na skali interwałowej). Otrzymane wyniki prezentowane są poniŜej: 

 

  

stres 

agresja    

  

  

lp 

X*Y 

X

2

 

Y

2

 

  

  

  

  

  

  

2,00 

1,70 

3,40 

4,00 

2,89 

3,00 

2,20 

6,60 

9,00 

4,84 

3,00 

2,20 

6,60 

9,00 

4,84 

4,00 

3,10 

12,40 

16,00 

9,61 

5,00 

3,80 

19,00 

25,00 

14,44 

4,00 

3,20 

12,80 

16,00 

10,24 

3,00 

2,50 

7,50 

9,00 

6,25 

2,00 

2,70 

5,40 

4,00 

7,29 

3,00 

2,60 

7,80 

9,00 

6,76 

10 

4,00 

3,00 

12,00 

16,00 

9,00 

11 

2,00 

1,70 

3,40 

4,00 

2,89 

12 

3,00 

2,20 

6,60 

9,00 

4,84 

  

  

  

  

  

  

SUMA 

38,00 

30,90 

103,50 

130,00 

83,89 

y

x

xy

s

s

r

cov

=

]

)

(

][

)

(

[

)

)(

(

2

2

2

2

y

y

N

x

x

N

y

x

xy

N

r

Σ

Σ

Σ

Σ

Σ

Σ

Σ

=

background image

Na podstawie sum kolumn obliczono współczynnik korelacji r Pearsona

 
 
 
 
 
 
 
 
 
 
 
 
 
 

Przed  rozpoczęciem  interpretacji  współczynnika  korelacji  badacz  musi  równieŜ 
dokonać  oceny  poziomu  istotności  dla  danego  współczynnika  korelacji.  Hipoteza 
zerowa,  którą  testujemy  ,  mówi  o  tym,  Ŝe  wartość  współczynnika  korelacji  wynosi  0 
(czyli  nie  ma  związku  między  zmiennymi).  Graniczny  poziom  istotności  stosowany 
m.in. w naukach społecznych wynosi 0,05.  
Statystyka  testowa  testowana  jest  na  rozkładzie  t  Studenta  i  obliczana  jest  według 
wzoru: 
 

58

,

5

243

,

0

10

87

,

0

87

,

0

1

2

12

87

,

0

1

2

2

2

=

=

=

=

r

N

r

t

 

 

Obliczoną  statystykę  t  porównujemy  z  wartością  t  krytyczną  odczytaną  z  tablic 
rozkładu  t  Studenta.  Do  odczytania  wartości    potrzebna  jest  nam  liczba  stopni 

swobody (df), która jest równa 

df= N-2 = 10.

  

Odczytana z tablic wartość krytyczna t dla df= 10 i p=0,05 jest równa 

2,228

Hipotezę zerową (r=0) odrzucamy wówczas, gdy  spełniony jest warunek: 
 

kryt

obl

t

t

 

Jak widać powyŜej obliczone t =5,58 jest większe od 2,228 , oznacza to, Ŝe moŜemy 
odrzucić  hipotezę  zerową,  czyli  obliczony  współczynnik  korelacji  jest  istotny 
(prawdopodobieństwo popełnienia błędu jest niŜsze od załoŜonego p=0,05).   
Gdyby  nie  udało  nam  się  odrzucić  hipotezy  zerowej  nie  moglibyśmy  twierdzić,  iŜ 
między zmiennymi istnieje związek.  
W  naszym  przykładzie  moŜemy  stwierdzić,  iŜ  istnieje  silny  dodatni  związek 
między  zmiennymi.  Współczynnik  determinacji  jest  równy  (0,87)

2

  =  0,76,  czyli 

zmienne maja 76% wspólnej wariancji. 
 
 

87

,

0

87

,

51

*

116

8

,

67

]

)

9

,

30

(

89

,

83

*

12

[

*

)

38

(

130

*

12

[

9

,

30

*

38

5

,

103

*

12

]

)

(

][

)

(

[

)

)(

(

2

2

2

2

2

2

=

=

=

Σ

Σ

Σ

Σ

Σ

Σ

Σ

=

y

y

N

x

x

N

y

x

xy

N

r

background image

W  przypadku  danych  porządkowych  (gdy  korelujemy  dwie  zmienne  porządkowe  lub 
jedną  porządkową  i  jedną  interwałową)  stosujemy  współczynniki  dla  danych 
porządkowych np.

 r

s

 Spearmana. 

 
 

 
 
 
 
Sprawdzano, czy istnieje związek pomiędzy poziomem stresu (pomiar interwałowy) a 
deklarowanym 

poziomem 

nastroju 

(pomiar 

porządkowey). 

Obie 

wartości 

porangowano,  obliczono  róŜnice  między  rangami  i  ich  kwadrat.  Wyniki 
zaprezentowane są poniŜej. 

  

stres 

poziom 
nastroju 

ranga 

ranga 

Ŝ

nica rang 

lp 

stres 

nastrój 

d

i

 

d

i

2

 

  

  

  

  

  

  

  

2,00 

2,00 

2,00 

8,50 

6,50 

42,25 

3,00 

1,50 

6,00 

5,00 

-1,00 

1,00 

3,00 

1,00 

6,00 

2,00 

-4,00 

16,00 

4,00 

1,00 

10,00 

2,00 

-8,00 

64,00 

5,00 

1,00 

12,00 

2,00 

-10,00 

100,00 

4,00 

1,50 

10,00 

5,00 

-5,00 

25,00 

3,00 

1,50 

6,00 

5,00 

-1,00 

1,00 

2,00 

2,00 

2,00 

8,50 

6,50 

42,25 

3,00 

2,00 

6,00 

8,50 

2,50 

6,25 

10 

4,00 

2,50 

10,00 

11,00 

1,00 

1,00 

11 

2,00 

3,00 

2,00 

12,00 

10,00 

100,00 

12 

3,00 

2,00 

6,00 

8,50 

2,50 

6,25 

  

  

  

  

  

  

  

SUMA    

  

  

  

  

405,00 

 
 
 
 
 
 
 
Podobnie jak w przypadku poprzedniego współczynnika korelacji najpierw naleŜy 
sprawdzić poziom istotności. Zasada jest identyczna, jak w przypadku r Pearsona 
 

46

,

1

82

,

0

10

42

,

0

)

42

,

0

(

1

2

12

42

,

0

1

2

2

2

=

=

=

=

s

s

r

N

r

t

 

)

1

(

6

1

2

2

=

n

n

d

r

i

s

42

,

0

)

1

144

(

12

405

*

6

1

)

1

(

6

1

2

2

=

=

=

n

n

d

r

i

s

background image

Odczytana z tablic rozkładu t wartość  krytyczna wynosi (jak poprzednio, gdyŜ liczba 

pomiarów  jest  taka  sama) 

2,228

.  Bezwzględna  wartość  t  obliczonego  jest  mniejsza 

od t krytycznego, co nie pozwala nam na odrzucenie hipotezy zerowej mówiącej o 
braku  związku  między  zmiennymi.  .  Nie  moŜemy  zatem  twierdzić,  by  istniał 
związek pomiędzy poziomem stresu, a deklarowanym poziomem nastroju.  
 
 
W przypadku danych nominalnych związek badany jest przy pomocy współczynników 
kontyngencji Fi Yula lub V Cramera.  
Dla tablic czteropolowych stosujemy współczynnik Fi: 
 
 
Dla tablic o większej liczbie pól współczynnik V: 
 
 
 
min (w-1:k-1)
 w ostatnim wzorze oznacza mniejszą z dwóch wartości: liczba wierszy 
minus 1 lub liczba kolumn minus 1 

Jak widać w oby przypadkach konieczne jest policzenie wartości Chi kwadrat (

2

χ

)

 

Przed  obliczeniem  wartości  Fi  lub  V  naleŜy  zbadać  przy  pomocy  rozkładu  chi 
kwadrat, czy obliczona wartość jest istotna statystycznie
 
Badano, czy istnieje związek pomiędzy płcią a ulubionym sposobem spędzania 
wolnego czasu. Uzyskano wyniki: 
 
 

TV, Komputer 

Sport, spacery 

Spotkania z 
przyjaciółmi 

Suma 
wiersza 

Kobiety 

15 

30 

MęŜczyźni 

15 

10 

30 

Suma kolumny 

25 

18 

17 

60 

 
Chi  kwadrat  sprawdza,  czy  istnieje  statystycznie  istotna  róŜnica  pomiędzy 
wartościami  obserwowanymi  (empirycznymi),  a  oczekiwanymi  (teoretycznymi, 
wynikającymi z rozkładu prawdopodobieństwa).  
 
Wartości  oczekiwane  oblicza  się  mnoŜąc  sumę  wiersza    i  sumę  kolumny  dla  danej 
komórki, a następnie dzieląc uzyskany iloczyn przez ogólna liczbę osób w tabeli. 
 
Np. wartość oczekiwana dla pierwszej komórki (komórki a) wynosić będzie: 
 
 
 
 
 
 

N

2

χ

ϕ

=

)

1

;

1

min(

2

=

k

w

N

V

χ

5

,

12

60

25

*

30

)

)(

(

=

=

+

+

+

=

N

d

a

c

b

a

e

a

background image

komórka 

o-e 

(o-e)

2

  (o-e)

2

/e 

7,00 

12,50 

-5,50 

30,25 

2,42 

8,00 

9,00 

-1,00 

1,00 

0,11 

15,00 

8,50 

6,50 

42,25 

4,97 

15,00 

12,50 

2,50 

6,25 

0,50 

10,00 

9,00 

1,00 

1,00 

0,11 

5,00 

8,50 

-3,50 

12,25 

1,44 

  

  

  

  

  

  

  

  

  

  

SUMA: 

9,55 

 
Wartości  oczekiwane  zostają  umieszczone  w  tabeli,  następnie  obliczamy  róŜnicę 
pomiędzy  wartościami  oczekiwanymi  a  obserwowanymi,  otrzymaną  wartość 
podnosimy  do  kwadratu  i  dzielimy  przez  wartość  oczekiwaną.  Suma  obliczonych  w 

ten sposób wartości to chi kwadrat. (

2

χ

 = 9,55) 

 
W  pierwszym  kroku  sprawdzamy,  czy  otrzymana  wartość  statystyki  testowej  jest 
wyŜsza od wartości krytycznej. Tę ostatnia odczytujemy z tablic rozkładu chi kwadrat, 
pamiętając,  iŜ  liczba  stopni  swobody  jest  w  tym  przypadku  zaleŜna  od  liczby  cech  i 
grup i wynosi: 

df= (w-1)(k-1) = (2-1)(3-1) =2 

 

w – liczba wierszy w tabeli z danymi 
k – liczba kolumn w tabeli z danymi 

 

Wartość krytyczna chi kwadrat dla df = 2 i dla p = 0,05 wynosi 5,991. 
PoniewaŜ obliczona wartość (9,55) jest większa od wartości krytycznej uznajemy, Ŝe 
mamy podstawy do odrzucenia hipotezy zerowej mówiącej o braku związku miedzy 
zmiennymi.  
MoŜemy  zatem  przejść  do  drugiego  kroku  analizy  i  obliczyć  współczynnik 
kontyngencji V Cramera. 
 
 
 
 
 
 
 
Wartość  współczynnika  V  wynosi  0,4  ,  pomiędzy  zmiennymi  istnieje  stosunkowo 
słaby  związek  i  polega  on  na  tym,  Ŝe  panie  najchętniej  spędzają  wolny  czas  z 
przyjaciółmi, a panowie wolą oglądać TV lub surfować po sieci.  

40

,

0

)

1

2

(

*

60

55

,

9

)

1

;

1

min(

2

=

=

=

k

w

N

V

χ