background image

Wykład 5Miary korelacji 

 

1.  Pomiar korelacji w przypadku dwóch cech nominalnych 
 
Po stwierdzeniu zależności między badanymi cechami (patrz: test nie-
zależności 

2

)  ocenia  się  siłę  oraz  ewentualnie  charakter  (dodatnia, 

ujemna) zależności. W tym zakresie można wykorzystać podane niżej 
miary. 
 
Współczynnik zbieżności Czuprowa

 

 

 

1

1

2

l

k

n

T

T

yx

xy

 

 

Warunki stosowania: 
 Zależność między zmiennymi ma charakter liniowy 
 Dane są ujmowane w tablicy korelacyjnej 
 Zmienne mogą nie być mierzalne sensu stricto 
 
Własności: 

 

Mierzy siłę zależności 

 

Przyjmuje wartości z przedziału [0, 1] 

  Jest symetryczny 

 
 
Współczynnik Cramera

 

 

 

1

,

1

min

2

l

k

n

V

 

 

Własności: 

 

Przyjmuje wartości z przedziału [0, 1] 

 

Może być obliczany na podstawie dowolnej tablicy korelacyjnej (w 
odróżnieniu od kolejnego – patrz niżej) 

 

background image

Współczynnik Yule’a 
 

n

2

 

 

Własności: 

 

Przyjmuje wartości z przedziału [-1, 1] 

  Stosowany jest dla tablicy czterodzielnej 

 
Uwaga
Wartość „0” omawianego współczynnika oznacza, że cechy są nieza-
leżne,  –  „1”  lub  „-1”,  że  istnieje  między  nimi  zależność  funkcyjna. 
Jednak nie należy na podstawie znaku współczynnika wyciągać wnio-
sku o kierunku zależności. Znak współczynnika zależy tutaj od tego w 
jaki  sposób  zostały  uporządkowane  warianty  rozważanych  cech. 
Wniosek:  
W tym wypadku interpretuje się jedynie wartość bezwzględną
 
Współczynnik 

 można też wyrazić wzorem: 

 







d

c

d

b

c

a

b

a

bc

ad

 

 
Krańcowe wartości współczynnika 

 zależą od uszeregowania liczeb-

ności  w  poszczególnych  polach  tablicy  korelacyjnej.  Dlatego  należy 
znaleźć wartości 

max

 oraz 

min

 i skorygować przy ich pomocy wartość 

 wyliczoną według wzoru powyżej. 

 
Współczynniki Cole’a

 

 

  

  

0

,

,

min

0

,

,

min

gdy

gdy

bc

ad

d

a

n

bc

ad

bc

ad

c

b

n

bc

ad

kor

kor

 

 

background image

Współczynnik kontyngencji Pearsona 
 

 

2

2

2

2

1

n

C

 

 

Własności: 

 

Przyjmuje wartości z przedziału [0, 1] 

 

Wartość „0” osiąga w przypadku niezależności cech 

 

Górna wartość uzależniona jest od liczby wierszy i kolumn w tabli-
cy  korelacyjnej  (im  więcej  jest  wierszy  i  kolumn,  tym  wartość  C 
jest większa) 

 
Wniosek: Wartość współczynnika C należy rozpatrywać relatywnie do 
wartości maksymalnej

 
Zatem

 

l

l

C

1

max

gdzie l – liczba kolumn w tablicy kwadratowej 
 
lub

 

2

1

1

max

l

l

k

k

C

 
gdzie kl – odpowiednio: liczba wierszy, liczba kolumn w tablicy ko-

relacyjnej. 

 
Ostatecznie 

 

max

C

C

C

kor

 

 

background image

2.  Pomiar korelacji w przypadku cech porządkowych (współczynniki 

korelacji rang) 

 
Mierzy się siłę korelacji a następnie bada się jej istotność statystyczną. 
Miary korelacji są następujące: 
 
Współczynnik Spearmana 

 

1

6

1

2

1

2

n

n

d

r

n

i

i

d

 

gdzie: d

i

 = y

i

 - x

i

  – różnica rang nadanych poszczególnym cechom, n 

– liczba obserwacji. 
 
Własności: 

 

Stosowany w przypadku uporządkowań tzw. mocnych 

 

Przyjmuje wartości z przedziału [-1, 1] 

 

Wartość bezwzględna określa siłę współwystępowania (zgodności) 
nadanych rang 

  Znak  współczynnika  informuje  o  zgodności  (zbieżności)  lub  nie-

zgodności (rozbieżności) nadanych rang (ocen) 

 
Badanie istotności statystycznej 
 
 Stawia się następujące hipotezy 

0

:

0

:

1

0

d

d

H

H

 

 

 

Współczynnik jest statystycznie nieistotny 

 
Współczynnik jest istotny statystycznie 

 
 Oblicza się wartość testu według następujących wzorów 

 

 Dla n < 10, 

2

1

2

n

r

r

t

d

d

 

 

Dla 

10

n

1

n

r

U

d

 

background image

 Podejmuje  się  decyzję  weryfikacyjną  w  zależności  od  tego,  czy 

empiryczna wartość testu zmieści się w obszarze krytycznym, czy 
też nie. 

 
Współczynnik Kendalla 
 

1

2

1

2

1

2

y

x

b

T

n

n

T

n

n

R

 
gdzie: 

1

2

1

1

i

i

x

w

i

x

x

t

t

T

1

2

1

1

i

i

y

w

i

y

y

t

t

T

i

i

y

x

t

,

–  liczba  rang  powiązanych  w  każdej  i-tej  podgrupie  rang  w 

uszeregowaniu odpowiednio według cechy X i Y
w – liczba podgrup z rangami powiązanymi w zbudowanym uporząd-
kowaniu; 
R – liczba par tych rang, które po uporządkowaniu według pierwszej 
cechy, czyli gdy, dla j > i zachodzi x

j

 

 x

i

, zachowują relację: dla j > i 

zachodzi y

j

 

 y

i

  dla cechy drugiej, kolejno dla każdego j = 1, 2, ..., n

n – liczba jednostek objętych badaniem. 
 
Własności: 

 

Stosowany w przypadku uporządkowań tzw. słabych 

 

Przyjmuje wartości z przedziału [-1, 1] 

 

Wartość bezwzględna określa siłę współwystępowania (zgodności) 
nadanych rang 

 

Znak  współczynnika  informuje  o  zgodności  (zbieżności)  lub  nie-
zgodności (rozbieżności) nadanych rang (ocen) 

 
Dla  uporządkowań  mocnych  współczynnik  korelacji  rang  Kendalla 
przyjmuje postać: 
 

background image

1

2

1

2

n

n

R

a

.

 

 
Badanie istotności statystycznej – analogicznie jw. 
 
3.  Pomiar korelacji w przypadku cech mierzalnych sensu stricto 
 
Współczynnik korelacji liniowej Pearsona 
 
Warunki stosowania: 
 Badana zależność jest liniowa 
 Obie cechy są mierzalne  
 
Formuła obliczeniowa zależy od układu danych.  
 

  Dla danych indywidualnych 

 



n

i

i

n

i

i

n

i

i

i

xy

y

y

x

x

y

y

x

x

r

1

2

1

2

1

 

 

  Dla danych w postaci tablicy korelacyjnej 

 

   

y

S

x

nS

n

y

y

x

x

r

l

j

k

i

ij

j

i

xy



 

1

1

 

 
Własności: 

  Jest symetryczny 

 

Mierzy siłę i kierunek zależności 

 

Przyjmuje wartości z przedziału [-1, 1] 

 

background image

Badanie istotności statystycznej 
 
 Stawia się następujące hipotezy 
 

0

:

0

:

1

0

xy

xy

H

H

 

 

 

Współczynnik jest statystycznie nieistotny 

 
Współczynnik jest istotny statystycznie 

 
 Oblicza się wartość testu według następujących wzorów 

 

 Dla małych prób 

2

1

2

n

r

r

t

xy

xy

 

 

Dla dużych prób 

n

r

r

U

xy

xy

2

1

 

 
 Podejmuje  się  decyzję  weryfikacyjną  w  zależności  od  tego,  czy 

empiryczna wartość testu zmieści się w obszarze krytycznym, czy 
też nie. Obszar krytyczny przyjmuje postać: 

 



,

,

,

,

s

s

t

t

 

lub 

 



,

,

u

u

 
4.  Pomiar  związków  krzywoliniowych.  Wskaźniki  korelacyjne  Pear-

sona 

 
Podstawą  do  oceny  związku  bez  konieczności  zakładania  liniowości 
tego związku jest równość wariancyjna. Gdy bada się wpływ zmiennej 
X na zmienną Y należy rozważyć równość postaci: 

 

 

 

______

2

2

2

y

S

y

S

y

S

i

i

 
gdzie: 

 

k

i

i

i

i

n

y

y

n

y

S

1

.

2

2

1

 

background image

-  wariancja  międzygrupowa,  informująca  o  zróżnicowaniu  cechy  Y

będącym efektem oddziaływania X

 

 

k

i

i

i

i

n

y

S

n

y

S

1

.

2

______

2

1

 

-  wariancja wewnątrzgrupowa, określająca zróżnicowanie  Y wynika-

jące z oddziaływania innych (poza X) czynników. 
 
W oparciu o równość wariancyjną dla zmiennej zależnej wyznacza 

się  wskaźnik  korelacyjny  Pearsona  mierzący  siłę  zależności  Y  od  X
tj.: 

 

 

 

 

 

 

y

S

y

S

y

S

y

S

y

S

y

S

e

i

i

i

yx

2

______

2

2

2

1

 

 
Analogicznie wyznacza się wskaźnik korelacyjny mierzący zależność 
X od Y, tj.: 
 

 

 

 

 

 
 

x

S

x

S

x

S

x

S

x

S

x

S

e

j

j

j

xy

2

______

2

2

2

1

 

 
Wskaźniki korelacyjne przyjmują wartości z przedziału [0, 1]. 
 
Badanie istotności statystycznej 
 
 Stawia się hipotezy 
 

0

:

,

0

:

,

0

:

,

0

:

1

1

0

0

xy

yx

xy

yx

H

H

H

H

 

 
 Stosuje się odpowiedni test statystyczny, tj: 
 

k

n

e

k

e

F

yx

yx

2

2

1

:

1

 

background image

lub 

l

n

e

l

e

F

xy

xy

2

2

1

:

1

 

gdzie: k – liczba wariantów zmiennej X
 

 l – liczba wariantów zmiennej Y

 
 Podejmuje  się  decyzję  weryfikacyjną  wg  znanych  zasad.  Obszar 

krytyczny  jest  w  tym  wypadku  prawostronny,  tj.: 



,

,

1

;

k

n

k

F

odpowiednio 



,

,

1

;

l

n

l

F

 

 
5.  Weryfikacja założenia o liniowości związku między X i Y 
 

Założenia: 

  Dysponujemy danymi odnośnie do wartości i rozkładów empirycz-

nych zmiennych X i Y w postaci tablicy korelacyjnej 

  Chcemy  zweryfikować  hipotezę,  że  zależność  Y  względem  X  jest 

liniowa  

 

Hipotezy:

 

H

0

: Zależność Y względem X jest liniowa 

H

1

: Zależność Y względem X  nie jest liniowa 

 

Test statystyczny: 

k

n

e

k

r

e

F

yx

xy

yx

2

2

2

1

:

2

 

 
Statystyka F, przy założeniu prawdziwości hipotezy zerowej, ma roz-
kład F-Snedecora o k – 2 i n – k stopniach swobody. 
 
Zatem 
 

Decyzja weryfikacyjna: 

Jeżeli 

 

k

n

k

F

F

,

2

,

, to hipotezę zerową odrzucamy i stwierdzany, 

że badany związek nie jest liniowy. W przeciwnym wypadku, nie ma 

background image

podstaw  do  odrzucenia  H

0

, co oznacza, że nie potwierdziło się przy-

puszczenie o krzywoliniowym charakterze związku. 
 
  Przykłady badania związku cech 
 
1)  Badanie związku między dwiema cechami nominalnymi 
 
Badano związek między paleniem papierosów a zachorowalnością na 
raka  w  grupie 380  osób.  Poniższa  tabela  zawiera  zestawienie  otrzy-
manych wyników. 
 

Palenie  

papierosów 

Zachorowalność 

Ogółem 

Chory 

Zdrowy 

Pali 

240 

10 

250 

Nie pali 

80 

50 

130 

Ogółem 

320 

60 

380 

Należy ocenić istotność statystyczną oraz siłę  związku między bada-
nymi cechami.

 

 
2)  Badanie związku między dwiema cechami porządkowymi 
 
Tabela poniżej przedstawia oceny wystawione przez dział marketingu 
dotyczące lojalności odbiorców oraz wizerunku marek konkurujących 
na pięciu rynkach, na których firma prowadzi działalność. 

 

Rynek 

Ocena lojalności  

w skali od 1 do 5 

Ocena wizerunku ma-

rek konkurencyjnych 

w skali od 1 do 5 



E 









Należy  ocenić, czy oceny działu marketingu dotyczące lojalności od-
biorców  oraz  wizerunku  marek  konkurencyjnych  na  poszczególnych 
rynkach wykazują rozbieżność
? Inaczej mówiąc pytamy, czy opinia o 
spadku stopnia lojalności odbiorców wiąże się z poprawą wizerunku 
marek konkurencyjnych

background image

3)  Badanie  związku  między  dwiema  cechami  mierzalnymi  sensu 

stricto 

 
W  celu  ustalenia  zależności  między  liczbą  braków,  w  sztukach  (Y)  a 
wielkością produkcji części zamiennych (X), w tys. sztuk, w grupie 12 
zakładów  produkcyjnych  wytwarzających  takie  części  wykorzystano 
następujące dane. 
 

x

2,0  1,0  0,8  1,2  3,0  1,6  1,0  2,0  1,8  2,2  2,4  2,0 

y

17 

10 

10 

22 

12 

13 

15 

15 

18 

20 

16 

Należy  wypowiedzieć  się  na  temat  siły  badanego  związku.  Ponadto, 
należy ocenić, czy związek ten jest statystycznie istotny? 
 
4)  Badanie związku między cechą nominalną a cechą mierzalną sensu 

stricto 

 
W  firmie  oferującej  na  rynki  lokalne  soki  owocowe  przeprowadzono 
badanie,  w  którym  zestawiono  zaobserwowane  w  7  dniach  ilości 
sprzedanych opakowań według kolorów
 (patrz, tabela niżej). 
 

Kolor opakowania 

Wielkość sprzedaży 

zielony 

18 

22 

22 

23 

22 

23 

19 

niebieski 

20 

18 

19 

21 

20 

20 

18 

biały 

10 

11 

12 

11 

11 

11 

10 

Pytanie, czy kolor opakowania soku ma wpływ na wielkość sprzedaży