Wykład 5. Miary korelacji
1. Pomiar korelacji w przypadku dwóch cech nominalnych
Po stwierdzeniu zależności między badanymi cechami (patrz: test nie-
zależności
2
) ocenia się siłę oraz ewentualnie charakter (dodatnia,
ujemna) zależności. W tym zakresie można wykorzystać podane niżej
miary.
Współczynnik zbieżności Czuprowa
1
1
2
l
k
n
T
T
yx
xy
Warunki stosowania:
Zależność między zmiennymi ma charakter liniowy
Dane są ujmowane w tablicy korelacyjnej
Zmienne mogą nie być mierzalne sensu stricto
Własności:
Mierzy siłę zależności
Przyjmuje wartości z przedziału [0, 1]
Jest symetryczny
Współczynnik Cramera
1
,
1
min
2
l
k
n
V
Własności:
Przyjmuje wartości z przedziału [0, 1]
Może być obliczany na podstawie dowolnej tablicy korelacyjnej (w
odróżnieniu od kolejnego – patrz niżej)
Współczynnik Yule’a
n
2
Własności:
Przyjmuje wartości z przedziału [-1, 1]
Stosowany jest dla tablicy czterodzielnej
Uwaga,
Wartość „0” omawianego współczynnika oznacza, że cechy są nieza-
leżne, – „1” lub „-1”, że istnieje między nimi zależność funkcyjna.
Jednak nie należy na podstawie znaku współczynnika wyciągać wnio-
sku o kierunku zależności. Znak współczynnika zależy tutaj od tego w
jaki sposób zostały uporządkowane warianty rozważanych cech.
Wniosek:
W tym wypadku interpretuje się jedynie wartość bezwzględną.
Współczynnik
można też wyrazić wzorem:
d
c
d
b
c
a
b
a
bc
ad
Krańcowe wartości współczynnika
zależą od uszeregowania liczeb-
ności w poszczególnych polach tablicy korelacyjnej. Dlatego należy
znaleźć wartości
max
oraz
min
i skorygować przy ich pomocy wartość
wyliczoną według wzoru powyżej.
Współczynniki Cole’a
0
,
,
min
0
,
,
min
gdy
gdy
bc
ad
d
a
n
bc
ad
bc
ad
c
b
n
bc
ad
kor
kor
Współczynnik kontyngencji Pearsona
2
2
2
2
1
n
C
Własności:
Przyjmuje wartości z przedziału [0, 1]
Wartość „0” osiąga w przypadku niezależności cech
Górna wartość uzależniona jest od liczby wierszy i kolumn w tabli-
cy korelacyjnej (im więcej jest wierszy i kolumn, tym wartość C
jest większa)
Wniosek: Wartość współczynnika C należy rozpatrywać relatywnie do
wartości maksymalnej.
Zatem
l
l
C
1
max
,
gdzie l – liczba kolumn w tablicy kwadratowej
lub
2
1
1
max
l
l
k
k
C
.
gdzie k, l – odpowiednio: liczba wierszy, liczba kolumn w tablicy ko-
relacyjnej.
Ostatecznie
max
C
C
C
kor
2. Pomiar korelacji w przypadku cech porządkowych (współczynniki
korelacji rang)
Mierzy się siłę korelacji a następnie bada się jej istotność statystyczną.
Miary korelacji są następujące:
Współczynnik Spearmana
1
6
1
2
1
2
n
n
d
r
n
i
i
d
gdzie: d
i
= y
i
- x
i
– różnica rang nadanych poszczególnym cechom, n
– liczba obserwacji.
Własności:
Stosowany w przypadku uporządkowań tzw. mocnych
Przyjmuje wartości z przedziału [-1, 1]
Wartość bezwzględna określa siłę współwystępowania (zgodności)
nadanych rang
Znak współczynnika informuje o zgodności (zbieżności) lub nie-
zgodności (rozbieżności) nadanych rang (ocen)
Badanie istotności statystycznej
Stawia się następujące hipotezy
0
:
0
:
1
0
d
d
H
H
Współczynnik jest statystycznie nieistotny
Współczynnik jest istotny statystycznie
Oblicza się wartość testu według następujących wzorów
Dla n < 10,
2
1
2
n
r
r
t
d
d
Dla
10
n
,
1
n
r
U
d
Podejmuje się decyzję weryfikacyjną w zależności od tego, czy
empiryczna wartość testu zmieści się w obszarze krytycznym, czy
też nie.
Współczynnik Kendalla
1
2
1
2
1
2
y
x
b
T
n
n
T
n
n
R
,
gdzie:
1
2
1
1
i
i
x
w
i
x
x
t
t
T
;
1
2
1
1
i
i
y
w
i
y
y
t
t
T
;
i
i
y
x
t
t ,
– liczba rang powiązanych w każdej i-tej podgrupie rang w
uszeregowaniu odpowiednio według cechy X i Y;
w – liczba podgrup z rangami powiązanymi w zbudowanym uporząd-
kowaniu;
R – liczba par tych rang, które po uporządkowaniu według pierwszej
cechy, czyli gdy, dla j > i zachodzi x
j
x
i
, zachowują relację: dla j > i
zachodzi y
j
y
i
dla cechy drugiej, kolejno dla każdego j = 1, 2, ..., n;
n – liczba jednostek objętych badaniem.
Własności:
Stosowany w przypadku uporządkowań tzw. słabych
Przyjmuje wartości z przedziału [-1, 1]
Wartość bezwzględna określa siłę współwystępowania (zgodności)
nadanych rang
Znak współczynnika informuje o zgodności (zbieżności) lub nie-
zgodności (rozbieżności) nadanych rang (ocen)
Dla uporządkowań mocnych współczynnik korelacji rang Kendalla
przyjmuje postać:
1
2
1
2
n
n
R
a
.
Badanie istotności statystycznej – analogicznie jw.
3. Pomiar korelacji w przypadku cech mierzalnych sensu stricto
Współczynnik korelacji liniowej Pearsona
Warunki stosowania:
Badana zależność jest liniowa
Obie cechy są mierzalne
Formuła obliczeniowa zależy od układu danych.
Dla danych indywidualnych
n
i
i
n
i
i
n
i
i
i
xy
y
y
x
x
y
y
x
x
r
1
2
1
2
1
Dla danych w postaci tablicy korelacyjnej
y
S
x
nS
n
y
y
x
x
r
l
j
k
i
ij
j
i
xy
1
1
Własności:
Jest symetryczny
Mierzy siłę i kierunek zależności
Przyjmuje wartości z przedziału [-1, 1]
Badanie istotności statystycznej
Stawia się następujące hipotezy
0
:
0
:
1
0
xy
xy
H
H
Współczynnik jest statystycznie nieistotny
Współczynnik jest istotny statystycznie
Oblicza się wartość testu według następujących wzorów
Dla małych prób
2
1
2
n
r
r
t
xy
xy
Dla dużych prób
n
r
r
U
xy
xy
2
1
Podejmuje się decyzję weryfikacyjną w zależności od tego, czy
empiryczna wartość testu zmieści się w obszarze krytycznym, czy
też nie. Obszar krytyczny przyjmuje postać:
,
,
,
,
s
s
t
t
lub
,
,
u
u
.
4. Pomiar związków krzywoliniowych. Wskaźniki korelacyjne Pear-
sona
Podstawą do oceny związku bez konieczności zakładania liniowości
tego związku jest równość wariancyjna. Gdy bada się wpływ zmiennej
X na zmienną Y należy rozważyć równość postaci:
______
2
2
2
y
S
y
S
y
S
i
i
,
gdzie:
k
i
i
i
i
n
y
y
n
y
S
1
.
2
2
1
- wariancja międzygrupowa, informująca o zróżnicowaniu cechy Y,
będącym efektem oddziaływania X,
k
i
i
i
i
n
y
S
n
y
S
1
.
2
______
2
1
- wariancja wewnątrzgrupowa, określająca zróżnicowanie Y wynika-
jące z oddziaływania innych (poza X) czynników.
W oparciu o równość wariancyjną dla zmiennej zależnej wyznacza
się wskaźnik korelacyjny Pearsona mierzący siłę zależności Y od X,
tj.:
y
S
y
S
y
S
y
S
y
S
y
S
e
i
i
i
yx
2
______
2
2
2
1
Analogicznie wyznacza się wskaźnik korelacyjny mierzący zależność
X od Y, tj.:
x
S
x
S
x
S
x
S
x
S
x
S
e
j
j
j
xy
2
______
2
2
2
1
Wskaźniki korelacyjne przyjmują wartości z przedziału [0, 1].
Badanie istotności statystycznej
Stawia się hipotezy
0
:
,
0
:
,
0
:
,
0
:
1
1
0
0
xy
yx
xy
yx
H
H
H
H
Stosuje się odpowiedni test statystyczny, tj:
k
n
e
k
e
F
yx
yx
2
2
1
:
1
lub
l
n
e
l
e
F
xy
xy
2
2
1
:
1
,
gdzie: k – liczba wariantów zmiennej X,
l – liczba wariantów zmiennej Y.
Podejmuje się decyzję weryfikacyjną wg znanych zasad. Obszar
krytyczny jest w tym wypadku prawostronny, tj.:
,
,
1
;
k
n
k
F
,
odpowiednio
,
,
1
;
l
n
l
F
5. Weryfikacja założenia o liniowości związku między X i Y
Założenia:
Dysponujemy danymi odnośnie do wartości i rozkładów empirycz-
nych zmiennych X i Y w postaci tablicy korelacyjnej
Chcemy zweryfikować hipotezę, że zależność Y względem X jest
liniowa
Hipotezy:
H
0
: Zależność Y względem X jest liniowa
H
1
: Zależność Y względem X nie jest liniowa
Test statystyczny:
k
n
e
k
r
e
F
yx
xy
yx
2
2
2
1
:
2
Statystyka F, przy założeniu prawdziwości hipotezy zerowej, ma roz-
kład F-Snedecora o k – 2 i n – k stopniach swobody.
Zatem
Decyzja weryfikacyjna:
Jeżeli
k
n
k
F
F
,
2
,
, to hipotezę zerową odrzucamy i stwierdzany,
że badany związek nie jest liniowy. W przeciwnym wypadku, nie ma
podstaw do odrzucenia H
0
, co oznacza, że nie potwierdziło się przy-
puszczenie o krzywoliniowym charakterze związku.
Przykłady badania związku cech
1) Badanie związku między dwiema cechami nominalnymi
Badano związek między paleniem papierosów a zachorowalnością na
raka w grupie 380 osób. Poniższa tabela zawiera zestawienie otrzy-
manych wyników.
Palenie
papierosów
Zachorowalność
Ogółem
Chory
Zdrowy
Pali
240
10
250
Nie pali
80
50
130
Ogółem
320
60
380
Należy ocenić istotność statystyczną oraz siłę związku między bada-
nymi cechami.
2) Badanie związku między dwiema cechami porządkowymi
Tabela poniżej przedstawia oceny wystawione przez dział marketingu
dotyczące lojalności odbiorców oraz wizerunku marek konkurujących
na pięciu rynkach, na których firma prowadzi działalność.
Rynek
Ocena lojalności
w skali od 1 do 5
Ocena wizerunku ma-
rek konkurencyjnych
w skali od 1 do 5
A
B
C
D
E
1
5
3
2
4
4
1
3
5
2
Należy ocenić, czy oceny działu marketingu dotyczące lojalności od-
biorców oraz wizerunku marek konkurencyjnych na poszczególnych
rynkach wykazują rozbieżność? Inaczej mówiąc pytamy, czy opinia o
spadku stopnia lojalności odbiorców wiąże się z poprawą wizerunku
marek konkurencyjnych?
3) Badanie związku między dwiema cechami mierzalnymi sensu
stricto
W celu ustalenia zależności między liczbą braków, w sztukach (Y) a
wielkością produkcji części zamiennych (X), w tys. sztuk, w grupie 12
zakładów produkcyjnych wytwarzających takie części wykorzystano
następujące dane.
x
i
2,0 1,0 0,8 1,2 3,0 1,6 1,0 2,0 1,8 2,2 2,4 2,0
y
i
17
10
6
10
22
12
13
15
15
18
20
16
Należy wypowiedzieć się na temat siły badanego związku. Ponadto,
należy ocenić, czy związek ten jest statystycznie istotny?
4) Badanie związku między cechą nominalną a cechą mierzalną sensu
stricto
W firmie oferującej na rynki lokalne soki owocowe przeprowadzono
badanie, w którym zestawiono zaobserwowane w 7 dniach ilości
sprzedanych opakowań według kolorów (patrz, tabela niżej).
Kolor opakowania
Wielkość sprzedaży
zielony
18
22
22
23
22
23
19
niebieski
20
18
19
21
20
20
18
biały
10
11
12
11
11
11
10
Pytanie, czy kolor opakowania soku ma wpływ na wielkość sprzedaży?