korelacja stud id 248034 Nieznany

background image

Wykład 5. Miary korelacji

1. Pomiar korelacji w przypadku dwóch cech nominalnych

Po stwierdzeniu zależności między badanymi cechami (patrz: test nie-
zależności

2

) ocenia się siłę oraz ewentualnie charakter (dodatnia,

ujemna) zależności. W tym zakresie można wykorzystać podane niżej
miary.

Współczynnik zbieżności Czuprowa

 

1

1

2

l

k

n

T

T

yx

xy

Warunki stosowania:
 Zależność między zmiennymi ma charakter liniowy
 Dane są ujmowane w tablicy korelacyjnej
 Zmienne mogą nie być mierzalne sensu stricto

Własności:

Mierzy siłę zależności

Przyjmuje wartości z przedziału [0, 1]

Jest symetryczny



Współczynnik Cramera

1

,

1

min

2

l

k

n

V

Własności:

Przyjmuje wartości z przedziału [0, 1]

Może być obliczany na podstawie dowolnej tablicy korelacyjnej (w
odróżnieniu od kolejnego – patrz niżej)

background image

Współczynnik Yule’a

n

2

Własności:

Przyjmuje wartości z przedziału [-1, 1]

Stosowany jest dla tablicy czterodzielnej


Uwaga,
Wartość „0” omawianego współczynnika oznacza, że cechy są nieza-
leżne, – „1” lub „-1”, że istnieje między nimi zależność funkcyjna.
Jednak nie należy na podstawie znaku współczynnika wyciągać wnio-
sku o kierunku zależności. Znak współczynnika zależy tutaj od tego w
jaki sposób zostały uporządkowane warianty rozważanych cech.
Wniosek:
W tym wypadku interpretuje się jedynie wartość bezwzględną.

Współczynnik

można też wyrazić wzorem:







d

c

d

b

c

a

b

a

bc

ad


Krańcowe wartości współczynnika

zależą od uszeregowania liczeb-

ności w poszczególnych polach tablicy korelacyjnej. Dlatego należy
znaleźć wartości

max

oraz

min

i skorygować przy ich pomocy wartość

wyliczoną według wzoru powyżej.


Współczynniki Cole’a

  

  

0

,

,

min

0

,

,

min

gdy

gdy

bc

ad

d

a

n

bc

ad

bc

ad

c

b

n

bc

ad

kor

kor

background image

Współczynnik kontyngencji Pearsona

2

2

2

2

1

n

C

Własności:

Przyjmuje wartości z przedziału [0, 1]

Wartość „0” osiąga w przypadku niezależności cech

Górna wartość uzależniona jest od liczby wierszy i kolumn w tabli-
cy korelacyjnej (im więcej jest wierszy i kolumn, tym wartość C
jest większa)


Wniosek: Wartość współczynnika C należy rozpatrywać relatywnie do
wartości maksymalnej
.

Zatem

l

l

C

1

max

,

gdzie l – liczba kolumn w tablicy kwadratowej

lub

2

1

1

max

l

l

k

k

C

.


gdzie k, l – odpowiednio: liczba wierszy, liczba kolumn w tablicy ko-

relacyjnej.


Ostatecznie

max

C

C

C

kor

background image

2. Pomiar korelacji w przypadku cech porządkowych (współczynniki

korelacji rang)


Mierzy się siłę korelacji a następnie bada się jej istotność statystyczną.
Miary korelacji są następujące:

Współczynnik Spearmana

 

1

6

1

2

1

2

n

n

d

r

n

i

i

d

gdzie: d

i

= y

i

- x

i

– różnica rang nadanych poszczególnym cechom, n

– liczba obserwacji.

Własności:

Stosowany w przypadku uporządkowań tzw. mocnych

Przyjmuje wartości z przedziału [-1, 1]

Wartość bezwzględna określa siłę współwystępowania (zgodności)
nadanych rang

Znak współczynnika informuje o zgodności (zbieżności) lub nie-

zgodności (rozbieżności) nadanych rang (ocen)


Badanie istotności statystycznej

 Stawia się następujące hipotezy

0

:

0

:

1

0

d

d

H

H

Współczynnik jest statystycznie nieistotny


Współczynnik jest istotny statystycznie


 Oblicza się wartość testu według następujących wzorów

Dla n < 10,

2

1

2

n

r

r

t

d

d

Dla

10

n

,

1

n

r

U

d

background image

 Podejmuje się decyzję weryfikacyjną w zależności od tego, czy

empiryczna wartość testu zmieści się w obszarze krytycznym, czy
też nie.


Współczynnik Kendalla

1

2

1

2

1

2

y

x

b

T

n

n

T

n

n

R

,


gdzie:

1

2

1

1

i

i

x

w

i

x

x

t

t

T

;

1

2

1

1

i

i

y

w

i

y

y

t

t

T

;

i

i

y

x

t

t ,

– liczba rang powiązanych w każdej i-tej podgrupie rang w

uszeregowaniu odpowiednio według cechy X i Y;
w – liczba podgrup z rangami powiązanymi w zbudowanym uporząd-
kowaniu;
R – liczba par tych rang, które po uporządkowaniu według pierwszej
cechy, czyli gdy, dla j > i zachodzi x

j

x

i

, zachowują relację: dla j > i

zachodzi y

j

y

i

dla cechy drugiej, kolejno dla każdego j = 1, 2, ..., n;

n – liczba jednostek objętych badaniem.

Własności:

Stosowany w przypadku uporządkowań tzw. słabych

Przyjmuje wartości z przedziału [-1, 1]

Wartość bezwzględna określa siłę współwystępowania (zgodności)
nadanych rang

Znak współczynnika informuje o zgodności (zbieżności) lub nie-
zgodności (rozbieżności) nadanych rang (ocen)


Dla uporządkowań mocnych współczynnik korelacji rang Kendalla
przyjmuje postać:

background image

1

2

1

2

n

n

R

a

.


Badanie istotności statystycznej – analogicznie jw.

3. Pomiar korelacji w przypadku cech mierzalnych sensu stricto

Współczynnik korelacji liniowej Pearsona

Warunki stosowania:
 Badana zależność jest liniowa
 Obie cechy są mierzalne

Formuła obliczeniowa zależy od układu danych.

Dla danych indywidualnych



n

i

i

n

i

i

n

i

i

i

xy

y

y

x

x

y

y

x

x

r

1

2

1

2

1

Dla danych w postaci tablicy korelacyjnej

   

y

S

x

nS

n

y

y

x

x

r

l

j

k

i

ij

j

i

xy



 

1

1


Własności:

Jest symetryczny

Mierzy siłę i kierunek zależności

Przyjmuje wartości z przedziału [-1, 1]

background image

Badanie istotności statystycznej

 Stawia się następujące hipotezy

0

:

0

:

1

0

xy

xy

H

H

Współczynnik jest statystycznie nieistotny


Współczynnik jest istotny statystycznie


 Oblicza się wartość testu według następujących wzorów

Dla małych prób

2

1

2

n

r

r

t

xy

xy

Dla dużych prób

n

r

r

U

xy

xy

2

1


 Podejmuje się decyzję weryfikacyjną w zależności od tego, czy

empiryczna wartość testu zmieści się w obszarze krytycznym, czy
też nie. Obszar krytyczny przyjmuje postać:

 



,

,

,

,

s

s

t

t

lub

 



,

,

u

u

.


4. Pomiar związków krzywoliniowych. Wskaźniki korelacyjne Pear-

sona


Podstawą do oceny związku bez konieczności zakładania liniowości
tego związku jest równość wariancyjna. Gdy bada się wpływ zmiennej
X na zmienną Y należy rozważyć równość postaci:

 

 

 

______

2

2

2

y

S

y

S

y

S

i

i

,


gdzie:

 

k

i

i

i

i

n

y

y

n

y

S

1

.

2

2

1

background image

- wariancja międzygrupowa, informująca o zróżnicowaniu cechy Y,

będącym efektem oddziaływania X,

 

 

k

i

i

i

i

n

y

S

n

y

S

1

.

2

______

2

1

- wariancja wewnątrzgrupowa, określająca zróżnicowanie Y wynika-

jące z oddziaływania innych (poza X) czynników.

W oparciu o równość wariancyjną dla zmiennej zależnej wyznacza

się wskaźnik korelacyjny Pearsona mierzący siłę zależności Y od X,
tj.:

 

 

 

 

 

 

y

S

y

S

y

S

y

S

y

S

y

S

e

i

i

i

yx

2

______

2

2

2

1


Analogicznie wyznacza się wskaźnik korelacyjny mierzący zależność
X od Y, tj.:

 

 

 

 

 
 

x

S

x

S

x

S

x

S

x

S

x

S

e

j

j

j

xy

2

______

2

2

2

1


Wskaźniki korelacyjne przyjmują wartości z przedziału [0, 1].

Badanie istotności statystycznej

 Stawia się hipotezy

0

:

,

0

:

,

0

:

,

0

:

1

1

0

0

xy

yx

xy

yx

H

H

H

H


 Stosuje się odpowiedni test statystyczny, tj:

k

n

e

k

e

F

yx

yx

2

2

1

:

1

background image

lub

l

n

e

l

e

F

xy

xy

2

2

1

:

1

,

gdzie: k – liczba wariantów zmiennej X,

l – liczba wariantów zmiennej Y.


 Podejmuje się decyzję weryfikacyjną wg znanych zasad. Obszar

krytyczny jest w tym wypadku prawostronny, tj.:



,

,

1

;

k

n

k

F

,

odpowiednio



,

,

1

;

l

n

l

F


5. Weryfikacja założenia o liniowości związku między X i Y

Założenia:

 Dysponujemy danymi odnośnie do wartości i rozkładów empirycz-

nych zmiennych X i Y w postaci tablicy korelacyjnej

 Chcemy zweryfikować hipotezę, że zależność Y względem X jest

liniowa

Hipotezy:

H

0

: Zależność Y względem X jest liniowa

H

1

: Zależność Y względem X nie jest liniowa

Test statystyczny:

k

n

e

k

r

e

F

yx

xy

yx

2

2

2

1

:

2


Statystyka F, przy założeniu prawdziwości hipotezy zerowej, ma roz-
kład F-Snedecora o k – 2 i n – k stopniach swobody.

Zatem

Decyzja weryfikacyjna:

Jeżeli

 

k

n

k

F

F

,

2

,

, to hipotezę zerową odrzucamy i stwierdzany,

że badany związek nie jest liniowy. W przeciwnym wypadku, nie ma

background image

podstaw do odrzucenia H

0

, co oznacza, że nie potwierdziło się przy-

puszczenie o krzywoliniowym charakterze związku.

 Przykłady badania związku cech

1) Badanie związku między dwiema cechami nominalnymi

Badano związek między paleniem papierosów a zachorowalnością na
raka w grupie 380 osób. Poniższa tabela zawiera zestawienie otrzy-
manych wyników.

Palenie

papierosów

Zachorowalność

Ogółem

Chory

Zdrowy

Pali

240

10

250

Nie pali

80

50

130

Ogółem

320

60

380

Należy ocenić istotność statystyczną oraz siłę związku między bada-
nymi cechami.


2) Badanie związku między dwiema cechami porządkowymi

Tabela poniżej przedstawia oceny wystawione przez dział marketingu
dotyczące lojalności odbiorców oraz wizerunku marek konkurujących
na pięciu rynkach, na których firma prowadzi działalność.

Rynek

Ocena lojalności

w skali od 1 do 5

Ocena wizerunku ma-

rek konkurencyjnych

w skali od 1 do 5

A
B
C

D

E

1
5
3
2
4

4
1
3
5
2

Należy ocenić, czy oceny działu marketingu dotyczące lojalności od-
biorców oraz wizerunku marek konkurencyjnych na poszczególnych
rynkach wykazują rozbieżność
? Inaczej mówiąc pytamy, czy opinia o
spadku stopnia lojalności odbiorców wiąże się z poprawą wizerunku
marek konkurencyjnych
?

background image

3) Badanie związku między dwiema cechami mierzalnymi sensu

stricto


W celu ustalenia zależności między liczbą braków, w sztukach (Y) a
wielkością produkcji części zamiennych (X), w tys. sztuk, w grupie 12
zakładów produkcyjnych wytwarzających takie części wykorzystano
następujące dane.

x

i

2,0 1,0 0,8 1,2 3,0 1,6 1,0 2,0 1,8 2,2 2,4 2,0

y

i

17

10

6

10

22

12

13

15

15

18

20

16

Należy wypowiedzieć się na temat siły badanego związku. Ponadto,
należy ocenić, czy związek ten jest statystycznie istotny?

4) Badanie związku między cechą nominalną a cechą mierzalną sensu

stricto


W firmie oferującej na rynki lokalne soki owocowe przeprowadzono
badanie, w którym zestawiono zaobserwowane w 7 dniach ilości
sprzedanych opakowań według kolorów
(patrz, tabela niżej).

Kolor opakowania

Wielkość sprzedaży

zielony

18

22

22

23

22

23

19

niebieski

20

18

19

21

20

20

18

biały

10

11

12

11

11

11

10

Pytanie, czy kolor opakowania soku ma wpływ na wielkość sprzedaży?


Wyszukiwarka

Podobne podstrony:
8 lect8 2013 stud id 46719 Nieznany (2)
EdM wzmacniacze for stud id 150 Nieznany
Korelacja ZIP6 id 248036 Nieznany
AnFinP W3 2014 stud id 63620 Nieznany (2)
Ekonomia stud id 283921 Nieznany
Korelacja 10 id 248027 Nieznany
5 STATYSTYKA korelacja 1a id 40 Nieznany (2)
Przetargi dla stud id 406614 Nieznany
Pomoc spo eczna dla stud id 374 Nieznany
8 lect8 2013 stud id 46719 Nieznany (2)
EdM wzmacniacze for stud id 150 Nieznany
Korelacja ZIP6 id 248036 Nieznany
Lista 2 korelacje i regresje id Nieznany
Abolicja podatkowa id 50334 Nieznany (2)
4 LIDER MENEDZER id 37733 Nieznany (2)
katechezy MB id 233498 Nieznany
metro sciaga id 296943 Nieznany
perf id 354744 Nieznany
interbase id 92028 Nieznany

więcej podobnych podstron