cw 7 d, Opisowe miary siły korelacji dwóch zmiennych


Opisowe miary siły korelacji dwóch zmiennych

Siłę współzależności dwóch zmiennych można wyrazić liczbowo za pomocą wielu mierników. Ich wybór jest uzależniony m.in. od rodzaju cech, między którymi badana jest zależność (mierzalne, niemierzalne, mieszane); liczby obserwacji (tablica korelacyjna, szeregi korelacyjne), kształtu zależności (regresja, prostoliniowa, krzywoliniowa).

Zakładając, że współzależność badanych zmiennych losowych X i Y jest statystycznie istotna, możemy wyróżnić cztery rodzaje podstawowych miar sił korelacji tych zmiennych:

  1. współczynnik zbieżności Czuprowa;

  2. wskaźniki (stosunki) korelacyjne Pearsona;

  3. współczynnik korelacji liniowej Pearsona;

  4. współczynnik rang (korelacji kolejnościowej) Spearmana.

Współczynnik zbieżności Czuprowa

Miernik ten oparty jest na teście chi - kwadrat (χ2). Wielkość χ2 jest podstawą do określenia unormowanej funkcji zależności cech zwanej współczynnikiem zbieżności Czuprowa. Określa go wzór:

0x01 graphic

Współczynnik ten przyjmuje wartość z przedziału 0x01 graphic
, gdy badane zmienne są stochastycznie niezależne. Przy zależności funkcyjnej zmiennych, T = 0.

Im bardziej współczynnik zbieżności jest bliższy zeru, tym słabsza jest zależność między zmiennymi.

Przy wyznaczaniu współczynnika zbieżności nie jest ważne, którą z cech traktuje się jako zależną a którą jako niezależną - co jest istotne przy badaniu zależności w sensie korelacyjnym. Własność tę określa się mianem symetryczności:

0x01 graphic

Zaletą współczynnika zbieżności jest to, że może być stosowany do mierzenia współzależności zarówno cech mierzalnych jak i niemierzalnych. Jego wadą jest natomiast to, że nie wskazuje kierunku korelacji (jest zawsze dodatni).

Do oceny natężenia korelacji między zmiennymi X i Y wykorzystuje się również współczynnik determinacji.

0x01 graphic

Miara ta wskazuje, w ilu procentach zmienność zmiennej zależnej jest określona zmiennością zmiennej niezależnej. Tak więc o ile z rachunkowego punktu widzenia T ocenia zarówno zależność cechy X od cechy Y jak i cechy Y od X , o tyle interpretacja współczynnika zbieżności musi jednoznacznie określać charakter zmiennych, tzn. która z nich jest zmienną zależną, a która niezależną.

Z uwagi na to, że przy obliczaniu współczynnika zbieżności brane są pod uwagę jedynie liczebności odpowiednich rozkładów, a nie ich parametry, współczynnik zależności jest przede wszystkim miarą zależności stochastycznej dwóch zmiennych. Ponieważ zależność korelacyjna jest pojęciem węższym od zależności stochastycznej można go wykorzystać jako miarę siły związku korelacyjnego.

Wskaźniki korelacyjne Pearsona

Konstrukcja stosunków korelacyjnych opiera się na równości wariancyjnej (której istotą, jak wszyscy pamiętają z czasów gdy zgłębialiśmy miary zmienności, jest rozłożenie wariancji ogólnej na dwa składniki: średnią z wariancji wewnątrzgrupowych i wariancję średnich warunkowych).

Stosunki korelacyjne stosowane są do badania współzależności między zmiennymi X i Y w przypadku dużej liczby obserwacji ujętych w formie tablicy korelacyjnej. Stąd też należy rozpatrywać dwie równości wariancyjne: jedną dla cechy X, drugą dla cechy Y. Równości te wyglądają następująco:

0x01 graphic

Gdzie:

s2(x) oraz s2(y) są wariancjami ogólnymi odpowiednich zmiennych;

0x01 graphic
oraz 0x01 graphic
są wariancjami średnich warunkowych (wariancjami międzygrupowymi) odpowiednich zmiennych;

0x01 graphic
oraz 0x01 graphic
są średnimi z wariancji warunkowych (wariancjami wewnątrzgrupowymi) odpowiednich zmiennych.

Wariancje międzygrupowe zmiennych X i Y są obliczane ze wzorów:

0x01 graphic

Gdzie 0x01 graphic
są odpowiednio średnimi warunkowymi zmiennych X i Y a 0x01 graphic
są średnimi ogólnymi obliczonymi z rozkładów brzegowych.

Wariancje wewnątrzgrupowe zmiennych X i Y są obliczane ze wzoru:

0x01 graphic

Wskaźnik korelacyjny zmiennej X względem zmiennej Y określa zatem wzór:

0x01 graphic

Z czego wynika, że wskaźnik korelacyjny zmiennej Y względem zmiennej X określa wzór:

0x01 graphic

Stosunki (wskaźniki) korelacyjne są miarami niemianowanymi, przyjmującymi wartości z przedziału 0x01 graphic
. Są one równe 0, gdy cechy są nieskorelowane, 1 - gdy między badanymi zmiennymi zachodzi zależność funkcyjna.

Im wartość wskaźnika korelacyjnego jest bliższa 1, tym zależność korelacyjna jest silniejsza.

Stosunki korelacyjne są niesymetryczne 0x01 graphic
, z wyjątkiem dwóch przypadków:

1. gdy zmienne X i Y są niezależne stochastycznie;

2. gdy między zmiennymi X i Y zachodzi związek funkcyjny 0x01 graphic

Z powyższego wynika, że przy obliczaniu wskaźników korelacyjnych ważne jest ustalenie, która z cech jest zależna, a która niezależna.

Wskaźniki korelacyjne nie wskazują kierunku korelacji badanych zmiennych, zawsze są dodatnie.

Ich zaletą jest fakt, że nie zależą od kształtu regresji. Dzięki temu mogą być stosowane zarówno w przypadku zależności prostoliniowych, jak i krzywoliniowych. Dodatkowo wskaźniki korelacyjne mogą być wykorzystywane dwóch cech, z których jedna jest niemierzalna.

Równolegle do wskaźników korelacyjnych 0x01 graphic
korzysta się ze współczynników determinacji: 0x01 graphic
, wyrażonych w procentach. Współczynnik determinacji informuje o tym, w ilu procentach zmiany zmiennej zależnej są spowodowane (zdeterminowane) zmianami zmiennej niezależnej.

Przykład 1

Wylosowano 100 rodzin i zbadano je pod względem liczby dzieci pozostających na całkowitym utrzymaniu i standardu ekonomicznego rodziny, określonego przez średni miesięczny dochód przypadający na członka rodziny.

Za pomocą stosunku korelacyjnego określić siłę związku korelacyjnego standardu ekonomicznego względem liczny dzieci w rodzinie. [Sobczyk str. 205-207 wyd. z 1991 r.]

Liczba dzieci
(x1)

Standard ekonomiczny
w tys. zł (y1)

Razem

1

2

3

4

0

1

2

3

4

-

-

-

6

4

-

-

11

3

1

5

30

14

1

-

15

10

-

-

-

20

40

25

10

5

Razem

10

15

50

25

100

W pierwszej kolejności obliczamy średnią ogólną i wariancję ogólną cechy Y:

0x01 graphic

Następnie obliczamy wartości średnich warunkowych rozkładów cechy Y:

0x01 graphic

Po zakończeniu kalkulacji obliczamy wariancję średnich warunkowych:

0x01 graphic

Podstawiając obliczone wartości do wzoru na wskaźnik korelacyjny otrzymujemy:

0x01 graphic

Uzyskany wynik świadczy o silnej zależności standardu ekonomicznego rodziny od liczby dzieci. W niemal 71% przypadków zmiany standardu ekonomicznego rodziny mogą być wyjaśnione zmianami liczby posiadanych dzieci.

Jest to zależność jednostronna - liczba dzieci nie zależy od standardu ekonomicznego.

Współczynnik korelacji liniowej Pearsona

Współczynnik ten (rxy) jest miernikiem siły związku prostoliniowego między dwoma cechami mierzalnymi.

Związkiem prostoliniowym nazywamy taką zależność, w której jednostkowym przyrostom jednej zmiennej (przyczyny) towarzyszy, średnio biorąc, stały przyrost drugiej zmiennej (skutku).

Wzór na współczynnik korelacji liniowej Pearsona jest wyznaczany poprzez standaryzację kowariancji. Kowariancja jest średnią arytmetyczną iloczynu odchyleń wartości zmiennych X i Y od ich średnich arytmetycznych:

0x01 graphic

Kowariancja przekazuje następujące informacje o związku korelacyjnym:

cov(x,y) = 0 - brak zależności korelacyjnej;

cov(x,y) < 0 - ujemna zależność korelacyjna;

cov(x,y) > 0 - dodatnia zależność korelacyjna.

Kowariancja przyjmuje wartości liczbowe z przedziału: [-s(x)s(y), +s s(x)s(y)], gdzie s(x) i s(y) są odchyleniami standardowymi odpowiednich zmiennych.

Jeżeli cov(x,y) = -s(x)s(y), to między zmiennymi istnieje ujemny związek funkcyjny. Przy dodatnim związku funkcyjnym cov(x,y) = +s(x)s(y).

Kowariancja charakteryzuje współzmienność badanych zmiennych, ale jej wartość zależy od rzędu wielkości, w jakich wyrażone są obydwie cechy, co powoduje, że nie można jej wykorzystać w sposób bezpośredni do porównań.

Unormowanym miernikiem natężenia i kierunku współzależności liniowej dwóch zmiennych mierzalnych X i Y jest współczynnik korelacji linowej Pearsona, wyznaczony przez standaryzację kowariancji:

0x01 graphic

Współczynnik korelacji liniowej Pearsona jest miarą unormowaną, przyjmującą wartości z przedziału: -1 < rxy <+1.

Dodatni znak współczynnika korelacji wskazuje na istnienie współzależności pozytywnej (dodatniej), ujemny zaś oznacza współzależność negatywną (ujemną). Im wartość bezwzględna współczynnika korelacji jest bliższa jedności, tym zależność korelacyjna między badanymi zmiennymi jest silniejsza.

Orientacyjnie przyjmuje się, że korelacja jest:

niewyraźna, jeżeli rxy < 0,3;

średnia, gdy 0,3 < rxy < 0,5;

wyraźna, jeżeli rxy < 0,5.

Interpretacja ta odnosi się również do ujemnych wartości współczynnika korelacji. Jeżeli 0x01 graphic
, to zależność korelacyjna przechodzi w zależność funkcyjną. Jeżeli natomiast 0x01 graphic
, to brak jest związku korelacyjnego między badanymi zmiennymi X i Y.

Współczynnik korelacji jest określonym wskaźnikiem, a nie pomiarem na skali liniowej o jednakowych jednostkach. Oznacza to, że zależność rxy = 0,90 nie jest dwukrotnie większa od rxy = 0,45.

Kwadrat współczynnika korelacji nazywamy współczynnikiem determinacji 0x01 graphic
. Informuje on o tym, jaka część zmian zmiennej objaśniającej (skutek) jest wyjaśniona przez zmiany zmiennej objaśniającej (przyczyna).

Przykład 2

W pewnym Urzędzie Stanu Cywilnego pewnego dnia przeprowadzono badanie nowo zawartych małżeństw wg wieku żony i męża. Wyniki badania losowo pobranych par przedstawiono niżej.

Określić siłę i kierunek zależności między badanymi zmiennymi. [Sobczyk str. 209-210, wyd.1991]

Wiek żony (xi)

18

19

20

21

23

24

26

27

27

30

Wiek męża (yi)

19

21

23

21

20

23

26

25

26

34

Na podstawie analizy diagramu punktowego (korelacyjnego) można stwierdzić, że zależność między badanymi zmiennymi ma charakter prostoliniowy. Dlatego też siłę i kierunek zależności można ocenić przy użyciu współczynnika korelacji liniowej Pearsona.

Aby go obliczyć należy wykonać obliczenia pomocnicze:

xi

yi

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

18

19

20

21

23

24

26

27

27

30

19

21

23

21

20

23

26

25

26

34

-5,5

-4,5

-3,5

-2,5

-0,5

0,5

2,5

3,5

3,5

6,5

-4,8

-2,8

-0,8

-2,8

-3,8

-0,8

2,2

1,2

2,2

10,2

26,4

12,6

2,8

7,0

1,9

-0,4

5,5

4,2

7,7

66,3

30,25

20,25

12,25

6,25

0,25

0,25

6,25

12,25

12,25

42,25

23,04

7,84

0,64

7,84

14,44

0,64

4,84

1,44

4,84

104,04

235

238

x

x

134,0

142,5

169,6

Średni wiek kobiet zawierających w badanym dniu związek małżeński wynosi: 0x01 graphic
lat. Średni wiek mężczyzny wynosi: 0x01 graphic
lat.

W celu obliczenia współczynnika korelacji liniowej Pearsona niezbędna jest znajomość odchyleń standardowych obydwu cech:

Odchylenie standardowe wieku kobiet jest równe:

0x01 graphic

Odchylenie standardowe wieku mężczyzn jest równe:

0x01 graphic

Dysponując powyższymi informacjami możemy obliczyć współczynnik korelacji liniowej Pearsona:

0x01 graphic

Otrzymany wynik oznacza, że między badanymi zmiennymi istnieje silna dodatnia zależność korelacyjna. W 74% przypadków zmiany jednej cechy są uwarunkowane zmianami drugiej.

Przykład 3

W 100 szkołach przeprowadzono badanie mające na celu określenie zależności między liczbą izb w szkole (Y) a liczbą uczniów (X). Wyniki prezentuje tablica.

Zbadać siłę oraz kierunek zależności między liczbą izb a liczbą uczniów w szkole. [Sobczyk str. 211-212, wyd. z 1991]

Liczba uczniów w szkole
(xi)

Liczba izb w szkole (yi)

Razem

4-8

8-12

12-16

60-120

120-180

180-240

240-300

300-360

10

-

-

-

-

-

10

20

-

-

-

10

20

20

10

10

20

40

20

10

Razem

10

30

60

100

Z rozkładu liczebności tablicy można wnioskować, że korelacja ma charakter dodatni i prostoliniowy (liczebności układają się wzdłuż przekątnej biegnącej od lewego górnego do prawego dolnego rogu tablicy).

Potwierdza to również nierówność średnich warunkowych:

0x01 graphic

Średnie warunkowe zmiennej X rosną wraz ze wzrostem konkretnych wartości zmiennej Y. Świadczy to istnieniu dodatniego związku korelacyjnego między badanymi zmiennymi.

Z rozkładów brzegowych zmiennych X i Y obliczamy średnie arytmetyczne i odchylenia standardowe:

0x01 graphic

Rozrzut odchyleń indywidualnych wartości zmiennych X i Y od ich średnich wartości przedstawia tablica:

0x01 graphic

0x01 graphic

-6

-2

2

Razem

-120

-60

6

60

120

10

-

-

-

-

-

10

20

-

-

-

10

20

20

10

10

20

40

20

10

Razem

10

30

60

100

Suma ważonych iloczynów par odchyleń zmiennych jest równa:

0x01 graphic

Kowariancja zmiennych X i Y wynosi: 120 (12000:100).

Zatem współczynnik korelacji liniowej Pearsona jest równy:

0x01 graphic

Na tej podstawie można stwierdzić, że między liczbą izb a liczbą uczniów w szkole zachodzi dosyć silna dodatnia zależność korelacyjna. Zmienność jednej cechy jest w 46,42% wyjaśniona zmiennością drugiej.

Współczynnik korelacji kolejnościowej (rang) Spearmana

Współczynnik ten służy do opisu siły korelacji dwóch cech, szczególnie wtedy, gdy mają one charakter jakościowy i istnieje możliwość uporządkowania obserwacji w określonej kolejności.

Miarę tę można stosować również do badania zależności między cechami ilościowymi w przypadku niewielkiej liczby obserwacji.

Współczynnik rang Spearmana obliczamy ze wzoru:

0x01 graphic

Gdzie:

di - różnice między rangami odpowiadających sobie wartości cechy xi i cechy i (i=1, 2, ..., n).

Obliczenia rozpoczynamy zazwyczaj od uporządkowania wyjściowych informacji według rosnących (malejących) wariantów jednej z cech.

Uporządkowanym wartościom nadajemy następnie numery kolejnych liczb naturalnych. Czynność ta nosi nazwę rangowania. Rangowanie może odbywać się od najmniejszej do wartości największej do najmniejszej i odwrotnie, przy czym sposób rangowania musi być jednakowy dla obydwu zmiennych.

W przypadku, gdy występują jednakowe wartości realizacji zmiennych, przyporządkowujemy im średnią arytmetyczną obliczoną z ich kolejnych numerów. Mówi się wówczas o występowaniu węzłów.

Jednakowe rangi wartości badanych zmiennych (lub na ogół jednakowe) świadczą o istnieniu dodatniej korelacji między zmiennymi. Natomiast przeciwstawna numeracja sugeruje istnienie korelacji ujemnej.

Współczynnik rang przyjmuje wartości z przedziału -1 < rs < +1, a jego interpretacja jest identyczna jak współczynnika korelacji Pearsona.

Przykład 4

Na podstawie kontroli całokształtu pracy zawodowej i kwalifikacji nauczycieli dyrektor szkoły i wizytator wydali opinię o każdym z nauczycieli. Wyniki ujęto w punktach.

Ustalić natężenie współzależności między opiniami o nauczycielach dyrektora i wizytatora [Sobczyk str. 214, wyd. z 1991]

Nauczyciele

A

B

C

D

E

F

G

H

I

J

K

Dyrektor

41

27

35

33

25

47

38

53

43

35

36

Wizytator

38

24

34

29

27

47

43

52

39

31

29

Punktowym wynikom oceny nauczycieli nadajemy rangi, największej ilości punktów przypisujemy rangę 1.

Rangi ocen

Dyrektor

4

10

7,5

9

11

2

5

1

3

7,5

6

Wizytator

5

11

6

8,5

10

2

3

1

4

7

8,5

Różnice rang

Dyrektor

-1

-1

1,5

0,5

1

0

2

0

-1

0,5

-2,5

Wizytator

1

1

2,25

0,25

1

0

4

0

1

0,25

6,25

Wykorzystują wzór na współczynnik rang Spearmana otrzymujemy:

0x01 graphic

Otrzymany wynik wskazuje, że współzależność opinii dyrektora i wizytatora jest bardzo silna. Oceniający kierowali się podobnymi kryteriami. Współczynnik determinacji liniowej obydwu zmiennych wynosi 84,64% (wszak 0x01 graphic
)



Wyszukiwarka

Podobne podstrony:
Regresja liniowa dwoch zmiennych, materiały z roku 2011-2012, Semestr II, Statystyka opisowa - ćwicz
współzależność, Współczynnik korelacji liniowej oraz funkcja regresji liniowej dwóch zmiennych
4 6 Różniczki funkcji dwóch zmiennych
1 funkcje dwoch zmiennych
09 Rozdział 07 Więcej o całce funkcji dwóch zmiennych
Ściągi z fizyki-2003 r, Jednoski miary siły i energii
4 5 Ekstrema funkcji dwoch zmiennych
funkcje dwoch zmiennych
6 Funkcja dwóch zmiennych 2 zadania
Ekstrema lokalne funkcji dwóch zmiennych, Ekstrema lokalne funkcji dwóch zmiennych
sciaga18 ekstrema lokalne funkcji dwoch zmiennych, AGH górnictwo i geologia, I SEM, matematyka
Funkcje dwóch zmiennych
Ćw 6 Badanie przetworników siły
6 funkcje dwoch zmiennych
CW 02 Miary statystyczne id 856 Nieznany
funkcje dwóch zmiennych wykład
sciaga18 ekstrema lokalne funkcji dwoch zmiennych[1], Analiza

więcej podobnych podstron