Opisowe miary siły korelacji dwóch zmiennych
Siłę współzależności dwóch zmiennych można wyrazić liczbowo za pomocą wielu mierników. Ich wybór jest uzależniony m.in. od rodzaju cech, między którymi badana jest zależność (mierzalne, niemierzalne, mieszane); liczby obserwacji (tablica korelacyjna, szeregi korelacyjne), kształtu zależności (regresja, prostoliniowa, krzywoliniowa).
Zakładając, że współzależność badanych zmiennych losowych X i Y jest statystycznie istotna, możemy wyróżnić cztery rodzaje podstawowych miar sił korelacji tych zmiennych:
współczynnik zbieżności Czuprowa;
wskaźniki (stosunki) korelacyjne Pearsona;
współczynnik korelacji liniowej Pearsona;
współczynnik rang (korelacji kolejnościowej) Spearmana.
Współczynnik zbieżności Czuprowa
Miernik ten oparty jest na teście chi - kwadrat (χ2). Wielkość χ2 jest podstawą do określenia unormowanej funkcji zależności cech zwanej współczynnikiem zbieżności Czuprowa. Określa go wzór:
Współczynnik ten przyjmuje wartość z przedziału
, gdy badane zmienne są stochastycznie niezależne. Przy zależności funkcyjnej zmiennych, T = 0.
Im bardziej współczynnik zbieżności jest bliższy zeru, tym słabsza jest zależność między zmiennymi.
Przy wyznaczaniu współczynnika zbieżności nie jest ważne, którą z cech traktuje się jako zależną a którą jako niezależną - co jest istotne przy badaniu zależności w sensie korelacyjnym. Własność tę określa się mianem symetryczności:
Zaletą współczynnika zbieżności jest to, że może być stosowany do mierzenia współzależności zarówno cech mierzalnych jak i niemierzalnych. Jego wadą jest natomiast to, że nie wskazuje kierunku korelacji (jest zawsze dodatni).
Do oceny natężenia korelacji między zmiennymi X i Y wykorzystuje się również współczynnik determinacji.
Miara ta wskazuje, w ilu procentach zmienność zmiennej zależnej jest określona zmiennością zmiennej niezależnej. Tak więc o ile z rachunkowego punktu widzenia T ocenia zarówno zależność cechy X od cechy Y jak i cechy Y od X , o tyle interpretacja współczynnika zbieżności musi jednoznacznie określać charakter zmiennych, tzn. która z nich jest zmienną zależną, a która niezależną.
Z uwagi na to, że przy obliczaniu współczynnika zbieżności brane są pod uwagę jedynie liczebności odpowiednich rozkładów, a nie ich parametry, współczynnik zależności jest przede wszystkim miarą zależności stochastycznej dwóch zmiennych. Ponieważ zależność korelacyjna jest pojęciem węższym od zależności stochastycznej można go wykorzystać jako miarę siły związku korelacyjnego.
Wskaźniki korelacyjne Pearsona
Konstrukcja stosunków korelacyjnych opiera się na równości wariancyjnej (której istotą, jak wszyscy pamiętają z czasów gdy zgłębialiśmy miary zmienności, jest rozłożenie wariancji ogólnej na dwa składniki: średnią z wariancji wewnątrzgrupowych i wariancję średnich warunkowych).
Stosunki korelacyjne stosowane są do badania współzależności między zmiennymi X i Y w przypadku dużej liczby obserwacji ujętych w formie tablicy korelacyjnej. Stąd też należy rozpatrywać dwie równości wariancyjne: jedną dla cechy X, drugą dla cechy Y. Równości te wyglądają następująco:
Gdzie:
s2(x) oraz s2(y) są wariancjami ogólnymi odpowiednich zmiennych;
oraz
są wariancjami średnich warunkowych (wariancjami międzygrupowymi) odpowiednich zmiennych;
oraz
są średnimi z wariancji warunkowych (wariancjami wewnątrzgrupowymi) odpowiednich zmiennych.
Wariancje międzygrupowe zmiennych X i Y są obliczane ze wzorów:
Gdzie
są odpowiednio średnimi warunkowymi zmiennych X i Y a
są średnimi ogólnymi obliczonymi z rozkładów brzegowych.
Wariancje wewnątrzgrupowe zmiennych X i Y są obliczane ze wzoru:
Wskaźnik korelacyjny zmiennej X względem zmiennej Y określa zatem wzór:
Z czego wynika, że wskaźnik korelacyjny zmiennej Y względem zmiennej X określa wzór:
Stosunki (wskaźniki) korelacyjne są miarami niemianowanymi, przyjmującymi wartości z przedziału
. Są one równe 0, gdy cechy są nieskorelowane, 1 - gdy między badanymi zmiennymi zachodzi zależność funkcyjna.
Im wartość wskaźnika korelacyjnego jest bliższa 1, tym zależność korelacyjna jest silniejsza.
Stosunki korelacyjne są niesymetryczne
, z wyjątkiem dwóch przypadków:
1. gdy zmienne X i Y są niezależne stochastycznie;
2. gdy między zmiennymi X i Y zachodzi związek funkcyjny
Z powyższego wynika, że przy obliczaniu wskaźników korelacyjnych ważne jest ustalenie, która z cech jest zależna, a która niezależna.
Wskaźniki korelacyjne nie wskazują kierunku korelacji badanych zmiennych, zawsze są dodatnie.
Ich zaletą jest fakt, że nie zależą od kształtu regresji. Dzięki temu mogą być stosowane zarówno w przypadku zależności prostoliniowych, jak i krzywoliniowych. Dodatkowo wskaźniki korelacyjne mogą być wykorzystywane dwóch cech, z których jedna jest niemierzalna.
Równolegle do wskaźników korelacyjnych
korzysta się ze współczynników determinacji:
, wyrażonych w procentach. Współczynnik determinacji informuje o tym, w ilu procentach zmiany zmiennej zależnej są spowodowane (zdeterminowane) zmianami zmiennej niezależnej.
Przykład 1
Wylosowano 100 rodzin i zbadano je pod względem liczby dzieci pozostających na całkowitym utrzymaniu i standardu ekonomicznego rodziny, określonego przez średni miesięczny dochód przypadający na członka rodziny.
Za pomocą stosunku korelacyjnego określić siłę związku korelacyjnego standardu ekonomicznego względem liczny dzieci w rodzinie. [Sobczyk str. 205-207 wyd. z 1991 r.]
Liczba dzieci |
Standard ekonomiczny |
Razem |
|||
|
1 |
2 |
3 |
4 |
|
0 1 2 3 4 |
- - - 6 4 |
- - 11 3 1 |
5 30 14 1 - |
15 10 - - - |
20 40 25 10 5 |
Razem |
10 |
15 |
50 |
25 |
100 |
W pierwszej kolejności obliczamy średnią ogólną i wariancję ogólną cechy Y:
Następnie obliczamy wartości średnich warunkowych rozkładów cechy Y:
Po zakończeniu kalkulacji obliczamy wariancję średnich warunkowych:
Podstawiając obliczone wartości do wzoru na wskaźnik korelacyjny otrzymujemy:
Uzyskany wynik świadczy o silnej zależności standardu ekonomicznego rodziny od liczby dzieci. W niemal 71% przypadków zmiany standardu ekonomicznego rodziny mogą być wyjaśnione zmianami liczby posiadanych dzieci.
Jest to zależność jednostronna - liczba dzieci nie zależy od standardu ekonomicznego.
Współczynnik korelacji liniowej Pearsona
Współczynnik ten (rxy) jest miernikiem siły związku prostoliniowego między dwoma cechami mierzalnymi.
Związkiem prostoliniowym nazywamy taką zależność, w której jednostkowym przyrostom jednej zmiennej (przyczyny) towarzyszy, średnio biorąc, stały przyrost drugiej zmiennej (skutku).
Wzór na współczynnik korelacji liniowej Pearsona jest wyznaczany poprzez standaryzację kowariancji. Kowariancja jest średnią arytmetyczną iloczynu odchyleń wartości zmiennych X i Y od ich średnich arytmetycznych:
Kowariancja przekazuje następujące informacje o związku korelacyjnym:
cov(x,y) = 0 - brak zależności korelacyjnej;
cov(x,y) < 0 - ujemna zależność korelacyjna;
cov(x,y) > 0 - dodatnia zależność korelacyjna.
Kowariancja przyjmuje wartości liczbowe z przedziału: [-s(x)s(y), +s s(x)s(y)], gdzie s(x) i s(y) są odchyleniami standardowymi odpowiednich zmiennych.
Jeżeli cov(x,y) = -s(x)s(y), to między zmiennymi istnieje ujemny związek funkcyjny. Przy dodatnim związku funkcyjnym cov(x,y) = +s(x)s(y).
Kowariancja charakteryzuje współzmienność badanych zmiennych, ale jej wartość zależy od rzędu wielkości, w jakich wyrażone są obydwie cechy, co powoduje, że nie można jej wykorzystać w sposób bezpośredni do porównań.
Unormowanym miernikiem natężenia i kierunku współzależności liniowej dwóch zmiennych mierzalnych X i Y jest współczynnik korelacji linowej Pearsona, wyznaczony przez standaryzację kowariancji:
Współczynnik korelacji liniowej Pearsona jest miarą unormowaną, przyjmującą wartości z przedziału: -1 < rxy <+1.
Dodatni znak współczynnika korelacji wskazuje na istnienie współzależności pozytywnej (dodatniej), ujemny zaś oznacza współzależność negatywną (ujemną). Im wartość bezwzględna współczynnika korelacji jest bliższa jedności, tym zależność korelacyjna między badanymi zmiennymi jest silniejsza.
Orientacyjnie przyjmuje się, że korelacja jest:
niewyraźna, jeżeli rxy < 0,3;
średnia, gdy 0,3 < rxy < 0,5;
wyraźna, jeżeli rxy < 0,5.
Interpretacja ta odnosi się również do ujemnych wartości współczynnika korelacji. Jeżeli
, to zależność korelacyjna przechodzi w zależność funkcyjną. Jeżeli natomiast
, to brak jest związku korelacyjnego między badanymi zmiennymi X i Y.
Współczynnik korelacji jest określonym wskaźnikiem, a nie pomiarem na skali liniowej o jednakowych jednostkach. Oznacza to, że zależność rxy = 0,90 nie jest dwukrotnie większa od rxy = 0,45.
Kwadrat współczynnika korelacji nazywamy współczynnikiem determinacji
. Informuje on o tym, jaka część zmian zmiennej objaśniającej (skutek) jest wyjaśniona przez zmiany zmiennej objaśniającej (przyczyna).
Przykład 2
W pewnym Urzędzie Stanu Cywilnego pewnego dnia przeprowadzono badanie nowo zawartych małżeństw wg wieku żony i męża. Wyniki badania losowo pobranych par przedstawiono niżej.
Określić siłę i kierunek zależności między badanymi zmiennymi. [Sobczyk str. 209-210, wyd.1991]
Wiek żony (xi) |
18 |
19 |
20 |
21 |
23 |
24 |
26 |
27 |
27 |
30 |
Wiek męża (yi) |
19 |
21 |
23 |
21 |
20 |
23 |
26 |
25 |
26 |
34 |
Na podstawie analizy diagramu punktowego (korelacyjnego) można stwierdzić, że zależność między badanymi zmiennymi ma charakter prostoliniowy. Dlatego też siłę i kierunek zależności można ocenić przy użyciu współczynnika korelacji liniowej Pearsona.
Aby go obliczyć należy wykonać obliczenia pomocnicze:
xi |
yi |
|
|
|
|
|
18 19 20 21 23 24 26 27 27 30 |
19 21 23 21 20 23 26 25 26 34 |
-5,5 -4,5 -3,5 -2,5 -0,5 0,5 2,5 3,5 3,5 6,5 |
-4,8 -2,8 -0,8 -2,8 -3,8 -0,8 2,2 1,2 2,2 10,2 |
26,4 12,6 2,8 7,0 1,9 -0,4 5,5 4,2 7,7 66,3 |
30,25 20,25 12,25 6,25 0,25 0,25 6,25 12,25 12,25 42,25 |
23,04 7,84 0,64 7,84 14,44 0,64 4,84 1,44 4,84 104,04 |
235 |
238 |
x |
x |
134,0 |
142,5 |
169,6 |
Średni wiek kobiet zawierających w badanym dniu związek małżeński wynosi:
lat. Średni wiek mężczyzny wynosi:
lat.
W celu obliczenia współczynnika korelacji liniowej Pearsona niezbędna jest znajomość odchyleń standardowych obydwu cech:
Odchylenie standardowe wieku kobiet jest równe:
Odchylenie standardowe wieku mężczyzn jest równe:
Dysponując powyższymi informacjami możemy obliczyć współczynnik korelacji liniowej Pearsona:
Otrzymany wynik oznacza, że między badanymi zmiennymi istnieje silna dodatnia zależność korelacyjna. W 74% przypadków zmiany jednej cechy są uwarunkowane zmianami drugiej.
Przykład 3
W 100 szkołach przeprowadzono badanie mające na celu określenie zależności między liczbą izb w szkole (Y) a liczbą uczniów (X). Wyniki prezentuje tablica.
Zbadać siłę oraz kierunek zależności między liczbą izb a liczbą uczniów w szkole. [Sobczyk str. 211-212, wyd. z 1991]
Liczba uczniów w szkole |
Liczba izb w szkole (yi) |
Razem |
||
|
4-8 |
8-12 |
12-16 |
|
60-120 120-180 180-240 240-300 300-360 |
10 - - - - |
- 10 20 - - |
- 10 20 20 10 |
10 20 40 20 10 |
Razem |
10 |
30 |
60 |
100 |
Z rozkładu liczebności tablicy można wnioskować, że korelacja ma charakter dodatni i prostoliniowy (liczebności układają się wzdłuż przekątnej biegnącej od lewego górnego do prawego dolnego rogu tablicy).
Potwierdza to również nierówność średnich warunkowych:
Średnie warunkowe zmiennej X rosną wraz ze wzrostem konkretnych wartości zmiennej Y. Świadczy to istnieniu dodatniego związku korelacyjnego między badanymi zmiennymi.
Z rozkładów brzegowych zmiennych X i Y obliczamy średnie arytmetyczne i odchylenia standardowe:
Rozrzut odchyleń indywidualnych wartości zmiennych X i Y od ich średnich wartości przedstawia tablica:
|
-6 |
-2 |
2 |
Razem |
-120 -60 6 60 120 |
10 - - - - |
- 10 20 - - |
- 10 20 20 10 |
10 20 40 20 10 |
Razem |
10 |
30 |
60 |
100 |
Suma ważonych iloczynów par odchyleń zmiennych jest równa:
Kowariancja zmiennych X i Y wynosi: 120 (12000:100).
Zatem współczynnik korelacji liniowej Pearsona jest równy:
Na tej podstawie można stwierdzić, że między liczbą izb a liczbą uczniów w szkole zachodzi dosyć silna dodatnia zależność korelacyjna. Zmienność jednej cechy jest w 46,42% wyjaśniona zmiennością drugiej.
Współczynnik korelacji kolejnościowej (rang) Spearmana
Współczynnik ten służy do opisu siły korelacji dwóch cech, szczególnie wtedy, gdy mają one charakter jakościowy i istnieje możliwość uporządkowania obserwacji w określonej kolejności.
Miarę tę można stosować również do badania zależności między cechami ilościowymi w przypadku niewielkiej liczby obserwacji.
Współczynnik rang Spearmana obliczamy ze wzoru:
Gdzie:
di - różnice między rangami odpowiadających sobie wartości cechy xi i cechy yi (i=1, 2, ..., n).
Obliczenia rozpoczynamy zazwyczaj od uporządkowania wyjściowych informacji według rosnących (malejących) wariantów jednej z cech.
Uporządkowanym wartościom nadajemy następnie numery kolejnych liczb naturalnych. Czynność ta nosi nazwę rangowania. Rangowanie może odbywać się od najmniejszej do wartości największej do najmniejszej i odwrotnie, przy czym sposób rangowania musi być jednakowy dla obydwu zmiennych.
W przypadku, gdy występują jednakowe wartości realizacji zmiennych, przyporządkowujemy im średnią arytmetyczną obliczoną z ich kolejnych numerów. Mówi się wówczas o występowaniu węzłów.
Jednakowe rangi wartości badanych zmiennych (lub na ogół jednakowe) świadczą o istnieniu dodatniej korelacji między zmiennymi. Natomiast przeciwstawna numeracja sugeruje istnienie korelacji ujemnej.
Współczynnik rang przyjmuje wartości z przedziału -1 < rs < +1, a jego interpretacja jest identyczna jak współczynnika korelacji Pearsona.
Przykład 4
Na podstawie kontroli całokształtu pracy zawodowej i kwalifikacji nauczycieli dyrektor szkoły i wizytator wydali opinię o każdym z nauczycieli. Wyniki ujęto w punktach.
Ustalić natężenie współzależności między opiniami o nauczycielach dyrektora i wizytatora [Sobczyk str. 214, wyd. z 1991]
Nauczyciele |
A |
B |
C |
D |
E |
F |
G |
H |
I |
J |
K |
Dyrektor |
41 |
27 |
35 |
33 |
25 |
47 |
38 |
53 |
43 |
35 |
36 |
Wizytator |
38 |
24 |
34 |
29 |
27 |
47 |
43 |
52 |
39 |
31 |
29 |
Punktowym wynikom oceny nauczycieli nadajemy rangi, największej ilości punktów przypisujemy rangę 1.
Rangi ocen |
|||||||||||
Dyrektor |
4 |
10 |
7,5 |
9 |
11 |
2 |
5 |
1 |
3 |
7,5 |
6 |
Wizytator |
5 |
11 |
6 |
8,5 |
10 |
2 |
3 |
1 |
4 |
7 |
8,5 |
Różnice rang |
|||||||||||
Dyrektor |
-1 |
-1 |
1,5 |
0,5 |
1 |
0 |
2 |
0 |
-1 |
0,5 |
-2,5 |
Wizytator |
1 |
1 |
2,25 |
0,25 |
1 |
0 |
4 |
0 |
1 |
0,25 |
6,25 |
Wykorzystują wzór na współczynnik rang Spearmana otrzymujemy:
Otrzymany wynik wskazuje, że współzależność opinii dyrektora i wizytatora jest bardzo silna. Oceniający kierowali się podobnymi kryteriami. Współczynnik determinacji liniowej obydwu zmiennych wynosi 84,64% (wszak
)