Tablica 6.1. Schemat szeregu korelacyjnego
Warianty zmiennej niezależnej (X) |
Warianty zmiennej zależnej (Y) |
Yi | |
x2 |
yz |
Xn |
_h_ |
Źródło: opracowanie własne.
Wybór miernika współzależności zależy m.in. od tego, czy dane są przedstawione w szeregu czy w tablicy korelacyjnej. Istnieje wiele miar współzależności. W podręczniku dla przypadku szeregu korelacyjnego omówione zostaną: współczynnik korelacji liniowej Pearsona i współczynnik korelacji rang Speannanu. Natomiast dla danych pogrupowanych w postaci tablicy korelacyjnej zaprezentujemy stosunek korelacji, współczynnik współzależności C-Pearsona i współczynnik współzależności Q-Yule'a.
W niniejszym rozdziale będziemy się również zajmować empiryczną funkcją regresji zmiennej zależnej względem zmiennej niezależnej. Po ustaleniu, że między rozważanymi dwiema cechami mierzalnymi istnieje korelacja przystępujemy do znalezienia funkcji matematycznej, która może służyć do przewidywania wartości jednej cechy przy określonym poziomie drugiej. Badanie korelacji między dwiema cechami mierzalnymi zostanie zatem rozszerzone o ustalenie związków przyczynowo-skutkowych między nimi.
Jedną z najpopularniejszych miar zależności jest współczynnik korelacji liniowej Pearsona (/ v.x). Jego zastosowanie jest jednak ograniczone jedynie do przypadku, gdy badamy dwie cechy mierzalne,1 między którymi ma miejsce zależność o charakterze liniowym (a przynajmniej w przybliżeniu liniowym).
Wyjaśnijmy bliżej wrarunki stosowalności współczynnika korelacji liniowej Pearsona:
• Informacje o rozkładzie cech (zmiennych) A’i Y powinny więc być podane w postaci wykazu par indywidualnych wartości obu cech dla każdej z X badanych jednostek statystycznych: (x{, y,)s..., {xN. yN). Dane te nie muszą być przy tym uporządkowane;
• Związkiem liniowym nazywamy taką zależność, w której jednostkowym przyrostom jednej cechy towarzyszy, średnio biorąc, stały przyrost lub spadek drugiej cechy.
Współczynnik korelacji liniowej Pearsona może być wyznaczany z następującego wzoru (alternatywne formuły zamieszczone zostały w aneksie „wzory” na końcu podręcznika):
_ cov(*.r) _
(6.1)
j=i
•** cc n? Fa- ’
gdzie: cov(x,y) - kowariancja zmiennych X i Y obliczana ze wzoru:
j *
co v(jc,y) = YSx* ~ x^y>" y\
w <=i (o.2)
Sx - odchylenie standardowe zmiennej X obliczane ze wzoru:
S-= (6.3)
. ** 1=1
Sy - odchylenie standardowe zmiennej Y obliczane ze wzoru:
s’= ■ (6.4)
Własności współczynnika korelacji liniowej Pearsona:
1. Jest miarą symetryczną, co oznacza, że obliczona siła i kierunek zależności są takie same jak w odwrotnym oznaczeniu cech; zapisujemy to w następujący sposób: ryx = rxy\
2. Jest miarą niemi ano waną (nie jest wyrażony w jednostkach fizycznych), dzięki czemu możliwe jest dokonywanie porównań korelacji dla różnych zestawów zmiennych;
3. Jest miarą unormowaną, tzn. określona jest zarówno dolna, jak i górna granica wartości, jakie może przybierać współczynnik ten przyjmuje zawsze wartości z przedziału od -1 do +1;
4. Pozwala na określenie nie tylko siły, ale i kierunku zależności między zmiennymi;
163
W analizie współzależności cech statystycznych przyjęło się używać pojęcia zmiennej do określenia badanej cechy. Zgodnie z terminologią wprowadzoną w rozdziale pierwszym, cechy statystyczne można podzielić na cechy stałe i zmienne. Analizie statystycznej poddawane są jednak tylko cechy zmienne. W analizie korelacji i regresji stosuje się więc pewne uproszczenie i termin „zmienna” utożsamia się z badaną cechą statystyczną.