KORELACJA PROSTOLINIOWA DWÓCH ZMIENNYCH
KORELACJA - zależność między zmiennymi. Zależność ta może mieć charakter funkcyjny lub stochastyczny (probabilistyczny)
KORELACJA FUNKCYJNA - zmiana wartości jednej zmiennej powoduje ściśle określoną zmianę drugiej zmiennej. Oznacza to, iż określonej wartości jednej zmiennej odpowiada jedna (i tylko jedna) wartość drugiej zmiennej.
ZALEŻNOŚĆ DWUSTRONNA - gdy zmienna może być jednocześnie zmienną zależną (objaśnianą) lub zmienną niezależną (objaśniającą). Przykład: wydajność pracy zależy od płacy; ale płaca również zależy od wydajności
ZALEŻNOŚĆ JEDNOSTRONNA - nie ma wymienności między zmiennymi zależną a niezależną. Przykład: wielkość sprzedaży napojów chłodzących zależy od temperatury powietrza. Ale temperatura powietrza nie zależy od wielkości sprzedaży napojów chłodzących
1. WSPÓŁCZYNIIK KORELACJI LINIOWEJ PEARSONA
podstawowa miara oceny kierunku i siły związku korelacyjnego między zmiennymi X i Y
zależność dodatnia - ze wzrostem wartości jednej zmiennej rosną wartości drugiej zmiennej
zależność ujemna - wzrostowi wartości jednej zmiennej towarzyszy spadek wartości drugiej zmiennej
oblicza się wg wzoru:
poszczególne parametry ze wzoru oblicza się w sposób następujący:
współczynnik korelacji Pearsona przyjmuje wartości z przedziału <-1, +1>
im bezwzględna wartości współczynnika korelacji jest bliższy jedności, tym związek między rozpatrywanymi zmiennymi jest silniejszy; im bliższa zeru, tym słabszy
znak + przy współczynniku oznacza, iż między rozpatrywanymi zmiennymi występuje zależność o charakterze dodatnim (wraz ze wzrostem wartości jednej zmiennej następuje wzrost wartości drugiej; bądź wraz ze spadkiem wartości zmiennej następuje spadek wartości drugiej zmiennej)
znak „-„ oznacza, że między rozpatrywanymi zmiennymi występuje zależność ujemna, czyli wraz ze wzrostem wartości jednej zmiennej następuje spadek wartości drugiej zmiennej
PRZYKŁAD
Zbadano grupę rodzin ze względu na miesięczne wydatki na papierosy oraz dochody przypadające na jednego członka rodziny. Otrzymano
Dochody w zł / osobę (x) |
450 |
370 |
210 |
1300 |
740 |
410 |
640 |
150 |
520 |
Wydatki na pap w zł/ osobę (y) |
15 |
20 |
18 |
12 |
18 |
22 |
16 |
10 |
14 |
Czy istnieje związek między dochodami na osobę a wydatkami na papierosy? Jak silny jest to związek?
Obliczenia konieczne do podstawienia do wzoru:
N = 9
Dochody w zł/ osobę (x) |
450 |
370 |
210 |
1300 |
740 |
410 |
640 |
150 |
520 |
|
Wydatki na pap w zł/osobę (y) |
15 |
20 |
18 |
12 |
18 |
22 |
16 |
10 |
14 |
|
x2 |
202500 |
136900 |
44100 |
1690000 |
547600 |
168100 |
409600 |
22500 |
270400 |
|
y2 |
225 |
400 |
324 |
144 |
324 |
484 |
256 |
100 |
196 |
|
|
6750 |
7400 |
3780 |
15600 |
13320 |
9020 |
10240 |
1500 |
7280 |
|
=
=
=
Odp.: Związek między dochodami na jedną osobę a wydatkami na papierosy istnieje. Jest to bardzo słaba zależność ujemna: jeśli dochody na jedną osobę rosną, wydatki na papierosy maleją.
2. WSPÓŁCZYNNIK KORELACJI RANG SPEARMANA
stosuje się w przypadku cech jakościowych, gdy istnieje możliwość ich uporządkowania w określonej kolejności (np. wykształcenie)
może mieć zastosowanie również w przypadku, gdy cechy mają charakter ilościowy, ale liczebność zbiorowości jest mała (n<30)
oblicza się wg wzoru:
gdzie:
kx - rangi przypisane kolejnym, co do wielkości, realizacjom zmiennej x
ky - rangi przypisane kolejnym, co do wielkości, realizacjom zmiennej Y
N - liczba badanych obserwacji (par)
rangowanie (czyli nadawanie zmiennym x i y odpowiednich rang) można rozpocząć od najniższej, bądź najwyższej wartości zmiennej - jednak w odniesieniu do obu zmiennych należy zastosować tę samą zasadę rangowania
w procesie nadawania rang może zdarzyć się więcej niż 1 jednostka o takiej samej wartości cechy (np. n jednostek). Wówczas należy na chwilę nadać tym jednostkom kolejne rangi. Następnie należy zsumować takie rangi i podzielić przez n (otrzymamy w ten sposób średnią rangę dla tej grupy k jednostek). W ostateczności każda jednostka z tych n jednostek otrzyma identyczną rangę (średnią dla danej grupy n jednostek). Następnej realizacji cechy x/y nadajemy kolejny numer rangi
PRZYKŁAD
W grupie studentów zbadano zależność między oceną z egzaminu ze statystyki a liczbą dni poświęconych na naukę. Uzyskano następujące wyniki:
Ocena uzyskana z egzaminu (y-objaśniana) |
liczba dni poświęconych na naukę (x-objaśniająca) |
ky |
kx |
(kx-ky)2 |
2,0 2,5 2,5 4,0 5,0 3,0 2,0 |
5 13 16 28 42 16 6 |
1,5 3,5 3,5 6 7 5 1,5 |
1 3 4,5 6 7 4,5 2 |
0,25 0,25 1 0 0 0,25 0,25 |
|
|
|
|
= 2,25 |
ponieważ N=7, najwyższym numer rangi będzie 7. Przyjmujemy, iż rangowanie rozpoczynamy od najwyższych wartości badanych zmiennych (czyli najwyższa wartość uzyskuje najwyższy numer rangi)
czyli: ocena 5 - ranga nr 7; ocena 4 - ranga nr 6; ocena 3 - ranga nr 5; oceny 2,5 - kolejne rangi - 4,3 (wyciągamy średnią: 4+3/2 = 3,5); oceny 2 - kolejne rangi, czyli 2,1 (wyciągamy średnią: 2+1/2 = 1,5)
analogicznie rangujemy dla zmiennej x (16 dni: rangi 5,4 - 5+4/2 = 4,5)
=
Odpowiedź: Między uzyskaną oceną a liczbami dni poświęconymi na naukę istnieje bardzo silna, dodatnia zależność. Im więcej dni poświęconych na naukę, tym ocena z egzaminu wyższa.
3