KORELACJA I REGRESJA LINIOWA
Korelacja (zależność korelacyjna) w statystyce oznacza zależność między cechami (współzależność cech). Zajmujemy się badaniem dwóch cech jednocześnie. Sprawdzamy, czy istnieją zależności (związki) między tymi dwiema cechami.
Korelacja występuje wtedy, gdy określonym wartościom jednej zmiennej (cechy) przyporządkowane są ściśle określone średnie wartości drugiej zmiennej (cechy). Średnie - bo może wystąpić czynnik losowy (zakłócający).
Do mierzenia siły i kierunku korelacji stosuje się następujący współczynnik korelacji: współczynnik korelacji liniowej Pearsona.
Współczynnik korelacji liniowej Pearsona
1. Wzór:
gdzie:
C(X,Y) - kowariancja między cechami X i Y,
- wariancja cechy X,
- wariancja cechy Y,
- odchylenie standardowe cechy X,
- odchylenie standardowe cechy Y.
Powyższy wzór zawiera trzy warianty zapisu współczynnika korelacji Pearsona:
Pierwszy zapis wykorzystujemy w sytuacji, gdy mamy już policzoną kowariancję w zadaniu oraz dwie wariancje - cechy X i Y.
Drugi zapis dotyczy sytuacji, gdy nic nie jest policzone, a tylko są dane wartości w tabeli. Wówczas rozpisujemy tabelę na kolejne kolumny i szukamy sum, które potem podstawiamy do wzoru środkowego.
Trzeci wariant stosujemy wtedy, gdy mamy policzoną kowariancję oraz odchylenia standardowe cech X i Y.
2. Współczynnik ten jest unormowany w przedziale [-1;1], tzn. może przyjmować tylko wartości z tego przedziału. Wartości dodatnie oznaczają korelację dodatnią, co oznacza, że wzrostowi wartości jednej cechy odpowiada wzrost średnich wartości cechy drugiej.
Wartości ujemne oznaczają korelację ujemną, czyli wzrostowi wartości jednej cechy odpowiada spadek średnich wartości cechy drugiej.
3. Interpretacja współczynnika korelacji:
♦ jeżeli
- nie ma związku liniowego między cechami,
♦ jeżeli
- niska (słaba) zależność liniowa,
♦ jeżeli
- umiarkowana (średnia) zależność korelacyjna,
♦ jeżeli
- znacząca (silna) zależność liniowa,
♦ jeżeli
- bardzo silna zależność liniowa,
♦ jeżeli
- zależność funkcyjna (1 - funkcja liniowa rosnąca; -1 - funkcja liniowa malejąca),
♦ jeżeli
- brak jakiejkolwiek zależności między cechami.
REGRESJA LINIOWA
W każdym zadaniu, w którym mamy dwie zmienne X i Y możemy wyznaczyć dwie linie regresji:
I linia regresji II linia regresji
gdzie: gdzie:
x- zmienna objaśniana (zależna), x- zmienna objaśniająca (niezależna),
y - zmienna objaśniająca (niezależna),
- parametr linii regresji (współczynnik kierunkowy prostej),
b - drugi parametr linii regresji.
y - zmienna objaśniana (zależna),
- parametr linii regresji,
b - drugi parametr linii regresji.
W pierwszej linii regresji mamy sytuację, w której zmienna y ma wpływ ma kształtowanie się zmiennej x. Interpretacja parametrów a i b jest następująca:
Parametr a - jeżeli zmienna y wzrośnie o jednostkę, to zmienna x wzrośnie lub spadnie o a.
Parametr b - nie interpretuje się tego parametru, gdyż nie ma on sensu ekonomicznego.
Druga linia regresji:
Parametr a - jeżeli zmienna x wzrośnie o jednostkę, to zmienna y wzrośnie lub spadnie o a.
Parametr b - nie interpretuje się tego parametru, gdyż nie ma on sensu ekonomicznego.
Jeżeli w zadaniu wyznaczymy dwie linie regresji, a konkretnie dwa współczynniki regresji
oraz
, wówczas możemy obliczyć współczynnik korelacji Pearsona, według wzoru:
Aby ocenić dopasowanie prostej regresji do punktów empirycznych (danych z tabeli), należy obliczyć tzw. współczynnik determinacji, według wzoru:
czyli należy podnieść do kwadratu obliczony wcześniej współczynnik korelacji. Współczynnik determinacji
jest unormowany w przedziale [0;1]. Im bliżej 1, tym lepsze dopasowanie modelu do rzeczywistości.
Przykład (zad. 1 z listy nr 3):
Pięć zakładów produkujących ten sam wyrób zbadano ze względu na wielkość produkcji oraz koszty jednostkowe. Wyniki przedstawiono w tabeli:
X - produkcja w tys. sztuk |
2 |
1 |
4 |
3 |
5 |
Y - koszty jednostkowe w zł |
9 |
8 |
1 |
5 |
2 |
Obliczyć współczynnik korelacji i zinterpretować go.
Wyznaczyć prostą regresji kosztów jednostkowych względem produkcji.
Zinterpretować parametr a prostej regresji kosztów jednostkowych względem produkcji.
Wyznaczyć współczynnik korelacji tylko na podstawie prostych regresji.
Ocenić dopasowanie prostych regresji do punktów empirycznych.
(a) Na początku należy obliczyć średnie arytmetyczne zmiennych X i Y. Każda kolumna w tabeli jest traktowana osobno, jako szereg szczegółowy prosty, czyli korzystamy z następujących wzorów:
oraz
czyli:
oraz
Aby obliczyć współczynnik korelacji Pearsona, korzystamy z zapisu środkowego wzoru, gdyż musimy wyznaczyć odpowiednie sumy w tabeli:
Rozszerzamy tabelę o odpowiednie kolumny:
X |
Y |
|
|
|
|
|
2 |
9 |
-1 |
1 |
4 |
16 |
-4 |
1 |
8 |
-2 |
4 |
3 |
9 |
-6 |
4 |
1 |
1 |
1 |
-4 |
16 |
-4 |
3 |
5 |
0 |
0 |
0 |
0 |
0 |
5 |
2 |
2 |
4 |
-3 |
9 |
-6 |
15 |
25 |
- |
10 |
- |
50 |
- 20 |
Podstawiamy sumy z tabeli do wzoru:
Interpretacja: otrzymany wynik wskazuje na silną ujemną korelację liniową, co oznacza, że wzrostowi produkcji danego wyrobu odpowiada spadek jego kosztów jednostkowych.
(b) Należy wyznaczyć prostą regresji kosztów jednostkowych względem produkcji, czyli jak koszty jednostkowe (Y) zależą od produkcji (X), czyli druga linia regresji:
Obliczamy parametry tej linii regresji, według wzorów:
oraz
Wobec tego oszacowany model regresji ma postać:
(c) Zinterpretować parametr a prostej regresji kosztów jednostkowych względem produkcji.
Parametr a wynosi -2, czyli: jeżeli produkcja wzrośnie o 1000 sztuk (o jednostkę), to koszty jednostkowe spadną o 2 zł (o a).
(d) Wyznaczyć współczynnik korelacji tylko na podstawie prostych regresji. Należy w tym celu skorzystać ze wzoru:
Współczynnik regresji
mamy już obliczony. Należy jeszcze wyznaczyć
z pierwszej linii regresji.
Podstawiamy do wzoru współczynniki regresji obu linii:
(e) Ocenić dopasowanie prostych regresji do punktów empirycznych.
Należy obliczyć współczynnik determinacji:
Dopasowanie prostych regresji do punktów empirycznych jest dość duże, na poziomie 79,9%, czyli około 80%.
Jeśli dodatkowo chcielibyśmy wyznaczyć prognozę, tzn. jak kształtowałaby się wielkość produkcji, jeśli koszty jednostkowe danego wyrobu wynosiłyby 4 zł?
W tym celu należy się najpierw zastanowić, którą linię regresji trzeba wyznaczyć. W tym przypadku mamy zależność x od y, czyli x= f(y) - I linia regresji:
Współczynnik regresji
już obliczyliśmy, a jeszcze należy obliczyć drugi parametr tej linii - b:
Wobec tego I linia regresji ma postać:
Aby wyznaczyć prognozę, należy do powyższego równania w miejsce y wstawić 4 (zł) i w ten sposób otrzymamy wielkość produkcji (teoretyczną):
Jeśli koszty jednostkowe wyrobu wynosiłyby 4 zł, to teoretyczna wielkość produkcji (prognostyczna) wyniosłaby 3,4 tys. sztuk, czyli 3400 sztuk.
STATYSTYKA I RACHUNEK PRAWDOPODOBIEŃSTWA - ĆWICZENIA
LISTA ZADAŃ NR 3 - KORELACJA I REGRESJA LINIOWA
Zadanie 1. Pięć zakładów produkujących ten sam wyrób zbadano ze względu na wielkość produkcji oraz koszty jednostkowe. Wyniki przedstawiono w tabeli:
X - produkcja w tys. sztuk |
2 |
1 |
4 |
3 |
5 |
Y - koszty jednostkowe w zł |
9 |
8 |
1 |
5 |
2 |
Obliczyć współczynnik korelacji i zinterpretować go.
Wyznaczyć prostą regresji kosztów jednostkowych względem produkcji.
Zinterpretować parametr a prostej regresji kosztów jednostkowych względem produkcji.
Wyznaczyć współczynnik korelacji tylko na podstawie prostych regresji.
Ocenić dopasowanie prostych regresji do punktów empirycznych.
Zadanie 2. Losowo wybrano 10 zakładów produkcyjnych i zbadano je ze względu na wartość produkcji w mln PLN (Y) i zatrudnienie w dziesiątkach osób (X). Otrzymano następujące wyniki:
X |
1 |
2 |
2 |
5 |
3 |
4 |
5 |
5 |
6 |
7 |
Y |
2 |
4 |
4 |
6 |
7 |
7 |
8 |
7 |
8 |
9 |
Obliczyć współczynnik korelacji liniowej i zinterpretować go.
Oszacować parametry liniowego modelu regresji opisującego zależność produkcji od zatrudnienia.
Zinterpretować parametr a prostej regresji produkcji względem zatrudnienia.
Ocenić dopasowanie prostej regresji do punktów empirycznych.
Zadanie 3. Losowo wybrano 10 studentów, którzy uzyskali następującą liczbę punktów na egzaminie pośrednim (X) i końcowym (Y) z języka angielskiego:
X |
8 |
8 |
9 |
7 |
8 |
8 |
5 |
10 |
7 |
10 |
Y |
7 |
8 |
8 |
5 |
5 |
6 |
6 |
10 |
6 |
9 |
Oszacować parametry liniowego modelu regresji opisującego zależność liczby punktów na egzaminie końcowym od liczby punktów na egzaminie pośrednim.
Zinterpretować parametr a.
Jakiej liczby punktów na egzaminie końcowym może spodziewać się student, który na egzaminie pośrednim uzyskał 6 punktów?
Zadanie 4. Dla losowo wybranych 20 rodzin (czteroosobowych) obliczono, że średnie spożycie mięsa dla 20 rodzin wynosi 12 kg, a odchylenie standardowe wynosi 1,2 kg. Średni dochód natomiast wyznaczony dla 20 rodzin wynosi 0,65 tys. zł, a wariancja wynosi 0,41 (tys. zł)2. Obliczono, że kowariancja między dochodami a spożyciem mięsa wynosi 0,7.
Obliczyć i zinterpretować korelację między dochodami a spożyciem mięsa.
Jeśli dochód w rodzinie będzie wynosił 1,3 tys. zł, to jak kształtowałoby się spożycie mięsa - wyznaczyć na podstawie linii regresji.
Państwowa Wyższa Szkoła Zawodowa im. Witelona w Legnicy
Specjalność: Sterowanie Systemami Przemysłowymi
mgr Iwona Czerska
e-mail: iwona_czerska@op.pl
8