statystyka, Korelacja i regresja liniowa, Korelacja i regresja liniowa


KORELACJA I REGRESJA LINIOWA

Korelacja (zależność korelacyjna) w statystyce oznacza zależność między cechami (współzależność cech). Zajmujemy się badaniem dwóch cech jednocześnie. Sprawdzamy, czy istnieją zależności (związki) między tymi dwiema cechami.

Korelacja występuje wtedy, gdy określonym wartościom jednej zmiennej (cechy) przyporządkowane są ściśle określone średnie wartości drugiej zmiennej (cechy). Średnie - bo może wystąpić czynnik losowy (zakłócający).

Do mierzenia siły i kierunku korelacji stosuje się następujący współczynnik korelacji: współczynnik korelacji liniowej Pearsona.

Współczynnik korelacji liniowej Pearsona

1. Wzór:

0x01 graphic

gdzie:

C(X,Y) - kowariancja między cechami X i Y,

0x01 graphic
- wariancja cechy X,

0x01 graphic
- wariancja cechy Y,

0x01 graphic
- odchylenie standardowe cechy X,

0x01 graphic
- odchylenie standardowe cechy Y.

Powyższy wzór zawiera trzy warianty zapisu współczynnika korelacji Pearsona:

  1. Pierwszy zapis wykorzystujemy w sytuacji, gdy mamy już policzoną kowariancję w zadaniu oraz dwie wariancje - cechy X i Y.

  2. Drugi zapis dotyczy sytuacji, gdy nic nie jest policzone, a tylko są dane wartości w tabeli. Wówczas rozpisujemy tabelę na kolejne kolumny i szukamy sum, które potem podstawiamy do wzoru środkowego.

  3. Trzeci wariant stosujemy wtedy, gdy mamy policzoną kowariancję oraz odchylenia standardowe cech X i Y.

2. Współczynnik ten jest unormowany w przedziale [-1;1], tzn. może przyjmować tylko wartości z tego przedziału. Wartości dodatnie oznaczają korelację dodatnią, co oznacza, że wzrostowi wartości jednej cechy odpowiada wzrost średnich wartości cechy drugiej.

Wartości ujemne oznaczają korelację ujemną, czyli wzrostowi wartości jednej cechy odpowiada spadek średnich wartości cechy drugiej.

3. Interpretacja współczynnika korelacji:

♦ jeżeli 0x01 graphic
- nie ma związku liniowego między cechami,

♦ jeżeli 0x01 graphic
- niska (słaba) zależność liniowa,

♦ jeżeli 0x01 graphic
- umiarkowana (średnia) zależność korelacyjna,

♦ jeżeli 0x01 graphic
- znacząca (silna) zależność liniowa,

♦ jeżeli 0x01 graphic
- bardzo silna zależność liniowa,

♦ jeżeli 0x01 graphic
- zależność funkcyjna (1 - funkcja liniowa rosnąca; -1 - funkcja liniowa malejąca),

♦ jeżeli 0x01 graphic
- brak jakiejkolwiek zależności między cechami.

REGRESJA LINIOWA

W każdym zadaniu, w którym mamy dwie zmienne X i Y możemy wyznaczyć dwie linie regresji:

I linia regresji II linia regresji

0x01 graphic
0x01 graphic

0x01 graphic
0x01 graphic

0x01 graphic
0x01 graphic

gdzie: gdzie:

x- zmienna objaśniana (zależna), x- zmienna objaśniająca (niezależna),

y - zmienna objaśniająca (niezależna),

0x01 graphic
- parametr linii regresji (współczynnik kierunkowy prostej),

b - drugi parametr linii regresji.

y - zmienna objaśniana (zależna),

0x01 graphic
- parametr linii regresji,

b - drugi parametr linii regresji.

W pierwszej linii regresji mamy sytuację, w której zmienna y ma wpływ ma kształtowanie się zmiennej x. Interpretacja parametrów a i b jest następująca:

Parametr a - jeżeli zmienna y wzrośnie o jednostkę, to zmienna x wzrośnie lub spadnie o a.

Parametr b - nie interpretuje się tego parametru, gdyż nie ma on sensu ekonomicznego.

Druga linia regresji:

Parametr a - jeżeli zmienna x wzrośnie o jednostkę, to zmienna y wzrośnie lub spadnie o a.

Parametr b - nie interpretuje się tego parametru, gdyż nie ma on sensu ekonomicznego.

Jeżeli w zadaniu wyznaczymy dwie linie regresji, a konkretnie dwa współczynniki regresji 0x01 graphic
oraz 0x01 graphic
, wówczas możemy obliczyć współczynnik korelacji Pearsona, według wzoru:

0x01 graphic

Aby ocenić dopasowanie prostej regresji do punktów empirycznych (danych z tabeli), należy obliczyć tzw. współczynnik determinacji, według wzoru:

0x01 graphic

czyli należy podnieść do kwadratu obliczony wcześniej współczynnik korelacji. Współczynnik determinacji 0x01 graphic
jest unormowany w przedziale [0;1]. Im bliżej 1, tym lepsze dopasowanie modelu do rzeczywistości.

Przykład (zad. 1 z listy nr 3):

Pięć zakładów produkujących ten sam wyrób zbadano ze względu na wielkość produkcji oraz koszty jednostkowe. Wyniki przedstawiono w tabeli:

X - produkcja w tys. sztuk

2

1

4

3

5

Y - koszty jednostkowe w zł

9

8

1

5

2

  1. Obliczyć współczynnik korelacji i zinterpretować go.

  2. Wyznaczyć prostą regresji kosztów jednostkowych względem produkcji.

  3. Zinterpretować parametr a prostej regresji kosztów jednostkowych względem produkcji.

  4. Wyznaczyć współczynnik korelacji tylko na podstawie prostych regresji.

  5. Ocenić dopasowanie prostych regresji do punktów empirycznych.

(a) Na początku należy obliczyć średnie arytmetyczne zmiennych X i Y. Każda kolumna w tabeli jest traktowana osobno, jako szereg szczegółowy prosty, czyli korzystamy z następujących wzorów:

0x01 graphic
oraz 0x01 graphic

czyli: 0x01 graphic
oraz 0x01 graphic

Aby obliczyć współczynnik korelacji Pearsona, korzystamy z zapisu środkowego wzoru, gdyż musimy wyznaczyć odpowiednie sumy w tabeli:

0x01 graphic

Rozszerzamy tabelę o odpowiednie kolumny:

X

Y

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

2

9

-1

1

4

16

-4

1

8

-2

4

3

9

-6

4

1

1

1

-4

16

-4

3

5

0

0

0

0

0

5

2

2

4

-3

9

-6

15

25

 -

10

-

50

- 20

Podstawiamy sumy z tabeli do wzoru:

0x01 graphic

Interpretacja: otrzymany wynik wskazuje na silną ujemną korelację liniową, co oznacza, że wzrostowi produkcji danego wyrobu odpowiada spadek jego kosztów jednostkowych.

(b) Należy wyznaczyć prostą regresji kosztów jednostkowych względem produkcji, czyli jak koszty jednostkowe (Y) zależą od produkcji (X), czyli druga linia regresji:

0x01 graphic

Obliczamy parametry tej linii regresji, według wzorów:

0x01 graphic
oraz 0x01 graphic

0x01 graphic
0x01 graphic

Wobec tego oszacowany model regresji ma postać:

0x01 graphic

(c) Zinterpretować parametr a prostej regresji kosztów jednostkowych względem produkcji.

Parametr a wynosi -2, czyli: jeżeli produkcja wzrośnie o 1000 sztuk (o jednostkę), to koszty jednostkowe spadną o 2 zł (o a).

(d) Wyznaczyć współczynnik korelacji tylko na podstawie prostych regresji. Należy w tym celu skorzystać ze wzoru:

0x01 graphic

Współczynnik regresji 0x01 graphic
mamy już obliczony. Należy jeszcze wyznaczyć 0x01 graphic
z pierwszej linii regresji.

0x01 graphic

Podstawiamy do wzoru współczynniki regresji obu linii:

0x01 graphic

(e) Ocenić dopasowanie prostych regresji do punktów empirycznych.

Należy obliczyć współczynnik determinacji:

0x01 graphic

Dopasowanie prostych regresji do punktów empirycznych jest dość duże, na poziomie 79,9%, czyli około 80%.

Jeśli dodatkowo chcielibyśmy wyznaczyć prognozę, tzn. jak kształtowałaby się wielkość produkcji, jeśli koszty jednostkowe danego wyrobu wynosiłyby 4 zł?

W tym celu należy się najpierw zastanowić, którą linię regresji trzeba wyznaczyć. W tym przypadku mamy zależność x od y, czyli x= f(y) - I linia regresji:

0x01 graphic

Współczynnik regresji 0x01 graphic
już obliczyliśmy, a jeszcze należy obliczyć drugi parametr tej linii - b:

0x01 graphic

Wobec tego I linia regresji ma postać:

0x01 graphic

Aby wyznaczyć prognozę, należy do powyższego równania w miejsce y wstawić 4 (zł) i w ten sposób otrzymamy wielkość produkcji (teoretyczną):

0x01 graphic

Jeśli koszty jednostkowe wyrobu wynosiłyby 4 zł, to teoretyczna wielkość produkcji (prognostyczna) wyniosłaby 3,4 tys. sztuk, czyli 3400 sztuk.

STATYSTYKA I RACHUNEK PRAWDOPODOBIEŃSTWA - ĆWICZENIA

LISTA ZADAŃ NR 3 - KORELACJA I REGRESJA LINIOWA

Zadanie 1. Pięć zakładów produkujących ten sam wyrób zbadano ze względu na wielkość produkcji oraz koszty jednostkowe. Wyniki przedstawiono w tabeli:

X - produkcja w tys. sztuk

2

1

4

3

5

Y - koszty jednostkowe w zł

9

8

1

5

2

  1. Obliczyć współczynnik korelacji i zinterpretować go.

  2. Wyznaczyć prostą regresji kosztów jednostkowych względem produkcji.

  3. Zinterpretować parametr a prostej regresji kosztów jednostkowych względem produkcji.

  4. Wyznaczyć współczynnik korelacji tylko na podstawie prostych regresji.

  5. Ocenić dopasowanie prostych regresji do punktów empirycznych.

Zadanie 2. Losowo wybrano 10 zakładów produkcyjnych i zbadano je ze względu na wartość produkcji w mln PLN (Y) i zatrudnienie w dziesiątkach osób (X). Otrzymano następujące wyniki:

X

1

2

2

5

3

4

5

5

6

7

Y

2

4

4

6

7

7

8

7

8

9

  1. Obliczyć współczynnik korelacji liniowej i zinterpretować go.

  2. Oszacować parametry liniowego modelu regresji opisującego zależność produkcji od zatrudnienia.

  3. Zinterpretować parametr a prostej regresji produkcji względem zatrudnienia.

  4. Ocenić dopasowanie prostej regresji do punktów empirycznych.

Zadanie 3. Losowo wybrano 10 studentów, którzy uzyskali następującą liczbę punktów na egzaminie pośrednim (X) i końcowym (Y) z języka angielskiego:

X

8

8

9

7

8

8

5

10

7

10

Y

7

8

8

5

5

6

6

10

6

9

  1. Oszacować parametry liniowego modelu regresji opisującego zależność liczby punktów na egzaminie końcowym od liczby punktów na egzaminie pośrednim.

  2. Zinterpretować parametr a.

  3. Jakiej liczby punktów na egzaminie końcowym może spodziewać się student, który na egzaminie pośrednim uzyskał 6 punktów?

Zadanie 4. Dla losowo wybranych 20 rodzin (czteroosobowych) obliczono, że średnie spożycie mięsa dla 20 rodzin wynosi 12 kg, a odchylenie standardowe wynosi 1,2 kg. Średni dochód natomiast wyznaczony dla 20 rodzin wynosi 0,65 tys. zł, a wariancja wynosi 0,41 (tys. zł)2. Obliczono, że kowariancja między dochodami a spożyciem mięsa wynosi 0,7.

  1. Obliczyć i zinterpretować korelację między dochodami a spożyciem mięsa.

  2. Jeśli dochód w rodzinie będzie wynosił 1,3 tys. zł, to jak kształtowałoby się spożycie mięsa - wyznaczyć na podstawie linii regresji.

Państwowa Wyższa Szkoła Zawodowa im. Witelona w Legnicy

Specjalność: Sterowanie Systemami Przemysłowymi

mgr Iwona Czerska

e-mail: iwona_czerska@op.pl

8



Wyszukiwarka

Podobne podstrony:
Statystyka i demografia Regresja liniowa 2011 2012 Kubiczek
Izabela Tupik Zadanie ze statystyki Korelacja i regresja
statystyka ćw, regresja - zadania Zarz+Soc, Zadanie 2
Statystyka 3 korelacja
Algorytm analizy korelacji i regresji liniowej, Statystyka opisowa
7 STATYSTYKA korelacja rangowa0 Nieznany (2)
Statystyka korelacje
Statystyka korelacje
5 STATYSTYKA korelacja 1a id 40 Nieznany (2)
5 STATYSTYKA korelacja 1b
5 STATYSTYKA korelacja 1b
Korelacja i regresja liniowa
współzależność, Współczynnik korelacji liniowej oraz funkcja regresji liniowej dwóch zmiennych

więcej podobnych podstron