Regresja liniowa - wzory do wstępu podanego na ostatnich zajęciach i przykłady obliczeń

1. Kształt dopasowania

Tak, jak mówiłam na zajęciach będziemy zajmować się tylko dopasowaniem prostej do danych. Czyli poszukujemy równania prostej

0x01 graphic

Wzory na szukane parametry a i b mają następującą postać:

0x01 graphic

0x01 graphic

gdzie

0x01 graphic
- średnie arytmetyczne ze zmiennej x i ze zmiennej y,

0x01 graphic
- średnia arytmetyczna z iloczynu xy,

0x01 graphic
- średnia z kwadratu zmiennej x.

UWAGA: Zmienna x nazywana jest często zmienną objaśniającą, a zmienna y zmienną objaśnianą.

Przykład 1

Wykonano pomiary zależności oporu elektrycznego od temperatury, otrzymując następujące wyniki:

temperatura

opór

20

150

38

159

50

172

65

175

80

185

Wyznaczymy prostą regresji, która najlepiej pasuje do danych wykorzystując powyższe wzory. Z uwagi na fakt, że pewne obliczenia będą musieli Państwo przeprowadzić „ręcznie”, wygodnie jest utworzyć tabelę w następującej postaci:

 

x

y

x*y

x^2

 

temperatura

opór

opór * temperatura

temperatura^2

1

20

150

3000

400

2

38

159

6042

1444

3

50

172

8600

2500

4

65

175

11375

4225

5

80

185

14800

6400

średnia

50,6

168,2

8763,4

2993,8

Korzystając z obliczeń zawartych w powyższej tabeli (czerwony wiersz) otrzymujemy

0x01 graphic

Aby policzyć b, musimy mieć wcześniej obliczoną wartość a:

0x01 graphic

Zatem najlepiej pasująca do danych prosta regresji zadana jest równaniem

0x01 graphic

0x01 graphic

Rysunek 1. Wykres zależności oporu elektrycznego od temperatury z dopasowaną linią regresji.

Ćwiczenie 1

Wyznaczyć równanie prostej regresji opisującej zależność temperatury od oporu elektrycznego.

Odpowiedź: 0x01 graphic

2. Siła związku między zmiennymi

Siłę dopasowania prostej do danych mierzy współczynnik korelacji Pearsona (r), który wyraża się wzorem:

0x01 graphic
.

UWAGA: Tak obliczony współczynnik r może przyjmować wartości z przedziału 0x01 graphic
. Interpretacja została podana na ostatnich zajęciach.

Przykład 2

Zbadać siłę związku między danymi z przykładu 1 wykorzystując współczynnik korelacji Pearsona.

Tabela pomocna przy obliczeniach ma postać:

c

x

y

x-średnia(x)

y-średnia(y)

(x-średnia(x))*(y-średnia(y))

(x-średnia(x))^2

(y-średnia(y))^2

 

temperatura

opór

 

 

 

 

 

1

20

150

-30,6

-18,2

556,92

936,36

331,24

2

38

159

-12,6

-9,2

115,92

158,76

84,64

3

50

172

-0,6

3,8

-2,28

0,36

14,44

4

65

175

14,4

6,8

97,92

207,36

46,24

5

80

185

29,4

16,8

493,92

864,36

282,24

średnia

50,6

168,2

 

 

 

 

 

suma

 

 

 

 

1262,4

2167,2

758,8

Korzystając z liczb zamieszczonych w zielonym wierszu otrzymujemy:

0x01 graphic
,

mamy więc do czynienia z silną korelacją dodatnia, tzn. poziom oporu elektrycznego wzrasta wraz z wielkością temperatury, co widać na wykresie przedstawionym na Rysunku 1.

Zadanie

Wylosowano 8 par zawierających związek małżeński i otrzymano następujące dane o wieku kobiet i mężczyzn:

wiek kobiet

22

19

23

28

30

31

25

21

wiek mężczyzn

24

20

26

32

33

30

25

24

Wyznaczyć prostą regresji opisującej zależność między wiekiem kobiet a wiekiem mężczyzn oraz wyznaczyć współczynnik korelacji Pearsona dla tej zależności.

Odpowiedź:  1. w ćwiczeniu pierwszym powinno wyjść y=1,66x - 228,6 ,

2. współczynnik korelacji Pearsona r przyjmuje wartości tylko z przedziału
domkniętego obustronnie [-1, 1]., 0x01 graphic
, gdzie x - wiek kobiet, y - wiek mężczyzn.