Regresja liniowa - wzory do wstępu podanego na ostatnich zajęciach i przykłady obliczeń
1. Kształt dopasowania
Tak, jak mówiłam na zajęciach będziemy zajmować się tylko dopasowaniem prostej do danych. Czyli poszukujemy równania prostej
Wzory na szukane parametry a i b mają następującą postać:
gdzie
- średnie arytmetyczne ze zmiennej x i ze zmiennej y,
- średnia arytmetyczna z iloczynu xy,
- średnia z kwadratu zmiennej x.
UWAGA: Zmienna x nazywana jest często zmienną objaśniającą, a zmienna y zmienną objaśnianą.
Przykład 1
Wykonano pomiary zależności oporu elektrycznego od temperatury, otrzymując następujące wyniki:
temperatura |
opór |
20 |
150 |
38 |
159 |
50 |
172 |
65 |
175 |
80 |
185 |
Wyznaczymy prostą regresji, która najlepiej pasuje do danych wykorzystując powyższe wzory. Z uwagi na fakt, że pewne obliczenia będą musieli Państwo przeprowadzić „ręcznie”, wygodnie jest utworzyć tabelę w następującej postaci:
|
x |
y |
x*y |
x^2 |
|
temperatura |
opór |
opór * temperatura |
temperatura^2 |
1 |
20 |
150 |
3000 |
400 |
2 |
38 |
159 |
6042 |
1444 |
3 |
50 |
172 |
8600 |
2500 |
4 |
65 |
175 |
11375 |
4225 |
5 |
80 |
185 |
14800 |
6400 |
średnia |
50,6 |
168,2 |
8763,4 |
2993,8 |
Korzystając z obliczeń zawartych w powyższej tabeli (czerwony wiersz) otrzymujemy
Aby policzyć b, musimy mieć wcześniej obliczoną wartość a:
Zatem najlepiej pasująca do danych prosta regresji zadana jest równaniem
Rysunek 1. Wykres zależności oporu elektrycznego od temperatury z dopasowaną linią regresji.
Ćwiczenie 1
Wyznaczyć równanie prostej regresji opisującej zależność temperatury od oporu elektrycznego.
Odpowiedź:
2. Siła związku między zmiennymi
Siłę dopasowania prostej do danych mierzy współczynnik korelacji Pearsona (r), który wyraża się wzorem:
.
UWAGA: Tak obliczony współczynnik r może przyjmować wartości z przedziału
. Interpretacja została podana na ostatnich zajęciach.
Przykład 2
Zbadać siłę związku między danymi z przykładu 1 wykorzystując współczynnik korelacji Pearsona.
Tabela pomocna przy obliczeniach ma postać:
c |
x |
y |
x-średnia(x) |
y-średnia(y) |
(x-średnia(x))*(y-średnia(y)) |
(x-średnia(x))^2 |
(y-średnia(y))^2 |
|
temperatura |
opór |
|
|
|
|
|
1 |
20 |
150 |
-30,6 |
-18,2 |
556,92 |
936,36 |
331,24 |
2 |
38 |
159 |
-12,6 |
-9,2 |
115,92 |
158,76 |
84,64 |
3 |
50 |
172 |
-0,6 |
3,8 |
-2,28 |
0,36 |
14,44 |
4 |
65 |
175 |
14,4 |
6,8 |
97,92 |
207,36 |
46,24 |
5 |
80 |
185 |
29,4 |
16,8 |
493,92 |
864,36 |
282,24 |
średnia |
50,6 |
168,2 |
|
|
|
|
|
suma |
|
|
|
|
1262,4 |
2167,2 |
758,8 |
Korzystając z liczb zamieszczonych w zielonym wierszu otrzymujemy:
,
mamy więc do czynienia z silną korelacją dodatnia, tzn. poziom oporu elektrycznego wzrasta wraz z wielkością temperatury, co widać na wykresie przedstawionym na Rysunku 1.
Zadanie
Wylosowano 8 par zawierających związek małżeński i otrzymano następujące dane o wieku kobiet i mężczyzn:
wiek kobiet |
22 |
19 |
23 |
28 |
30 |
31 |
25 |
21 |
wiek mężczyzn |
24 |
20 |
26 |
32 |
33 |
30 |
25 |
24 |
Wyznaczyć prostą regresji opisującej zależność między wiekiem kobiet a wiekiem mężczyzn oraz wyznaczyć współczynnik korelacji Pearsona dla tej zależności.
Odpowiedź: 1. w ćwiczeniu pierwszym powinno wyjść y=1,66x - 228,6 ,
2. współczynnik korelacji Pearsona r przyjmuje wartości tylko z przedziału
domkniętego obustronnie [-1, 1].,
, gdzie x - wiek kobiet, y - wiek mężczyzn.