Regresja liniowa

W pomiarach doświadczalnych często mamy do czynienia z sytuacją, kiedy zadajemy (nastawiamy) wartość jednej zmiennej X i dla tej właśnie wartości odczytujemy (mierzymy) wartość drugiej zmiennej Y. To czy druga zmienna zależy od pierwszej i w jaki sposób najprościej można ocenić wykonując wykres Y=f(X). Przykład takiego wykresu przedstawiony jest na rysunku: 35

30

25

∆ y = Y − aX

i

i

20

Y

15

10

5

0

0

2

4

6

8

10

12

14

16

X

Z rysunku widać, że wartość Y jest ewidentnie zależna od wartości X, jednak na podstawie takiej prezentacji graficznej nie jesteśmy w stanie wyznaczyć zależności funkcyjnej zmiennej Y od zmiennej X. Dokument, który czytasz dotyczy sposobu postępowania w sytuacji, kiedy rysunek, bądź inne przesłanki pozwalają nam przypuszczać, że zmienne te związane są zależnością liniową, wyrażoną wzorem:

Y = a∗ X  b

gdzie a i b są stałymi parametrami wzoru funkcyjnego. Pytanie brzmi: jakie parametry a i b

powinniśmy przyjąć dla zależności zmierzonych zmiennych X i Y. Inaczej mówiąc: jak dobrać te parametry, aby linia prosta opowiadająca wykresowi tej funkcji jak najlepiej oddawała zależność eksperymentalną, przedstawioną na rysunku. Z rysunku widać, że rozstrzygnięcie tego problemu (którą z prostych wybrać) „na oko” może nie być łatwe.

Z pomocą przychodzi na matematyka, która umożliwia sformułowanie kryterium optymalności przy doborze współczynników prostej Y(X). Metoda, którą możemy zastosować nazywana jest metodą najmniejszych kwadratów. Jest to nazwa potoczna, gdyż w wersji rachunkowej wielkością, którą chcemy zminimalizować (uczynić jak najmniejszą) jest suma kwadratów odległości punktów doświadczalnych od prostej liczonych pionowo (wzdłuż osi Y), czyli wielkości opisanej na rysunku powyżej jako ∆y. Wzorem można to zapisać jako:

i = N

i= N

F min=∑  y2=∑  Y i− a∗ X i− b2

i=1

i =1

gdzie N jest ilością zmierzonych par (X,Y) (liczbą punktów na wykresie).

Procedura matematyczna, która prowadzi do optymalnych wartości parametrów a i b polega na znalezieniu takich wartości a i b , dla których pochodne wyrażenia na Fmin względem tychże zmiennych równe są zeru (wyrażenie osiąga wartości ekstremalne, tutaj minimalne). Obliczenie tych pochodnych i przyrównanie ich do zera prowadzi do bezpośrednich wzorów na wartości parametrów a i b. Wzory te przyjmują postać:

∑ X ∑ Y − N ∑ X Y

a

∑ Y



=

i

i

i

i

i− a ∑ X i

∑ X ∑ X

b=

− N ∑ X X

i

i

i

i

N

Jak widać są to wzory dosyć skomplikowane i na pierwszy rzut oka ich wyliczenie wydaje się niezbyt łatwe. Okazuję się jednak, że jest to bardzo proste, jeżeli podejdzie się do tego w odpowiedni sposób. Można łatwo zauważyć, że we wzorach występują tak naprawdę cztery różne sumy wartości doświadczalnych, bądź ich kombinacji:

A=∑ X

B=∑ Y

C=∑ X X

D=∑ X Y

i

i

i

i

i

i

Sumy te możemy bardzo łatwo utworzyć sami (lub w arkuszu kalkulacyjnym) tworząc odpowiednią tabelę:

Lp.

Xi

Yi

Xi*Xi

Xi*Yi

1

1.2

1.56

1.44

1.87525

2

1.9

5.66

3.61

10.75081

3

2.6

7.06

6.76

18.35483

4

3.2

8.31

10.24

26.60465

5

3.6

9.40

12.96

33.84979

6

4.1

8.37

16.81

34.30038

7

5.2

11.42

27.04

59.36452

8

5.8

11.49

33.64

66.65403

9

6.4

12.12

40.96

77.56932

10

7.1

13.22

50.41

93.82928

11

7.7

14.83

59.29

114.2289

12

8.4

20.41

70.56

171.4177

13

9

20.33

81

182.9358

14

9.9

20.64

98.01

204.3172

15

10.2

22.67

104.04

231.2451

16

10.9

21.40

118.81

233.207

17

11.5

22.08

132.25

253.9518

18

12.1

25.34

146.41

306.6063

19

12.8

28.53

163.84

365.2469

20

13.3

29.69

176.89

394.819

21

14

29.33

196

410.6399

Suma:

160.9

343.85354

1550.97

3291.768

A

B

C

D

Komórki w wierszu opisanym jako „Suma” zawierają zsumowane zawartości odpowiednich kolumn i stanowią odpowiedniki sum A, B, C, D wspomnianych wcześniej. Wzory na parametry prostej wyrażone przez te sumy mają dużo łatwiejszą postać i dają: A B

a

− N D

B− a A

=

=2.06555

b=

=0.54792

A A− N C

N

Po wyznaczeniu parametrów a i b można na wykresie narysować odpowiednią prostą, aby sprawdzić, czy rzeczywiście najlepiej pasuje ona do punktów. Pozwala to na weryfikację obliczeń, czyli upewnienie się, że rachunki zostały dobrze wykonane.

Ten sam efekt można osiągnąć w arkuszu kalkulacyjnym, wybierając z menu kontekstowego dla serii danych (prawy klawisz myszy kliknięty na którymś z punktów seri ) opcję „Dodaj linię trendu” i zaznaczając w opcjach tej lini „Wyświetl równanie na wykresie”. Efekt wygląda jak na rysunku poniżej:

35

30

y = 2.0656x + 0.5479

25

20

15

10

y = 2.1224x

5

0

0

2

4

6

8

10

12

14

16

Jak widać wartości obliczone przez arkusz kalkulacyjny zgadzają się (z dokładnością do zaokrąglenia) z naszymi wyliczonymi ze wzorów.

Przy wyliczaniu lini regresji (lini trendu) w arkuszu kalkulacyjnym pojawia się dodatkowa opcja gwarantująca, że wykres będzie przechodził przez początek układu współrzędnych. Jest to równoważne założeniu zerowej wartości współczynnika b. Na wykresie linia obliczona przy takim założeniu narysowana jest kolorem niebieskim. Obliczony dla niej współczynnik kierunkowy różni się odrobinę od tego dla prostej regresji ogólnej postaci, są jednak sytuacje kiedy opis teoretyczny wyraźnie przewiduje że prosta opisująca zależność doświadczalną MUSI przechodzić przez zero.

Dla takiego przypadku wzór na współczynnik kierunkowy a ulega znacznemu uproszczeniu: D

∑ X Y

a= =

i

i

C

∑ X X

i

i