REGRESJA LINIOWA
dr Nella Mirowska, dr Wiesław Białas
Instytut Fizyki PWr
Jeżeli zmierzono obarczone tylko błędami przypadkowymi wartości (x
i
, y
i
), i = 1, 2,
…, n dwóch różnych
wielkości fizycznych X i Y, o których wiadomo, że są związane ze sobą zależnością liniową y = f(x), to najlep-
szym przybliżeniem współczynników A i B w równaniu y = Ax + B jest
,
1
1
1
1
Γ
⋅
−
=
∑
∑
∑
=
=
=
n
i
i
n
i
i
n
i
i
i
y
x
y
x
n
A
,
1
1
1
1
1
2
Γ
⋅
−
=
∑
∑
∑
∑
=
=
=
=
n
i
i
i
n
i
i
n
i
i
n
i
i
y
x
x
y
x
B
gdzie
.
2
1
1
2
−
=
Γ
∑
∑
=
=
n
i
i
n
i
i
x
x
n
Wielkości charakteryzujące zależność liniową zostały obliczone w oparciu o punkty doświadczalne, a te
obarczone są niepewnościami związanymi z wykonywanymi pomiarami. Dlatego współczynniki A i B też są
wyznaczane z pewną dokładnością. Niepewności wielkości A i B obliczamy następująco:
,
Γ
σ
=
δ
n
A
y
,
1
2
Γ
σ
=
δ
∑
=
n
i
i
y
x
B
gdzie
(
)
.
2
2
2
1
2
−
ε
=
−
−
−
=
σ
∑
∑
=
n
n
B
Ax
y
i
i
n
i
i
i
y
UWAGA:
1. Aby narysować „prostą regresji liniowej” na papierze milimetrowym, wybieramy odległe współrzędne x
p
i x
k
(nie współrzędne punktów pomiarowych!), obliczymy odpowiadające im współrzędne y
p
i y
k
według
równania y = Ax + B (A i B już są znane), nanosimy punkty o współrzędnych (x
p
, y
p
) oraz (x
k
, y
k
) i przez te
punkty przeprowadzamy prostą. Punkty odpowiadające wynikom naszych pomiarów wraz z ich niepewno-
ściami powinny rozkładać się równomiernie w pobliżu tej prostej i może się okazać, że żaden z naszych
punktów pomiarowych nie leży na niej!
Znaczne odstępstwa (ponad 30%) punktów pomiarowych od linii teoretycznej pozwalają przypuszczać, że
mierzone wielkości nie są liniowo zależne. Wtedy też współczynnik korelacji znacznie różni się od jedno-
ści. Jeśli te odstępstwa dotyczą małej ilości punktów pomiarowych usytuowanych w różnych częściach
wykresu to przyjmujemy, że punkty te obarczone są tzw. błędem grubym. Takie punkty odrzucamy, a dla
pozostałych ponownie obliczmy wszystkie parametry prostej najlepszego dopasowania, tzn. A,
δA, B, δB
oraz współczynnik korelacji R.
1
2. Wszystkie kalkulatory typu „SCIENTIFIC”, które wykonują obliczenia statystyczne jednej zmiennej,
automatycznie obliczają sumy typu
,
, gdzie
i = 1, 2, 3,
…, n
∑
i
i
x
∑
i
i
x
2
. Kalkulatory pozwalające wyko-
nywać obliczenia statystyczne na dwóch zmiennych, obliczają także sumy typu
,
,
∑
i
i
y
∑
i
i
y
2
∑
i
i
i
y
x
. Po
wprowadzeniu do pamięci kalkulatora par (
x
i
,
y
i
) wielkości zmierzonych, możliwe jest wyznaczenie
wszystkich parametrów prostej najlepszego dopasowania metodą regresji liniowej zwanej również metodą
najmniejszych kwadratów. Przed obliczeniami należy tylko sprawdzić w instrukcji dołączonej do kalkula-
tora, czy regresja jest liczona dla równania
y = Ax + B, czy dla y = A + Bx. Aby wyznaczyć niepewności
współczynników
A i B przy pomocy kalkulatora, wygodniej jest zastosować następujące przybliżenie
∑
∑
∑
∑
−
−
≅
ε
i
i
i
i
i
i
i
i
i
y
B
y
x
A
y
2
2
zamiast
2
2
)
(
B
Ax
y
i
i
i
i
i
−
−
=
ε
∑
∑
.
Procedura ta może wpłynąć na zmianę wartości
σ
y
, która zależna jest od
. W konsekwencji może to
spowodować zmianę wartości
δA
∑
ε
i
i
2
i
δB, choć wyrażenia pozostają takie same:
Γ
−
ε
=
δ
∑
n
n
A
i
i
2
2
,
Γ
−
ε
=
δ
∑
∑
i
i
i
i
x
n
B
2
2
2
.
W rozważanym poniżej przykładzie
y
1
= f(x)
z wzorów „wygodnych” mamy
∑
ε
i
i
2
≅ 469,8796 – 344,0643 – 124,6749 = 1,140437
6165595
,
0
3
140437
,
1
2
2
=
=
−
ε
∑
n
i
i
δA = 0,1992366, δB = 0,6618653.
Na podstawie wzorów „dokładnych” otrzymano
6165576
,
0
3
1404299
,
1
2
)
(
2
=
=
−
−
−
∑
n
B
Ax
y
i
i
i
.
δA = 0,1992360, δB = 0,6618633.
Widać, że zgodność otrzymanych wielkości liczbowych jest bardzo dobra. Celowo zaniechano zaokrągleń.
Równanie prostej najlepszego dopasowania będzie
y
1
= (2,1541
± 0,1993)x + (2,707 ± 0,662).
Ten sposób obliczania niepewności
δA i δB jest o wiele prostszy i szybszy, lecz mniej dokładny. Może na
przykład zawyżać wartości poszukiwanych wielkości
δA i δB niezależnie od zaokrągleń różnych wielkości
na poszczególnych etapach obliczeń. Poza tym, schematyczne stosowanie przybliżonej zależności
2
∑
∑
∑
∑
−
−
≅
ε
i
i
i
i
i
i
i
i
i
y
B
y
x
A
y
2
2
∑
ε
i
i
2
może prowadzić do bezsensownych wartości liczbowych wielkości
(np. wartości ujemne
!) nawet przy dużej dokładności pomiarów i obliczeń. W przypadku, gdy przy
obliczaniu wyrażenia przybliżonego
występuje różnica dwóch dużych, prawie jednakowych liczb,
należy koniecznie
∑
ε
i
i
2
posłużyć się zależnością definicyjną
2
2
)
(
B
Ax
y
i
i
i
i
i
−
−
=
ε
∑
∑
.
WSPÓŁCZYNNIK KORELACJI
Współczynnik korelacji R jest miarą liczbową korelacji (związku, współzależności) zmiennych x
i
i y
i
(i = 1, 2, 3,
…, n) tworzących serie pomiarów wielkości X i Y. Z jednej strony służy do upewnienia się, czy
mamy wystarczającą ilość n pomiarów wielkości x
i
i y
i
by twierdzić, że zachodzi między nimi korelacja, czyli
zależność np. liniowa, wykładnicza, logarytmiczna. Z drugiej strony R jest miarą prawdopodobieństwa istnienia
przyjętej (postulowanej) współzależności zmiennych x
i
i y
i
. Jeżeli związek między zmiennymi x
i
i y
i
jest linio-
wy, y = f(x), to R nazywamy współczynnikiem korelacji liniowej, a współzależność między dwiema seriami
pomiarów – korelacją liniową. Korelacja jest tym silniejsza, im większą wartość z przedziału [0, 1] osiąga
R.
Duża wartość współczynnika
R świadczy o dużym prawdopodobieństwie postulowanego związku zmien-
nych x
i
i y
i
. W szczególności R =
±0,95 oznacza prawdopodobieństwo równe 95% dla badanej współzależno-
ści. Tak więc, może zachodzić korelacja liniowa pomiędzy punktami doświadczalnymi (x
i
, y
i
), lecz obarczona
jest niepewnością względną wynoszącą 5%.
Jeżeli R =
±1, mówimy o korelacji zupełnej, jeżeli R = 0, to mó-
wimy o braku korelacji. Mała wartość współczynnika korelacji R może wskazywać na zbyt krótką serię pomia-
rów lub na inną niż przyjęto współzależność między wielkościami x
i
i y
i
. W pierwszym przypadku przeprowa-
dzamy pomiary uzupełniające, a w drugim, o ile nie przeczy to prawom rządzącym badanym związkiem mię-
dzy seriami pomiarów, sprawdzamy inną korelację, np. krzywoliniową zamiast liniowej. Informacje dotyczące
regresji nieliniowej zawarte są w §4.2. skryptu Ćwiczenia laboratoryjne z fizyki, cz. I., Podstawy opracowania
wyników pomiarów, OWPWr., Wrocław 1999 – Poprawski R., Salejda W
.
Jeżeli
natomiast wiadomo, że zwią-
zek między wielkościami x
i
i y
i
ma charakter wykładniczy, to warto najpierw dokonać tzw. linearyzacji badanej
zależności, a następnie skorzystać z metody regresji liniowej. Więcej na ten temat można znaleźć w §3.3
wspomnianego skryptu.
Graniczne wartości
R w zależności od liczby pomiarów n, od której wzwyż można wnioskować
o istnieniu współzależności, przedstawia poniższa tabela:
n
5
10
20
30
40
50
75
100
500
1000 10000
R
0,99
0,84
0,64
0,53
0,47
0,42
0,35
0,30
0,14
0,10
0,03
Rozumiemy ją następująco: jeżeli dla n = 10 otrzymano wartość współczynnika korelacji |R| nie mniej niż 0,84,
to przyjęty związek między wielkościami x
i
i y
i
jest poprawny, ale tylko w 84%. W związku z tym, nie można
spodziewać się ułożenia wszystkich punktów pomiarowych na linii najlepszego dopasowania.
Wartości średnie
x
i
y zmiennych x
i
i y
i
, standardowe odchylenia pojedynczego pomiaru
S
x
i
S
y
, współ-
czynnik korelacji
R i parametry prostej y = Ax + B spełniają następujące relacje:
A
R
S
S
y
x
=
,
x
A
y
B
−
=
( )
1
2
−
∆
=
∑
n
x
S
i
i
x
,
( )
1
2
−
∆
=
∑
n
y
S
i
i
y
,
3
gdzie:
S
x
i
S
y
– odchylenia standardowe pojedynczej wartości z serii pomiarów
x
i
i
y
i
,
x i y
– wartości średnie serii
x
i
i
y
i
,
x
x
x
i
i
−
=
∆
,
y
y
y
i
i
−
=
∆
,
n
– ilość pomiarów w seriach
x
i
i
y
i
.
W programie użytkowym Excel przy wykonywaniu wykresów można określić współczynnik korelacji,
jednak
niepewności współczynników
A i B liczymy korzystając ze wzorów regresji liniowej, lub korzystając
z programów REGRESJA. Należy pamiętać, że w przypadku mianowanych wielkości zmiennych
x
i
i
y
i
, rów-
nież współczynniki
A, δA, B i δB są wielkościami mianowanymi – należy podawać wartości tych współczynni-
ków wraz z jednostkami!
Przykład.
Dokonano pomiarów o różnej precyzji. Wyniki pomiarów wielkości
x
i
i
y
i
zebrano w tabeli.
a
) Tabela i wykres wykonane za pomocą programu Excel:
L
x
y
=
f
(
x
)
x
y
1
= f(x)
1
1,12
5,25
1,1
5,25
2
2,02
6,80
2,0
6,40
3
2,95
8,99
2,9
9,49
4
3,98
11,03
3,9
11,83
5
5,03
13,09
5,0
13,09
Jak widać, dla funkcji
y
1
=
f(x)
, czyli
y = 2,154x + 2,707
, współczynnik korelacji
R = 0,987
jest za mały
(dla
n = 5, współczynnik R
≥ 0,99), czyli nie można powiedzieć, że występuje liniowa zależność
y(x)
. Na-
leży więc wykonać dodatkowe pomiary w innych lub w tych samych punktach (zagęścić pomiary, powtó-
rzyć wątpliwe lub/i rozszerzyć zakres pomiarowy).
b
) Obliczenia wykonane na podstawie pomiarów
y = f(x) ujętych w tabeli powyżej za pomocą programu
REGRESJA znajdującego się w sieci internetowej pod adresem
http://www.if.pwr.wroc.pl/LPF/
:
4
Współczynniki:
A = 2,036,
B = 2,884.
Niepewność współczynników:
δA = 4,534 · 10
–2
,
δB = 1,506 · 10
–1
.
c
) Obliczenia wykonane na podstawie pomiarów ujętych w tabeli w punkcie (a) za pomocą programu
REGRESJA.EXE znajdującego się w komputerze w LPF w katalogu C:\UZYTKI.
Równanie prostej:
y = 2,036x + 2,884.
Niepewność współczynników:
δA ≡ δa = 0,045,
δB ≡ δb = 0,151.
Takie równanie należy przepisać, stosując prawidła zaokrąglenia, w następujący sposób:
y = (2,036
± 0,045)x + (2,88 ± 0,16).
5