pomoc NM WB regresja liniowa

background image

REGRESJA LINIOWA

dr Nella Mirowska, dr Wiesław Białas

Instytut Fizyki PWr


Jeżeli zmierzono obarczone tylko błędami przypadkowymi wartości (x

i

, y

i

), i = 1, 2,

…, n dwóch różnych

wielkości fizycznych X i Y, o których wiadomo, że są związane ze sobą zależnością liniową y = f(x), to najlep-
szym przybliżeniem współczynników A i B w równaniu y = Ax + B jest

,

1

1

1

1

Γ













=

=

=

=

n

i

i

n

i

i

n

i

i

i

y

x

y

x

n

A

,

1

1

1

1

1

2

Γ

















=

=

=

=

=

n

i

i

i

n

i

i

n

i

i

n

i

i

y

x

x

y

x

B

gdzie

.

2

1

1

2









=

Γ

=

=

n

i

i

n

i

i

x

x

n

Wielkości charakteryzujące zależność liniową zostały obliczone w oparciu o punkty doświadczalne, a te

obarczone są niepewnościami związanymi z wykonywanymi pomiarami. Dlatego współczynniki A i B też są
wyznaczane z pewną dokładnością. Niepewności wielkości A i B obliczamy następująco:

,

Γ

σ

=

δ

n

A

y

,

1

2

Γ

σ

=

δ

=

n

i

i

y

x

B

gdzie

(

)

.

2

2

2

1

2

ε

=

=

σ

=

n

n

B

Ax

y

i

i

n

i

i

i

y

UWAGA:


1. Aby narysować „prostą regresji liniowej” na papierze milimetrowym, wybieramy odległe współrzędne x

p

i x

k

(nie współrzędne punktów pomiarowych!), obliczymy odpowiadające im współrzędne y

p

i y

k

według

równania y = Ax + B (A i B już są znane), nanosimy punkty o współrzędnych (x

p

, y

p

) oraz (x

k

, y

k

) i przez te

punkty przeprowadzamy prostą. Punkty odpowiadające wynikom naszych pomiarów wraz z ich niepewno-
ściami powinny rozkładać się równomiernie w pobliżu tej prostej i może się okazać, że żaden z naszych
punktów pomiarowych nie leży na niej!


Znaczne odstępstwa (ponad 30%) punktów pomiarowych od linii teoretycznej pozwalają przypuszczać, że
mierzone wielkości nie są liniowo zależne. Wtedy też współczynnik korelacji znacznie różni się od jedno-
ści. Jeśli te odstępstwa dotyczą małej ilości punktów pomiarowych usytuowanych w różnych częściach
wykresu to przyjmujemy, że punkty te obarczone są tzw. błędem grubym. Takie punkty odrzucamy, a dla
pozostałych ponownie obliczmy wszystkie parametry prostej najlepszego dopasowania, tzn. A,

δA, B, δB

oraz współczynnik korelacji R.

1

background image

2. Wszystkie kalkulatory typu „SCIENTIFIC”, które wykonują obliczenia statystyczne jednej zmiennej,

automatycznie obliczają sumy typu

,

, gdzie

i = 1, 2, 3,

…, n

i

i

x

i

i

x

2

. Kalkulatory pozwalające wyko-

nywać obliczenia statystyczne na dwóch zmiennych, obliczają także sumy typu

,

,

i

i

y

i

i

y

2

i

i

i

y

x

. Po

wprowadzeniu do pamięci kalkulatora par (

x

i

,

y

i

) wielkości zmierzonych, możliwe jest wyznaczenie

wszystkich parametrów prostej najlepszego dopasowania metodą regresji liniowej zwanej również metodą
najmniejszych kwadratów. Przed obliczeniami należy tylko sprawdzić w instrukcji dołączonej do kalkula-
tora, czy regresja jest liczona dla równania

y = Ax + B, czy dla y = A + Bx. Aby wyznaczyć niepewności

współczynników

A i B przy pomocy kalkulatora, wygodniej jest zastosować następujące przybliżenie

ε

i

i

i

i

i

i

i

i

i

y

B

y

x

A

y

2

2

zamiast

2

2

)

(

B

Ax

y

i

i

i

i

i

=

ε

.

Procedura ta może wpłynąć na zmianę wartości

σ

y

, która zależna jest od

. W konsekwencji może to

spowodować zmianę wartości

δA

ε

i

i

2

i

δB, choć wyrażenia pozostają takie same:

Γ

ε

=

δ

n

n

A

i

i

2

2

,

Γ

ε

=

δ

i

i

i

i

x

n

B

2

2

2

.

W rozważanym poniżej przykładzie

y

1

= f(x)

z wzorów „wygodnych” mamy

ε

i

i

2

≅ 469,8796 – 344,0643 – 124,6749 = 1,140437

6165595

,

0

3

140437

,

1

2

2

=

=

ε

n

i

i

δA = 0,1992366, δB = 0,6618653.

Na podstawie wzorów „dokładnych” otrzymano

6165576

,

0

3

1404299

,

1

2

)

(

2

=

=

n

B

Ax

y

i

i

i

.

δA = 0,1992360, δB = 0,6618633.

Widać, że zgodność otrzymanych wielkości liczbowych jest bardzo dobra. Celowo zaniechano zaokrągleń.
Równanie prostej najlepszego dopasowania będzie

y

1

= (2,1541

± 0,1993)x + (2,707 ± 0,662).

Ten sposób obliczania niepewności

δA i δB jest o wiele prostszy i szybszy, lecz mniej dokładny. Może na

przykład zawyżać wartości poszukiwanych wielkości

δA i δB niezależnie od zaokrągleń różnych wielkości

na poszczególnych etapach obliczeń. Poza tym, schematyczne stosowanie przybliżonej zależności

2

background image

ε

i

i

i

i

i

i

i

i

i

y

B

y

x

A

y

2

2

ε

i

i

2

może prowadzić do bezsensownych wartości liczbowych wielkości

(np. wartości ujemne

!) nawet przy dużej dokładności pomiarów i obliczeń. W przypadku, gdy przy

obliczaniu wyrażenia przybliżonego

występuje różnica dwóch dużych, prawie jednakowych liczb,

należy koniecznie

ε

i

i

2

posłużyć się zależnością definicyjną

2

2

)

(

B

Ax

y

i

i

i

i

i

=

ε

.


WSPÓŁCZYNNIK KORELACJI

Współczynnik korelacji R jest miarą liczbową korelacji (związku, współzależności) zmiennych x

i

i y

i

(i = 1, 2, 3,

…, n) tworzących serie pomiarów wielkości X i Y. Z jednej strony służy do upewnienia się, czy

mamy wystarczającą ilość n pomiarów wielkości x

i

i y

i

by twierdzić, że zachodzi między nimi korelacja, czyli

zależność np. liniowa, wykładnicza, logarytmiczna. Z drugiej strony R jest miarą prawdopodobieństwa istnienia
przyjętej (postulowanej) współzależności zmiennych x

i

i y

i

. Jeżeli związek między zmiennymi x

i

i y

i

jest linio-

wy, y = f(x), to R nazywamy współczynnikiem korelacji liniowej, a współzależność między dwiema seriami
pomiarów – korelacją liniową. Korelacja jest tym silniejsza, im większą wartość z przedziału [0, 1] osiąga

R.

Duża wartość współczynnika

R świadczy o dużym prawdopodobieństwie postulowanego związku zmien-

nych x

i

i y

i

. W szczególności R =

±0,95 oznacza prawdopodobieństwo równe 95% dla badanej współzależno-

ści. Tak więc, może zachodzić korelacja liniowa pomiędzy punktami doświadczalnymi (x

i

, y

i

), lecz obarczona

jest niepewnością względną wynoszącą 5%.

Jeżeli R =

±1, mówimy o korelacji zupełnej, jeżeli R = 0, to mó-

wimy o braku korelacji. Mała wartość współczynnika korelacji R może wskazywać na zbyt krótką serię pomia-
rów lub na inną niż przyjęto współzależność między wielkościami x

i

i y

i

. W pierwszym przypadku przeprowa-

dzamy pomiary uzupełniające, a w drugim, o ile nie przeczy to prawom rządzącym badanym związkiem mię-
dzy seriami pomiarów, sprawdzamy inną korelację, np. krzywoliniową zamiast liniowej. Informacje dotyczące
regresji nieliniowej zawarte są w §4.2. skryptu Ćwiczenia laboratoryjne z fizyki, cz. I., Podstawy opracowania
wyników pomiarów
, OWPWr., Wrocław 1999 – Poprawski R., Salejda W

.

Jeżeli

natomiast wiadomo, że zwią-

zek między wielkościami x

i

i y

i

ma charakter wykładniczy, to warto najpierw dokonać tzw. linearyzacji badanej

zależności, a następnie skorzystać z metody regresji liniowej. Więcej na ten temat można znaleźć w §3.3
wspomnianego skryptu.

Graniczne wartości

R w zależności od liczby pomiarów n, od której wzwyż można wnioskować

o istnieniu współzależności, przedstawia poniższa tabela:

n

5

10

20

30

40

50

75

100

500

1000 10000

R

0,99

0,84

0,64

0,53

0,47

0,42

0,35

0,30

0,14

0,10

0,03


Rozumiemy ją następująco: jeżeli dla n = 10 otrzymano wartość współczynnika korelacji |R| nie mniej niż 0,84,
to przyjęty związek między wielkościami x

i

i y

i

jest poprawny, ale tylko w 84%. W związku z tym, nie można

spodziewać się ułożenia wszystkich punktów pomiarowych na linii najlepszego dopasowania.

Wartości średnie

x

i

y zmiennych x

i

i y

i

, standardowe odchylenia pojedynczego pomiaru

S

x

i

S

y

, współ-

czynnik korelacji

R i parametry prostej y = Ax + B spełniają następujące relacje:

A

R

S
S

y

x

=

,

x

A

y

B

=

( )

1

2

=

n

x

S

i

i

x

,

( )

1

2

=

n

y

S

i

i

y

,

3

background image

gdzie:

S

x

i

S

y

– odchylenia standardowe pojedynczej wartości z serii pomiarów

x

i

i

y

i

,

x i y

– wartości średnie serii

x

i

i

y

i

,

x

x

x

i

i

=

,

y

y

y

i

i

=

,

n

– ilość pomiarów w seriach

x

i

i

y

i

.

W programie użytkowym Excel przy wykonywaniu wykresów można określić współczynnik korelacji,

jednak

niepewności współczynników

A i B liczymy korzystając ze wzorów regresji liniowej, lub korzystając

z programów REGRESJA. Należy pamiętać, że w przypadku mianowanych wielkości zmiennych

x

i

i

y

i

, rów-

nież współczynniki

A, δA, B i δB są wielkościami mianowanymi – należy podawać wartości tych współczynni-

ków wraz z jednostkami!

Przykład.

Dokonano pomiarów o różnej precyzji. Wyniki pomiarów wielkości

x

i

i

y

i

zebrano w tabeli.


a

) Tabela i wykres wykonane za pomocą programu Excel:










L

x

y

=

f

(

x

)

x

y

1

= f(x)

1

1,12

5,25

1,1

5,25

2

2,02

6,80

2,0

6,40

3

2,95

8,99

2,9

9,49

4

3,98

11,03

3,9

11,83

5

5,03

13,09

5,0

13,09




















Jak widać, dla funkcji

y

1

=

f(x)

, czyli

y = 2,154x + 2,707

, współczynnik korelacji

R = 0,987

jest za mały

(dla

n = 5, współczynnik R

≥ 0,99), czyli nie można powiedzieć, że występuje liniowa zależność

y(x)

. Na-

leży więc wykonać dodatkowe pomiary w innych lub w tych samych punktach (zagęścić pomiary, powtó-
rzyć wątpliwe lub/i rozszerzyć zakres pomiarowy).

b

) Obliczenia wykonane na podstawie pomiarów

y = f(x) ujętych w tabeli powyżej za pomocą programu

REGRESJA znajdującego się w sieci internetowej pod adresem

http://www.if.pwr.wroc.pl/LPF/

:

4

background image

Współczynniki:

A = 2,036,

B = 2,884.

Niepewność współczynników:

δA = 4,534 · 10

–2

,

δB = 1,506 · 10

–1

.

c

) Obliczenia wykonane na podstawie pomiarów ujętych w tabeli w punkcie (a) za pomocą programu

REGRESJA.EXE znajdującego się w komputerze w LPF w katalogu C:\UZYTKI.

Równanie prostej:

y = 2,036x + 2,884.

Niepewność współczynników:

δA ≡ δa = 0,045,

δB ≡ δb = 0,151.


Takie równanie należy przepisać, stosując prawidła zaokrąglenia, w następujący sposób:

y = (2,036

± 0,045)x + (2,88 ± 0,16).

5


Wyszukiwarka

Podobne podstrony:

więcej podobnych podstron