Regresja liniowa


REGRESJA LINIOWA
dr Nella Mirowska, dr Wiesław Białas
Instytut Fizyki PWr
Jeżeli zmierzono obarczone tylko błędami przypadkowymi wartości (xi, yi), i = 1, 2, & , n dwóch różnych
wielkości fizycznych X i Y, o których wiadomo, że są związane ze sobą zależnością liniową y = f(x), to najlep-
szym przybliżeniem współczynników A i B w równaniu y = Ax + B jest
n n n n n n n
îÅ‚ Å‚Å‚ îÅ‚ Å‚Å‚
ëÅ‚ öÅ‚ ëÅ‚ öÅ‚ëÅ‚ öÅ‚ 1 ëÅ‚ öÅ‚ëÅ‚ öÅ‚ ëÅ‚ öÅ‚ëÅ‚ öÅ‚ 1
A = xi yi ÷Å‚ - ìÅ‚ xi ÷Å‚ìÅ‚ yi ÷łśł Å" , B = xi2 ÷Å‚ìÅ‚ yi ÷Å‚ - ìÅ‚ xi ÷Å‚ìÅ‚ xi yi ÷łśł Å" ,
" " " " " " "
ïÅ‚nìÅ‚ ÷Å‚ ìÅ‚ ÷Å‚ìÅ‚ ÷Å‚ “ ïÅ‚ìÅ‚ ÷Å‚ìÅ‚ ÷Å‚ ìÅ‚ ÷Å‚ìÅ‚ ÷Å‚ “
ìÅ‚ ìÅ‚
íÅ‚ i=1 Å‚Å‚ íÅ‚ i=1 Å‚Å‚íÅ‚ i=1 Å‚Å‚ íÅ‚ i=1 Å‚Å‚íÅ‚ i=1 Å‚Å‚ íÅ‚ i=1 Å‚Å‚íÅ‚ i=1 Å‚Å‚
ðÅ‚ ûÅ‚ ðÅ‚ ûÅ‚
gdzie
2
n n
ëÅ‚ öÅ‚ ëÅ‚ öÅ‚
“ = nìÅ‚ xi2 ÷Å‚ - ìÅ‚ xi ÷Å‚ .
" "
ìÅ‚ ÷Å‚ ìÅ‚ ÷Å‚
íÅ‚ i=1 Å‚Å‚ íÅ‚ i=1 Å‚Å‚
Wielkości charakteryzujące zależność liniową zostały obliczone w oparciu o punkty doświadczalne, a te
obarczone są niepewnościami związanymi z wykonywanymi pomiarami. Dlatego współczynniki A i B też są
wyznaczane z pewną dokładnością. Niepewności wielkości A i B obliczamy następująco:
n
"x2
i
n
´A = Ãy , ´B = Ãy i=1 ,
“ “
gdzie
n
"(y - Axi - B)2 "µ2
i i
i=1 i
Ãy = = .
n - 2 n - 2
UWAGA:
1. Aby narysować  prostą regresji liniowej na papierze milimetrowym, wybieramy odległe współrzędne xp
i xk (nie współrzędne punktów pomiarowych!), obliczymy odpowiadające im współrzędne yp i yk według
równania y = Ax + B (A i B już są znane), nanosimy punkty o współrzędnych (xp, yp) oraz (xk, yk) i przez te
punkty przeprowadzamy prostą. Punkty odpowiadające wynikom naszych pomiarów wraz z ich niepewno-
ściami powinny rozkładać się równomiernie w pobliżu tej prostej i może się okazać, że żaden z naszych
punktów pomiarowych nie leży na niej!
Znaczne odstępstwa (ponad 30%) punktów pomiarowych od linii teoretycznej pozwalają przypuszczać, że
mierzone wielkości nie są liniowo zależne. Wtedy też współczynnik korelacji znacznie różni się od jedno-
ści. Jeśli te odstępstwa dotyczą małej ilości punktów pomiarowych usytuowanych w różnych częściach
wykresu to przyjmujemy, że punkty te obarczone są tzw. błędem grubym. Takie punkty odrzucamy, a dla
pozostaÅ‚ych ponownie obliczmy wszystkie parametry prostej najlepszego dopasowania, tzn. A, ´A, B, ´B
oraz współczynnik korelacji R.
1
2. Wszystkie kalkulatory typu  SCIENTIFIC , które wykonują obliczenia statystyczne jednej zmiennej,
automatycznie obliczajÄ… sumy typu xi , , gdzie i = 1, 2, 3, & , n. Kalkulatory pozwalajÄ…ce wyko-
" "x2
i
i i
nywać obliczenia statystyczne na dwóch zmiennych, obliczają także sumy typu yi , yi2 , xi yi . Po
" " "
i i i
wprowadzeniu do pamięci kalkulatora par (xi, yi) wielkości zmierzonych, możliwe jest wyznaczenie
wszystkich parametrów prostej najlepszego dopasowania metodą regresji liniowej zwanej również metodą
najmniejszych kwadratów. Przed obliczeniami należy tylko sprawdzić w instrukcji dołączonej do kalkula-
tora, czy regresja jest liczona dla równania y = Ax + B, czy dla y = A + Bx. Aby wyznaczyć niepewności
współczynników A i B przy pomocy kalkulatora, wygodniej jest zastosować następujące przybliżenie
yi2 - A xi yi - B yi
"µ2 E" " " "
i
i i i i
zamiast
= .
"µ2 "(y - Axi - B)2
i i
i i
Procedura ta może wpÅ‚ynąć na zmianÄ™ wartoÅ›ci Ãy, która zależna jest od . W konsekwencji może to
"µ2
i
i
spowodować zmianÄ™ wartoÅ›ci ´A i ´B, choć wyrażenia pozostajÄ… takie same:
xi2
"µ2 "µ2 "
i i
n
i i i
´A = , ´B = .
n - 2 “ n - 2 “
W rozważanym poniżej przykładzie y1 = f(x) z wzorów  wygodnych mamy
E" 469,8796  344,0643  124,6749 = 1,140437
"µ2
i
i
"µ2
i
1,140437
i
= = 0,6165595
n - 2 3
´A = 0,1992366, ´B = 0,6618653.
Na podstawie wzorów  dokładnych otrzymano
"(y - Axi - B)2
i
1,1404299
i
= = 0,6165576 .
n - 2 3
´A = 0,1992360, ´B = 0,6618633.
Widać, że zgodność otrzymanych wielkości liczbowych jest bardzo dobra. Celowo zaniechano zaokrągleń.
Równanie prostej najlepszego dopasowania będzie
y1 = (2,1541 Ä… 0,1993)x + (2,707 Ä… 0,662).
Ten sposób obliczania niepewnoÅ›ci ´A i ´B jest o wiele prostszy i szybszy, lecz mniej dokÅ‚adny. Może na
przykÅ‚ad zawyżać wartoÅ›ci poszukiwanych wielkoÅ›ci ´A i ´B niezależnie od zaokrÄ…gleÅ„ różnych wielkoÅ›ci
na poszczególnych etapach obliczeń. Poza tym, schematyczne stosowanie przybliżonej zależności
2
2
E" yi2 - A xi yi - B yi może prowadzić do bezsensownych wartości liczbowych wielkości
"µi " " "
ii i i
2
(np. wartości ujemne!) nawet przy dużej dokładności pomiarów i obliczeń. W przypadku, gdy przy
"µi
i
2
obliczaniu wyrażenia przybliżonego występuje różnica dwóch dużych, prawie jednakowych liczb,
"µi
i
2
należy koniecznie posłużyć się zależnością definicyjną = yi - Axi - B)2 .
"µi "(
ii
WSPÓACZYNNIK KORELACJI
Współczynnik korelacji R jest miarą liczbową korelacji (związku, współzależności) zmiennych xi i yi
(i = 1, 2, 3, & , n) tworzących serie pomiarów wielkości X i Y. Z jednej strony służy do upewnienia się, czy
mamy wystarczającą ilość n pomiarów wielkości xi i yi by twierdzić, że zachodzi między nimi korelacja, czyli
zależność np. liniowa, wykładnicza, logarytmiczna. Z drugiej strony R jest miarą prawdopodobieństwa istnienia
przyjętej (postulowanej) współzależności zmiennych xi i yi. Jeżeli związek między zmiennymi xi i yi jest linio-
wy, y = f(x), to R nazywamy współczynnikiem korelacji liniowej, a współzależność między dwiema seriami
pomiarów  korelacją liniową. Korelacja jest tym silniejsza, im większą wartość z przedziału [0, 1] osiąga ćłRćł.
Duża wartość współczynnika ćłRćł świadczy o dużym prawdopodobieństwie postulowanego związku zmien-
nych xi i yi . W szczególności R = ą0,95 oznacza prawdopodobieństwo równe 95% dla badanej współzależno-
ści. Tak więc, może zachodzić korelacja liniowa pomiędzy punktami doświadczalnymi (xi, yi), lecz obarczona
jest niepewnością względną wynoszącą 5%. Jeżeli R = ą1, mówimy o korelacji zupełnej, jeżeli R = 0, to mó-
wimy o braku korelacji. Mała wartość współczynnika korelacji R może wskazywać na zbyt krótką serię pomia-
rów lub na inną niż przyjęto współzależność między wielkościami xi i yi. W pierwszym przypadku przeprowa-
dzamy pomiary uzupełniające, a w drugim, o ile nie przeczy to prawom rządzącym badanym związkiem mię-
dzy seriami pomiarów, sprawdzamy inną korelację, np. krzywoliniową zamiast liniowej. Informacje dotyczące
regresji nieliniowej zawarte są w ż4.2. skryptu Ćwiczenia laboratoryjne z fizyki, cz. I., Podstawy opracowania
wyników pomiarów, OWPWr., Wrocław 1999  Poprawski R., Salejda W. Jeżeli natomiast wiadomo, że zwią-
zek między wielkościami xi i yi ma charakter wykładniczy, to warto najpierw dokonać tzw. linearyzacji badanej
zależności, a następnie skorzystać z metody regresji liniowej. Więcej na ten temat można znalezć w ż3.3
wspomnianego skryptu.
Graniczne wartości ćłRćł w zależności od liczby pomiarów n, od której wzwyż można wnioskować
o istnieniu współzależności, przedstawia poniższa tabela:
n 5 10 20 30 40 50 75 100 500 1000 10000
0,99 0,84 0,64 0,53 0,47 0,42 0,35 0,30 0,14 0,10 0,03
ïÅ‚RïÅ‚
Rozumiemy ją następująco: jeżeli dla n = 10 otrzymano wartość współczynnika korelacji |R| nie mniej niż 0,84,
to przyjęty związek między wielkościami xi i yi jest poprawny, ale tylko w 84%. W związku z tym, nie można
spodziewać się ułożenia wszystkich punktów pomiarowych na linii najlepszego dopasowania.
Wartości średnie x i y zmiennych xi i yi , standardowe odchylenia pojedynczego pomiaru Sx i Sy, współ-
czynnik korelacji R i parametry prostej y = Ax + B spełniają następujące relacje:
Sy
A = R , B = y - Ax
Sx
2 2
"("x ) "("y )
i i
i i
Sx = , Sy = ,
n -1 n -1
3
gdzie:
Sx i Sy  odchylenia standardowe pojedynczej wartości z serii pomiarów xi i yi,
x i y  wartości średnie serii xi i yi,
"xi = xi - x ,
"yi = yi - y ,
n  ilość pomiarów w seriach xi i yi.
W programie użytkowym Excel przy wykonywaniu wykresów można określić współczynnik korelacji,
jednak niepewności współczynników A i B liczymy korzystając ze wzorów regresji liniowej, lub korzystając
z programów REGRESJA. Należy pamiętać, że w przypadku mianowanych wielkości zmiennych xi i yi, rów-
nież współczynniki A, ´A, B i ´B sÄ… wielkoÅ›ciami mianowanymi  należy podawać wartoÅ›ci tych współczynni-
ków wraz z jednostkami!
Przykład. Dokonano pomiarów o różnej precyzji. Wyniki pomiarów wielkości xi i yi zebrano w tabeli.
a) Tabela i wykres wykonane za pomocÄ… programu Excel:
L x y = f(x) x y1 = f(x)
1 1,12 5,25
1,1 5,25
2 2,02 6,80
2,0 6,40
3 2,95 8,99
2,9 9,49
4 3,98 11,03
3,9 11,83
5 5,03 13,09
5,0 13,09
Jak widać, dla funkcji y1 = f(x), czyli y = 2,154x + 2,707, współczynnik korelacji R = 0,987 jest za mały
(dla n = 5, współczynnik R e" 0,99), czyli nie można powiedzieć, że występuje liniowa zależność y(x). Na-
leży więc wykonać dodatkowe pomiary w innych lub w tych samych punktach (zagęścić pomiary, powtó-
rzyć wątpliwe lub/i rozszerzyć zakres pomiarowy).
b) Obliczenia wykonane na podstawie pomiarów y = f(x) ujętych w tabeli powyżej za pomocą programu
REGRESJA znajdujÄ…cego siÄ™ w sieci internetowej pod adresem http://www.if.pwr.wroc.pl/LPF/:
4
Współczynniki: A = 2,036, B = 2,884.
Niepewność współczynników: ´A = 4,534 · 10 2, ´B = 1,506 · 10 1.
c) Obliczenia wykonane na podstawie pomiarów ujętych w tabeli w punkcie (a) za pomocą programu
REGRESJA.EXE znajdujÄ…cego siÄ™ w komputerze w LPF w katalogu C:\UZYTKI.
Równanie prostej: y = 2,036x + 2,884.
Niepewność współczynników: ´A a" ´a = 0,045, ´B a" ´b = 0,151.
Takie równanie należy przepisać, stosując prawidła zaokrąglenia, w następujący sposób:
y = (2,036 Ä… 0,045)x + (2,88 Ä… 0,16).
5


Wyszukiwarka

Podobne podstrony:
sokolski,statystyka inżynierska,regresja liniowa
L4 regresja liniowa klucz
Analiza regresji liniowej
Temat 4 I Klasyczny model regresji liniowej
2 Model regresji liniowej
Regresja liniowa
L4 regresja liniowa (2)
Regresja liniowa
3 Istotność parametrów modelu regresji liniowej
3 Zastosowanie regresji liniowej do obliczania szybkości reakcji chemicznych
Regresja liniowa
Temat 5 I Weryfikacja modelu regresji liniowej
Regresja liniowa 7
Wzory regresji liniowej
Korelacja i regresja liniowa

więcej podobnych podstron