STAT 2010 W12

background image

Regresja liniowa wielokrotna

0

1

2

( , )

( |

)

( )

x z

E Y X

a

a x a z

h

=

= =

= +

+

x

x

x

(

)

(

)

2

0

1

2

1

2

0

1

2

0

1

2

1

( , , )

( )

( , , )

n

i

i

i

n

i

i

i

i

S a a a

x

y

S a a a

a

a x a z y

h

=

=

=

-

=

+

+

-

Funkcja kryterialna:

Kryterium wyznaczenia

rozwiązania a

0

, a

1

, a

2

:

0 1 2

, ,

0 1 2

( , , )

min

a a a

S a a a

background image

(

)

(

)

(

)

(

)

(

)

(

)

(

)

2

2

0

1

2

0

1

2

1

1

0

0

0

0

1

2

0

1

2

0

1

2

1

1

0

0

1

2

0

1

2

1

1

1

1

1

0

1

2

2

1

2

2

1 2

2

2

2

2

n

n

i

i

i

i

i

i

i

i

n

n

i

i

i

i

i

i

i

i

i

i

i

n

n

n

n

n

i

i

i

i

i

i

i

i

i

i

i

S

a

a x a z y

a

a x a z y

a

a

a

a

a x a z y

a

a x a z y

a

a x a z y

a

a

a x a z y

a

a

x

a

z

y

na

a

=

=

=

=

=

=

=

=

=

=

+

+

-

=

+

+

-

=

+

+

-

+

+

-

=

+

+

-

=

+

+

-

=

+

+

-

=

=

+

2

1

1

1

0

1

2

1

1

1

2

2

0

n

n

n

n

n

i

i

i

i

i

i

n

i

i

i

i

i

i

na

x

a

a

x a

z

y

z

y

=

=

=

=

=

=

+

-

=

+

+

=

� �

background image

(

)

(

)

(

)

(

)

(

)

(

)

2

2

0

1

2

0

1

2

1

1

1

1

1

0

1

2

0

1

2

0

1

2

1

1

1

2

0

1

2

1

1

1

1

2

0

1

2

1

1

2

2

2

2

2

2

0

n

n

i

i

i

i

i

i

i

i

n

n

i

i

i

i

i

i

i

i

i

i

i

i

n

n

n

n

i

i

i i

n

n

i

i

i

i

i i

i

i

i

i

a

x

S

a

a x a z y

a

a x a z y

a

a

a

a

a x a z y

a

a x a z y

a

a x a z y x

a

a

x

a

x

a

z x

y

a

x

x

a

=

=

=

=

=

=

=

=

=

=

=

+

+

-

=

+

+

-

=

+

+

-

+

+

-

=

+

+

+

+

-

=

+

+

-

=

1

1

n

n

i i

i i

i

i

z x

y x

=

=

=

background image

(

)

(

)

(

)

(

)

(

)

(

)

2

2

0

1

2

0

1

2

1

1

2

2

2

0

1

2

0

1

2

0

1

2

1

1

2

2

0

1

2

1

1

0

1

1

1

1

1

2

2

2

2

2

2

0

n

n

i

i

i

i

i

i

i

i

n

n

i

i

i

i

i

i

i

i

i

i

i

i

n

n

n

n

i

i i

i

n

n

i

i i

i

i

i i

i

i

i

i

S

a

a x a z y

a

a x a z y

a

a

a

a

a x a z y

a

a x a z y

a

a x a z y z

a

a

a

z

a

z x

a

z a

z x

z

y z

a

=

=

=

=

=

=

=

=

=

=

=

+

+

-

=

+

+

-

=

+

+

-

+

+

-

=

+

+

+

+

+

=

+

-

=

-

2

2

1

1

n

n

i

i i

i

i

z

y z

=

=

=

� �

background image

0

1

2

1

1

1

2

0

1

2

1

1

1

1

2

0

1

2

1

1

1

1

n

n

n

i

i

i

i

i

i

n

n

n

n

i

i

i i

i i

i

i

i

i

n

n

n

n

i

i i

i

i i

i

i

i

i

na

a

x a

z

y

a

x a

x

a

z x

y x

a

z a

z x a

z

y z

=

=

=

=

=

=

=

=

=

=

=

+

+

=

+

+

=

+

+

=

� �

� �

1

1

1

0

2

1

1

1

1

1

2

2

1

1

1

1

n

n

n

i

i

i

i

i

i

n

n

n

n

i

i

i i

i i

i

i

i

i

n

n

n

n

i

i i

i

i i

i

i

i

i

n

x

z

y

a

x

x

z x

a

y x

a

z

z x

z

y z

=

=

=

=

=

=

=

=

=

=

=

� �

� �

=

� �

� �

� �

� �

� �

background image

Met. Najmniejszych Kwadratów

dla pomiarów bezpośrednich i

pośrednich

Postulat:

Wynik kolejnego pomiaru y

j

można uważać za sumę

wielkości

x – nieznanej (poszukiwanej wielkości podlegającej
pomiarowi)

oraz

j

- błędu pomiarowego

czyli

y

j

= x + 

j

dla każdego j=1,...,n

Metoda

Najmniejszych

Kwadratów

postuluje

dobieranie tak wielkości 

j

, aby suma kwadratów

błędów 

j

była najmniejsza:

(

)

minimum

n

n

j

j

j

j

x y

=

=

e =

-

� �

2

2

1

1

background image

Pomiary bezpośrednie

Przypadek równych błędów pomiarowych (pierwiastek z
wariancji

2

)

Wykonujemy n pomiarów nieznanej wielkości x. Wyniki
pomiarów obarczone są błędem pomiarowym 

j

, o którym

zakładamy że ma rozkład normalny z wartością średnią równą
zeru:

y

j

= x + 

j

E(

j

)=0

(wart. oczekiwana) E(

j

2

)=

2

(wariancja)

(założenie to – o rozkładzie – jest często uzasadnione przez
centralne twierdzenie graniczne).

Najlepszym estymatorem dla x jest średnia
arytmetyczną:

którego wariancja wyraża się

a identyfikując błąd z odchyleniem standardowym
otrzymujemy

n

j

j

x y

y

n

=

= =

1

1

%

( )

/

x

n

s

=s

2

2

%

/

x

n

d = s

2

background image

Przypadek różnych błędów pomiarowych (pierwiastków z
wariancji

j

2

)

Wykonujemy n pomiarów nieznanej wielkości x. Wyniki
pomiarów obarczone są błędem pomiarowym 

j

, o którym

zakładamy że ma rozkład normalny z wartością średnią równą
zeru:

y

j

= x + 

j

E(

j

)=0

(wart. oczekiwana) E(

j

2

)=

j

2

=1/g

j

(wariancja)

Najlepszym estymatorem dla x jest (średnia ważona
pomiarów):

którego wariancja wyraża się

a estymatory błędów pomiarowych

mają rozkład normalny z wartością średnią równą zeru i
wariancją 

j

2

, a to oznacza że wielkości pochodzą ze

standardowego rozkładu Gaussa N(0,1), co powoduje że suma ich
kwadratów

ma rozkład 

2

o n-1 stopniach swobody. Własności te można

wykorzystać do weryfikacji słuszności założeń przy użyciu testu 

2

.

/

n

n

j

j

j

j

j

x

g y

g

=

=

=

1

1

%

( )

n

n

j

j

j

j

x

g

-

-

=

=

� �

s

=

=

� �

s

1

1

2

2

1

1

1

%

j

j

y

x

e = - %

/

j

j

e s

%

(

)

(

)

/

(

)/

(

)

n

n

n

j

j

j

j

j

j

j

j

j

y

x

y

x g

=

=

=

�=

e s

=

-

s

=

-

2

2

2

1

1

1

%

%

%

background image

Przykład. Najlepsze wartości stałych fizycznych uzyskuje się przez
obliczanie średniej ważonej wszystkich pomiarów przeprowadzonych
przez

różne

ośrodki

naukowe-doświadczalne.

Dla

cząstek

elementarnych takie średnie są wyznaczane regularnie, bowiem
coraz bardziej doskonalone są metody pomiarowe. Np. średnia masa
neutralnego mezonu K uśredniono w oparciu o wyniki 4 doświadczeń
wykonanych różnymi technikami doświadczalnymi (tabela).

Wartość 

min

wynosi w tym przykładzie 7.2 (tabela) . Dla poziomu

istotności 5%, oraz stopni swobody n-1=4-1=3 wartość krytyczna

2

=7.95. Wniosek: uważamy ze uzyskany wynik ( masa mezonu K =

497.9 0.2 MeV ) stanowi najlepszą wartość z poziomem ufności

95%. Tak pozostało do czasu (upłynęło 20 lat) gdy przeprowadzono
nowe doświadczenia i uzyskano wynik 497.671 0.030 MeV .
UWAGA: jeśli test 

2

da rezultat negatywny (odrzucamy hipotezę o

dobrym dopasowaniu bowiem 

2

> 

2

kryt

) powodem tego może być

fakt, że co najmniej jeden z pomiarów jest obarczony błędem
systematycznym (nie o rozkładzie normalnym z wartością średnią 0)

.

Czasami niektóre pomiary odbiegają od innych. Usunięcie ich z
analizy pozwala na przyjęcie hipotezy zerowej, czyli test 

2

daje

wynik pozytywny.

j

Yj

j

1/(j)^2=Gj

Yj*Gj

Yj-x

Gj(Yj-x)^2

1

498.10

0.40

6.30

3038.0

0.20

0.3

2

497.44

0.33

10.00

4974.4

-0.46

2.1

3

498.90

0.50

4.00

1995.6

1.00

4.0

4

497.44

0.50

4.00

1989.8

-0.46

0.8

24.30

11997.8

7.2

estymata x = YjGj/Gj = 497.9 bład x = 1/(Gj)=0.20

background image

Pomiary pośrednie

Często, interesujące nas w pracy doświadczalnej wielkości, nie
podlegają bezpośredniemu pomiarowi
. Np. w kinetyce
chemicznej stała szybkości reakcji opisywana jest zwykle równaniem
Arrheniusa

gdzie: Q jest energią aktywacji procesu chemicznego i nie podlega
bezpośredniemu

pomiarowi

K(T) – stała szybkości reakcji jako funkcja wyłącznie

temperatury (bezwzględnej) procesu,

R – uniwersalna stała gazowa

Badania kinetyczne prowadzi się zwykle dla szeregu dobranych
warunków izotermicznych (przy różnych wartościach temperatury
bezwzględnej) i dla wyznaczonych stałych szybkości reakcji
poszukuje się stałych k

0

i Q w równaniu Arrheniusa. Dla ułatwienia

wyznaczenia

tych

stałych,

równanie

to

po

obustronnym

zlogarytmowaniu uzyskuje liniową postać

gdzie:

( )

exp

Q

K T

k

RT

=

-

0

Y A Bt

= +

ln( ( )) ;

ln

;

;

/

Y

K T

A

k

t

B

Q R

T

=

=

=

=-

0

1

background image

Uogólniamy zagadnienie pomiarów pośrednich w następujący
sposób.

Załóżmy, że interesuje nas wyznaczenie zespołu r nieznanych (a
priori) wielkości (x

1

,...,x

r

), które nie podlegają bezpośredniemu

pomiarowi. Wiemy zaś (lub postulujemy), że istnieje liniowy (bądź
nieliniowy) związek między nimi a pewną mierzalną zmienną

. Na

początek, rozpatrywać będziemy związek liniowy:

Jeśli wektor wartości wsp. a

jr

zapisać w notacji wektora

kolumnowego

to powyższe relacje można zapisać jako:

a po zdefiniowaniu macierzy i wektorów:

powyższy układ równań można zapisać (dla n dokonanych
pomiarów):

...

lub

...

j

j

j

jr r

j

j

j

j

jr r

p

p x

p x

f

a

a x

a x

h =

+

+ +

=h +

+

+ +

=

0

1 1

0

1 1

0

,

,...,

T

j

j

j

jr

a a

a

=�

1

2

a

,...,

T

j

j

j

j

f

a

j

n

=h +

+

=

=

0

a x 0

1

[

]

[

]

[

]

,...,

;

,...,

;

,...,

...
...

...

T

T

T

r

n

n

r

r

n

r

r

rr

r

x

x

a

a

f

a

a

a

f

a

a

a

f

a

a

a

=

= h

h

=

� �

� � �

� �

� � �

� �

� � �

=

=

=

� �

� � �

� �

� � �

� � �

� �

1

1

0

01

0

1

11

12

1

1

2

21

22

2

2

1

2

a

a

a

A

f

a

M

M

M O

M

M

= + +

0

fη a

Ax

background image

Zakładamy, zgodnie z założeniami ogólnymi, że każdy pomiar
zmiennej

o wartości y

j

jest obarczony błędem 

j

o rozkładzie

normalnym ze średnią zero:

Zmienne y

j

są niezależne, stad związek między nimi jest wyrażony

zerowymi kowariancjami (cov(y

i

,y

j

)=0), a wtedy macierz kowariancji

zmierzonych wartości jest diagonalna, i także jej odwrotność zwana
macierzą wag pomiarów:

Wprowadzając wektor pomiarów i błędów:

Otrzymujemy układ równań

Poszukujemy rozwiązania tego układu przy warunku, że suma
kwadratów błędów 

j

ważonych przez czynniki g

j

jest minimalna

(jednocześnie to statystyka 

2

(n-r) dobroci dopasowania model do

danych):

( )

( )

;

;

/

j

j

j

j

j

j

j

y

E

E

g

=h +e

e =

e =s =

2

2

0

1

...
...

...

y

n

e

s

s

=

=

s

2

1

2
2

2

0

0

0

0

C

C

0

0

M M O

M

( )

( )

...
...

...

y

y

n

g

g

g

-

-

e

e

=

=

=

=

1

1

1

2

0

0

0

0

G

C

G

C

0

0

M M O

M

[

]

[

]

;

,...,

;

,...,

T

T

n

n

y

y

= +

=

= e

e

1

1

yη ε

y

ε

- + +

=

0

yε a

Ax 0

/

n

n

T

j

j

j j

y

j

j

g

=

=

�= e s =

e =

2

2

2

1

1

ε G ε

background image

Stosując tzw. metodę mnożników Lagrangea można uzyskać
rozwiązanie tego zagadnienia ze względu na x, otrzymując wektor
estymat

z macierzą kowariancji wyznaczonych niewiadomych

Pierwiastki kwadratowe z elementów przekątni głównej można
utożsamiać z „ błędami pomiarowymi” estymat zmiennych x

i

, mimo

ze nie podlegały bezpośredniemu pomiarowi.

Wektor estymat błędów pomiarowych przyjmuje wartość

a wektor dopasowanych wartości pomiarów ( estymaty również)

z macierzą kowariancji

W ramach pracy własnej, proszę sobie udowodnić, że gdy r=1
( pomiary bezpośrednie o indywidualnej dokładności 

j

2

)

(

)

(

)

T

T

y

y

-

=-

+

1

0

x

A G A

A G y a

%

( )

(

)

T

y

-

-

=

=

1

1

x

x

C

G

A G A

%

%

(

)

(

) (

)

T

T

y

y

-

=

+ + =-

+

+ +

1

0

0

0

ε Ax y a

A A G A

A G y a

y a

%

%

(

)

(

)

T

T

y

y

-

= - =

+

-

1

0

0

η y ε A A G A

A G y a

a

%

%

( )

(

)

( )

T

T

T

y

-

-

-

=

=

=

1

1

1

η

η

x

C

G

A A G A

A

A G

A

%

%

%

/

;

/

/

/

n

n

n

n

n

T

y

j

j

j

j

j

j

j

j

j

j

j

j

x

y

g y

g

-

=

=

=

=

=

� �

=

s

=

s

s

=

� �

� �

1

2

2

2

1

1

1

1

1

A G A

1

1

%

background image

Przykład. Dopasowanie linii prostej.

Niech zbiór wartości y

j

, pochodzący z pomiaru bezpośredniego,

odpowiada zbiorowi wartości t

j

(znanych dokładnie – tzw. zmienna

kontrolowana t). Jeżeli t

i

, co się zdarza nader często, jest również

obarczone błędami,, to dopasowanie prostej staje się problemem
nieliniowych, osobno omawianym.

Obliczenia macierzowe dają następujące wyniki:

;

,...,

;

macierzowo

j

j

j

j

y

x x t

j

n

x x

h = - e = +

=

-

+

=

=

1

2

1

2

0

1

η

t 0

a

0

j

t

y

1

0.0

1.4

0.5

2

1.0

1.5

0.2

3

2.0

3.7

1.0

4

3.0

4.1

0.5

(

)

.

.

.

.

T

T

T

y

y

y

t

t
t
t

-

-

-

-

� �

� �

-

-

-

-

-

-

-

-

-

� �

=

=

=

=

=

=

=

� �

-

-

-

-

-

-

-

-

� �

-

-

-

-

1

1

2

x

3

4

1

1 0

4 0 0 0

1

1

1

1

1

1

1

0 25 0 0

34 39

0094

0057

A

A

G

A G A

C

A G A

1

1

2

0

1

2

3

0 0 1 0

39 65

0057 0049

1

1

3

0 0 0 4

%

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

-

-

=

d =

=-

=

=

d =

-

-

η

0636

0094 0038

0019

0076

031

0636

0307

1702

0038 0031 0023

0016

017

x

Ax

C

η

1066

0222

2768

0019 0023 0065

0107

026

3834

0076 0016 0107

0199

045

%

%

%

%

%

Minimum funkcji kryterialnej  = 4.507, dobroć dopasowania dla

l.st.sw.=4-2=2 testujemy względem 

2

kryt

(0.05,2)=5.99. Wniosek:

nie ma podstaw do podważenia dobrego dopasowania linii prostej
do danych empirycznych (poziom ufności dopasowania 95%,
poziom istotności 5%).

background image

t

0.0

0.5

1.0

1.5

2.0

2.5

3.0

3.5

y

0

1

2

3

4

5

Linia czerwona - regresja z jednakowymi b�

�dami y=1.130+1.030*t

linia zielona - regresja z r�znymi b�

�dami y=0.636+1.066*t

Należy zwrócić uwagę, na fakt że błędy po dokonaniu dopasowania
(błędy a posteriori) są mniejsze niż błędy wyjściowe. Poniżej
porównanie 2 linii regresji, czerwona dla jednakowych błędów
wielkości mierzonych ( błędów a priori), zielona dla zróżnicowanych
błędów.

Wykonanie obliczeń przedstawione w pliku: Dopasowanie_liniowe.xls


Document Outline


Wyszukiwarka

Podobne podstrony:
STAT 2010 W11
W12 Jezyk2 2010
spis lab I sem 2010
2010 ZMP studenci
W4 2010
wyklad 14 15 2010
W 8 Hormony 2010 2011
RI 12 2010 wspolczesne koncepcje
2009 2010 Autorytet
wyklad 2 2010
Wykład 3 powtórzenie 2010 studenci (1)
PD W1 Wprowadzenie do PD(2010 10 02) 1 1
BIOMATERIALY IV 2010
spis wykład I sem 2010
Wykład 5 2010 studenci

więcej podobnych podstron