10 Regresja liniowa prim


Parametry dwuwymiarowych zmiennych losowych
Dwuwymiarowa zmienna losowa: zdarzenie elementarne można opisać za pomocą
uporządkowanej pary liczb (xi, yi), np. pomiary prądu i napięcia na oporniku.
Kowariancja
à = E{[X - E(X ),Y - E(Y )]}= cov(X ,Y )
xy
dla zmiennej losowej ciągłej
+" +"
îÅ‚ Å‚Å‚dy
à = (x - µ )(y - µ )f (x)dx
+" +"
xy x y
ïÅ‚ śł
-"ðÅ‚-" ûÅ‚
dla próby n-elementowej wylosowanej z populacji
n
1
S = (x - x)(y - y)
"
xy i i
i =1
n
gdy Ãxy=0, to te dwie zmienne sÄ… niezależne.
Współczynnik korelacji liniowej
Ã
xy
Á = dla populacji generalnej
à Ã
x y
S
xy
r = dla próby (1)
S S
x y
Współczynnik r jest estymatorem zgodnym (ale obciążonym, E(r)`"Á) współczynnika Á.
Współczynnik korelacji musi być zawarty w przedziale (-1, +1). Gdy Á=0, to nie zachodzi
korelacja, zmienna X nie wpÅ‚ywa na zmiennÄ… Y. Korelacja jest maksymalna, gdy Á=Ä…1.
Wzory do obliczania kowariancji i współczynnika korelacji liniowej
n n n
x y x y
" " "
n n n n n i i i i
1 1 1
i =1 i=1 i =1
S = (x - x)(y - y) = [ x y - y x - x y + xy]= - y - x + (nxy) =
" " " " "
xy i i i i i i
i =1 i =1 i=1 i =1 i =1
n n n n n n
n
x y
"
i i n n n
1 1
i=1
= - yx - xy + xy = x y - " "
x y
"
i i i i
2
i=1 i =1 i=1
n n n
(2)
n
2
(x
" - x)
i n n n n
1 1 1
2 i =1 2 2 2 2 2 2 2
S = = [ x - 2x x + nx ]= [ x - 2nx + nx ]= [ x - nx ]=
" " " "
x i i i i
i =1 i=1 i =1 i=1
n n n n
(3)
2
n n
1 1
2
= x - ( x )
" "
i i
2
i =1 i =1
n n
Zatem współczynnik korelacji liniowej z próby
n n n
n x y - " "
x y
"
S i i i i
xy
i=1 i=1 i=1
r = =
2 2
2 2
n n n n
S S
2 2
îÅ‚n" x -(" x Å‚Å‚îÅ‚n" y -(" y Å‚Å‚
x y
) )
i i i i
ïÅ‚ śłïÅ‚ śł
i=1 i=1 i=1 i=1
ðÅ‚ ûÅ‚ðÅ‚ ûÅ‚
Wzór powyższy otrzymuje się po podstawieniach równań (2) i (3) do (1) oraz pomnożeniu
licznika i mianownika przez n2.
Wnioskowanie dotyczące korelacji. Odpowiadamy na pytanie, czy istnieje korelacja pomiędzy
dwiema zmiennymi.
Hipoteza zerowa: H0: Á=0 (nie ma korelacji)
Hipoteza alternatywna Ha: |Á|>0
FunkcjÄ… testowÄ… jest zmienna losowa Studenta t o (n-2) stopniach swobody
r
t = n - 2
2
1- r
0 .40
Z tablic rozkładu Studenta
odczytujemy  dla wcześniej
0 .35
przyjętego poziomu istotności ą -
0 .30
wartość krytyczną tn-2,ą. Jeżeli
0 .25
obliczona wartość t znajduje w
0 .20 dwustronnym obszarze krytycznym
(-", - tn-2,ą), (tn-2,ą, +"), to H0 należy
0 .15
1-Ä…
Ä…/2
Ä…/2
odrzucić na korzyść hipotezy Ha
0 .10
0 .05
0 .00
-3 -2 -1 0 1 2 3
-t t
n,Ä… n,Ä…
Regresja liniowa
Równanie wiążące dwie zmienne losowe, wchodzące w skład dwuwymiarowej zmiennej
losowej nazywa się równaniem regresji. Gdy równanie to jest liniowe, mówimy o regresji
liniowej.
Dla populacji Dla próby
y=Ä…x+² y=ax+b
Ä…, ² - współczynniki regresji a, b  współczynniki regresji
liniowej w populacji liniowej dla próby
Współczynnik kierunkowy prostej a i współczynnik przesunięcia b są estymatorami
współczynników Ä… i ². Empiryczne współczynniki regresji liniowej a i b oblicza siÄ™ metodÄ…
najmniejszych kwadratów. W metodzie tej minimalizowana jest pewna funkcja S(a, b) -
zależną od współczynników a i b - będąca sumą kwadratów odchyłek punktów
doświadczalnych od poszukiwanej prostej. Ogólne równanie na funkcję S można zapisać w
postaci
n
2 2
S = [w(x )(x - X ) + w(y )(y - Y ) ]
"
i i i i i i
i =1
gdzie (xi, yi) są zmierzonymi parami punktów, (Xi, Yi) odpowiadającymi im punktami na
prostej, w(xi) i w(yi)  wagami, odpowiednio x-owÄ… i y-owÄ… punktu i-tego. Wagi sÄ…
odwrotnościami kwadratów niepewnościami odpowiednich punktów pomiarowych,
2 2
zatem w(x ) = 1/(à (x )) , w(y ) = 1/(Ã(y )) , gdzie à oznacza odchylenie standardowe. W
i i i i
zależności od naszej wiedzy o niepewnościach mierzonych punktów pomiarowych można
rozpatrzyć 5 przypadków wyznaczania prostej metodą najmniejszych kwadratów.
(I) Gdy y=ax+b jest prostą regresji cechy Y względem X. Jest to historycznie pierwszy
rozpatrzony wariant metody dopasowania prostej do wyników eksperymentalnych (Legendre,
Laplace, Gauss). Można go nazwać normalną metodą najmniejszych kwadratów (ang.
normal least squares). Stosujemy ten przypadek wtedy, gdy niepewnościami à obarczone są
1
jedynie wielkości yi, zatem Xi=xi. Przyjmujemy, że wszystkie wagi są równe . Odchyłka i-
2
Ã
tego punktu (xi, yi) od linii prostej bÄ™dzie równa µ = y - ax - b . Zaznaczona jest ona
y i i
odcinkiem prostej na rysunku poniżej. Suma kwadratów S, którą minimalizujemy będzie
n
1
2
równa S = µ .Aby wyznaczyć współczynniki a i b różniczkujemy S wzglÄ™dem a i
"
i
2
i=1
Ã
względem b, a otrzymane pochodne
przyrównujemy do
20
"S "S
zera: = 0, = 0 . Mamy zatem
"a "b
15
układ dwu równań z dwiema
niewiadomymi:
10
n
Å„Å‚" - a - bx = 0
(y )
i i
ôÅ‚
i =1
òÅ‚
n
5
(y
ôÅ‚ - a - bx )x = 0
i i i
i
ół"=1
0 Rozwiązując ten układ równań
otrzymamy
-5
0 2 4 6 8 10
X
n n n n n n n
2
n x y -" " " " -" "
x y x y x x y
"
i i i i i i i i i
i =1 i=1 i =1 i =1 i=1 i=1 i =1
a = b =
2 2
n n n n
2 2
n x -( x ) n x -( x )
" " " "
i i i i
i =1 i=1 i=1 i =1
Powyższe wzory na współczynniki a i b można także zapisać w zwięzłej postaci:
S S S S
y xy y xy
a = r = = b = y - ax
2
S S S S S
x x y x x
Otrzymana prosta przechodzi przez punkt (x, y) .
(II) Gdy y=a x+b jest prostą regresji cechy X względem Y. Stosujemy ten
przypadek wtedy, gdy niepewnościami obarczone są jedynie wielkości xi. Wtedy metoda
najmniejszych kwadratów daje
następujące wzory na a i b :
20
15
10
2
S S
1
y y
a'= =
5
r S S
x xy
b'= y - a' x
0
-5
0 2 4 6 8 10
X
Także ta prosta przechodzi przez punkt (x, y) . Gdy współczynnik korelacji r ma wartość ą1,
to proste (II) i (I) pokrywajÄ… siÄ™. Gdy 0<|r|<1, to obie proste przecinajÄ… siÄ™ w punkcie (x, y) ,
tworząc pewien kąt między sobą.
(III) Gdy y=a  x+b  jest prostÄ… regresji ortogonalnej. Stosujemy ten przypadek wtedy,
gdy niepewnościami o takiej samej wielkości obarczone są zarówno x jak i y, jak
Y
Y
również i wtedy, gdy niepewności nie są znane. Model ten nazywany jest także
modelem standardowym z wagami (ang. standard weighting model). Zakładamy,
że wagi w funkcji S sÄ… wszystkie takie same i równe jednoÅ›ci. OdchyÅ‚kÄ… µ jest w
tym przypadku odcinek prostopadły do
20
linii prostej (rysunek obok), zatem
µ
y
µ = i minimalizowana suma
15
2
1+ a
2
n
(y - ax - b)
10
i i
kwadratów S = .
"
2
i =1
1+ a
Metoda najmniejszych kwadratów 5
daje następujące wzory na a  i b  :
0
-5
0 2 4 6 8 10
2
2 2 2 2 2
S - S + (S - S ) + 4S
y x y x xy
X
a''=
2S
xy
b''= y - a'' x
(IV) Model standardowy z niezależnymi wagami
W modelu tym (ang. standard independent weighting model) niepewności występują zarówno
dla xi jak i dla yi. Wszystkie niepewności x-owe są takie same, tzn. w(xi)=w1, a także
wszystkie niepewności y-owe są równe, tzn. w(yi)=w2. Dla każdego punktu pomiarowego (xi,
yi) wprowadzamy efektywną wagę (taką samą), zdefiniowaną następująco
w w
1 2
w =
2
w + a w
1 2
co spowoduje, że funkcja sumy kwadratów S przyjmie postać
n
S(a,b) = w ( y - ax - b) .
"
i i
i =1
Przyrównanie pochodnych cząstkowych tej funkcji do zera daje nam dwa równani, z których
można obliczyć współczynniki a i b;
1 / 2
2
2 2 2 2
2 n 2 n 2 n 2 n
îÅ‚Å„Å‚ îÅ‚n Å‚Å‚
2 2 2 2 üÅ‚
îÅ‚n " Å‚Å‚ îÅ‚" " Å‚Å‚ Å‚Å‚ îÅ‚" Å‚Å‚
w ( y ) - "
y + w x - n( x ) ( ) )
2 i i 1 i i 2 i i 1 i i
ïÅ‚ôÅ‚w ïÅ‚ " y - " y śł + w ïÅ‚ x - n(" x śł ôÅ‚ w śł
ïÅ‚ śł ïÅ‚ śł
i =1 i=1 i =1 i =1 i=1 i =1 i =1 i =1
ðÅ‚ ûÅ‚ ðÅ‚ ûÅ‚ ðÅ‚ ûÅ‚ ðÅ‚ ûÅ‚
1
a = Ä… +
ïÅ‚ śł
òÅ‚ żł
n n n n n n
w
2w [n x y - " ïÅ‚ " " 2 śł
x y ] 2w [n x y - "
x y ]
" "
ôÅ‚ ôÅ‚
2 i i i i 2 i i i i
i=1 i =1 i =1 i =1 i=1 i=1
ïłół þÅ‚ śł
ðÅ‚ ûÅ‚
n n
y
" - a x
"
i i
i =1 i=1
b =
n
Równanie na współczynnik a daje dwie wartości; jedna (właściwa) odpowiada minimum
funkcji S, druga odpowiada maksimum funkcji S dla dowolnej linii prostej przechodzÄ…cej
przez punkt (x, y) .
(V) Model z niezależnymi wagami
W modelu tym nierównymi niepewnościami obarczone są xi i yi. Wprowadzmy efektywną
wagÄ™ i-tego punktu
Y
w(x )w( y )
i i
w =
i
2
w(x ) + a w( y )
i i
Wtedy funkcja S przyjmie postać
n
S(a,b) = w ( y - b - ax )
"
i i i
i =1
Przyrównanie pochodnych cząstkowych tej funkcji do zera daje nam dwa równani, z których
współczynników a i b nie można wyznaczyć analitycznie, a jedynie metodą iteracji.


Wyszukiwarka

Podobne podstrony:
sokolski,statystyka inżynierska,regresja liniowa
L4 regresja liniowa klucz
Analiza regresji liniowej
Temat 4 I Klasyczny model regresji liniowej
2 Model regresji liniowej
10 regresja odp
Regresja liniowa
Regresja liniowa
L4 regresja liniowa (2)
Regresja liniowa
3 Istotność parametrów modelu regresji liniowej
3 Zastosowanie regresji liniowej do obliczania szybkości reakcji chemicznych
10 regresja
Regresja liniowa
Temat 5 I Weryfikacja modelu regresji liniowej
Regresja liniowa 7

więcej podobnych podstron