Analiza regresji
marcin.mazurek@wat.edu.pl 2006
Sformułowanie problemu
Załóżmy, że należy zbudować liniowe równanie regresji wielorakiej przedstawiającej
zależność zmiennej Y od zmiennych objaśniających X1, X2 , .. Xp
Y =ą0 +ą1X1 +ą2X2 +...+ąpXp +
gdzie:
Y zmienna zależna, objaśniana przez dane równanie
X1, X2 , .. Xp zmienne objaśniające
ą0, ą1, .. ąp parametry, zwane współczynnikami regresji
składnik losowy przypadkowy.
marcin.mazurek@wat.edu.pl 2006
Założenia dla modelu regresji
Model jest niezmienniczy ze względu na obserwację
(każda obserwacja podlega tym samym regułom)
Model jest liniowy względem parametrów
Zmienna objaśniająca jest nielosowa, jej wartości są
ustalonymi liczbami rzeczywistymi
Składnik losowy ma rozkład normalny o wartości
oczekiwanej równej 0
Składnik losowy jest sferyczny
Nie występuje autokorelacja
Jest homoskedastyczny (wariancja jest stała)
marcin.mazurek@wat.edu.pl 2006
Próba
Próba składa się z n obserwacji dokonanych na zmiennych Y , X1, X2 , ... Xp.
łą0 łł
y1 1 x11 x12 ... x1k 1
ł łł ł łł ł łł
łą śł
ły śł ł1 x21 x22 ... x2k śł 1 ł śł
ł śł
2
ł śł ł śł ł śł
łą2 śł, = 2
y = , X = , ą =
ł śł ł śł ł śł
... ... ł śł ...
ł śł ł śł ł śł
ł... śł
łyn ł ł1 xn1 xn2 ... xnk ł łn ł
łą p śł
ł ł
gdzie:
y wektor zaobserwowanych wartości zmiennej zależnej Y
X macierz, której pierwszą kolumnę tworzą jedynki, a pozostałe kolumny to wartości
zmiennych objaśniających
ą wektor nieznanych wartości parametrów regresji
ą
ą
ą
wektor składników losowych równania
Równanie regresji:
y =Xą
ą +
ą
ą
marcin.mazurek@wat.edu.pl 2006
Parametry modelu regresji
Parametry funkcji regresji szacujemy metodą
Wektor estymatorów parametrów
najmniejszych kwadratów.
modelu regresji:
Ć
łą0 łł
Ć
y = Xą + e ,
łą śł
Ć
1
ł śł
-1
łą2 śł
Ć Ć
ą = = (XT X) XT y
gdzie e oznacza wektor reszt.
ł śł
ł... śł
e = y - w
łą p śł
Ć
ł ł
Wartości teoretyczne wyznaczone na podstawie modelu:
Ć
w = Xą
marcin.mazurek@wat.edu.pl 2006
Oszacowanie dopasowania
modelu
" wariancja składnika resztowego (wariancja resztowa) oraz odchylenie
standardowe składnika resztowego
eTe
2
S =
n - ( p +1)
" współczynnik zmienności resztowej
S
V =
y
" współczynnik zbieżności
eTe
2
=
1
yT y - (1T y)2
n
" współczynnik koleracji wielorakiej.
2
R2 =1-
" Odchylenia standardowe estymatorów parametrów modelu regresji
marcin.mazurek@wat.edu.pl 2006
Testy istotności dla parametrów
tą - T-studenta dla poziomu istotności i n-2 stopni swobody.
Weryfikacja istotności współczynników:
H0: ąi = 0
H1: ąi `" 0 , dla i = 0, p
Rozpatrujemy statystykę:
ąi
T =
Są
i
oraz obszar krytyczny K = (- ",- tą *" tą , + ")
Jeżeli wartość statystyki znajdzie się w obszarze krytycznym, oznacza to że hipotezę
zerową należy odrzucić. W przeciwnym wypadku nie ma podstaw do jej odrzucenia.
marcin.mazurek@wat.edu.pl 2006
Model regresji z jedną zmienną
objaśniającą
Dla modelu regresji liniowej i p=1 (jedna zmienna objaśniająca) odpowiednie wzory
macierzowe przyjmują postać :
n
(x - x )(y - y )
" i i
i = 1
ąĆ
=
1
n
2
(x - x )
" i
i = 1
ąĆ
= y - ąĆ
x
0 1
Ć Ć
wi = ą + ą1xi
0
Wariancja resztowa:
n
(wi - y )
"
2
i=1
S =
n - 2
marcin.mazurek@wat.edu.pl 2006
Miary dopasowania modelu
Błędy standardowe oszacowania parametrów modelu
regresji (odchylenia standardowe dla estymatorów):
n
2
S "
"x
i
S
i=1
Są = Są =
Ć Ć
1 0
n n
2 2
xi
( - x n " xi - x
) ( )
" "
i=1 i=1
Kwadrat współczynnika korelacji wielorakiej:
n
2
wi
( - y
)
"
i=1
R2 = = 1-2
n
2
yi
( - y
)
"
i=1
Współczynnik zbieżności:
n
2
yi
( - wi
)
"
i=1
2 =
n
2
yi
( - y
)
"
i=1
marcin.mazurek@wat.edu.pl 2006
Przykład
Badając zależność pomiędzy nakładami na reklamę w mediach a poziomem sprzedaży otrzymano dla wybranej losowo próby
produktów tego samego typu n=7 zestawienia (x nakłady na reklamę, y- sprzedaż):
xi 1 2 3 4 5 6 7
yi 8 13 14 17 18 20 22
xi yi (xi - x) - y) - x)(yi - y) - x) ei2 xi2
(yi (xi wi ei = yi - wi
(xi 2
1 8 -3 -8 24 9 9,58 -1,58 2,50 1
2 13 -2 -3 6 4 11,72 1,28 1,64 4
3 14 -1 -2 2 1 13,86 0,14 0,02 9
4 17 0 1 0 0 16 1 1,00 16
5 18 1 2 2 1 18,14 -0,14 0,02 25
6 20 2 4 8 4 20,28 -0,28 0,08 36
7 8 3 6 18 9 22,42 -0,42 0,18 49
Ł = 28 Ł =112 Ł = 60 Ł =28 Ł =5,43 Ł =140
x = 4 y =16
60
Ć
ą1 = = 2,14
28
Ć
ą0 =16 - 4" 2,14 = 7, 44
Równanie prostej regresji:
Y = 2,14" X + 7,44
marcin.mazurek@wat.edu.pl 2006
Przykład- cd.
Wariancja resztowa i odchylenie standardowe:
5,43
2
S = = 1,09
7 - 2
S = 1,09 = 1,04
Odchylenia standardowe współczynników regresji:
1,04
Są = = 0,20
1
28
1,04 " 140
Są = = 0,87
0
7 " 28
Analiza istotności współczynników (na poziomie istotności ą=0,05)
Dla ą0:
7,44
Statystyka T = = 8,55,
0,87
tą = 2,571
Dla ą1:
2,14
Statystyka T = = 10,7
0,20
tą = 2,571
W obydwu przypadkach wartości statystyki T trafiają do obszaru krytycznego dla
testowanej hipotezy, a zatem hipotezę zerową należy odrzucić. Graniczne poziomy
współczynników istotności, przy których nie byłoby podstaw do odrzucenia hipotezy są
mniejsze od 0,001.
marcin.mazurek@wat.edu.pl 2006
Regresja logistyczna
Predykcja wartości zmiennej dyskretnej
(binarnej)
Estymacja prawdopodobieństwa przyjęcia
przez zmienną objaśniającą konkretnej
wartości
marcin.mazurek@wat.edu.pl 2006
Zadanie
marcin.mazurek@wat.edu.pl 2006
Literatura
A. Zeliaś, B.Pawełek, S.Wanat Metody
statystyczne Zadania i sprawdziany,
Polskie Wydawnictwo Ekonomiczne 2002
Hand David, Mannila Heikki, Smyth
Padhraic Eksploracja danych , WNT 2005
marcin.mazurek@wat.edu.pl 2006
Wyszukiwarka
Podobne podstrony:
21 Analiza regresjiAnaliza regresji 20090518Analiza regresji liniowejAnaliza regresji wykład i lista nr 33 Analiza regresji06 ANALIZA REGRESJIBlyskawiczna analiza regresji SnapStatanaliza regresjiElementy analizy korelacji i regresjianalizy opisowa, regresji i wariancjiAnaliza Matematyczna 2 Zadaniaanalizaregresja empirycznaANALIZA KOMPUTEROWA SYSTEMÓW POMIAROWYCH — MSEAnaliza stat ścianki szczelnejAnaliza 1Analiza?N Ocena dzialan na rzecz?zpieczenstwa energetycznego dostawy gazu listopad 09więcej podobnych podstron