Analiza regresji
marcin.mazurek@wat.edu.pl 2006
Sformułowanie problemu
Załóżmy, że należy zbudować liniowe równanie regresji wielorakiej przedstawiającej zależność zmiennej Y od zmiennych objaśniających X1, X2 , .. Xp Y =α +α X +α X +...+α X +ε
0
1
1
2
2
p
p
gdzie:
Y
zmienna zależna, objaśniana przez dane równanie X1, X2 , .. Xp
zmienne objaśniające
α0, α1, .. αp
parametry, zwane współczynnikami regresji ε
składnik losowy przypadkowy.
marcin.mazurek@wat.edu.pl 2006
Założenia dla modelu regresji
Model jest niezmienniczy ze względu na obserwację (każda obserwacja podlega tym samym regułom)
Model jest liniowy względem parametrów
Zmienna objaśniająca jest nielosowa, jej wartości są ustalonymi liczbami rzeczywistymi
Składnik losowy ma rozkład normalny o wartości oczekiwanej równej 0
Składnik losowy jest sferyczny
Nie występuje autokorelacja
Jest homoskedastyczny (wariancja jest stała) marcin.mazurek@wat.edu.pl 2006
Próba
Próba składa się z n obserwacji dokonanych na zmiennych Y , X1, X2 , ... Xp.
α
y
1 x x ... x
0
ε
1
11
12
k
1
1
α1
y 2
1 x x ... x
ε
21
22
2 k
α
2
y =
, X =
,
= α
,
ε =
...
...
2
...
...
y
1 x
x
... x
ε
n
n 1
n 2
nk
n
α p
gdzie:
y
wektor zaobserwowanych wartości zmiennej zależnej Y
X
macierz, której pierwszą kolumnę tworzą jedynki, a pozostałe kolumny to wartości zmiennych objaśniających
α
wektor nieznanych wartości parametrów regresji ε
wektor składników losowych równania Równanie regresji:
y =Xα + ε
marcin.mazurek@wat.edu.pl 2006
Parametry modelu regresji
Parametry funkcji regresji szacujemy metodą Wektor estymatorów parametrów
najmniejszych kwadratów.
modelu regresji:
ˆ
α
0
α
y = X ˆ + e ,
ˆ
α
1
T
1
−
T
gdzie e oznacza wektor reszt.
α
ˆ = ˆ
α
=
2
(X X) X y
.
..
e = y − yˆ
ˆ
α p
Wartości teoretyczne wyznaczone na podstawie modelu: ˆ
α
y = X ˆ
marcin.mazurek@wat.edu.pl 2006
Oszacowanie dopasowania
modelu
• wariancja składnika resztowego (wariancja resztowa) oraz odchylenie standardowe składnika resztowego
T
e e
2
S =
n − ( p + )
1
• współczynnik zmienności resztowej S
V =
y
• współczynnik zbieżności
e T e
2
ϕ =
T
1
T
2
y y −
(1 y)
n
• współczynnik koleracji wielorakiej.
2
2
R = 1−ϕ
• Odchylenia standardowe estymatorów parametrów modelu regresji marcin.mazurek@wat.edu.pl 2006
Testy istotności dla parametrów
tα - T-studenta dla poziomu istotności i n-2 stopni swobody.
Weryfikacja istotności współczynników: H0: αi = 0
H1: αi ≠ 0 , dla i = ,
0 p
Rozpatrujemy statystykę:
α
T
i
=
Sα i
oraz obszar krytyczny K = (− ∞, − t ∪ t , + ∞
α
α
)
Jeżeli wartość statystyki znajdzie się w obszarze krytycznym, oznacza to że hipotezę zerową należy odrzucić. W przeciwnym wypadku nie ma podstaw do jej odrzucenia.
marcin.mazurek@wat.edu.pl 2006
Model regresji z jedną zmienną
objaśniającą
Dla modelu regresji liniowej i p=1 (jedna zmienna objaśniająca) odpowiednie wzory macierzowe przyjmują postać :
n
∑ ( x − x
−
i
)( y
y
i
)
i = 1
ˆ
α
=
1
n
∑ ( x − x 2
i
)
i = 1
ˆ
α
= y − ˆ
α x
0
1
ˆ y = ˆ
α + ˆ
α x
i
0
1
i
Wariancja resztowa:
n
∑ ( ˆ y − y
i
)
2
i 1
S
= =
n − 2
marcin.mazurek@wat.edu.pl 2006
Miary dopasowania modelu
Błędy standardowe oszacowania parametrów modelu regresji (odchylenia standardowe dla estymatorów): n
2
S ⋅ ∑ xi
S
i 1
S
=
S
=
=
ˆ
α
ˆ
α
1
0
n
n
∑( x − x
n ⋅ ∑ x − x
i
)2
( i
)2
i 1
=
i 1
=
Kwadrat współczynnika korelacji wielorakiej: n
∑( ˆ y − y
i
)2
2
i 1
=
2
R =
= 1− ϕ
n
∑( y − y
i
)2
i 1
=
Współczynnik zbieżności:
n
∑( y − ˆ y
i
i )2
2
i 1
ϕ
=
=
n
∑( y − y
i
)2
i 1
=
marcin.mazurek@wat.edu.pl 2006
Przykład
Badając zależność pomiędzy nakładami na reklamę w mediach a poziomem sprzedaży otrzymano dla wybranej losowo próby produktów tego samego typu n=7 zestawienia (x – nakłady na reklamę, y- sprzedaż): x
1
2
3
4
5
6
7
i
y
8
13
14
17
18
20
22
i
xi
yi
( x − x
( y − y ( x − x
−
( x −
yˆ
e = y − yˆ
2
e
2
x
i
)2
x
i
)( y
y
i
)
i
)
i
)
i
i
i
i
i
i
1
8
-3
-8
24
9
9,58
-1,58
2,50
1
2
13
-2
-3
6
4
11,72
1,28
1,64
4
3
14
-1
-2
2
1
13,86
0,14
0,02
9
4
17
0
1
0
0
16
1
1,00
16
5
18
1
2
2
1
18,14
-0,14
0,02
25
6
20
2
4
8
4
20,28
-0,28
0,08
36
7
8
3
6
18
9
22,42
-0,42
0,18
49
Σ = 28 Σ =112
Σ = 60
Σ =28
Σ =5,43 Σ =140
x = 4
y = 16
60
ˆ
α =
= 2,14
1
28
ˆ
α = 16 − 4 ⋅ 2,14 = 7, 44
0
Równanie prostej regresji:
Y = 2,14 ⋅ X + 7, 44
marcin.mazurek@wat.edu.pl 2006
Przykład- cd.
Wariancja resztowa i odchylenie standardowe: 2
,
5 43
S =
= ,
1 09
7 − 2
S =
,
1 09 = ,
1 04
Odchylenia standardowe współczynników regresji: 0
,
1 4
S
=
= ,
0 20
α1
28
,
1 04 ⋅ 140
S
=
= 0 8
, 7
α 0
7 ⋅ 28
Analiza istotności współczynników (na poziomie istotności α=0,05) Dla α0:
7,44
Statystyka T =
=
5
,
8 5 ,
8
,
0 7
tα = 2,571
Dla α1:
1
,
2 4
Statystyka T =
= 10,7
0,20
tα = 2,571
W obydwu przypadkach wartości statystyki T trafiają do obszaru krytycznego dla testowanej hipotezy, a zatem hipotezę zerową należy odrzucić. Graniczne poziomy współczynników istotności, przy których nie byłoby podstaw do odrzucenia hipotezy są mniejsze od 0,001.
marcin.mazurek@wat.edu.pl 2006
Regresja logistyczna
Predykcja wartości zmiennej dyskretnej (binarnej)
Estymacja prawdopodobieństwa przyjęcia przez zmienną objaśniającą konkretnej wartości
marcin.mazurek@wat.edu.pl 2006
Zadanie
marcin.mazurek@wat.edu.pl 2006
Literatura
A. Zeliaś, B.Pawełek, S.Wanat „Metody statystyczne” Zadania i sprawdziany, Polskie Wydawnictwo Ekonomiczne 2002
Hand David, Mannila Heikki, Smyth Padhraic „Eksploracja danych”, WNT 2005
marcin.mazurek@wat.edu.pl 2006