marcin.mazurek@wat.edu.pl 2006
Analiza regresji
marcin.mazurek@wat.edu.pl 2006
Sformułowanie problemu
Załóżmy, że należy zbudować liniowe równanie regresji wielorakiej przedstawiającej
zależność zmiennej Y od zmiennych objaśniających X
1
, X
2
, .. X
p
ε
α
α
α
α
+
+
+
+
+
=
p
p
X
X
X
Y
...
2
2
1
1
0
gdzie:
Y
zmienna zależna, objaśniana przez dane równanie
X
1
, X
2
, .. X
p
zmienne objaśniające
α
0
, α
1,
.. α
p
parametry, zwane współczynnikami regresji
ε
składnik losowy przypadkowy.
marcin.mazurek@wat.edu.pl 2006
Założenia dla modelu regresji
Model jest niezmienniczy ze względu na obserwację
(każda obserwacja podlega tym samym regułom)
Model jest liniowy względem parametrów
Zmienna objaśniająca jest nielosowa, jej wartości są
ustalonymi liczbami rzeczywistymi
Składnik losowy ma rozkład normalny o wartości
oczekiwanej równej 0
Składnik losowy jest sferyczny
Nie występuje autokorelacja
Jest homoskedastyczny (wariancja jest stała)
marcin.mazurek@wat.edu.pl 2006
Próba
Próba składa się z n obserwacji dokonanych na zmiennych
Y , X
1
, X
2
, ... X
p
.
=
=
=
=
n
p
nk
n
n
k
k
n
x
x
x
x
x
x
x
x
x
y
y
y
ε
ε
ε
α
α
α
α
...
,
...
,
...
1
...
...
1
...
1
,
...
2
1
2
1
0
2
1
2
22
21
1
12
11
2
1
ε
α
X
y
gdzie:
y
wektor zaobserwowanych wartości zmiennej zależnej Y
X
macierz, której pierwszą kolumnę tworzą jedynki, a pozostałe kolumny to wartości
zmiennych objaśniających
α
α
α
α
wektor nieznanych wartości parametrów regresji
ε
εε
ε
wektor składników losowych równania
Równanie regresji:
y =Xα
α
α
α + ε
εε
ε
marcin.mazurek@wat.edu.pl 2006
Parametry modelu regresji
Parametry funkcji regresji szacujemy metodą
najmniejszych kwadratów.
e
α
X
y
+
=
ˆ
,
gdzie e oznacza wektor reszt.
y
y
e
ˆ
−
=
Wartości teoretyczne wyznaczone na podstawie modelu:
α
X
y
ˆ
ˆ =
Wektor estymatorów parametrów
modelu regresji:
(
)
y
X
X
X
α
T
T
p
1
2
1
0
ˆ
...
ˆ
ˆ
ˆ
ˆ
−
=
=
α
α
α
α
marcin.mazurek@wat.edu.pl 2006
Oszacowanie dopasowania
modelu
• wariancja składnika resztowego (wariancja resztowa) oraz odchylenie
standardowe składnika resztowego
)
1
(
2
+
−
=
p
n
S
T
e
e
• współczynnik zmienności resztowej
y
S
V =
• współczynnik zbieżności
2
2
)
(
1
y
1
y
y
e
e
T
T
T
n
−
=
ϕ
• współczynnik koleracji wielorakiej.
2
2
1
ϕ
−
=
R
• Odchylenia standardowe estymatorów parametrów modelu regresji
marcin.mazurek@wat.edu.pl 2006
Testy istotności dla parametrów
t
α
- T-studenta dla poziomu istotności i n-2 stopni swobody.
Weryfikacja istotności współczynników:
H
0
: α
i
= 0
H
1
: α
i
≠ 0 , dla
p
i
,
0
=
Rozpatrujemy statystykę:
i
S
T
i
α
α
=
oraz obszar krytyczny
(
)
∞
+
∪
−
∞
−
=
,
,
α
α
t
t
K
Jeżeli wartość statystyki znajdzie się w obszarze krytycznym, oznacza to że hipotezę
zerową należy odrzucić. W przeciwnym wypadku nie ma podstaw do jej odrzucenia.
marcin.mazurek@wat.edu.pl 2006
Model regresji z jedną zmienną
objaśniającą
Dla modelu regresji liniowej i p=1 (jedna zmienna objaśniająca) odpowiednie wzory
macierzowe przyjmują postać :
(
)(
)
(
)
x
y
x
x
y
y
x
x
n
i
i
n
i
i
i
1
0
1
2
1
1
ˆ
ˆ
ˆ
α
α
α
−
=
−
−
−
=
∑
∑
=
=
0
1
ˆ
ˆ
ˆ
i
i
y
x
α
α
=
+
Wariancja resztowa:
(
)
2
ˆ
1
2
−
−
=
∑
=
n
y
y
S
n
i
i
marcin.mazurek@wat.edu.pl 2006
Miary dopasowania modelu
Błędy standardowe oszacowania parametrów modelu
regresji (odchylenia standardowe dla estymatorów):
(
)
(
)
1
0
2
1
ˆ
ˆ
2
2
1
1
n
i
i
n
n
i
i
i
i
S
x
S
S
S
x
x
n
x
x
α
α
=
=
=
⋅
=
=
−
⋅
−
∑
∑
∑
Kwadrat współczynnika korelacji wielorakiej:
(
)
(
)
2
2
2
1
2
1
ˆ
1
n
i
i
n
i
i
y
y
R
y
y
ϕ
=
=
−
=
= −
−
∑
∑
Współczynnik zbieżności:
(
)
(
)
2
2
1
2
1
ˆ
n
i
i
i
n
i
i
y
y
y
y
ϕ
=
=
−
=
−
∑
∑
marcin.mazurek@wat.edu.pl 2006
Przykład
Badając zależność pomiędzy nakładami na reklamę w mediach a poziomem sprzedaży otrzymano dla wybranej losowo próby
produktów tego samego typu n=7 zestawienia (x – nakłady na reklamę, y- sprzedaż):
x
i
1
2
3
4
5
6
7
y
i
8
13
14
17
18
20
22
x
i
y
i
(
)
x
x
i
−
(
)
y
y
i
−
(
)(
)
y
y
x
x
i
i
−
−
(
)
2
x
x
i
−
i
yˆ
i
i
i
y
y
e
ˆ
−
=
2
i
e
2
i
x
1
8
-3
-8
24
9
9,58
-1,58
2,50
1
2
13
-2
-3
6
4
11,72
1,28
1,64
4
3
14
-1
-2
2
1
13,86
0,14
0,02
9
4
17
0
1
0
0
16
1
1,00
16
5
18
1
2
2
1
18,14
-0,14
0,02
25
6
20
2
4
8
4
20,28
-0,28
0,08
36
7
8
3
6
18
9
22,42
-0,42
0,18
49
Σ = 28 Σ =112
Σ = 60
Σ =28
Σ =5,43 Σ =140
4
=
x
16
=
y
1
0
60
ˆ
2,14
28
ˆ
16 4 2,14
7, 44
α
α
=
=
=
− ⋅
=
Równanie prostej regresji:
2,14
7, 44
Y
X
=
⋅
+
marcin.mazurek@wat.edu.pl 2006
Przykład- cd.
Wariancja resztowa i odchylenie standardowe:
04
,
1
09
,
1
09
,
1
2
7
43
,
5
2
=
=
=
−
=
S
S
Odchylenia standardowe współczynników regresji:
87
,
0
28
7
140
04
,
1
20
,
0
28
04
,
1
0
1
=
⋅
⋅
=
=
=
α
α
S
S
Analiza istotności współczynników (na poziomie istotności α=0,05)
Dla α
0
:
Statystyka
55
,
8
87
,
0
44
,
7
=
=
T
,
t
α
= 2,571
Dla α
1
:
Statystyka
7
,
10
20
,
0
14
,
2
=
=
T
t
α
= 2,571
W obydwu przypadkach wartości statystyki T trafiają do obszaru krytycznego dla
testowanej hipotezy, a zatem hipotezę zerową należy odrzucić. Graniczne poziomy
współczynników istotności, przy których nie byłoby podstaw do odrzucenia hipotezy są
mniejsze od 0,001.
marcin.mazurek@wat.edu.pl 2006
Regresja logistyczna
Predykcja wartości zmiennej dyskretnej
(binarnej)
Estymacja prawdopodobieństwa przyjęcia
przez zmienną objaśniającą konkretnej
wartości
marcin.mazurek@wat.edu.pl 2006
Zadanie
marcin.mazurek@wat.edu.pl 2006
Literatura
A. Zeliaś, B.Pawełek, S.Wanat „Metody
statystyczne” Zadania i sprawdziany,
Polskie Wydawnictwo Ekonomiczne 2002
Hand David, Mannila Heikki, Smyth
Padhraic „Eksploracja danych”, WNT 2005