Analiza regresji
marcin.mazurek@wat.edu.pl 2009
Regresja wieloraka
Regresja wielokrotna (ang. multiple regression)
Więcej niż jedna zmienna objaśniająca
Liniowe równanie regresji wielorakiej przedstawiającej zależność zmiennej Y
od zmiennych objaśniających X
1
, X
2
, .. X
m
...
Y
X
X
X
α
α
α
α
ε
=
+
+
+
+
+
marcin.mazurek@wat.edu.pl 2009
0
1
1
2
2
...
m
m
Y
X
X
X
α
α
α
α
ε
=
+
+
+
+
+
gdzie:
Y
zmienna zależna, objaśniana przez dane równanie
X
1
, X
2
, .. X
m
zmienne objaśniające
α
0
,
α
1,
..
α
m
parametry, zwane współczynnikami regresji
ε
składnik losowy przypadkowy.
Założenia dla modelu regresji
Model jest liniowy względem parametrów
Zmienna objaśniająca jest nielosowa, jej wartości są
ustalonymi liczbami rzeczywistymi
Składnik losowy ma rozkład normalny o wartości
oczekiwanej równej 0
Składnik losowy jest sferyczny
marcin.mazurek@wat.edu.pl 2009
Składnik losowy jest sferyczny
Nie występuje autokorelacja
Jest homoskedastyczny (wariancja jest stała niezależnie od
wartości wektora zmiennych objaśniających X)
Próba
Próba składa się z n obserwacji dokonanych na zmiennych
Y , X
1
, X
2
, ... X
m
.
0
11
12
1
1
1
1
2
21
22
2
2
2
1
2
1
...
1
...
,
,
,
...
...
...
...
1
...
m
m
n
n
n
n
nm
m
x x
x
y
y
x
x
x
y
x x
x
α
ε
α
ε
α
ε
α
=
=
=
=
y
X
α
ε
gdzie:
marcin.mazurek@wat.edu.pl 2009
gdzie:
y
wektor zaobserwowanych wartości zmiennej zależnej Y
X
macierz, której pierwszą kolumnę tworzą jedynki, a pozostałe kolumny to wartości
zmiennych objaśniających
α
α
α
α
wektor nieznanych wartości parametrów regresji
εεεε
wektor składników losowych równania
Równanie regresji:
y =Xα
α
α
α + εεεε
Parametry modelu regresji
Parametry funkcji regresji szacujemy metodą
najmniejszych kwadratów.
e
α
X
y
+
=
ˆ
,
gdzie e oznacza wektor reszt.
Wektor estymatorów parametrów
modelu regresji:
(
)
0
1
1
2
ˆ
ˆ
ˆ
ˆ
T
T
α
α
α
−
=
=
α
X X
X y
marcin.mazurek@wat.edu.pl 2009
gdzie e oznacza wektor reszt.
y
y
e
ˆ
−
=
Wartości teoretyczne wyznaczone na podstawie modelu:
α
X
y
ˆ
ˆ
=
...
ˆ
m
α
Zmienność zmiennej celu
Suma kwadratów
Ź
ródło
zmienności
Stopnie
swobody
Ś
redni kwadrat
SSE
(sum of squares error)
• Suma kwadratów błędu
oszacowania
• Suma kwadratów błędów
•Zmienność niewyjaśniona
Błąd
losowy
n-m-1
MSE
(mean square error)
SSR
(sum of squares regression)
•Regresyjna suma
Regresja
m
MSR
(mean square regression)
(
)
2
ˆ
SSE
y y
=
−
∑
(
)
2
ˆ
SSR
y y
=
−
∑
1
SSE
MSE
n m
=
−
−
SSR
MSR
m
=
marcin.mazurek@wat.edu.pl 2009
•Regresyjna suma
kwadratów
•Suma kwadratów odchyleń
regresyjnych
•Zmienność wyjaśniona
SST = SSE + SSR
(sum of squares total)
Całkowita suma kwadratów
Odchylenie
całkowite
n-1
(
)
ˆy y
−
∑
(
)
2
SST
y y
=
−
∑
2
SSR
R
SST
=
Współczynnik determinacji:
Statystyka F:
MSR
F
MSE
=
Oszacowanie dopasowania modelu
• wariancja składnika resztowego (wariancja resztowa) oraz odchylenie
standardowe składnika resztowego
2
(
1)
T
S
n
m
=
−
+
e e
• współczynnik zmienności resztowej
y
S
V
=
marcin.mazurek@wat.edu.pl 2009
y
• współczynnik zbieżności
2
2
)
(
1
y
1
y
y
e
e
T
T
T
n
−
=
ϕ
• Kwadrat współczynnika korelacji wielorakiej (współczynnik determinacji)
2
2
1
ϕ
−
=
R
• Odchylenia standardowe estymatorów parametrów modelu regresji
Model regresji z jedną zmienną objaśniającą
Dla modelu regresji liniowej i m=1 (jedna zmienna objaśniająca) odpowiednie wzory
macierzowe przyjmują postać :
(
)(
)
(
)
x
x
y
y
x
x
n
i
n
i
i
i
2
1
1
ˆ
α
−
−
−
=
∑
∑
=
marcin.mazurek@wat.edu.pl 2009
(
)
x
y
x
x
i
i
1
0
1
ˆ
ˆ
α
α
−
=
−
∑
=
0
1
ˆ
ˆ
ˆ
i
i
y
x
α
α
=
+
Wariancja resztowa:
(
)
2
ˆ
1
2
−
−
=
∑
=
n
y
y
S
n
i
i
Miary dopasowania modelu
Błędy standardowe oszacowania parametrów modelu
regresji (odchylenia standardowe dla estymatorów):
(
)
(
)
1
0
2
1
ˆ
ˆ
2
2
1
1
n
i
i
n
n
i
i
i
i
S
x
S
S
S
x
x
n
x
x
α
α
=
=
=
⋅
=
=
−
⋅
−
∑
∑
∑
Kwadrat współczynnika korelacji wielorakiej:
(
)
2
2
2
1
ˆ
1
n
i
i
y
y
R
ϕ
=
−
=
= −
∑
marcin.mazurek@wat.edu.pl 2009
(
)
2
2
1
2
1
1
i
n
i
i
R
y
y
ϕ
=
=
=
= −
−
∑
Współczynnik zbieżności:
(
)
(
)
2
2
1
2
1
ˆ
n
i
i
i
n
i
i
y
y
y
y
ϕ
=
=
−
=
−
∑
∑
Przykład
Badając zależność pomiędzy nakładami na reklamę w mediach a poziomem sprzedaży otrzymano dla wybranej losowo próby
produktów tego samego typu n=7 zestawienia (x – nakłady na reklamę, y- sprzedaż):
x
i
1
2
3
4
5
6
7
y
i
8
13
14
17
18
20
22
x
i
y
i
(
)
x
x
i
−
(
)
y
y
i
−
(
)(
)
y
y
x
x
i
i
−
−
(
)
2
x
x
i
−
i
yˆ
i
i
i
y
y
e
ˆ
−
=
2
i
e
2
i
x
1
8
-3
-8
24
9
9,58
-1,58
2,50
1
marcin.mazurek@wat.edu.pl 2009
1
8
-3
-8
24
9
9,58
-1,58
2,50
1
2
13
-2
-3
6
4
11,72
1,28
1,64
4
3
14
-1
-2
2
1
13,86
0,14
0,02
9
4
17
0
1
0
0
16
1
1,00
16
5
18
1
2
2
1
18,14
-0,14
0,02
25
6
20
2
4
8
4
20,28
-0,28
0,08
36
7
8
3
6
18
9
22,42
-0,42
0,18
49
Σ = 28 Σ =112
Σ = 60
Σ =28
Σ =5,43 Σ =140
4
=
x
16
=
y
1
0
60
ˆ
2,14
28
ˆ
16 4 2,14
7, 44
α
α
=
=
=
− ⋅
=
Równanie prostej regresji:
2,14
7, 44
Y
X
=
⋅
+
Przykład- cd.
Wariancja resztowa i odchylenie standardowe:
04
,
1
09
,
1
09
,
1
2
7
43
,
5
2
=
=
=
−
=
S
S
Odchylenia standardowe współczynników regresji:
87
,
0
140
04
,
1
20
,
0
28
04
,
1
1
=
⋅
=
=
=
α
S
S
marcin.mazurek@wat.edu.pl 2009
87
,
0
28
7
140
04
,
1
0
=
⋅
⋅
=
α
S
Analiza istotności współczynników (na poziomie istotności
α=0,05)
Dla
α
0
:
Statystyka
55
,
8
87
,
0
44
,
7
=
=
T
,
t
α
= 2,571
Dla
α
1
:
Statystyka
7
,
10
20
,
0
14
,
2
=
=
T
t
α
= 2,571
W obydwu przypadkach wartości statystyki T trafiają do obszaru krytycznego dla
testowanej hipotezy, a zatem hipotezę zerową należy odrzucić. Graniczne poziomy
współczynników istotności, przy których nie byłoby podstaw do odrzucenia hipotezy są
mniejsze od 0,001.
Testowanie hipotez
Weryfikacja hipotezy zerowej H
0
Wybór odpowiedniej statystyki U, której rozkład jest znany (
test
hipotezy)
Ustalenie zbioru wartości W tych wartości statystyki U, których
wystąpienie uważamy za zaprzeczenie hipotezie zerowej (
zbiór
krytyczny)
Prawdopodobieństwo odrzucenia hipotezy zerowej, gdy jest ona
marcin.mazurek@wat.edu.pl 2009
Prawdopodobieństwo odrzucenia hipotezy zerowej, gdy jest ona
prawdziwa (
poziom istotności testu):
(
)
0
P U
W H
α
∈
=
Rzeczywistość
Hipoteza zerowa
Prawdziwa
Fałszywa
Przyjęcie
Poprawna decyzja
Błąd II rodzaju
Odrzucenie
Błąd I rodzaju
(poziom istotności)
Poprawna decyzja
Wartość p
Prawdopodobieństwo wystąpienia obserwowanych
wyników w przypadku jeżeli hipoteza zerowa jest
prawdziwa
Miara wiarygodności hipotezy zerowej
marcin.mazurek@wat.edu.pl 2009
Test t istotności parametru regresji
Badanie zależności pomiędzy zmienną celu y a zmienną
objaśniającą x
i
z uwzględnieniem pozostałych zmiennych
objaśniających
Statystyka t - rozkład t-studenta z n-m-1 stopniami swobody
0
1
:
0
:
0
i
i
H
H
α
α
=
≠
0
0
1
1
1
1
1
1
1
0
1
1
1
1
1
1
:
...
...
:
...
...
i
i
i
i
m
m
i
i
i
i
i
i
m
m
H
y
x
x
x
x
H
y
x
x
x
x
x
α
α
α
α
α
α
α
α
α
α
α
−
−
+
+
−
−
+
+
=
+
⋅
+
+
⋅
+
⋅
+
⋅
=
+
⋅
+
+
⋅
+
⋅
+
⋅
+
⋅
marcin.mazurek@wat.edu.pl 2009
Statystyka t - rozkład t-studenta z n-m-1 stopniami swobody
Obszar krytyczny - jeżeli wartość statystyki znajdzie się w obszarze
krytycznym, oznacza to że hipotezę zerową należy odrzucić.
p – wartość
i
i
t
S
α
α
=
(
)
,
,
K
t
t
α
α
= −∞ −
∪
+ ∞
(
)
p
P T
t
=
>
Test F istotności modelu regresji
Badanie liniowej zależności pomiędzy zmienną celu a
zbiorem zmiennych objaśniających traktowanych jako
całość
Statystyka F
0
1
2
1
:
...
0
:
0
m
i
H
H
α
α
α
α
=
=
=
=
∃
≠
marcin.mazurek@wat.edu.pl 2009
Statystyka F
(
)
(
)
2
2
1
1
ˆ
ˆ
SSR
MSR
n
m
m
F
SSE
MSE
m
n
m
y y
y y
−
−
=
=
=
⋅
−
−
−
∑
−
∑
Zmienne jakościowe w modelu regresji
Zmienna objaśniająca dyskretna przyjmująca
k- wartości
Wykształcenie
Podstawowe
Ś
rednie
Wyższe
marcin.mazurek@wat.edu.pl 2009
k-1 zmiennych objaśniających binarnych
(zmienne wskaźnikowe, zmienne sztuczne)
Wykształcenie
Wykształcenie_S
Wykształcenie_W
Podstawowe
0
0
Ś
rednie
1
0
Wyższe
0
1
Metody wyboru zmiennych objaśniających
Metoda dołączania (ang. forward selection)
Dołączamy zmienne z najwyższą wartością statystyki F() do
chwili i sprawdzamy istotność sekwencyjnej statystyki F.
Metoda eliminacji (ang. backward elimination)
Usuwamy z modelu zmienną z najmniejszą wartością częściowej
statystyki F.
marcin.mazurek@wat.edu.pl 2009
statystyki F.
Metoda krokowa (ang. stepwise)
Po dołączeniu zmiennej usuwana jest ta, która nie jest istotna .
Metoda najlepszych podzbiorów
Maksymalna liczba p zmiennych objaśniających oraz k-modeli
dla każdej liczby zmiennych objaśniających do 1 do p.
Metoda wszystkich możliwych regresji
Częściowy test F
Sekwencyjne sumy kwadratów – (sequential sum of squares)
Podział sumy kwadratów odchyleń regresji na części wyjaśniane przez
zmienną objaśniającą, po uwzględnieniu wcześniej wprowadzonych
zmiennych
Wartości sekwencyjnych sum kwadratów zależą od kolejności
wprowadzania zmiennych do modelu
W modelu mamy już p-zmiennych – sprawdzenie czy w modelu
marcin.mazurek@wat.edu.pl 2009
W modelu mamy już p-zmiennych – sprawdzenie czy w modelu
powinna zostać uwzględniona dodatkowa zmienna
Statystyka
(
)
1
2
1
1
,
...,
i
i
i
i
i
i
SS
SS x x x
x
SS
SSR
SSR
−
−
=
=
−
(
)
1
2
1
,
...,
i
i
i
SS
F x x x
x
MSE
−
=
Regresja logistyczna
Predykcja wartości zmiennej dyskretnej (binarnej)
Estymacja prawdopodobieństwa przyjęcia przez
zmienną objaśniającą konkretnej wartości
( )
(
)
0
1
1
0
1
1
...
...
1
m
m
m
m
x
x
x
x
e
p x
E Y x
e
α
α
α
α
α
α
+
⋅ + +
⋅
+
⋅ + +
⋅
=
=
+
marcin.mazurek@wat.edu.pl 2009
Iloraz szans
Transformacja logitowa
( )
( )
( )
0
1
1
ln
...
1
m
m
p x
g x
x
x
p x
α
α
α
=
=
+
⋅
+
+
⋅
−
( )
( )
1
p x
OR
p x
=
−
Estymacja parametrów
Estymacja metodą największej wiarygodności
Funkcja wiarygodności l(α|x)– określa p-stwo uzyskania
obserwowanych danych x.
(
)
( )
( )
1
1
1
i
i
n
y
y
i
i
i
l
x
p x
p x
α
−
=
=
⋅
−
∏
marcin.mazurek@wat.edu.pl 2009
Maksymalizacja funkcji wiarygodności – poszukujemy takiego
oszacowania nieznanych parametrów, dla którego
prawdopodobieństwo otrzymania zaobserwowanych wartości
jest największe.
Literatura
A. Zeliaś, B.Pawełek, S.Wanat „Metody statystyczne” Zadania i
sprawdziany, Polskie Wydawnictwo Ekonomiczne 2002
Hand David, Mannila Heikki, Smyth Padhraic „Eksploracja danych”,
WNT 2005
Daniel T.Larose „Metody i modele eksploracji danych” Wydawnictwo
Naukowe PWN 2008
A. Plucińska, E.Pluciński, „Probabilistyka”, WNT 2000
marcin.mazurek@wat.edu.pl 2009
A. Plucińska, E.Pluciński, „Probabilistyka”, WNT 2000