Analiza regresji

marcin.mazurek@wat.edu.pl 2006

Sformułowanie problemu

Załóżmy, że należy zbudować liniowe równanie regresji wielorakiej przedstawiającej zależność zmiennej Y od zmiennych objaśniających X1, X2 , .. Xp Y =α +α X +α X +...+α X +ε

0

1

1

2

2

p

p

gdzie:

Y

zmienna zależna, objaśniana przez dane równanie X1, X2 , .. Xp

zmienne objaśniające

α0, α1, .. αp

parametry, zwane współczynnikami regresji ε

składnik losowy przypadkowy.

marcin.mazurek@wat.edu.pl 2006

Założenia dla modelu regresji

Model jest niezmienniczy ze względu na obserwację (każda obserwacja podlega tym samym regułom)

Model jest liniowy względem parametrów

Zmienna objaśniająca jest nielosowa, jej wartości są ustalonymi liczbami rzeczywistymi

Składnik losowy ma rozkład normalny o wartości oczekiwanej równej 0

Składnik losowy jest sferyczny

Nie występuje autokorelacja

Jest homoskedastyczny (wariancja jest stała) marcin.mazurek@wat.edu.pl 2006

Próba

Próba składa się z n obserwacji dokonanych na zmiennych Y , X1, X2 , ... Xp.

α 

 y 

1 x x ... x 

0

ε

1

11

12

k





 







1



1

α1 

 

 y 2 

1 x x ... x

ε

21

22

2 k 

α





 2 

y =

, X =

,

= α

,

ε =









...

...

 2 

 

...









... 

 

 y

1 x

x

... x

ε

n 



n 1

n 2

nk 





 n 

α p 

gdzie:

y

wektor zaobserwowanych wartości zmiennej zależnej Y

X

macierz, której pierwszą kolumnę tworzą jedynki, a pozostałe kolumny to wartości zmiennych objaśniających

α

wektor nieznanych wartości parametrów regresji ε

wektor składników losowych równania Równanie regresji:

y =Xα + ε

marcin.mazurek@wat.edu.pl 2006

Parametry modelu regresji

Parametry funkcji regresji szacujemy metodą Wektor estymatorów parametrów

najmniejszych kwadratów.

modelu regresji:

 ˆ

α 

0

α

y = X ˆ + e ,





ˆ

α

 1 

T

1

−

T





gdzie e oznacza wektor reszt.

α

ˆ = ˆ

α

=

2

(X X) X y





.

 .. 

e = y − yˆ

 ˆ 

α p 

Wartości teoretyczne wyznaczone na podstawie modelu: ˆ

α

y = X ˆ

marcin.mazurek@wat.edu.pl 2006

Oszacowanie dopasowania

modelu

• wariancja składnika resztowego (wariancja resztowa) oraz odchylenie standardowe składnika resztowego

T

e e

2

S =

n − ( p + )

1

• współczynnik zmienności resztowej S

V =

y

• współczynnik zbieżności

e T e

2

ϕ =

T

1

T

2

y y −

(1 y)

n

• współczynnik koleracji wielorakiej.

2

2

R = 1−ϕ

• Odchylenia standardowe estymatorów parametrów modelu regresji marcin.mazurek@wat.edu.pl 2006

Testy istotności dla parametrów

tα - T-studenta dla poziomu istotności i n-2 stopni swobody.

Weryfikacja istotności współczynników: H0: αi = 0

H1: αi ≠ 0 , dla i = ,

0 p

Rozpatrujemy statystykę:

α

T

i

=

Sα i

oraz obszar krytyczny K = (− ∞, − t ∪ t , + ∞

α

α

)

Jeżeli wartość statystyki znajdzie się w obszarze krytycznym, oznacza to że hipotezę zerową należy odrzucić. W przeciwnym wypadku nie ma podstaw do jej odrzucenia.

marcin.mazurek@wat.edu.pl 2006

Model regresji z jedną zmienną

objaśniającą

Dla modelu regresji liniowej i p=1 (jedna zmienna objaśniająca) odpowiednie wzory macierzowe przyjmują postać :

n

∑ ( x − x

−

i

)( y

y

i

)

i = 1

ˆ

α

=

1

n

∑ ( x − x 2

i

)

i = 1

ˆ

α

= y − ˆ

α x

0

1

ˆ y = ˆ

α + ˆ

α x

i

0

1

i

Wariancja resztowa:

n

∑ ( ˆ y − y

i

)

2

i 1

S

= =

n − 2

marcin.mazurek@wat.edu.pl 2006

Miary dopasowania modelu

Błędy standardowe oszacowania parametrów modelu regresji (odchylenia standardowe dla estymatorów): n

2

S ⋅ ∑ xi

S

i 1

S

=

S

=

=

ˆ

α

ˆ

α

1

0

n

n

∑( x − x

n ⋅ ∑ x − x

i

)2

( i

)2

i 1

=

i 1

=

Kwadrat współczynnika korelacji wielorakiej: n

∑( ˆ y − y

i

)2

2

i 1

=

2

R =

= 1− ϕ

n

∑( y − y

i

)2

i 1

=

Współczynnik zbieżności:

n

∑( y − ˆ y

i

i )2

2

i 1

ϕ

=

=

n

∑( y − y

i

)2

i 1

=

marcin.mazurek@wat.edu.pl 2006

Przykład

Badając zależność pomiędzy nakładami na reklamę w mediach a poziomem sprzedaży otrzymano dla wybranej losowo próby produktów tego samego typu n=7 zestawienia (x – nakłady na reklamę, y- sprzedaż): x

1

2

3

4

5

6

7

i

y

8

13

14

17

18

20

22

i

xi

yi

( x − x

( y − y ( x − x

−

( x −

yˆ

e = y − yˆ

2

e

2

x

i

)2

x

i

)( y

y

i

)

i

)

i

)

i

i

i

i

i

i

1

8

-3

-8

24

9

9,58

-1,58

2,50

1

2

13

-2

-3

6

4

11,72

1,28

1,64

4

3

14

-1

-2

2

1

13,86

0,14

0,02

9

4

17

0

1

0

0

16

1

1,00

16

5

18

1

2

2

1

18,14

-0,14

0,02

25

6

20

2

4

8

4

20,28

-0,28

0,08

36

7

8

3

6

18

9

22,42

-0,42

0,18

49

Σ = 28 Σ =112

Σ = 60

Σ =28

Σ =5,43 Σ =140

x = 4

y = 16

60

ˆ

α =

= 2,14

1

28

ˆ

α = 16 − 4 ⋅ 2,14 = 7, 44

0

Równanie prostej regresji:

Y = 2,14 ⋅ X + 7, 44

marcin.mazurek@wat.edu.pl 2006

Przykład- cd.

Wariancja resztowa i odchylenie standardowe: 2

,

5 43

S =

= ,

1 09

7 − 2

S =

,

1 09 = ,

1 04

Odchylenia standardowe współczynników regresji: 0

,

1 4

S

=

= ,

0 20

α1

28

,

1 04 ⋅ 140

S

=

= 0 8

, 7

α 0

7 ⋅ 28

Analiza istotności współczynników (na poziomie istotności α=0,05) Dla α0:

7,44

Statystyka T =

=

5

,

8 5 ,

8

,

0 7

tα = 2,571

Dla α1:

1

,

2 4

Statystyka T =

= 10,7

0,20

tα = 2,571

W obydwu przypadkach wartości statystyki T trafiają do obszaru krytycznego dla testowanej hipotezy, a zatem hipotezę zerową należy odrzucić. Graniczne poziomy współczynników istotności, przy których nie byłoby podstaw do odrzucenia hipotezy są mniejsze od 0,001.

marcin.mazurek@wat.edu.pl 2006

Regresja logistyczna

Predykcja wartości zmiennej dyskretnej (binarnej)

Estymacja prawdopodobieństwa przyjęcia przez zmienną objaśniającą konkretnej wartości

marcin.mazurek@wat.edu.pl 2006

Zadanie

marcin.mazurek@wat.edu.pl 2006

Literatura

A. Zeliaś, B.Pawełek, S.Wanat „Metody statystyczne” Zadania i sprawdziany, Polskie Wydawnictwo Ekonomiczne 2002

Hand David, Mannila Heikki, Smyth Padhraic „Eksploracja danych”, WNT 2005

marcin.mazurek@wat.edu.pl 2006