background image

marcin.mazurek@wat.edu.pl 2006

Analiza regresji

background image

marcin.mazurek@wat.edu.pl 2006

Sformułowanie problemu 

Załóżmy, że należy zbudować liniowe równanie regresji wielorakiej przedstawiającej 
zależność zmiennej Y od zmiennych objaśniających X

1

, X

2

 , .. X

 

 

ε

α

α

α

α

+

+

+

+

+

=

p

p

X

X

X

Y

...

2

2

1

1

0

 

 
gdzie:  
 
Y  

 

 

zmienna zależna, objaśniana przez dane równanie  

X

1

, X

2

 , .. X

p

    

zmienne objaśniające  

α

0

, α

1,

 .. α

    

parametry, zwane współczynnikami regresji  

ε   

 

 

składnik losowy przypadkowy.  

 

background image

marcin.mazurek@wat.edu.pl 2006

Założenia dla modelu regresji



Model jest niezmienniczy ze względu na obserwację
(każda obserwacja podlega tym samym regułom)



Model jest liniowy względem parametrów



Zmienna objaśniająca jest nielosowa, jej wartości są
ustalonymi liczbami rzeczywistymi



Składnik losowy ma rozkład normalny o wartości 
oczekiwanej równej 0



Składnik losowy jest sferyczny



Nie występuje autokorelacja 



Jest homoskedastyczny (wariancja jest stała)

background image

marcin.mazurek@wat.edu.pl 2006

Próba

Próba składa się z n obserwacji dokonanych na zmiennych 

 

Y , X

1

,  X

2

 , ... X

p

.  

=

=

=

=

n

p

nk

n

n

k

k

n

x

x

x

x

x

x

x

x

x

y

y

y

ε

ε

ε

α

α

α

α

...

,

...

,

...

1

...

...

1

...

1

,

...

2

1

2

1

0

2

1

2

22

21

1

12

11

2

1

ε

α

X

y

 

gdzie: 

y  

 wektor zaobserwowanych wartości zmiennej zależnej Y 

X  

 macierz, której pierwszą kolumnę tworzą jedynki, a pozostałe kolumny to wartości 

zmiennych objaśniających  

α

α

α

α  

wektor nieznanych wartości parametrów regresji  

ε

εε

ε  

wektor składników losowych równania 

Równanie regresji:  

y =Xα

α

α

α + ε

εε

ε 

 

background image

marcin.mazurek@wat.edu.pl 2006

Parametry modelu regresji

Parametry funkcji regresji szacujemy metodą 
najmniejszych kwadratów.  
 

e

α

X

y

+

=

ˆ

,  

 
gdzie e oznacza wektor reszt.  
 

y

y

e

ˆ

=

 

Wartości teoretyczne wyznaczone na podstawie modelu:  

α

X

y

ˆ

ˆ =

 

 

 
Wektor estymatorów parametrów  
modelu regresji:  

(

)

y

X

X

X

α

T

T

p

1

2

1

0

ˆ

...

ˆ

ˆ

ˆ

ˆ

=

=

α

α

α

α

 

background image

marcin.mazurek@wat.edu.pl 2006

Oszacowanie dopasowania 
modelu

 

•  wariancja składnika resztowego (wariancja resztowa) oraz odchylenie 

standardowe składnika resztowego 

)

1

(

2

+

=

p

n

S

T

e

e

 

•  współczynnik zmienności resztowej 

y

S

=

 

•  współczynnik zbieżności  

2

2

)

(

1

y

1

y

y

e

e

T

T

T

n

=

ϕ

 

•  współczynnik koleracji wielorakiej. 

2

2

1

ϕ

=

R

 

•  Odchylenia standardowe estymatorów parametrów modelu regresji 

 
 

background image

marcin.mazurek@wat.edu.pl 2006

Testy istotności dla parametrów

t

α

 - T-studenta dla poziomu istotności i n-2 stopni swobody. 

 
Weryfikacja istotności współczynników:  
H

0

: α

i

 = 0 

H

1

: α

i

 ≠ 0  , dla 

p

i

,

0

=

 

Rozpatrujemy statystykę: 

i

S

T

i

α

α

=

 

oraz obszar krytyczny 

(

)

+

=

,

,

α

α

t

t

K

 

Jeżeli wartość statystyki znajdzie się w obszarze krytycznym, oznacza to że hipotezę 
zerową należy odrzucić. W przeciwnym wypadku nie ma podstaw do jej odrzucenia. 
 
 

background image

marcin.mazurek@wat.edu.pl 2006

Model regresji z jedną zmienną
objaśniającą

Dla modelu regresji liniowej i p=1 (jedna zmienna objaśniająca) odpowiednie wzory 
macierzowe przyjmują postać :  

(

)(

)

(

)

x

y

x

x

y

y

x

x

n

i

i

n

i

i

i

1

0

1

2

1

1

ˆ

ˆ

ˆ

α

α

α

=

=

=

=

 

 
 
 
 

0

1

ˆ

ˆ

ˆ

i

i

y

x

α

α

=

+

 

 
Wariancja resztowa:  

(

)

2

ˆ

1

2

=

=

n

y

y

S

n

i

i

 

 
 
 

background image

marcin.mazurek@wat.edu.pl 2006

Miary dopasowania modelu

 
Błędy standardowe oszacowania parametrów modelu 
regresji (odchylenia standardowe dla estymatorów): 

(

)

(

)

1

0

2

1

ˆ

ˆ

2

2

1

1

n

i

i

n

n

i

i

i

i

S

x

S

S

S

x

x

n

x

x

α

α

=

=

=

=

=

 

 
Kwadrat współczynnika korelacji wielorakiej:  

(

)

(

)

2

2

2

1

2

1

ˆ

1

n

i

i

n

i

i

y

y

R

y

y

ϕ

=

=

=

= −

 

 
Współczynnik zbieżności:  

(

)

(

)

2

2

1

2

1

ˆ

n

i

i

i

n

i

i

y

y

y

y

ϕ

=

=

=

 

background image

marcin.mazurek@wat.edu.pl 2006

Przykład 

Badając zależność pomiędzy nakładami na reklamę w mediach a poziomem sprzedaży otrzymano dla wybranej losowo próby 
produktów tego samego typu n=7 zestawienia (x – nakłady na reklamę, y- sprzedaż):

x

i

1

2

3

4

5

6

7

y

i

8

13

14

17

18

20

22

x

i

 

y

i

 

(

)

x

x

i

 

(

)

y

y

i

 

(

)(

)

y

y

x

x

i

i

 

(

)

2

x

x

i

 

i

yˆ

 

i

i

i

y

y

e

ˆ

=

 

2

i

e

 

2

i

x

 

-3 

-8 

24 

9,58 

-1,58 

2,50 

13 

-2 

-3 

11,72 

1,28 

1,64 

14 

-1 

-2 

13,86 

0,14 

0,02 

17 

16 

1,00 

16 

18 

18,14 

-0,14 

0,02 

25 

20 

20,28 

-0,28 

0,08 

36 

18 

22,42 

-0,42 

0,18 

49 

Σ = 28  Σ =112 

 

 

Σ = 60 

Σ =28 

 

 

Σ =5,43  Σ =140 

4

=

x

 

16

=

y

 

 

 

 

 

 

 

 

 

 

1

0

60

ˆ

2,14

28

ˆ

16 4 2,14

7, 44

α

α

=

=

=

− ⋅

=

 

 
Równanie prostej regresji: 

2,14

7, 44

Y

X

=

+

 

 

background image

marcin.mazurek@wat.edu.pl 2006

Przykład- cd.

Wariancja resztowa i odchylenie standardowe: 
 

04

,

1

09

,

1

09

,

1

2

7

43

,

5

2

=

=

=

=

S

S

 

 
Odchylenia standardowe współczynników regresji:  

87

,

0

28

7

140

04

,

1

20

,

0

28

04

,

1

0

1

=

=

=

=

α

α

S

S

 

 
Analiza istotności współczynników (na poziomie istotności α=0,05) 
Dla α

0

Statystyka 

55

,

8

87

,

0

44

,

7

=

=

T

,  

t

α

 = 2,571 

Dla α

1

Statystyka 

7

,

10

20

,

0

14

,

2

=

=

T

 

t

α

 = 2,571 

W obydwu przypadkach wartości statystyki T trafiają do obszaru krytycznego dla 
testowanej hipotezy, a zatem hipotezę zerową należy odrzucić. Graniczne poziomy 
współczynników istotności, przy których nie byłoby podstaw do odrzucenia hipotezy są 
mniejsze od 0,001. 
 

background image

marcin.mazurek@wat.edu.pl 2006

Regresja logistyczna



Predykcja wartości zmiennej dyskretnej 
(binarnej)



Estymacja prawdopodobieństwa przyjęcia 
przez zmienną objaśniającą konkretnej 
wartości

background image

marcin.mazurek@wat.edu.pl 2006

Zadanie

background image

marcin.mazurek@wat.edu.pl 2006

Literatura



A. Zeliaś, B.Pawełek, S.Wanat „Metody 
statystyczne” Zadania i sprawdziany, 
Polskie Wydawnictwo Ekonomiczne 2002



Hand David, Mannila Heikki, Smyth
Padhraic „Eksploracja danych”, WNT 2005