Analiza regresji 20090518

background image

Analiza regresji

marcin.mazurek@wat.edu.pl 2009

background image

Regresja wieloraka

Regresja wielokrotna (ang. multiple regression)

Więcej niż jedna zmienna objaśniająca

Liniowe równanie regresji wielorakiej przedstawiającej zależność zmiennej Y
od zmiennych objaśniających X

1

, X

2

, .. X

m

...

Y

X

X

X

α

α

α

α

ε

=

+

+

+

+

+

marcin.mazurek@wat.edu.pl 2009

0

1

1

2

2

...

m

m

Y

X

X

X

α

α

α

α

ε

=

+

+

+

+

+


gdzie:

Y

zmienna zależna, objaśniana przez dane równanie

X

1

, X

2

, .. X

m

zmienne objaśniające

α

0

,

α

1,

..

α

m

parametry, zwane współczynnikami regresji

ε

składnik losowy przypadkowy.

background image

Założenia dla modelu regresji

Model jest liniowy względem parametrów

Zmienna objaśniająca jest nielosowa, jej wartości są
ustalonymi liczbami rzeczywistymi

Składnik losowy ma rozkład normalny o wartości
oczekiwanej równej 0

Składnik losowy jest sferyczny

marcin.mazurek@wat.edu.pl 2009

Składnik losowy jest sferyczny

Nie występuje autokorelacja
Jest homoskedastyczny (wariancja jest stała niezależnie od
wartości wektora zmiennych objaśniających X)

background image

Próba

Próba składa się z n obserwacji dokonanych na zmiennych

Y , X

1

, X

2

, ... X

m

.

0

11

12

1

1

1

1

2

21

22

2

2

2

1

2

1

...

1

...

,

,

,

...

...

...

...

1

...

m

m

n

n

n

n

nm

m

x x

x

y

y

x

x

x

y

x x

x

α

ε

α

ε

α

ε

α

 

 

 

=

=

=

=

 

 

 

y

X

α

ε

gdzie:

marcin.mazurek@wat.edu.pl 2009

gdzie:

y

wektor zaobserwowanych wartości zmiennej zależnej Y

X

macierz, której pierwszą kolumnę tworzą jedynki, a pozostałe kolumny to wartości

zmiennych objaśniających

α

α

α

α

wektor nieznanych wartości parametrów regresji

εεεε

wektor składników losowych równania

Równanie regresji:

y =Xα

α

α

α + εεεε

background image

Parametry modelu regresji

Parametry funkcji regresji szacujemy metodą
najmniejszych kwadratów.

e

α

X

y

+

=

ˆ

,


gdzie e oznacza wektor reszt.


Wektor estymatorów parametrów
modelu regresji:

(

)

0

1

1

2

ˆ

ˆ

ˆ

ˆ

T

T

α
α
α

=

=

α

X X

X y

marcin.mazurek@wat.edu.pl 2009

gdzie e oznacza wektor reszt.

y

y

e

ˆ

=

Wartości teoretyczne wyznaczone na podstawie modelu:

α

X

y

ˆ

ˆ

=

...

ˆ

m

α

background image

Zmienność zmiennej celu

Suma kwadratów

Ź

ródło

zmienności

Stopnie
swobody

Ś

redni kwadrat

SSE

(sum of squares error)

• Suma kwadratów błędu
oszacowania
• Suma kwadratów błędów
•Zmienność niewyjaśniona

Błąd
losowy

n-m-1

MSE

(mean square error)

SSR

(sum of squares regression)
•Regresyjna suma

Regresja

m

MSR

(mean square regression)

(

)

2

ˆ

SSE

y y

=

(

)

2

ˆ

SSR

y y

=

1

SSE

MSE

n m

=

SSR

MSR

m

=

marcin.mazurek@wat.edu.pl 2009

•Regresyjna suma
kwadratów
•Suma kwadratów odchyleń
regresyjnych
•Zmienność wyjaśniona

SST = SSE + SSR

(sum of squares total)

Całkowita suma kwadratów

Odchylenie
całkowite

n-1

(

)

ˆy y

(

)

2

SST

y y

=

2

SSR

R

SST

=

Współczynnik determinacji:

Statystyka F:

MSR

F

MSE

=

background image

Oszacowanie dopasowania modelu

• wariancja składnika resztowego (wariancja resztowa) oraz odchylenie

standardowe składnika resztowego

2

(

1)

T

S

n

m

=

+

e e

• współczynnik zmienności resztowej

y

S

V

=

marcin.mazurek@wat.edu.pl 2009

y

• współczynnik zbieżności

2

2

)

(

1

y

1

y

y

e

e

T

T

T

n

=

ϕ

• Kwadrat współczynnika korelacji wielorakiej (współczynnik determinacji)

2

2

1

ϕ

=

R

• Odchylenia standardowe estymatorów parametrów modelu regresji


background image

Model regresji z jedną zmienną objaśniającą

Dla modelu regresji liniowej i m=1 (jedna zmienna objaśniająca) odpowiednie wzory
macierzowe przyjmują postać :

(

)(

)

(

)

x

x

y

y

x

x

n

i

n

i

i

i

2

1

1

ˆ

α

=

=

marcin.mazurek@wat.edu.pl 2009

(

)

x

y

x

x

i

i

1

0

1

ˆ

ˆ

α

α

=

=




0

1

ˆ

ˆ

ˆ

i

i

y

x

α

α

=

+


Wariancja resztowa:

(

)

2

ˆ

1

2

=

=

n

y

y

S

n

i

i



background image

Miary dopasowania modelu


Błędy standardowe oszacowania parametrów modelu
regresji (odchylenia standardowe dla estymatorów):

(

)

(

)

1

0

2

1

ˆ

ˆ

2

2

1

1

n

i

i

n

n

i

i

i

i

S

x

S

S

S

x

x

n

x

x

α

α

=

=

=

=

=


Kwadrat współczynnika korelacji wielorakiej:

(

)

2

2

2

1

ˆ

1

n

i

i

y

y

R

ϕ

=

=

= −

marcin.mazurek@wat.edu.pl 2009

(

)

2

2

1

2

1

1

i

n

i

i

R

y

y

ϕ

=

=

=

= −


Współczynnik zbieżności:

(

)

(

)

2

2

1

2

1

ˆ

n

i

i

i

n

i

i

y

y

y

y

ϕ

=

=

=

background image

Przykład

Badając zależność pomiędzy nakładami na reklamę w mediach a poziomem sprzedaży otrzymano dla wybranej losowo próby
produktów tego samego typu n=7 zestawienia (x – nakłady na reklamę, y- sprzedaż):

x

i

1

2

3

4

5

6

7

y

i

8

13

14

17

18

20

22

x

i

y

i

(

)

x

x

i

(

)

y

y

i

(

)(

)

y

y

x

x

i

i

(

)

2

x

x

i

i

yˆ

i

i

i

y

y

e

ˆ

=

2

i

e

2

i

x

1

8

-3

-8

24

9

9,58

-1,58

2,50

1

marcin.mazurek@wat.edu.pl 2009

1

8

-3

-8

24

9

9,58

-1,58

2,50

1

2

13

-2

-3

6

4

11,72

1,28

1,64

4

3

14

-1

-2

2

1

13,86

0,14

0,02

9

4

17

0

1

0

0

16

1

1,00

16

5

18

1

2

2

1

18,14

-0,14

0,02

25

6

20

2

4

8

4

20,28

-0,28

0,08

36

7

8

3

6

18

9

22,42

-0,42

0,18

49

Σ = 28 Σ =112

Σ = 60

Σ =28

Σ =5,43 Σ =140

4

=

x

16

=

y

1

0

60

ˆ

2,14

28

ˆ

16 4 2,14

7, 44

α

α

=

=

=

− ⋅

=


Równanie prostej regresji:

2,14

7, 44

Y

X

=

+

background image

Przykład- cd.

Wariancja resztowa i odchylenie standardowe:

04

,

1

09

,

1

09

,

1

2

7

43

,

5

2

=

=

=

=

S

S


Odchylenia standardowe współczynników regresji:

87

,

0

140

04

,

1

20

,

0

28

04

,

1

1

=

=

=

=

α

S

S

marcin.mazurek@wat.edu.pl 2009

87

,

0

28

7

140

04

,

1

0

=

=

α

S


Analiza istotności współczynników (na poziomie istotności

α=0,05)

Dla

α

0

:

Statystyka

55

,

8

87

,

0

44

,

7

=

=

T

,

t

α

= 2,571

Dla

α

1

:

Statystyka

7

,

10

20

,

0

14

,

2

=

=

T

t

α

= 2,571

W obydwu przypadkach wartości statystyki T trafiają do obszaru krytycznego dla
testowanej hipotezy, a zatem hipotezę zerową należy odrzucić. Graniczne poziomy
współczynników istotności, przy których nie byłoby podstaw do odrzucenia hipotezy są
mniejsze od 0,001.

background image

Testowanie hipotez

Weryfikacja hipotezy zerowej H

0

Wybór odpowiedniej statystyki U, której rozkład jest znany (

test

hipotezy)
Ustalenie zbioru wartości W tych wartości statystyki U, których
wystąpienie uważamy za zaprzeczenie hipotezie zerowej (

zbiór

krytyczny)
Prawdopodobieństwo odrzucenia hipotezy zerowej, gdy jest ona

marcin.mazurek@wat.edu.pl 2009

Prawdopodobieństwo odrzucenia hipotezy zerowej, gdy jest ona
prawdziwa (

poziom istotności testu):

(

)

0

P U

W H

α

=

Rzeczywistość

Hipoteza zerowa

Prawdziwa

Fałszywa

Przyjęcie

Poprawna decyzja

Błąd II rodzaju

Odrzucenie

Błąd I rodzaju
(poziom istotności)

Poprawna decyzja

background image

Wartość p

Prawdopodobieństwo wystąpienia obserwowanych
wyników w przypadku jeżeli hipoteza zerowa jest
prawdziwa

Miara wiarygodności hipotezy zerowej

marcin.mazurek@wat.edu.pl 2009

background image

Test t istotności parametru regresji

Badanie zależności pomiędzy zmienną celu y a zmienną
objaśniającą x

i

z uwzględnieniem pozostałych zmiennych

objaśniających

Statystyka t - rozkład t-studenta z n-m-1 stopniami swobody

0

1

:

0

:

0

i

i

H

H

α

α

=

0

0

1

1

1

1

1

1

1

0

1

1

1

1

1

1

:

...

...

:

...

...

i

i

i

i

m

m

i

i

i

i

i

i

m

m

H

y

x

x

x

x

H

y

x

x

x

x

x

α

α

α

α

α

α

α

α

α

α

α

+

+

+

+

=

+

+

+

+

+

=

+

+

+

+

+

+

marcin.mazurek@wat.edu.pl 2009

Statystyka t - rozkład t-studenta z n-m-1 stopniami swobody

Obszar krytyczny - jeżeli wartość statystyki znajdzie się w obszarze
krytycznym, oznacza to że hipotezę zerową należy odrzucić.

p – wartość

i

i

t

S

α

α

=

(

)

,

,

K

t

t

α

α

= −∞ −

+ ∞

(

)

p

P T

t

=

>

background image

Test F istotności modelu regresji

Badanie liniowej zależności pomiędzy zmienną celu a
zbiorem zmiennych objaśniających traktowanych jako
całość

Statystyka F

0

1

2

1

:

...

0

:

0

m

i

H

H

α

α

α

α

=

=

=

=

marcin.mazurek@wat.edu.pl 2009

Statystyka F

(

)

(

)

2

2

1

1

ˆ

ˆ

SSR

MSR

n

m

m

F

SSE

MSE

m

n

m

y y

y y

=

=

=

background image

Zmienne jakościowe w modelu regresji

Zmienna objaśniająca dyskretna przyjmująca

k- wartości

Wykształcenie

Podstawowe

Ś

rednie

Wyższe

marcin.mazurek@wat.edu.pl 2009

k-1 zmiennych objaśniających binarnych

(zmienne wskaźnikowe, zmienne sztuczne)

Wykształcenie

Wykształcenie_S

Wykształcenie_W

Podstawowe

0

0

Ś

rednie

1

0

Wyższe

0

1

background image

Metody wyboru zmiennych objaśniających

Metoda dołączania (ang. forward selection)

Dołączamy zmienne z najwyższą wartością statystyki F() do
chwili i sprawdzamy istotność sekwencyjnej statystyki F.

Metoda eliminacji (ang. backward elimination)

Usuwamy z modelu zmienną z najmniejszą wartością częściowej
statystyki F.

marcin.mazurek@wat.edu.pl 2009

statystyki F.

Metoda krokowa (ang. stepwise)

Po dołączeniu zmiennej usuwana jest ta, która nie jest istotna .

Metoda najlepszych podzbiorów

Maksymalna liczba p zmiennych objaśniających oraz k-modeli
dla każdej liczby zmiennych objaśniających do 1 do p.

Metoda wszystkich możliwych regresji

background image

Częściowy test F

Sekwencyjne sumy kwadratów – (sequential sum of squares)

Podział sumy kwadratów odchyleń regresji na części wyjaśniane przez
zmienną objaśniającą, po uwzględnieniu wcześniej wprowadzonych
zmiennych

Wartości sekwencyjnych sum kwadratów zależą od kolejności
wprowadzania zmiennych do modelu

W modelu mamy już p-zmiennych – sprawdzenie czy w modelu

marcin.mazurek@wat.edu.pl 2009

W modelu mamy już p-zmiennych – sprawdzenie czy w modelu
powinna zostać uwzględniona dodatkowa zmienna

Statystyka

(

)

1

2

1

1

,

...,

i

i

i

i

i

i

SS

SS x x x

x

SS

SSR

SSR

=

=

(

)

1

2

1

,

...,

i

i

i

SS

F x x x

x

MSE

=

background image

Regresja logistyczna

Predykcja wartości zmiennej dyskretnej (binarnej)

Estymacja prawdopodobieństwa przyjęcia przez
zmienną objaśniającą konkretnej wartości

( )

(

)

0

1

1

0

1

1

...

...

1

m

m

m

m

x

x

x

x

e

p x

E Y x

e

α

α

α

α

α

α

+

⋅ + +

+

⋅ + +

=

=

+

marcin.mazurek@wat.edu.pl 2009

Iloraz szans

Transformacja logitowa

( )

( )

( )

0

1

1

ln

...

1

m

m

p x

g x

x

x

p x

α

α

α

=

=

+

+

+

( )

( )

1

p x

OR

p x

=

background image

Estymacja parametrów

Estymacja metodą największej wiarygodności

Funkcja wiarygodności l(α|x)– określa p-stwo uzyskania
obserwowanych danych x.

(

)

( )

( )

1

1

1

i

i

n

y

y

i

i

i

l

x

p x

p x

α

=

=

marcin.mazurek@wat.edu.pl 2009

Maksymalizacja funkcji wiarygodności – poszukujemy takiego

oszacowania nieznanych parametrów, dla którego
prawdopodobieństwo otrzymania zaobserwowanych wartości
jest największe.

background image

Literatura

A. Zeliaś, B.Pawełek, S.Wanat „Metody statystyczne” Zadania i
sprawdziany, Polskie Wydawnictwo Ekonomiczne 2002
Hand David, Mannila Heikki, Smyth Padhraic „Eksploracja danych”,
WNT 2005
Daniel T.Larose „Metody i modele eksploracji danych” Wydawnictwo
Naukowe PWN 2008
A. Plucińska, E.Pluciński, „Probabilistyka”, WNT 2000

marcin.mazurek@wat.edu.pl 2009

A. Plucińska, E.Pluciński, „Probabilistyka”, WNT 2000


Wyszukiwarka

Podobne podstrony:
Analiza regresji ostatnie notaki z wykladu
analiza regresji
Analiza regresji, Statystyka - ćwiczenia - Rumiana Górska
ANALIZA REGRESJI WIELOKROTN, Zarządzanie projektami, Zarządzanie(1)
Statystyka matematyczna, 4-część, Analiza regresyjna
cw analiza regresji prostej, Badano właściwości soi — polskiej odmiany ALDANA
Analiza regresji
Analiza regresji między dwiema zmiennymi, Płyta farmacja Bydgoszcz, statystyka, pozostałe
Procedura związana z analizą regresji
ANALIZA REGRESJI PROSTEJ
Analiza regresji ppt
3 Analiza regresji
Analiza regresji liniowej
Analiza regresji między dwiema zmiennymi, Statystyka, statystyka(3)
Analiza regresji-ostatnie notaki z wykladu
STAT3 ANALIZA REGRESJI I KORELACJI wersja.2011, ANALIZA REGRESJI I KORELACJI
notatki analiza regresji
Analiza regresji między dwiema zmiennymi, statystyka matematyczna(1)

więcej podobnych podstron