wyklad regresja korelacja

background image

Regresja i korelacja

(

materiał z internetu do wykorzystania jako powtórzenie

)

materiały dydaktyczne

background image

Regresja liniowa

W populacji generalnej rozważamy dwie zmienne X i Y takie, że zmienna

losowa Y ma rozkład normalny z parametrami

μ = m(x) i σ = σ

y/x

zaś zmienna X jest zmienną rzeczywistą (lub losową).

Wartość oczekiwana zmiennej losowej Y jest funkcją liniową zmiennej X

postaci:

m(x) = b + ax.

Wariancja σ

2y/x

oznacza, że zmienność cechy Y jest niezależna od zmiennej X

(jest stała).

background image

Estymacja parametrów modelu

Nieznane parametry modelu

y = b +ax

muszą być estymowane na podstawie odpowiedniej próby losowej.
Zagadnienie estymacji parametrów modelu sprowadza się do takiego
dobrania parametrów aby suma kwadratów odległości każdego
punktu empirycznego od prostej regresji była jak najmniejsza.

background image

Estymacja parametrów modelu

gdzie (y

i

, x

i

) oznacza elementy próby losowej.

background image

Estymacja parametrów modelu

Każdą obserwację empiryczną można zapisać jako:

y

i

= b + a·x

i

+

i

.

Problem estymacji sprowadza się do wyznaczenia minium funkcji s danej
wzorem.

n

i

i

i

n

i

i

x

a

b

y

b

a

s

1

2

1

2

)

(

)

,

(

background image

Estymacja parametrów modelu

Funkcja s jest funkcją dwóch niewiadomych (a i b), aby znaleźć

minimum tej funkcji musimy wyznaczyć pochodne cząstkowe funkcji s

względem obu niewiadomych:

i przyrównać te pochodne do zera.

n

i

i

i

i

a

n

i

i

i

b

x

a

b

y

x

s

x

a

b

y

s

1

1

)

(

2

'

)

(

2

'

background image

Otrzymujemy układ równań postaci:



0

)

ˆ

ˆ

(

0

)

ˆ

ˆ

(

1

1

n

i

i

i

i

n

i

i

i

x

a

b

y

x

x

a

b

y

x

xy

x

x

x

x

y

y

a

n

i

i

n

i

i

i

var

cov

)

(

)

)(

(

ˆ

1

2

1

x

a

y

b

ˆ

ˆ

Estymacja parametrów modelu

Rozwiązując mamy:

background image

Istotność równania regresji

Istotność wyestymowanego równania regresji badamy weryfikując
hipotezę zerową

H

0

: a = 0 wobec H

1

: a ≠ 0

Przy prawdziwości H

0

statystyka:

ma rozkład t Studenta z liczbą stopni swobody równej n - 2. Wyrażenie
jest oszacowaniem wariancji odchyleń od regresji z próby:

x

s

a

s

a

t

x

y

b

var

ˆ

ˆ

2

/

ˆ

s

y x

/

2

2

cov

ˆ

var

ˆ

2

/

2

/

n

xy

a

y

s

x

y

x

y

background image

Istotność współczynnika regresji

Jeżeli |t| > t

kryt

, to H

0

: a = 0 odrzucamy jako statystycznie mało

prawdopodobną i mówimy o istotności wyznaczonego równania

regresji.

Jeśli nie to wyniki próby nie przeczą hipotezie H

0

i funkcja regresji

jest stała.

Współczynnik regresji mówi nam o tym, o ile zmieni się zmienna

zależna y przy wzroście zmiennej x o jednostkę.

background image

Dopasowanie prostej regresji

Odchylenie obserwowanej wartości od jej średniej można zapisać

następująco:

 

y y

y y

y y

i

i

i

i

Pierwszy składnik to część całkowitego odchylenia zmiennej y, która

jest wyjaśniona regresją liniową y względem x, drugi składnik to

część zmienności całkowitej, która nie została wyjaśniona regresją.

background image

Współczynnik determinacji

Wyrażenie to nazywamy współczynnikiem determinacji.

r

2

<0; 1>

Informuje on o tym,

jaka część zmienności całkowitej zmiennej losowej Y została

wyjaśniona regresją liniową względem X.

y y

y y

y y

i

i

n

i

i

n

i

i

i

n

2

1

2

1

2

1

y

xy

a

y

y

y

y

r

n

i

i

n

i

i

var

cov

ˆ

ˆ

1

2

1

2

2

background image

Jeżeli między zmiennymi Y i X istnieje pełna zależność, to wszystkie
punkty empiryczne leżą na prostej, reszty są zerowe, a r

2

= 1.

W przypadku braku zależności (a = 0) funkcja regresji jest stała
i r

2

= 0.

background image

-3

-2

-1

0

1

2

3

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0.40

-t

n,

t

n,

/2

/2

1-

Z tablic rozkładu Studenta odczytujemy, dla wcześniej przyjętego
poziomu istotności , wartość krytyczną t

n-2,

. Jeżeli obliczona wartość

t znajduje w dwustronnym obszarze krytycznym (-, - t

n-2,

), (t

n-2,

,

+), to H

0

należy odrzucić na korzyść hipotezy H

1

background image

Weryfikacja hipotezy o istotności

regresji

n

i

i

R

y

y

SS

1

2

ˆ

SS

y y

y

T

i

i

n

2

1

var

Zmiennoś
ć

df

SS

M.S

F

emp

.

F

Regresji

1

MS

R

F

R

Odchyleń

n-2

SS

E

MS

E

F

,1,n-2

Całkowita n-1

Weryfikacji hipotezy o istotności regresji testem F
Fishera-Snedecora.

Analiza wariancji ma postać

background image

Predykcja na podstawie regresji

liniowej

Model regresji można wykorzystać do przewidywania wartości które

przyjmie zmienna Y przy ustalonych wartościach zmiennej niezależnej

X.

Jest to zagadnienie predykcji lub prognozowania.

Niestety, im wartość x, dla której dokonujemy predykcji jest bardziej

odległa od średniej z próby tym mniejsza dokładność prognozy.

background image
background image

Przedział ufności dla wartości z

modelu

Dla regresji liniowej statystyka:

ma rozkład t Studenta z liczbą stopni swobody n - 2.
Na tej podstawie możemy wyznaczyć przedział ufności dla wartości z modelu:

t

m x

m x

S

m x

 ( )

( )

 ( )

S

t

x

m

S

t

x

m

x

m

x

m

n

x

m

n



)

(

ˆ

2

,

)

(

ˆ

2

,

)

(

ˆ

;

)

(

ˆ

)

(

background image

Współczynnik korelacji

Miarą siły związku między zmiennymi losowymi jest współczynnik korelacji

,

Empiryczny współczynnik korelacji r ma wszystkie własności określone dla
współczynnika korelacji

.

Współczynnik korelacji określa także kierunek zależności.

r = 1

r = -1

y

x

xy

S

S

S

r

y

x

xy

background image

Kwadrat

współczynnika

korelacji

z

próby

nazywany

jest

współczynnikiem determinacji i jest on, drugim poza współczynnikiem
korelacji miernikiem siły związku między zmiennymi.
Interpretacja współczynnika determinacji – podaje on w jakiej części
zmienność jednej cechy jest wyjaśniona przez drugą cechę.

background image

Weryfikacja hipotezy o istotności

korelacji

Założymy, że rozkład zmiennych losowych Y i X w populacji generalnej jest

normalny. Na podstawie n - elementowej próby chcemy zweryfikować

hipotezę, że zmienne te są liniowo niezależne:

wobec

Jeżeli H

0

jest prawdziwa, to statystyka:

ma rozkład t Studenta z liczbą stopni swobody v = n – 2.
Hipoteza o istotności korelacji może być także zweryfikowana poprzez

porównanie wyznaczonego współczynnika z próby z wartościami
krytycznymi współczynnika korelacji wielokrotnej Pearsona.

H

0

0

:

H

1

0

:

t

r

r

n

1

2

2

1

,

,

k

n

k

R

r

background image

Regresja wielokrotna liniowa

Dotychczas rozpatrywaliśmy tylko dwie zmienne: Y i X.

Częściej mamy do czynienia z przypadkami w których jest zmienna
losową Y oraz k zmiennych X (stałych lub losowych).

Y N m x

x

k

y x

x

k

~ ( ( ,..., ),

)

/ ,...,

1

1

k

k

k

x

b

x

b

b

x

x

m

y

1

1

0

1

)

,...

(

background image

Współczynniki modelu b

1

, ..., b

k

będziemy nazywać

cząstkowymi współczynnikami regresji.

y

b bx

b x

e

j

j

k kj

j

 



0

1 1

Kryterium estymacji : należy tak dobrać parametry modelu, aby suma
kwadratów odchyleń od modelu była jak najmniejsza:

s

e

y b bx

b x

j

j

j

j

k kj

j

 

2

0

1 1

2

min

background image

Badanie istotności regresji

wielokrotnej

Hipotezę o nieistotności regresji wielokrotnej
możemy zapisać jako:

jej weryfikacja testem F Fishera-Snedecora.
Tabela analizy wariancji ma postać:
Zmienność d.f SS MS Femp.
F

Regresji

k SS

R

MS

R

F

R

Odchyleń n-k-1 SS

E

MS

E

Całkowita n-1 SS

T

H b b

b

k

0

1

2

0

:   

F

k n k

, ,   1

background image

Sumy kwadratów odchyleń i średnie kwadraty
potrzebne do zweryfikowania hipotezy o
istotności regresji mogą być wyznaczone z niżej
podanych wzorów.

SS

y

T

var

SS

b

x y MS

SS

k

R

i

i

i

R

R

 cov

SS

y

b

x y

MS

SS

n k

E

i

i

E

E

i

 

var

 cov

1

background image

Hipotezę

H b b

b

k

0

1

2

0

:   

F

F

R

k n k

 

, ,

1

Odrzucenie hipotezy H

0

jest równoznaczne z tym, że

co najmniej jeden współczynnik regresji jest różny od zera;

tzn. istnieje związek funkcyjny liniowy między zmienną zależną a

zmiennymi niezależnymi.

Problem statystyczny

które zmienne niezależne powinny pozostać w modelu

regresji.

odrzucamy

gdy

Badanie istotności regresji

wielokrotnej

background image

Weryfikacja hipotez o istotności

cząstkowych współczynników regresji

Problem sprowadza się do zweryfikowania serii k
hipotez zerowych mówiących o tym, że i-ty cząstkowy
współczynnik regresji jest równy zero.

Hipotezy te mogą być weryfikowane testem t-Studenta

background image

Weryfikacja hipotez

Wyrażenie

jest oszacowaniem średniego kwadratu odchyleń od
regresji.
Przy prawdziwości hipotez zerowych tak określone
statystyki mają rozkład t-Studenta z liczbą stopni
swobody równą n-k-1

H b

i

0

0

: 

s

y

b

x y

n k

y x

x

i

i

i

k

/ ,...

var

 cov

1

2

1

 

background image

Hipotezę

będziemy odrzucać, jeżeli wartość statystyki t znajdzie się w obszarze
krytycznym.

Jeżeli zmienne niezależne są z sobą powiązane
to oceny istotności cząstkowych współczynników regresji nie
są niezależne
.

0

:

0

i

b

H

background image

Problem doboru zmiennych

W przypadku istnienia silnych współzależności między zmiennymi

niezależnymi analizując funkcję regresji wielokrotnej dochodzimy do

wniosku, że jest ona istotna statystycznie (testem F).

Weryfikując dalej hipotezy o istotności cząstkowych współczynników

uzyskujemy wartości testu t Studenta, które nie przeczą hipotezom

zerowym.

Czyli mamy istotną funkcję regresji ale wszystkie zmienne (analizowane

oddzielnie) są nieistotne, powinny więc być usunięte z modelu.

Zaczynamy od pełnego zestawu potencjalnych zmiennych niezależnych,

a następnie kolejno usuwamy z modelu tę zmienną niezależną, której

rola w opisywaniu zależności między zmienną Y a zmiennymi

niezależnymi jest najmniejsza. Podejście takie nosi nazwę regresji

krokowej.

background image

Regresja krokowa

Algorytm postępowania:

1. Zaczynamy od pełnego (potencjalnie) zestawu zmiennych

niezależnych. Estymujemy model i wyznaczamy

2. Wyznaczamy wektor wartości empirycznych statystyk t dla

hipotez

.
3. Usuwamy z modelu tę zmienną, dla której uzyskaliśmy najmniejszą

wartość empiryczną statystyki t (co do wartości bezwzglednej) i

ponownie estymujemy model.

Postępowanie takie kontynuujemy tak długo, dopóki w modelu nie

pozostaną tylko zmienne istotne.

R

s

y x

x

k

2

2

1

oraz

/ ,...,

H b

i

0

0

: 

background image

W trakcie wykonywania regresji krokowej powinniśmy obserwować

zmiany wartości współczynnika determinacji jak i średniego kwadratu

błędu.

Postępowanie ma doprowadzić do

maksymalizacji wartości współczynnika

maksymalizacji wartości współczynnika

determin

determin

a

a

cji

cji

przy

jednoczesnej minimalizacji średniego kwadratu

jednoczesnej minimalizacji średniego kwadratu

błędu

błędu

.

.

background image

Miarą stopnia dopasowania modelu jest korelacja wielokrotna R lub jej
kwadrat (współczynnik determinacji D).

Dobierając model funkcji regresji powinniśmy dążyć do uzyskania jak
największego współczynnika determinacji (korelacji), ale przy
możliwie małym średnim kwadracie odchyleń od regresji:

R

b

x y

y

i

i

i

 cov

var

D R

2

s

y

b

x y

n k

y x

x

i

i

i

k

/ ,...

var

 cov

1

2

1

 

Ocena dopasowania modelu

background image

Regresja wielomianowa

(krzywoliniowa)

W wielu przypadkach interesuje nas nieliniowy związek między

zmienną Y a zmienną X, np.:

background image

Linearyzacja modelu regresji

wielomianowej

Przykład modelu nieliniowego z dwoma zmiennymi niezależnymi:

2

1

5

2

2

4

2

3

2

1

2

1

1

0

x

x

b

x

b

x

b

x

b

x

b

b

y

background image

Wnioskowanie dla regresji

wielokrotnej

Współczynniki regresji:

i-ty, cząstkowy współczynnik regresji opisuje o ile średnio
zmieni się wartość zmiennej Y przy wzroście i-tej wartości
zmiennej X o jednostkę przy ustalonych wartościach
pozostałych zmiennych niezależnych.

W przypadku większości modeli regresji krzywoliniowej

taka interpretracja nie jest możliwa.

background image

Funkcje wielomianowe

Model regresji wielomianowej dwóch zmiennych niezależnych jest

postaci:

Etap pierwszy - Wyznaczanie funkcji regresji dla jednej zmiennej

niezależnej tzn. zmienna Y jest funkcją tylko jednej zmiennej

niezależnej, np.

2

1

5

2

2

4

2

1

3

2

2

1

1

0

x

x

a

x

a

x

a

x

a

x

a

a

y

2

1

2

1

1

0

20

2

1

)

(

x

b

x

b

b

x

x

x

y

2

2

2

2

1

0

10

1

2

)

(

x

a

x

a

a

x

x

x

y

background image

Problemy z estymacją funkcji regresji

Estymacja funkcji regresji jest zagadniem trudnym ponieważ:

1. Brak jest pewności, że zbiór analizowanych zmiennych

niezależnych jest pełny.

2. Typ funkcji regresji nie jest znany dlatego pojawia się problem

doboru kształtu funkcji regresji i zestawu zmiennych

niezależnych.

3. W wielu sytuacjach można uzyskać porównywalną „dobroć

dopasowania modelu”, współczynnik korelacji lub R

2

, dla różnych

typów funkcji regresji i zestawów zmiennych niezależnych.


Document Outline


Wyszukiwarka

Podobne podstrony:
wyklad8 regresja i korelacja
Statystyka #9 Regresja i korelacja
wykład 8 regresja, Statystyka opisowa
STAT3 ANALIZA REGRESJI I KORELACJI wersja.2011, ANALIZA REGRESJI I KORELACJI
wyklad 7 (regresja krzywoliniowa), Zarządzanie I semestr -> UG, Statystyka
regresja i korelacja
wyklad 9 Regresja liniowa wielokrotna
Wykład 7 Kowariancja i korelacja, Statystyka opisowa
wyklad 5 (wspolczynniki korelacji)
Statystyka #9 Regresja i korelacja
Metodologia z elelmentami statystyki dr Izabela Krejtz wyklad 4 Pojęcie korelacji
Zadania lista 3 Regresja i korelacja
Wykład 7 Korelacja i regresja liniowa
Analiza regresji ostatnie notaki z wykladu
ZK PZ Spotkanie 6 (korelacje i Regresja)

więcej podobnych podstron