Model prostej regresji liniowej Model regresji w populacji generalnej:

Y = α

0 + α X

1

+ ε

Y – zmienna objaśniana, zaleŜna

X – zmienna objaśniająca, predyktor

ε - zakłócenie, błąd losowy, o którym zakładamy, Ŝe 2

2

E(ε ) = ;

0 D (ε ) = σ oraz najczęściej,

Ŝe podlega rozkładowi normalnemu

α - wyraz wolny

0

α - współczynnik kierunkowy, miara nachylenia linii Y = α +α X względem osi odciętych 1

0

1

Przyjmujemy, Ŝe X jest wielkością nielosową – wartości jakie przyjmuje są ustalone.

Model średniej warunkowej:

E Y

( | X ) = α + α X

0

1

Metoda najmniejszych kwadratów (MNK):

Metoda uzyskiwania ocen parametrów α i α gwarantujących minimalizację sumy 0

1

kwadratów odchyleń między wartościami empirycznymi i dopasowanymi zmiennej objaśnianej modelu. Aby móc znaleźć takie oceny musimy dysponować n-elementową próbą statystyczną wartości zmiennych X oraz Y – parami wartości (xi, yi) i=1,...,n.

y = α + α x + ε

i

0

1 i

i

i = ,

1 ..., n

Oznaczenia:

a0, a1 – oceny parametrów modelu

ε - zaburzenie losowe odpowiadające i-tej obserwacji na zmiennej objaśnianej (związane z i-i

tym obiektem w próbie lub z i-tym okresem próby) yˆ = a + a x - wartości dopasowane (teoretyczne)zmiennej objaśnianej (leŜące na i

0

1 i

dopasowanej prostej regresji) odpowiadające i-tej obserwacji na zmiennej objaśniającej xi .

e = y − yˆ - reszta, odchylenie między wartością empiryczną a dopasowaną odpowiadające i

i

i

i-tej obserwacji na zmiennej objaśniającej xi Kryterium MNK:

n

n

n

SSE =

2

∑ e

y

y

y

a

a x

i = ∑ ( i − ˆ i )2 = ∑ ( i −

−

i

→

0

1

)2 min

i 1

=

i 1

=

i 1

=

SSE – suma kwadratów reszt regresji (residual sum of squares) Licząc pochodne cząstkowe funkcji SSE względem a0 i a1 oraz przyrównując je do zera (warunek konieczny dla ekstremum) otrzymujemy układ dwóch równań zwany układem równań normalnych, z rozwiązania którego uzyskujemy formuły pozwalające obliczyć a0 i a1.

Układ równań normalnych:

n

n

na 0 + a 1∑ x

y

i = ∑

i

i =1

i =1

a 0 ∑

n

n

n

x

a

x 2

x y

i +

1 ∑

i

= ∑ i i

i =1

i =1

i =1

Oznaczenia:

n

2

n

S

2

2

= ∑

−

= ∑ −

yy

( y y

i

)

y

ny

i

i 1

=

i 1

=

n

2

n

S

2

2

= ∑ −

= ∑ −

xx

( x x

i

)

x

nx

i

i 1

=

i 1

=

n

n

S = ∑

−

− = ∑

−

xy

( x x

i

)( y y

i

)

x y

nxy

i

i

i 1

=

i 1

=

S 2

1

=

S

-

wariancja p

z

róby z

mienne j X

x

n xx

S 2

1

=

S -

wariancja p

z

róby z

miennej Y

y

n yy

C( X , Y

1

) =

S

k

-

owarianc a

j p

róbkowa z

miennych X Y

i

n xy

Przy przyjętych oznaczeniach oceny MNK parametrów modelu prostej regresji moŜna wyrazić następująco:

a = y − a x

0

1

S

xy

C( X , Y )

a =

=

1

2

S

S

xx

x

Sumę kwadratów reszt regresji moŜna przedstawić następująco: SSE = ∑( y − a 0 − a x 2

1

=

i

i )

= ∑(

2

y − y + a x

1

− a x

1

=

i

i )

= ∑[( y − y) − a ( x − x 2

)

1

=

i

i

]

= ∑(

2

2

y − y + 2

2

1 ∑

−

− 1∑

−

− =

i

) a ( x x

i

)

a

( y y

i

)( x x

i

)

=

S

+ a 2 S

2

1

− a S

1

=

yy

xx

xy

S 2

= S

xy

−

=

yy

Sxx

= S − a S

1

=

yy

xy

= SSTO − SSR

gdzie

SSTO=Syy

- całkowita suma kwadratów ( total sum of squares) SSR=a1Sxy

- objaśniona suma kwadratów ( regression sum of squares)

Współczynnik korelacji w populacji generalnej: cov( X , Y

ρ

)

=

,

xy

σ σ

x

y

gdzie

cov(X,Y) – kowariancja zmiennych X i Y w populacji generalnej σ ,σ - odchylenia standardowe zmiennych X i Y w populacji generalnej x

y

Współczynnik korelacji z próby:

C( X , Y

r =

) =

xy

S S

x

y

Sxy

= S S

xx

yy

Współczynnik determinacji:

Udział SSR w SSTO i zarazem udział wariancji objaśnionej za pomocą prostej regresji w wariancji całkowitej zmiennej Y z próby moŜna mierzyć jako kwadrat współczynnika korelacji rxy. Miara ta przyjmująca wartości z przedziału [0,1] nosi nazwę współczynnika determinacji.

−

2

2

SSR

SSTO SSE

SSE

R ≡ r =

=

=1−

=

xy

SSTO

SSTO

SSTO

S 2

a S

xy

1 xy

=

=

S S

S

xx yy

yy

Wnioskowanie statystyczne w modelu prostej regresji

Przy poczynionych załoŜeniach odnośnie parametrów rozkładu składnika losowego modelu prostej regresji, estymatory MNK parametrów modelu są nieobciąŜone, zgodne i posiadają najmniejsze wariancje w klasie liniowych nieobciąŜonych estymatorów. Przyjęte załoŜenia naleŜy rozszerzyć w sytuacji rozpatrywania regresji w warunkach gdy dysponujemy juŜ n-elementową losową próbą na zmiennych modelu:

1. E(ε )

, dla kaŜdego i=1,...,n

i

= 0

2.

2

2

D (ε )

, dla kaŜdego i=1,...,n

i

= σ

3. ε i ε są niezaleŜnymi zmiennymi losowymi dla i ≠ j i

j

4. x są wielkościami nielosowymi

j

Dla celów wnioskowania statystycznego – konstrukcji przedziałów ufności dla parametrów modelu, weryfikacji hipotez – zakładamy dodatkowo, Ŝe wszystkie zakłócenia ε podlegają i

normalnemu rozkładowi prawdopodobieństwa.

NajwaŜniejsze wyniki:

1. Oceny a0 i a1 podlegają łącznemu, dwuwymiarowemu rozkładowi normalnemu o następujących parametrach:



2 

1

2

2

x

E( a )

D ( a )

σ

0

=

+

o

= α0





 n

Sxx 

2

σ

E( a ) = α

D 2 ( a ) =

1

1

1

Sxx





2

−

cov( a , )

σ

0

1

=

x

a





 Sxx 

PowyŜsze wyniki mogą być wykorzystane w praktyce pod warunkiem znanej wariancji 2

σ .

NieobciąŜonym estymatorem tego parametru w przypadku prostej regresji jest funkcja: SSE

2

S

(tzw. wariancja resztowa)

e = n − 2

SSE

Ponadto

ma rozkład 2

χ o n-2 stopniach swobody i jest on niezaleŜny od rozkładów 2

σ

estymatorów a i i=0,1. Wynik ten moŜna wykorzystać przy konstrukcji przedziału ufności dla 2

σ oraz weryfikacji hipotez o 2

σ .

Standardowe błędy szacunku parametrów prostej regresji za pomocą MNK moŜna wyrazić wzorami:

1

x 2

S ( a )

0

= S

+

e

n

Sxx

Se

S ( a )

1

= Sxx

Ponadto zachodzi:

a − α

Funkcja i

i ma rozkład t-Studenta o n-2 stopniach swobody. Wynik ten moŜe być S ( a )

i

wykorzystany do konstrukcji przedziałów ufności dla parametrów prostej regresji oraz weryfikacji hipotez.

Pierwiastek kwadratowy z wariancji resztowej Se nazywany jest średnim błędem szacunku.

Analiza wariancji (ANOVA):

Przy poczynionych załoŜeniach SSE

ma rozkład 2

χ o n-2 stopniach swobody oraz

2

σ

SSR

ma rozkład 2

χ o 1 stopniu swobody wówczas, gdy parametr α =0. Co więcej te dwa 2

σ

1

rozkłady są niezaleŜne. Zatem gdy α =0, to statystyka 1

SSR 1

F =

ma rozkład Fishera ze stopniami swobody 1 i n-2. Wynik ten moŜe być SSE n −2

wykorzystany w teście dla hipotezy α =0.

1

Tablica ANOVA

Źródło

Suma kwadratów Liczba stopni

Średnie

Iloraz F

zmienności

odchyleń

swobody

odchylenie

kwadratowe

Regresja

SSR

1

SSR/1

SSR(n-2)/SSE

Reszty

SSE

n-2

SSE/(n-2)

Suma

SSTO= Syy

n-1

Analiza reszt

1. Sprawdzanie stałości wariancji składnika losowego – np. wykres reszt względem x lub yˆ ; reszty nie powinny wzrastać lub maleć ze wzrostem x lub yˆ .

2. Sprawdzanie czy nie pominięto waŜnych zmiennych objaśniających – powinno się włączyć do modelu zmienną, względem której reszty wykazują tendencję do regularnych zmian

3. Wykrywanie związków krzywoliniowych między X i Y – wykresy 4. Wykrywanie niezgodności z załoŜeniem rozkładu normalnego – normal probability plot

5. Występowanie obserwacji nietypowych – wykresy 6. Alternatywne postaci funkcyjne dla regresji, łatwo transformowalne do postaci liniowej względem zmiennych:

Y = α + β log x

Y = Aeβ x

Y = Axβ

β

Y = α + x

β

Y = α +

x