Model prostej regresji liniowej Model regresji w populacji generalnej:
Y = α
0 + α X
1
+ ε
Y – zmienna objaśniana, zależna
X – zmienna objaśniająca, predyktor
ε - zakłócenie, błąd losowy, o którym zakładamy, że 2
2
E(ε ) = ;
0 D (ε ) = σ oraz najczęściej,
że podlega rozkładowi normalnemu
α - wyraz wolny
0
α - współczynnik kierunkowy, miara nachylenia linii Y = α +α X względem osi odciętych 1
0
1
Przyjmujemy, że X jest wielkością nielosową – wartości jakie przyjmuje są ustalone.
Model średniej warunkowej:
E Y
( | X ) = α + α X
0
1
Metoda najmniejszych kwadratów (MNK):
Metoda uzyskiwania ocen parametrów α i α gwarantujących minimalizację sumy 0
1
kwadratów odchyleń między wartościami empirycznymi i dopasowanymi zmiennej objaśnianej modelu. Aby móc znaleźć takie oceny musimy dysponować n-elementową próbą statystyczną wartości zmiennych X oraz Y – parami wartości (xi, yi) i=1,...,n.
y = α + α x + ε
i
0
1 i
i
i = ,
1 ..., n
Oznaczenia:
a0, a1 – oceny parametrów modelu
ε - zaburzenie losowe odpowiadające i-tej obserwacji na zmiennej objaśnianej (związane z i-i
tym obiektem w próbie lub z i-tym okresem próby) yˆ = a + a x - wartości dopasowane (teoretyczne)zmiennej objaśnianej (leżące na i
0
1 i
dopasowanej prostej regresji) odpowiadające i-tej obserwacji na zmiennej objaśniającej xi .
e = y − yˆ - reszta, odchylenie między wartością empiryczną a dopasowaną odpowiadające i
i
i
i-tej obserwacji na zmiennej objaśniającej xi Kryterium MNK:
n
n
n
SSE =
2
∑ e
y
y
y
a
a x
i = ∑ ( i − ˆ i )2 = ∑ ( i −
−
i
→
0
1
)2 min
i 1
=
i 1
=
i 1
=
SSE – suma kwadratów reszt regresji (residual sum of squares) Licząc pochodne cząstkowe funkcji SSE względem a0 i a1 oraz przyrównując je do zera (warunek konieczny dla ekstremum) otrzymujemy układ dwóch równań zwany układem równań normalnych, z rozwiązania którego uzyskujemy formuły pozwalające obliczyć a0 i a1.
n
n
na 0 + a 1∑ x
y
i = ∑
i
i =1
i =1
a 0 ∑
n
n
n
x
a
x 2
x y
i +
1 ∑
i
= ∑ i i
i =1
i =1
i =1
Oznaczenia:
n
2
n
S
2
2
= ∑
−
= ∑ −
yy
( y y
i
)
y
ny
i
i 1
=
i 1
=
n
2
n
S
2
2
= ∑ −
= ∑ −
xx
( x x
i
)
x
nx
i
i 1
=
i 1
=
n
n
S = ∑
−
− = ∑
−
xy
( x x
i
)( y y
i
)
x y
nxy
i
i
i 1
=
i 1
=
S 2
1
=
S
-
wariancja p
z
róby z
mienne j X
x
n xx
S 2
1
=
S -
wariancja p
z
róby z
miennej Y
y
n yy
C( X , Y
1
) =
S
k
-
owarianc a
j p
róbkowa z
miennych X Y
i
n xy
Przy przyjętych oznaczeniach oceny MNK parametrów modelu prostej regresji można wyrazić następująco:
a = y − a x
0
1
S
xy
C( X , Y )
a =
=
1
2
S
S
xx
x
Sumę kwadratów reszt regresji można przedstawić następująco: SSE = ∑( y − a 0 − a x 2
1
=
i
i )
= ∑(
2
y − y + a x
1
− a x
1
=
i
i )
= ∑[( y − y) − a ( x − x 2
)
1
=
i
i
]
= ∑(
2
2
y − y + 2
2
1 ∑
−
− 1∑
−
− =
i
) a ( x x
i
)
a
( y y
i
)( x x
i
)
=
S
+ a 2 S
2
1
− a S
1
=
yy
xx
xy
S 2
= S
xy
−
=
yy
Sxx
= S − a S
1
=
yy
xy
= SSTO − SSR
gdzie
SSTO=Syy
- całkowita suma kwadratów ( total sum of squares) SSR=a1Sxy
- objaśniona suma kwadratów ( regression sum of squares)
Współczynnik korelacji w populacji generalnej: cov( X , Y
ρ
)
=
,
xy
σ σ
x
y
gdzie
cov(X,Y) – kowariancja zmiennych X i Y w populacji generalnej σ ,σ - odchylenia standardowe zmiennych X i Y w populacji generalnej x
y
Współczynnik korelacji z próby:
C( X , Y
r =
) =
xy
S S
x
y
Sxy
= S S
xx
yy
Współczynnik determinacji:
Udział SSR w SSTO i zarazem udział wariancji objaśnionej za pomocą prostej regresji w wariancji całkowitej zmiennej Y z próby można mierzyć jako kwadrat współczynnika korelacji rxy. Miara ta przyjmująca wartości z przedziału [0,1] nosi nazwę współczynnika determinacji.
−
2
2
SSR
SSTO SSE
SSE
R ≡ r =
=
=1−
=
xy
SSTO
SSTO
SSTO
S 2
a S
xy
1 xy
=
=
S S
S
xx yy
yy
Wnioskowanie statystyczne w modelu prostej regresji
Przy poczynionych założeniach odnośnie parametrów rozkładu składnika losowego modelu prostej regresji, estymatory MNK parametrów modelu są nieobciążone, zgodne i posiadają najmniejsze wariancje w klasie liniowych nieobciążonych estymatorów. Przyjęte założenia należy rozszerzyć w sytuacji rozpatrywania regresji w warunkach gdy dysponujemy już n-elementową losową próbą na zmiennych modelu:
1. E(ε )
, dla każdego i=1,...,n
i
= 0
2.
2
2
D (ε )
, dla każdego i=1,...,n
i
= σ
3. ε i ε są niezależnymi zmiennymi losowymi dla i ≠ j i
j
4. x są wielkościami nielosowymi
j
Dla celów wnioskowania statystycznego – konstrukcji przedziałów ufności dla parametrów modelu, weryfikacji hipotez – zakładamy dodatkowo, że wszystkie zakłócenia ε podlegają i
normalnemu rozkładowi prawdopodobieństwa.
1. Oceny a0 i a1 podlegają łącznemu, dwuwymiarowemu rozkładowi normalnemu o następujących parametrach:
2
1
2
2
x
E( a )
D ( a )
σ
0
=
+
o
= α0
n
Sxx
2
σ
E( a ) = α
D 2 ( a ) =
1
1
1
Sxx
2
−
cov( a , )
σ
0
1
=
x
a
Sxx
Powyższe wyniki mogą być wykorzystane w praktyce pod warunkiem znanej wariancji 2
σ .
Nieobciążonym estymatorem tego parametru w przypadku prostej regresji jest funkcja: SSE
2
S
(tzw. wariancja resztowa)
e = n − 2
SSE
Ponadto
ma rozkład 2
χ o n-2 stopniach swobody i jest on niezależny od rozkładów 2
σ
estymatorów a i i=0,1. Wynik ten można wykorzystać przy konstrukcji przedziału ufności dla 2
σ oraz weryfikacji hipotez o 2
σ .
Standardowe błędy szacunku parametrów prostej regresji za pomocą MNK można wyrazić wzorami:
1
x 2
S ( a )
0
= S
+
e
n
Sxx
Se
S ( a )
1
= Sxx
Ponadto zachodzi:
a − α
Funkcja i
i ma rozkład t-Studenta o n-2 stopniach swobody. Wynik ten może być S ( a )
i
wykorzystany do konstrukcji przedziałów ufności dla parametrów prostej regresji oraz weryfikacji hipotez.
Pierwiastek kwadratowy z wariancji resztowej Se nazywany jest średnim błędem szacunku.
Analiza wariancji (ANOVA):
Przy poczynionych założeniach SSE
ma rozkład 2
χ o n-2 stopniach swobody oraz
2
σ
SSR
ma rozkład 2
χ o 1 stopniu swobody wówczas, gdy parametr α =0. Co więcej te dwa 2
σ
1
rozkłady są niezależne. Zatem gdy α =0, to statystyka 1
SSR 1
F =
ma rozkład Fishera ze stopniami swobody 1 i n-2. Wynik ten może być SSE n −2
wykorzystany w teście dla hipotezy α =0.
1
Źródło
Suma kwadratów Liczba stopni
Średnie
Iloraz F
zmienności
odchyleń
swobody
odchylenie
kwadratowe
Regresja
SSR
1
SSR/1
SSR(n-2)/SSE
Reszty
SSE
n-2
SSE/(n-2)
Suma
SSTO= Syy
n-1
Analiza reszt
1. Sprawdzanie stałości wariancji składnika losowego – np. wykres reszt względem x lub yˆ ; reszty nie powinny wzrastać lub maleć ze wzrostem x lub yˆ .
2. Sprawdzanie czy nie pominięto ważnych zmiennych objaśniających – powinno się włączyć do modelu zmienną, względem której reszty wykazują tendencję do regularnych zmian
3. Wykrywanie związków krzywoliniowych między X i Y – wykresy 4. Wykrywanie niezgodności z założeniem rozkładu normalnego – normal probability plot
5. Występowanie obserwacji nietypowych – wykresy 6. Alternatywne postaci funkcyjne dla regresji, łatwo transformowalne do postaci liniowej względem zmiennych:
Y = α + β log x
Y = Aeβ x
Y = Axβ
β
Y = α + x
β
Y = α +
x