STATYSTYKA
DLA EKONOMISTÓW
Wykład 5:
Regresja liniowa i korelacje
5. Regresja liniowa i korelacje
Linia regresji
Punkty- wyniki obserwacji
Rysunek 5.1.
Prosta regresja
liniowa
x
y
Wyniki obserwacji
Wyniki obserwacji
Model statystyczny
Model statystyczny
Składnik losowy
(błąd losowy)
Składnik
systematyczny
Model wydobywa z wyników
obserwacji wszystko to, co
systematyczne, dopuszczając
występowanie czysto losowych
przedmiotów
Rysunek 5.2.
Model statystyczny
Ustal założenia i
postać modelu
Ustal założenia i
postać modelu
Oszacuj parametry modelu
na podstawie wyników
obserwacji
Oszacuj parametry modelu
na podstawie wyników
obserwacji
Zbadaj reszty i
sprawdź
poprawność modelu
Zbadaj reszty i
sprawdź
poprawność modelu
Wykorzystaj model
do celu, dla którego
został zbudowany
Wykorzystaj model
do celu, dla którego
został zbudowany
Jeżeli model
nie jest
poprawny
Rysunek 5.3.
Kolejne kroki
budowania modelu statystycznego
gdzie Y jest zmienną zależną, tj. zmienną, której kształtowanie się
chcemy wyjaśnić lub przewidzieć, X jest zmienną niezależną, nazywaną
też zmienną -predykatorem, a jest błędem losowym, jedynym w
modelu źródłem losowości Y*.
5. Regresja liniowa i korelacje
X
Y
1
0
Prosty model regresji liniowej dla populacji
Warunkowa średnia wartość Y:
1
0
)
|
(
X
Y
E
5. Regresja liniowa i korelacje
Rysunek 5.4.
Linia regresji w
populacji
x
y
Punkt przecięcia
Punkty -
wartości
X i Y w
populacji
Błąd
związany z
punktem A
0
1
Współczynni
k
kierunkowy
linia regresji
X
Y
E
1
0
)
(
A
1
5. Regresja liniowa i korelacje
Założenia:
1. Związek między X i Y jest związkiem liniowym
2. Wartości zmiennej ustalone (nie są losowe). Losowość wartości Y pochodzi
wyłącznie ze składnika (błędu) losowego.
3. Składniki (błędy) losowe związane z kolejnymi obserwacjami nie są ze
sobą skorelowane (są od siebie niezależne). W przyjętej w tej książce
symbolice:
)
,
0
(
2
N
Rysunek 5.5.
Różne możliwe związki między
X i Y
Oszacowanym równaniem regresji jest;
gdzie b
0
jest ocena (oszacowaniem) ,b
1
jest oceną
(oszacowaniem)) ,a e reprezentuje zaobserwowane błędy, czyli reszty z
dopasowania linii prostej b
0
+b
1
X do zbioru n wyników obserwacji obu
zmiennych (punktów)
e
X
b
b
Y
1
0
5. Regresja liniowa i korelacje
Równaniem linii regresji jest:
gdzie Y reprezentuje wartość Y leżącą na dopasowanej linii regresji przy
danym X.
X
b
b
Y
1
0
Rysunek 5.6.
Zbiór wyników obserwacji X i Y oraz różne
linie proste jako hipotetyczne linie regresji
5. Regresja liniowa i korelacje
Rysunek 5.7.
Obliczanie SSE na podstawie znajomości tego
reszt
5. Regresja liniowa i korelacje
Sumą kwadratów reszt regresji definiujemy następująco:
2
1
2
)
(
i
i
n
i
i
y
y
e
SSE
Równania normalne;
n
i
i
n
i
i
x
b
b
n
y
1
1
0
1
n
i
n
i
i
i
i
n
i
i
i
x
b
x
b
y
x
1
1
2
0
1
5. Regresja liniowa i korelacje
5. Regresja liniowa i korelacje
Definicje sum kwadratów i iloczynu skalarnego odchyleń, pożyteczne w
analizie regresji:
Wyrażenia za pierwszym znakiem równości wyjaśniają sens definiowanej
wielkości jako sumy kwadratów odchyleń od średniej (lub iloczynów
odchyleń). Wyrażenia za drugim znakiem równości są wygodniejsze odo
celów obliczeniowych. Sumowanie rozciąga się na wszystkie wyniki
obserwacji
n
x
x
x
x
SS
x
2
2
2
)
(
n
y
y
y
y
SS
y
2
2
2
)
(
n
y
x
xy
y
y
x
x
SS
xy
)
(
Estymatory MNK:
nachylenie (współczynnik kierunkowy) linii regresji
punkt przecięcia linii regresji z osią rzędnych (wyraz wolny)
x
XY
SS
SS
b
1
x
b
y
b
1
0
5. Regresja liniowa i korelacje
Korelacja między dwiema kierunkowymi zmiennymi X i Y jest miarą siły
(stopnia) liniowego związku między tymi zmiennymi
Rysunek 5.8.
Różne możliwe stopnie korelacji między dwiema
zmiennymi
5. Regresja liniowa i korelacje
Kowariancja dwóch zmiennych X i Y:
gdzie i są średnimi zmiennych X i Y w populacji.
)]
)(
[(
)
,
cov(
Y
x
Y
X
E
Y
X
X
Y
Współczynnik korelacji w populacji
Y
X
Y
X
)
,
cov(
Współczynnik korelacji z próby
Y
X
XY
SS
SS
SS
r
5. Regresja liniowa i korelacje
Współczynnik determinacji r
2
jest opisową miarą siły liniowego związku
między zmiennymi, czyli miarą dopasowania linii regresji do danych
Rysunek 5.9.
Trzy odchylenia związane z
danym punktem na wykresie rozproszenia
5. Regresja liniowa i korelacje
)
(
y
y
)
(
y
y
)
(
y
y
odchylenie
całkowite
odchylenie
nie wyjaśnione
(błąd)
odchylenie
wyjaśnione
(regresyjne)
n
i
i
y
y
1
2
)
(
n
i
i
y
y
1
2
)
(
n
i
i
y
y
1
2
)
(
SST
Całkowita
suma
kwadratów
SSE
Suma
kwadratów
błędów
SSR
Suma
kwadratów
odchyleń
regresyjnych
SST
SSE
SST
SSR
r
1
2
5. Regresja liniowa i korelacje
Rysunek 5.10.
Wartości współczynnika determinacji dla różnych
linii regresji dopasowanych do danych punktów (wyników
obserwacji)
SSR
SST
SSE
r
2
=0,90
SSR
SST
SSE
r
2
=0,70
SSR
SST
SSE
r
2
=0
SSR
SST
r
2
=1,00
SSR
SST
SSE
r
2
=0,50
5. Regresja liniowa i korelacje
Rysunek 5.11.
Rozrzut reszt
wykazujących
heteroskedastyczność
Rysunek 5.12.
Rozrzut reszt nie
wykazujących
heteroskedastyczności
5. Regresja liniowa i korelacje
Rysunek 5.13.
Rozrzut reszt
wykazujących występowanie
trendu czasowego
Rysunek 5.14.
Następstwa
dopasowywania na siłę linii prostej do
danych wykazujących zakrzywienie
5. Regresja liniowa i korelacje
Rysunek 5.15.
Układ reszt w przypadku
dopasowania na siłę linii prostej do danych
wykazujących zakrzywienie
5. Regresja liniowa i korelacje
Test hipotezy o zachodzeniu liniowego związku między X i Y:
0
:
1
0
H
0
:
1
0
H
Rysunek 5.16.
Dwie sytuacje,
gdy nachylenie linii regresji w
populacji jest zerowe
5. Regresja liniowa i korelacje
Rysunek 5.17.
Niebezpieczeństwo ekstrapolacji
Rysunek 5.18.
Pasmo
predykcji