ANALIZA ZALEŻNOŚCI WIELU ZMIENNYCH.
REGRESJA LINIOWA WIELOKROTNA.
Model liniowy regresji wielokrotnej.
, (1)
,
są niezależnymi zmiennymi losowymi o takim samym rozkładzie z wartością średnią 0 i wariancją
.
są błędami losowymi.
Założenia:
Obserwujemy wartości zmiennych
(zmiennych objaśnianych).
, są znane ( zmienne objaśniające )
są nieznanymi parametrami modelu
(iv)
,
(losowe błędy ).
Cel eksperymentu - wnioskowanie na temat
parametrów modelu
Wygodny jest zapis macierzowy zależności (1):
Przy zapisie wektora w postaci kolumny oraz oznaczeniu transpozycji przez z' wektora z zależność (1) można zapisać w postaci
Y = X
, (2)
gdzie Y =
jest wektorem zmiennych objaśnianych,
jest wektorem nieznanych współczynników, a
wektorem błędów losowych. Ponadto X jest macierzą wymiaru
postaci, zawierającą zmienne objaśniające:
X =
.
Równanie (2) z przyjętymi założeniami nazywamy liniowym modelem regresji wielokrotnej.
Uwaga. Szczególnymi przypadkami modelu (2) są:
model regresji jednokrotnej (liniowej), gdy
Y =
.
Wyraz wolny
można traktować jako współczynnik odpowiadający dodatkowej zmiennej objaśniającej
prosta próba losowa:
=
+
,
gdzie
,
są niezależnymi „błędami”,
Własności wektora losowego Y =
.
,
skąd
=
=
x
,
gdzie
, x'
=
.
Niech
. Wówczas
X
.
Var(
= Var(
=
Var(
Cov(
= 0 dla
, gdyż
są niezależne.
Stąd, definiując macierz kowariancji wektora losowego Y :
=
otrzymujemy
=
I,
gdzie I jest macierzą jednostkową wymiaru
, tzn. mającą na przekątnej 1, a poza przekątną 0.
II. Metoda najmniejszych kwadratów.
Niech b =
będzie ustalonym wektorem, a y =
realizacją wektora zmiennych objaśnianych Y =
.
Niech Q (b) będzie kwadratem odległości wektora y od wektora Xb.
Wówczas
Q (b) =
=
= (y - Xb)'(y - Xb).
Definicja. Wartością estymatora wektora współczynników
wyznaczonym metodą najmniejszych kwadratów (MNK) nazywamy wektor b minimalizujący funkcję Q(
.
Funkcja Q(
osiąga minimum w punkcie b, w którym zerują się pochodne cząstkowe :
b) = 0,
(3)
Q(
jest funkcją kwadratową, stąd (3) jest układem równań liniowych, który w postaci macierzowej przyjmuje postać:
X'Xb = X'y. (4)
Załóżmy, że macierz X'X jest odwracalna ( kolumny są liniowo niezależne ). Wtedy rozwiązaniem równania (4) jest wektor
b = (X'X)
X'y. (5)
Zastępując w (5) y przez Y otrzymujemy estymator MNK wektora współczynników regresji wielokrotnej
postaci:
= (X'X)
X'Y. (6)
Własności estymatora MNK
Stwierdzenie. Niech U będzie r - wymiarowym wektorem losowym o wartości średniej
i macierzy kowariancji
oraz niech A będzie macierzą rozmiaru
. Wówczas dla s - wymiarowego wektora losowego V = AU mamy
= A
oraz
A
A'.
dla
Stąd, obliczając wartość średnią obu stron mamy
, czyli
= A
.
Analogicznie, otrzymujemy
oraz
.
Zatem
Cov(
=
=
=
.
Stąd
A
A'. c.k.d.
Twierdzenie. Estymator
jest nieobciążonym estymatorem
, tzn.
X
oraz
(X'X)
,
D. Wiemy, że
= (X'X)
X'Y,
X
.
Podstawiając w poprzednim twierdzeniu
A = (X'X)
X' otrzymujemy
.
Wykorzystując wzór na macierz kowariancji wektora, własność macierzy: (AB)' = B'A', oraz
=
I mamy
(X'X)
X'(
I) ((X'X)
X')' =
(X'X)
X'(
I) X((X'X)
)' =
(X'X)
,
gdyż macierz (X'X)
jest symetryczna. c.k.d.
W szczególności
Var
(X'X)
,
Np. w przypadku regresji jednokrotnej ( p=2) mamy:
Var
(X'X)
=
.
Wartość przewidywana dla i-tej obserwacji:
= x'
.
Wektor wartości przewidywanych:
= X
= X(X'X)
X'Y = HY,
gdzie H = X(X'X)
X'.
Uwaga. Macierz H jest symetryczna ( H = H' ) oraz
H
y = Hy dla każdego wektora y.
Wartości resztowe (rezydua).
e =
Y -
= (I - H)Y = wektor
rezyduów
Stwierdzenie.
(i) E(e)
,
(ii)
( I - H ).
D. (i)
= E(X
) = X E(
) = X
=
Y)
E(e) = E(Y -
) =
(Y) -
=
.
(I - H)
I(I - H)' =
(I - 2H + H
) =
=
(I - H),
gdyż H
= H.
Niech
SSE =
e'e.
Można pokazać, że
E(e'e) =
.
Stąd błąd średniokwadratowy (zdefiniowany podobnie jak dla regresji jednokrotnej)
e'e =
jest nieobciążonym estymatorem wariancji
.
Liczbę
nazywamy liczbą stopni swobody sumy kwadratów błędów = liczba niezależnych obserwacji n pomniejszona o liczbę więzów nakładanych na
, równą p.
Stąd, wobec
(X'X)
oraz
, otrzymujemy błędy standardowe estymatorów
współczynników
jako pierwiastki z
(
(X'X)
,
Określimy współczynnik determinacji wielokrotnej.
Ocena „dobroci” dopasowania modelu regresji wielokrotnej.
= całkowita suma kwadratów
( Total Sum of Sqaures )
( miara zmienności samych
.
= regresyjna ( modelowa ) suma
kwadratów ( Regression ( Model )
Sum of Squares
( miara zmienności
.
Można pokazać:
.
=
+
R
=
=
= współczynnik
determinacji wielokrotnej
= zmienność wyjaśniona przez model/ zmienność
całkowita
Im mniejsze
tym model bardziej adekwatny.
Współczynnik determinacji jest miarą stopnia dopasowania modelu do obserwacji ( ocenia jakość tego dopasowania ).
Testy dla wektora współczynników
.
(A)
,
co najmniej jeden ze współczynników
jest różny od 0.
Niech:
SSE =
,
SSR =
.
Jeśli
jest prawdziwa, to
(a)
,
oraz
zmienne losowe SSR i SSE są niezależne.
(b) Statystyka
=
ma rozkład F Snedecora z
i
stopniami swobody.
Zbiór krytyczny testu hipotezy
przeciw
na poziomie istotności
ma postać:
(B) Niech
- ustalone.
,
Wiemy, że
~
.
W szczególności, jeśli
jest prawdziwa, to
.
Stąd zbiór krytyczny ma postać:
.
Prognoza wartości
na podstawie x
Obserwowane
:
,
Nieobserwowane
,
gdzie
są niezależnymi zmiennymi losowymi o rozkładach
.
W notacji wektorowej
Y(x
) = x
'
+
gdzie x
= (
,
Zadanie:
(a) ocena ( estymacja ) wartości średniej
=
x
)] zmiennej objaśnianej w sytuacji, gdy wektorem zmiennych objaśniających jest x
(b) przewidywanie ( prognoza ) wartości Y(x
).
Estymacja
:
= E(x
'
+
) = E(x
'
) + E(
) = x
'
.
Niech
x
) = x
'
- estymator
.
(x
'
) = x
'E(
) = x
'
=
.
Zatem
x
) jest nieobciążonym estymatorem
.
= x
'
x
=
x
' (X'X)
x
Stąd błąd standardowy estymatora
x
)
,
co pozwala otrzymać granice przedziału ufności dla
na poziomie ufności
jako realizacje zmiennych
.
Prognoza Y(x
) = x
'
+
przy pomocy
x
).
Podobnie jak dla regresji jednokrotnej obliczamy
=
(1 + x
' (X'X)
x
)
Stąd błąd standardowy estymatora
,
co pozwala otrzymać granice przedziału ufności Y(x
) dla na poziomie ufności
jako realizacje zmiennych
Diagnostyka modelu regresji
Wykres rezyduów pozwala wykryć odstępstwa od modelu, podobnie jak w przypadku regresji jednokrotnej, takie jak: nieliniowość równania regresji, skorelowanie i niejednakowa wariancja błędów, rozkład błędów różny od normalnego.
Identyfikacja obserwacji odstających - realizacji zmiennych, które nie spełniają zależności (1):
.
Możliwe powody: błędny zapis danych lub zależność (1) prawdziwa tylko w pewnym zakresie zmiennych objaśniających.
Wiemy:
( I - H ).
Stąd błąd standardowy i - go rezyduum
, gdzie
= H
= i - ty element diagonalny macierzy H,
Studentyzowana wartość resztowa:
niweluje różną zmienność rozkładów rezyduów.
Wykres {(
pozwala zidentyfikować duże wartości, które prawdopodobnie odpowiadają niektórym obserwacjom odstającym, za wyjątkiem tych dla których wartość
jest mała.
Identyfikację obserwacji odstających poprawimy rozpatrując modyfikację rezyduów:
,
gdzie
jest wartością przewidywaną zmiennej objaśnianej dla x = x
w modelu regresji, w którym usunęliśmy obserwację
, tzn. skonstruowanym dla danych:
J
=
x
,Y
),
}.
= rezyduum modyfikowane
= studentyzowane rezyduum
modyfikowane
Można pokazać, że
~
.
Duża wartość
wskazuje, że obserwacja i - ta jest odstająca
(a) Testujemy n hipotez:
Obserwacja i - ta nie jest odstająca
przeciw
Obserwacja i - ta jest odstająca.
(b)
żadna obserwacja nie jest odstająca
przeciw
są obserwacje odstające
Przyjmujemy
, jeśli przyjmiemy co najmniej jedną hipotezę
. Wówczas poziom istotności takiego testu ustalamy z zależności (przy założeniu, że
jest prawdziwa):
P(
{
nie odrzucone}) = 1 -
{
odrzucone})
odrzucone }) = 1 -
,
stąd
odrzucone )
= ograniczenie na poziom istotności testu z (b), zatem
powinno być poziomem istotności indywidualnych testów w (a).
Rzeczywisty poziom takiego testu jest znaczne niższy niż
( ze względu na grube oszacowanie ), zatem test znajduje mniej obserwacji odstających niż test dokładnie na poziomie istotności
.
Identyfikacja obserwacji wpływowych.
Obserwacja wpływowa, to taka, której usunięcie ze zbioru danych powoduje duża zmianę wektora estymatorów MNK. Podejrzane są o to:
obserwacje odstające
obserwacje, dla których wektor zmiennych objaśniających różni się znacznie od wektora średnich
. Miarą odstępstwa x
od
jest i - ty wyraz diagonalny macierzy H :
, ponieważ wiadomo, że
oraz dla każdego i
,
zatem można przyjąć, że typowa wartość
nie przekracza znacznie wartości
. W praktyce przyjmujemy, że obserwacja (x
, dla której
może być potencjalnie obserwacją wpływową.
Wówczas usuwamy ją ze zbioru danych i sprawdzamy na ile zmienił się wektor estymatorów MNK.
(iii) Odległość Cooke'a definiujemy
,
gdzie
jest wartością przewidywaną dla j - tej obserwacji
na podstawie danych z usuniętą i - tą obserwacją.
Wartość
odpowiada wpływowi, jaki na prognozę znanych wartości zmiennej objaśnianej ma usunięcie ze zbioru danych i - tej obserwacji.
Duża wartość
wskazuje, że obserwacja i - ta jest wpływowa.
Współliniowość występuje, gdy niektóre zmienne są liniowo zależne, np.
oraz
.
Wówczas - nie ma jednoznacznego modelu, można zredukować liczbę zmiennych objaśniających.
Wykrywamy współliniowość lub zależność bliską współliniowości następująco:
(x
,x
jest bliski 1.
(ii) Wartość współczynnika determinacji
wielokrotnej
obliczonego dla hipotetycznego modelu,
w którym x
jest zmienną objaśnianą a pozostałe x
,
, są zmiennymi objaśniającymi, jest bliska 1. Równoważnie, wartość tzw. współczynnika podbicia
(ang. - variance inflation factor ):
jest duża.
Wybór zmiennych objaśniających w liniowym modelu regresji
Cel - selekcja zmiennych objaśniających aby otrzymać model najprostszy.
Metody selekcji sekwencyjnej:
Metoda eliminacji
Krok 1. Model uwzględnia wszystkie potencjalnie ważne zmienne objaśniające.
Krok 2. Zakładając prawdziwość modelu testujemy indywidualne hipotezy o istotności poszczególnych zmiennych:
przeciw
,
.
Jeśli
prawdziwa, to
.
Obliczamy p - wartość dla każdego i:
p
=
.
Odrzucamy tę zmienną, dla której p
jest maksymalne i większe od przyjętego poziomu z istotności
.
Krok 3. Zakładamy prawdziwość modelu z usuniętą zmienną i powracamy do kroku 2 celem potencjalnego usunięcia zmiennej następnej ( o ile istnieje zmienna, dla której p
>
).
Procedurę kończymy, gdy w pewnym kroku wszystkie p - wartości są mniejsze od poziomu istotności
, tzn wszystkie zmienne są istotne.
Metoda dołączania
Krok 1. Model zawiera tylko stałą.
Krok 2. Spośród możliwych zmiennych wybieramy tę, dla której p - wartość jest najmniejszą mniejszą od
.
Dodajemy tę zmienną do modelu.
Krok 3. Powtarzamy krok 2 wykorzystując pozostałe możliwe zmienne.
Procedurę kończymy, gdy nie istnieje już zmienna, dla której p - wartość jest mniejsza od
.
Wada metod sekwencyjnych - nie można pozbyć się zmiennej źle wybranej na pewnym etapie. Tej wady nie ma
Metoda selekcji ( regresji ) krokowej - w każdym kroku można odrzucić lub dodać zmienną.
Np.
Wybrano już zmienne
ze zbioru
.
Postępujemy jak w metodzie dołączania: załóżmy, że dla
p - wartość jest najmniejsza i mniejsza niż
, czyli dołączamy ją do uprzednio wybranych zmiennych.
Następnie metodą eliminacji sprawdzamy czy któraś ze zmiennych
nie jest zbyteczna.
Postępowanie to powtarzamy w każdym kroku. Dołączając nową zmienną sprawdzamy, czy któraś ze zmiennych uprzednio wybranych nie jest zbyteczna.
Przykład. Zbadano następujące cechy 24 samochodów:
Y - średnie zużycie paliwa na 100 km ( zmienna
objaśniana )
- pojemność silnika (cm
)
- moc silnika (KM)
- ładownosć (l)
- masa (kG)
- długość (cm)
- szerokość (cm ).
Wykresy rozproszenia wskazują na silną zależność zużycia paliwa od: masy, pojemności, mocy,
umiarkowanie silną zależność od szerokości i długości,
oraz brak zależności od ładowności.
Współczynniki determinacji dla regresji jednokrotnych wynoszą np.
= 0,77 dla pary: zużycie paliwa, pojemność,
= 0,76 dla pary: zużycie paliwa, moc,
= 0,60 dla pary: zużycie paliwa, szerokość.
Współczynnik determinacji wielokrotnej
(dla całego modelu ze wszystkimi sześcioma zmiennymi objaśniającymi ) = 0,87.
jest odrzucona przez test F
( p - wartość mniejsza od 0,001 ).
Indywidualne testy istotności współczynników :
przeciw
,
na poziomie istotności 0,05 pozwalają przyjąć hipotezę alternatywną tylko dla i = 4, 6, czyli możemy stwierdzić, że współczynniki odpowiadające masie i szerokości są istotnie różne od 0. Dla modelu z tymi zmiennymi objaśniającymi
= 0,83. Dołączenie indywidualne pozostałych zmiennych nie poprawia
.