sad13p(1), PJWSTK, 0sem, SAD


ANALIZA ZALEŻNOŚCI WIELU ZMIENNYCH.

REGRESJA LINIOWA WIELOKROTNA.

  1. Model liniowy regresji wielokrotnej.

0x01 graphic
, (1)

0x01 graphic
, 0x01 graphic
są niezależnymi zmiennymi losowymi o takim samym rozkładzie z wartością średnią 0 i wariancją 0x01 graphic
. 0x01 graphic
są błędami losowymi.

Założenia:

  1. Obserwujemy wartości zmiennych 0x01 graphic

(zmiennych objaśnianych).

  1. 0x01 graphic
    , są znane ( zmienne objaśniające )

  2. 0x01 graphic
    są nieznanymi parametrami modelu

(iv) 0x01 graphic
, 0x01 graphic
(losowe błędy ).

Cel eksperymentu - wnioskowanie na temat

parametrów modelu

Wygodny jest zapis macierzowy zależności (1):

Przy zapisie wektora w postaci kolumny oraz oznaczeniu transpozycji przez z' wektora z zależność (1) można zapisać w postaci

Y = X0x01 graphic
, (2)

gdzie Y = 0x01 graphic
jest wektorem zmiennych objaśnianych, 0x01 graphic
jest wektorem nieznanych współczynników, a 0x01 graphic
wektorem błędów losowych. Ponadto X jest macierzą wymiaru 0x01 graphic
postaci, zawierającą zmienne objaśniające:

X = 0x01 graphic
.

Równanie (2) z przyjętymi założeniami nazywamy liniowym modelem regresji wielokrotnej.

Uwaga. Szczególnymi przypadkami modelu (2) są:

  1. model regresji jednokrotnej (liniowej), gdy 0x01 graphic

Y = 0x01 graphic
.

Wyraz wolny0x01 graphic
można traktować jako współczynnik odpowiadający dodatkowej zmiennej objaśniającej

  1. prosta próba losowa: 0x01 graphic
    = 0x01 graphic
    0x01 graphic
    0x01 graphic
    + 0x01 graphic
    ,

gdzie 0x01 graphic
, 0x01 graphic
są niezależnymi „błędami”,

0x01 graphic

Własności wektora losowego Y = 0x01 graphic
.

0x01 graphic
0x01 graphic
,

skąd

0x01 graphic
= 0x01 graphic
= 0x01 graphic
x0x01 graphic
,

gdzie 0x01 graphic
, x'0x01 graphic
= 0x01 graphic
.

Niech 0x01 graphic
. Wówczas

0x01 graphic
X0x01 graphic
.

Var(0x01 graphic
= Var(0x01 graphic
=

Var(0x01 graphic

Cov(0x01 graphic
= 0 dla 0x01 graphic
, gdyż 0x01 graphic
są niezależne.

Stąd, definiując macierz kowariancji wektora losowego Y :

0x01 graphic
= 0x01 graphic

otrzymujemy

0x01 graphic
= 0x01 graphic
I,

gdzie I jest macierzą jednostkową wymiaru 0x01 graphic
, tzn. mającą na przekątnej 1, a poza przekątną 0.

II. Metoda najmniejszych kwadratów.

0x01 graphic

Niech b = 0x01 graphic
będzie ustalonym wektorem, a y = 0x01 graphic
realizacją wektora zmiennych objaśnianych Y = 0x01 graphic
.

Niech Q (b) będzie kwadratem odległości wektora y od wektora Xb.

Wówczas

Q (b) = 0x01 graphic
=

= (y - Xb)'(y - Xb).

Definicja. Wartością estymatora wektora współczynników 0x01 graphic
wyznaczonym metodą najmniejszych kwadratów (MNK) nazywamy wektor b minimalizujący funkcję Q(0x01 graphic
.

Funkcja Q(0x01 graphic
osiąga minimum w punkcie b, w którym zerują się pochodne cząstkowe :

0x01 graphic
b) = 0, 0x01 graphic
(3)

Q(0x01 graphic
jest funkcją kwadratową, stąd (3) jest układem równań liniowych, który w postaci macierzowej przyjmuje postać:

X'Xb = X'y. (4)

Załóżmy, że macierz X'X jest odwracalna ( kolumny są liniowo niezależne ). Wtedy rozwiązaniem równania (4) jest wektor

b = (X'X)0x01 graphic
X'y. (5)

Zastępując w (5) y przez Y otrzymujemy estymator MNK wektora współczynników regresji wielokrotnej 0x01 graphic
postaci:

0x01 graphic
= (X'X)0x01 graphic
X'Y. (6)

Własności estymatora MNK

Stwierdzenie. Niech U będzie r - wymiarowym wektorem losowym o wartości średniej 0x01 graphic
i macierzy kowariancji 0x01 graphic
oraz niech A będzie macierzą rozmiaru 0x01 graphic
. Wówczas dla s - wymiarowego wektora losowego V = AU mamy

0x01 graphic
= A0x01 graphic
oraz 0x01 graphic
A0x01 graphic
A'.

  1. 0x01 graphic
    dla 0x01 graphic
    Stąd, obliczając wartość średnią obu stron mamy

0x01 graphic
, czyli 0x01 graphic
= A0x01 graphic
.

Analogicznie, otrzymujemy

0x01 graphic
oraz

0x01 graphic
.

Zatem

Cov(0x01 graphic
= 0x01 graphic
=

= 0x01 graphic
0x01 graphic
.

Stąd 0x01 graphic
A0x01 graphic
A'. c.k.d.

Twierdzenie. Estymator 0x01 graphic
jest nieobciążonym estymatorem 0x01 graphic
, tzn. 0x01 graphic
X0x01 graphic
oraz

0x01 graphic
0x01 graphic
(X'X)0x01 graphic
,

D. Wiemy, że 0x01 graphic
= (X'X)0x01 graphic
X'Y, 0x01 graphic
X0x01 graphic
.

Podstawiając w poprzednim twierdzeniu

A = (X'X)0x01 graphic
X' otrzymujemy 0x01 graphic
0x01 graphic
.

Wykorzystując wzór na macierz kowariancji wektora, własność macierzy: (AB)' = B'A', oraz 0x01 graphic
= 0x01 graphic
I mamy

0x01 graphic
(X'X)0x01 graphic
X'(0x01 graphic
I) ((X'X)0x01 graphic
X')' =

(X'X)0x01 graphic
X'(0x01 graphic
I) X((X'X)0x01 graphic
)' = 0x01 graphic
(X'X)0x01 graphic
,

gdyż macierz (X'X)0x01 graphic
jest symetryczna. c.k.d.

W szczególności

Var0x01 graphic
(X'X)0x01 graphic
, 0x01 graphic

Np. w przypadku regresji jednokrotnej ( p=2) mamy:

Var0x01 graphic
(X'X)0x01 graphic
= 0x01 graphic
.

Wartość przewidywana dla i-tej obserwacji:

0x01 graphic
0x01 graphic
= x'0x01 graphic
0x01 graphic
.

Wektor wartości przewidywanych:

0x01 graphic
= X0x01 graphic
= X(X'X)0x01 graphic
X'Y = HY,

gdzie H = X(X'X)0x01 graphic
X'.

Uwaga. Macierz H jest symetryczna ( H = H' ) oraz

H0x01 graphic
y = Hy dla każdego wektora y.

Wartości resztowe (rezydua).

e = 0x01 graphic
Y - 0x01 graphic
= (I - H)Y = wektor

rezyduów

Stwierdzenie.

(i) E(e)0x01 graphic
,

(ii) 0x01 graphic
( I - H ).

D. (i) 0x01 graphic
= E(X0x01 graphic
) = X E(0x01 graphic
) = X0x01 graphic
= 0x01 graphic
Y)

E(e) = E(Y - 0x01 graphic
) = 0x01 graphic
(Y) - 0x01 graphic
= 0x01 graphic
.

  1. 0x01 graphic
    (I - H)0x01 graphic
    I(I - H)' = 0x01 graphic
    (I - 2H + H0x01 graphic
    ) =

= 0x01 graphic
(I - H),

gdyż H0x01 graphic
= H.

Niech

SSE = 0x01 graphic
e'e.

Można pokazać, że

E(e'e) = 0x01 graphic
.

Stąd błąd średniokwadratowy (zdefiniowany podobnie jak dla regresji jednokrotnej)

0x01 graphic
0x01 graphic
e'e = 0x01 graphic

jest nieobciążonym estymatorem wariancji 0x01 graphic
.

Liczbę 0x01 graphic
nazywamy liczbą stopni swobody sumy kwadratów błędów = liczba niezależnych obserwacji n pomniejszona o liczbę więzów nakładanych na 0x01 graphic
, równą p.

Stąd, wobec 0x01 graphic
0x01 graphic
(X'X)0x01 graphic
oraz 0x01 graphic
, otrzymujemy błędy standardowe estymatorów 0x01 graphic
współczynników 0x01 graphic
jako pierwiastki z

(0x01 graphic
(X'X)0x01 graphic
, 0x01 graphic

Określimy współczynnik determinacji wielokrotnej.

Ocena „dobroci” dopasowania modelu regresji wielokrotnej.

0x01 graphic
= całkowita suma kwadratów

( Total Sum of Sqaures )

( miara zmienności samych 0x01 graphic
.

0x01 graphic
= regresyjna ( modelowa ) suma

kwadratów ( Regression ( Model )

Sum of Squares

( miara zmienności 0x01 graphic
.

Można pokazać:

0x01 graphic
.

0x01 graphic
= 0x01 graphic
+ 0x01 graphic

R0x01 graphic
= 0x01 graphic
= 0x01 graphic
= współczynnik

determinacji wielokrotnej

= zmienność wyjaśniona przez model/ zmienność

całkowita

Im mniejsze 0x01 graphic
tym model bardziej adekwatny.

Współczynnik determinacji jest miarą stopnia dopasowania modelu do obserwacji ( ocenia jakość tego dopasowania ).

Testy dla wektora współczynników 0x01 graphic
.

(A)

0x01 graphic
,

0x01 graphic
co najmniej jeden ze współczynników 0x01 graphic
jest różny od 0.

Niech:

SSE = 0x01 graphic
,

SSR = 0x01 graphic
.

Jeśli 0x01 graphic
jest prawdziwa, to

(a) 0x01 graphic
, 0x01 graphic
oraz

zmienne losowe SSR i SSE są niezależne.

(b) Statystyka

0x01 graphic
= 0x01 graphic

ma rozkład F Snedecora z 0x01 graphic
i 0x01 graphic
stopniami swobody.

Zbiór krytyczny testu hipotezy 0x01 graphic
przeciw 0x01 graphic
na poziomie istotności 0x01 graphic
ma postać:

0x01 graphic

(B) Niech 0x01 graphic
0x01 graphic
- ustalone.

0x01 graphic
, 0x01 graphic

Wiemy, że

0x01 graphic
~0x01 graphic
.

W szczególności, jeśli 0x01 graphic
jest prawdziwa, to

0x01 graphic
.

Stąd zbiór krytyczny ma postać:

0x01 graphic
.

Prognoza wartości 0x01 graphic
na podstawie x0x01 graphic

Obserwowane 0x01 graphic
:

0x01 graphic
,

Nieobserwowane

0x01 graphic
,

gdzie 0x01 graphic
są niezależnymi zmiennymi losowymi o rozkładach 0x01 graphic
.

W notacji wektorowej

Y(x0x01 graphic
) = x0x01 graphic
'0x01 graphic
+ 0x01 graphic

gdzie x0x01 graphic
= (0x01 graphic
,

Zadanie:

(a) ocena ( estymacja ) wartości średniej 0x01 graphic

0x01 graphic
= 0x01 graphic
x0x01 graphic
)] zmiennej objaśnianej w sytuacji, gdy wektorem zmiennych objaśniających jest x0x01 graphic

(b) przewidywanie ( prognoza ) wartości Y(x0x01 graphic
).

  1. Estymacja 0x01 graphic
    :

0x01 graphic
= E(x0x01 graphic
'0x01 graphic
+ 0x01 graphic
) = E(x0x01 graphic
'0x01 graphic
) + E(0x01 graphic
) = x0x01 graphic
'0x01 graphic
.

Niech 0x01 graphic
x0x01 graphic
) = x0x01 graphic
'0x01 graphic
- estymator 0x01 graphic
.

0x01 graphic
(x0x01 graphic
'0x01 graphic
) = x0x01 graphic
'E(0x01 graphic
) = x0x01 graphic
'0x01 graphic
= 0x01 graphic
.

Zatem 0x01 graphic
x0x01 graphic
) jest nieobciążonym estymatorem 0x01 graphic
.

0x01 graphic
= x0x01 graphic
'0x01 graphic
x0x01 graphic
= 0x01 graphic
x0x01 graphic
' (X'X)0x01 graphic
x0x01 graphic

Stąd błąd standardowy estymatora 0x01 graphic
x0x01 graphic
)

0x01 graphic
,

co pozwala otrzymać granice przedziału ufności dla 0x01 graphic
na poziomie ufności 0x01 graphic
jako realizacje zmiennych

0x01 graphic
.

  1. Prognoza Y(x0x01 graphic
    ) = x0x01 graphic
    '0x01 graphic
    + 0x01 graphic
    przy pomocy 0x01 graphic
    x0x01 graphic
    ).

Podobnie jak dla regresji jednokrotnej obliczamy

0x01 graphic
= 0x01 graphic
(1 + x0x01 graphic
' (X'X)0x01 graphic
x0x01 graphic
)

Stąd błąd standardowy estymatora

0x01 graphic
,

co pozwala otrzymać granice przedziału ufności Y(x0x01 graphic
) dla na poziomie ufności 0x01 graphic
jako realizacje zmiennych

0x01 graphic

Diagnostyka modelu regresji

  1. Wykres rezyduów pozwala wykryć odstępstwa od modelu, podobnie jak w przypadku regresji jednokrotnej, takie jak: nieliniowość równania regresji, skorelowanie i niejednakowa wariancja błędów, rozkład błędów różny od normalnego.

  1. Identyfikacja obserwacji odstających - realizacji zmiennych, które nie spełniają zależności (1):

0x01 graphic
.

Możliwe powody: błędny zapis danych lub zależność (1) prawdziwa tylko w pewnym zakresie zmiennych objaśniających.

Wiemy: 0x01 graphic
( I - H ).

Stąd błąd standardowy i - go rezyduum

0x01 graphic
, gdzie 0x01 graphic
= H0x01 graphic
= i - ty element diagonalny macierzy H,

Studentyzowana wartość resztowa:

0x01 graphic

niweluje różną zmienność rozkładów rezyduów.

Wykres {(0x01 graphic
pozwala zidentyfikować duże wartości, które prawdopodobnie odpowiadają niektórym obserwacjom odstającym, za wyjątkiem tych dla których wartość 0x01 graphic
0x01 graphic
jest mała.

Identyfikację obserwacji odstających poprawimy rozpatrując modyfikację rezyduów:

0x01 graphic
,

gdzie 0x01 graphic
jest wartością przewidywaną zmiennej objaśnianej dla x = x0x01 graphic
w modelu regresji, w którym usunęliśmy obserwację 0x01 graphic
, tzn. skonstruowanym dla danych:

J0x01 graphic
= 0x01 graphic
x0x01 graphic
,Y0x01 graphic
), 0x01 graphic
}.

0x01 graphic
= rezyduum modyfikowane

0x01 graphic
= studentyzowane rezyduum

modyfikowane

Można pokazać, że

0x01 graphic
~ 0x01 graphic
.

Duża wartość 0x01 graphic
wskazuje, że obserwacja i - ta jest odstająca

(a) Testujemy n hipotez:

0x01 graphic
Obserwacja i - ta nie jest odstająca

przeciw

0x01 graphic
Obserwacja i - ta jest odstająca.

(b) 0x01 graphic
żadna obserwacja nie jest odstająca

przeciw

0x01 graphic
0x01 graphic
są obserwacje odstające

Przyjmujemy 0x01 graphic
, jeśli przyjmiemy co najmniej jedną hipotezę 0x01 graphic
. Wówczas poziom istotności takiego testu ustalamy z zależności (przy założeniu, że 0x01 graphic
jest prawdziwa):

P(0x01 graphic
{0x01 graphic
nie odrzucone}) = 1 - 0x01 graphic
{0x01 graphic
odrzucone}) 0x01 graphic
odrzucone }) = 1 - 0x01 graphic
,

stąd 0x01 graphic
odrzucone ) 0x01 graphic
= ograniczenie na poziom istotności testu z (b), zatem 0x01 graphic
powinno być poziomem istotności indywidualnych testów w (a).

Rzeczywisty poziom takiego testu jest znaczne niższy niż 0x01 graphic
( ze względu na grube oszacowanie ), zatem test znajduje mniej obserwacji odstających niż test dokładnie na poziomie istotności 0x01 graphic
.

Identyfikacja obserwacji wpływowych.

Obserwacja wpływowa, to taka, której usunięcie ze zbioru danych powoduje duża zmianę wektora estymatorów MNK. Podejrzane są o to:

  1. obserwacje odstające

  1. obserwacje, dla których wektor zmiennych objaśniających różni się znacznie od wektora średnich 0x01 graphic
    . Miarą odstępstwa x0x01 graphic
    od 0x01 graphic
    jest i - ty wyraz diagonalny macierzy H : 0x01 graphic
    , ponieważ wiadomo, że

0x01 graphic
oraz dla każdego i 0x01 graphic
,

zatem można przyjąć, że typowa wartość 0x01 graphic
nie przekracza znacznie wartości 0x01 graphic
. W praktyce przyjmujemy, że obserwacja (x0x01 graphic
, dla której

0x01 graphic
może być potencjalnie obserwacją wpływową.

Wówczas usuwamy ją ze zbioru danych i sprawdzamy na ile zmienił się wektor estymatorów MNK.

(iii) Odległość Cooke'a definiujemy

0x01 graphic
,

gdzie 0x01 graphic
jest wartością przewidywaną dla j - tej obserwacji 0x01 graphic
na podstawie danych z usuniętą i - tą obserwacją.

Wartość 0x01 graphic
0x01 graphic
odpowiada wpływowi, jaki na prognozę znanych wartości zmiennej objaśnianej ma usunięcie ze zbioru danych i - tej obserwacji.

Duża wartość 0x01 graphic
wskazuje, że obserwacja i - ta jest wpływowa.

Współliniowość występuje, gdy niektóre zmienne są liniowo zależne, np.

0x01 graphic
oraz 0x01 graphic
.

Wówczas - nie ma jednoznacznego modelu, można zredukować liczbę zmiennych objaśniających.

Wykrywamy współliniowość lub zależność bliską współliniowości następująco:

  1. 0x01 graphic
    (x0x01 graphic
    ,x0x01 graphic
    jest bliski 1.

(ii) Wartość współczynnika determinacji

wielokrotnej 0x01 graphic
obliczonego dla hipotetycznego modelu,

w którym x0x01 graphic
jest zmienną objaśnianą a pozostałe x0x01 graphic
, 0x01 graphic
, są zmiennymi objaśniającymi, jest bliska 1. Równoważnie, wartość tzw. współczynnika podbicia

(ang. - variance inflation factor ):

0x01 graphic
jest duża.

Wybór zmiennych objaśniających w liniowym modelu regresji

Cel - selekcja zmiennych objaśniających aby otrzymać model najprostszy.

Metody selekcji sekwencyjnej:

  1. Metoda eliminacji

Krok 1. Model uwzględnia wszystkie potencjalnie ważne zmienne objaśniające.

Krok 2. Zakładając prawdziwość modelu testujemy indywidualne hipotezy o istotności poszczególnych zmiennych:

0x01 graphic
przeciw 0x01 graphic
, 0x01 graphic
.

Jeśli 0x01 graphic
prawdziwa, to 0x01 graphic
.

Obliczamy p - wartość dla każdego i:

p0x01 graphic
= 0x01 graphic
.

Odrzucamy tę zmienną, dla której p0x01 graphic
jest maksymalne i większe od przyjętego poziomu z istotności 0x01 graphic
.

Krok 3. Zakładamy prawdziwość modelu z usuniętą zmienną i powracamy do kroku 2 celem potencjalnego usunięcia zmiennej następnej ( o ile istnieje zmienna, dla której p0x01 graphic
> 0x01 graphic
).

Procedurę kończymy, gdy w pewnym kroku wszystkie p - wartości są mniejsze od poziomu istotności 0x01 graphic
, tzn wszystkie zmienne są istotne.

  1. Metoda dołączania

Krok 1. Model zawiera tylko stałą.

Krok 2. Spośród możliwych zmiennych wybieramy tę, dla której p - wartość jest najmniejszą mniejszą od 0x01 graphic
.

Dodajemy tę zmienną do modelu.

Krok 3. Powtarzamy krok 2 wykorzystując pozostałe możliwe zmienne.

Procedurę kończymy, gdy nie istnieje już zmienna, dla której p - wartość jest mniejsza od 0x01 graphic
.

Wada metod sekwencyjnych - nie można pozbyć się zmiennej źle wybranej na pewnym etapie. Tej wady nie ma

  1. Metoda selekcji ( regresji ) krokowej - w każdym kroku można odrzucić lub dodać zmienną.

Np.

Wybrano już zmienne 0x01 graphic
ze zbioru 0x01 graphic
.

Postępujemy jak w metodzie dołączania: załóżmy, że dla 0x01 graphic
p - wartość jest najmniejsza i mniejsza niż 0x01 graphic
, czyli dołączamy ją do uprzednio wybranych zmiennych.

Następnie metodą eliminacji sprawdzamy czy któraś ze zmiennych 0x01 graphic
nie jest zbyteczna.

Postępowanie to powtarzamy w każdym kroku. Dołączając nową zmienną sprawdzamy, czy któraś ze zmiennych uprzednio wybranych nie jest zbyteczna.

Przykład. Zbadano następujące cechy 24 samochodów:

Y - średnie zużycie paliwa na 100 km ( zmienna

objaśniana )

0x01 graphic
- pojemność silnika (cm0x01 graphic
)

0x01 graphic
- moc silnika (KM)

0x01 graphic
- ładownosć (l)

0x01 graphic
- masa (kG)

0x01 graphic
- długość (cm)

0x01 graphic
- szerokość (cm ).

Wykresy rozproszenia wskazują na silną zależność zużycia paliwa od: masy, pojemności, mocy,

umiarkowanie silną zależność od szerokości i długości,

oraz brak zależności od ładowności.

Współczynniki determinacji dla regresji jednokrotnych wynoszą np.

0x01 graphic
= 0,77 dla pary: zużycie paliwa, pojemność,

0x01 graphic
= 0,76 dla pary: zużycie paliwa, moc,

0x01 graphic
= 0,60 dla pary: zużycie paliwa, szerokość.

Współczynnik determinacji wielokrotnej 0x01 graphic

(dla całego modelu ze wszystkimi sześcioma zmiennymi objaśniającymi ) = 0,87.

0x01 graphic
jest odrzucona przez test F

( p - wartość mniejsza od 0,001 ).

Indywidualne testy istotności współczynników :

0x01 graphic
przeciw 0x01 graphic
, 0x01 graphic

na poziomie istotności 0,05 pozwalają przyjąć hipotezę alternatywną tylko dla i = 4, 6, czyli możemy stwierdzić, że współczynniki odpowiadające masie i szerokości są istotnie różne od 0. Dla modelu z tymi zmiennymi objaśniającymi 0x01 graphic
= 0,83. Dołączenie indywidualne pozostałych zmiennych nie poprawia 0x01 graphic
. 0x01 graphic



Wyszukiwarka

Podobne podstrony:
kol3(maj), PJWSTK, 0sem, SAD
SAD e 03.01.2006 v1, PJWSTK, 0sem, SAD
SAD k3 zadania pomocnicze, PJWSTK, 0sem, SAD, SAD inne, kolokwia
sadreg2-egzamin, PJWSTK, 0sem, SAD
sad11hipotezy, PJWSTK, 0sem, SAD
sad7(3), PJWSTK, 0sem, SAD
zasady, PJWSTK, 0sem, SAD
SAD e 09.02.2007, PJWSTK, 0sem, SAD
sad11pp(02), PJWSTK, 0sem, SAD
sad8(2), PJWSTK, 0sem, SAD
SADegzamin2003, PJWSTK, 0sem, SAD
SAD e xx.09.2003 v2, PJWSTK, 0sem, SAD
SAD e 30.01.2009 v2, PJWSTK, 0sem, SAD, egzaminy
SAD e 03.01.2006 v2, PJWSTK, 0sem, SAD
sad9p(02), PJWSTK, 0sem, SAD
SAD e 30.01.2009 v1, PJWSTK, 0sem, SAD, egzaminy

więcej podobnych podstron