sad12regresja, PJWSTK, 0sem, SAD


ANALIZA ZALEŻNOŚCI DWÓCH ZMIENNYCH.

REGRESJA LINIOWA.

I. Współczynnik korelacji próbkowej

Niech 0x01 graphic
będzie próbką cechy dwuwymiarowej 0x01 graphic
.

Będziemy badali zależność Y od X.

X = zmienna niezależna ( zmienna objaśniająca ),

Y = zmienna zależna ( zmienna objaśniana ),

Wykres rozproszenia - graficzne przedstawienie próbki w postaci punktów na płaszczyźnie Oxy.

Przykład. Wyniki kolokwium i egzaminu końcowego

Definicja. Niech 0x01 graphic
będzie próbą losową. Współczynnikiem korelacji z próby losowej nazywamy zmienną losową

0x01 graphic
,

gdzie 0x01 graphic
i 0x01 graphic
oznaczają średnią i odchylenie standardowe dla 0x01 graphic
, a 0x01 graphic
i 0x01 graphic
oznaczają średnią i odchylenie standardowe dla 0x01 graphic
.

( np. 0x01 graphic
, 0x01 graphic
, 0x01 graphic
)

Współczynnikiem korelacji próbkowej nazywamy wartość R obliczoną dla próbki 0x01 graphic
:

0x01 graphic

Własności współczynnika korelacji próbkowej :

  1. 0x01 graphic
    .

2. Jeśli 0x01 graphic
, to wszystkie punkty wykresu rozproszenia leżą na prostej o dodatnim współczynniku kierunkowym, tzn. istnieje dodatnia zależność liniowa między zmiennymi x i y próbki.

3. Jeśli 0x01 graphic
, to wszystkie punkty wykresu rozproszenia leżą na prostej o ujemnym współczynniku kierunkowym, tzn. istnieje ujemna zależność liniowa między zmiennymi x i y próbki.

4. Wartości r bliskie -1 lub 1 wskazują, że wykres rozproszenia jest skupiony wokół prostej.

  1. Prosta regresji. Metoda najmniejszych

kwadratów.

Problem: w jaki sposób dopasować „najlepiej” do wykresu rozproszenia, tzn. do 0x01 graphic
, linię prostą ?

Niech 0x01 graphic
, 0x01 graphic
, będzie równaniem prostej „dopasowanej” do punktów 0x01 graphic
, 0x01 graphic

wykresu rozproszenia.

( 0x01 graphic
= współczynnik kierunkowy, 0x01 graphic
= wyraz wolny )

Wówczas 0x01 graphic
= przybliżenie wartości 0x01 graphic
na podstawie zmiennej niezależnej 0x01 graphic
uzyskane z zależności liniowej.

Błąd oszacowania 0x01 graphic
nazywamy wartością resztową lub rezyduum.

Miarą dopasowania prostej do próbki (punktów wykresu rozproszenia ) jest

suma kwadratów błędów ( rezyduów ):

0x01 graphic
= 0x01 graphic
.

Prostą dla której 0x01 graphic
osiąga wartość minimalną nazywamy prostą regresji lub też prostą wyznaczoną metodą najmniejszych kwadratów.

Współczynniki prostej regresji 0x01 graphic
wyznaczamy

z warunku koniecznego minimum funkcji 0x01 graphic
, tzn. przyrównując do zera obie pochodne cząstkowe.

Rozwiązując ten układ 2 równań liniowych otrzymujemy:

0x01 graphic
0x01 graphic
=

= 0x01 graphic
, (1)

0x01 graphic
= 0x01 graphic
, (2)

gdzie 0x01 graphic
, 0x01 graphic
.

Wartość 0x01 graphic
nazywamy wartością przewidywaną zmiennej objaśnianej (zależnej) przy pomocy prostej regresji na podstawie zmiennej objaśniającej ( niezależnej ) x.

Określimy współczynnik determinacji.

Ocena „dobroci” dopasowania prostej regresji ?

0x01 graphic
= całkowita suma kwadratów

( Total Sum of Squares )

( miara zmienności samych 0x01 graphic
.

0x01 graphic
= suma kwadratów błędów

( Error Sum of Squares ),

0x01 graphic
= regresyjna ( modelowa ) suma

kwadratów ( Regression ( Model )

Sum of Squares

( miara zmienności 0x01 graphic
.

Można pokazać:

0x01 graphic
.

0x01 graphic
= 0x01 graphic
+ 0x01 graphic

0x01 graphic
= współczynnik determinacji.

Im mniejsze SSE tym wykres rozproszenia skupiony bardziej wokół prostej regresji.

Współczynnik determinacji jest miarą stopnia dopasowania prostej regresji do wykresu rozproszenia

( ocenia jakość tego dopasowania ), określa stopień, w jakim zależność liniowa między zmienną objaśnianą a objaśniającą wyjaśnia zmienność wykresu rozproszenia.

Wartość współczynnika determinacji jest ściśle związana

z wartością współczynnika korelacji próbkowej.

Stwierdzenie.

0x01 graphic
0x01 graphic
0x01 graphic
= zmienność wyjaśniona

przez model/ zmienność całkowita

Przykład. - wydruk z pakietu SAS.

( prosta regresji, 0x01 graphic
)

  1. Model zależności liniowej (model regresji

liniowej)

Załóżmy, że próbka 0x01 graphic
jest realizacją

próby losowej 0x01 graphic
, gdzie

0x01 graphic
, 0x01 graphic
,

oraz 0x01 graphic
są niezależnymi zmiennymi losowymi

o wartości średniej 0 i wariancji 0x01 graphic
, a znane liczby 0x01 graphic
nie wszystkie są jednakowe.

Prostą 0x01 graphic
nazywamy prostą regresji

współczynnik0x01 graphic
= wyraz wolny prostej regresji

współczynnik0x01 graphic
= współczynnik kierunkowy prostej

regresji

zmienne losowe 0x01 graphic
= losowe błędy w modelu

wariancja 0x01 graphic
= wariancja błędów w modelu

Własności zmiennej losowej 0x01 graphic
, 0x01 graphic
,

0x01 graphic
0x01 graphic
= 0x01 graphic
.

Var(0x01 graphic
= Var0x01 graphic
= Var(0x01 graphic

Założenia:

  1. Obserwujemy wartości zmiennych 0x01 graphic
    .

  2. 0x01 graphic
    są znane

  3. 0x01 graphic
    są nieznanymi parametrami modelu

Cel eksperymentu - wnioskowanie na temat

parametrów modelu

Naturalne estymatory 0x01 graphic
otrzymujemy metodą najmniejszych kwadratów, wstawiając we wzorach (1), (2) zmienne losowe 0x01 graphic
zamiast ich wartości 0x01 graphic
, 0x01 graphic
,

0x01 graphic
= 0x01 graphic
,

0x01 graphic
= 0x01 graphic
.

Własności estymatorów 0x01 graphic
, 0x01 graphic
:

Twierdzenie.

(i) 0x01 graphic
, 0x01 graphic
,

  1. Var(0x01 graphic
    = 0x01 graphic
    , (3)

Var0x01 graphic
, (4)

  1. Jeśli 0x01 graphic
    , i = 1,..,n, to

0x01 graphic
, 0x01 graphic
mają rozkłady normalne o wartościach średnich i wariancjach określonych w (i) i (ii).

Estymator 0x01 graphic
:

Definicja. Błędem średniokwadratowym 0x01 graphic
nazywamy estymator wariancji 0x01 graphic
określony następująco

0x01 graphic
= 0x01 graphic
.

Liczbę 0x01 graphic
nazywamy liczbą stopni swobody rezyduów.

Stwierdzenie. 0x01 graphic
jest nieobciążonym estymatorem 0x01 graphic
, tzn.

0x01 graphic
.

0x01 graphic
= estymator 0x01 graphic
.

Wniosek. (i) Nieobciążonym estymatorem Var(0x01 graphic
jest 0x01 graphic

0x01 graphic
= 0x01 graphic
nazywamy błędem standardowym estymatora 0x01 graphic
, gdyż na mocy (3) 0x01 graphic
= estymator 0x01 graphic
= 0x01 graphic

(ii) Nieobciążonym estymatorem Var(0x01 graphic
jest

0x01 graphic

0x01 graphic
= 0x01 graphic
nazywamy błędem standardowym estymatora 0x01 graphic
, gdyż na mocy (4) 0x01 graphic
= estymator 0x01 graphic
= 0x01 graphic
.

Twierdzenie. Jeśli 0x01 graphic
, i = 1,..,n, to

(i) 0x01 graphic
,

0x01 graphic
~ 0x01 graphic
,

  1. 0x01 graphic
    , skąd:

0x01 graphic
~ 0x01 graphic
.

Przedział ufności na poziomie ufności 0x01 graphic
dla współczynnika 0x01 graphic
:

[0x01 graphic
0x01 graphic
]

Przedział ufności na poziomie ufności 0x01 graphic
dla współczynnika 0x01 graphic
:

[0x01 graphic
0x01 graphic
]

Testowanie hipotezy o wartości współczynnika 0x01 graphic

(A) 0x01 graphic
,

gdzie 0x01 graphic
jest ustaloną liczbą.

Statystyka testowa

0x01 graphic
= 0x01 graphic
/(0x01 graphic
)

Jeśli 0x01 graphic
prawdziwa, to T 0x01 graphic
.

0x01 graphic

(a) 0x01 graphic
, 0x01 graphic
.

Obszar krytyczny C = 0x01 graphic
.

(b) 0x01 graphic
, 0x01 graphic
.

Obszar krytyczny C = 0x01 graphic
.

(c) 0x01 graphic
, 0x01 graphic

Obszar krytyczny C = 0x01 graphic
.

Testowanie hipotezy o wartości współczynnika 0x01 graphic

(B) 0x01 graphic
,

gdzie 0x01 graphic
jest ustaloną liczbą.

Statystyka testowa

0x01 graphic
= 0x01 graphic

Jeśli 0x01 graphic
prawdziwa, to T 0x01 graphic
.

0x01 graphic

(a) 0x01 graphic
, 0x01 graphic
.

Obszar krytyczny C = 0x01 graphic
.

(b) 0x01 graphic
, 0x01 graphic
.

Obszar krytyczny C = 0x01 graphic
.

(c) 0x01 graphic
, 0x01 graphic
.

Obszar krytyczny C = 0x01 graphic
.

(C) 0x01 graphic
, 0x01 graphic

Statystyka testowa

0x01 graphic

Jeśli 0x01 graphic
prawdziwa, to F ma rozkład F Snedecora o

1, n-2 stopniach swobody.

0x01 graphic
.

SST = SSE + SSR

n-1 = n-2 + 1

(Liczby stopni swobody SSx = liczba niezależnych zmiennych zmniejszona o liczbę ograniczeń występujących w określeniu SSx).

0x01 graphic
, 0x01 graphic
,

Obszar krytyczny testu: 0x01 graphic
.

0x01 graphic

Zauważmy, że 0x01 graphic
, stąd test jest szczególnym przypadkiem testu z (B) gdy 0x01 graphic
0x01 graphic

Przykład. Zanotowano miesięczne wydatki na reklamę ( w 10000 złotych ) pewnego artykułu oraz miesięczne dochody ze sprzedaży artykułu ( w 100000 zł ) :

Miesiąc i : 1 2 3 4 5

Reklama xi : 5 6 7 8 9

Dochód yi : 4,5 6,5 8,4 7,6 8,4

0x01 graphic
= 7,0 0x01 graphic
= 7,08 sX = 1,58 sY = 1,64

Współczynnik korelacji próbkowej:

0x01 graphic
= 0,858

0x08 graphic

Dopasowana prosta regresji: y = b0 + b1x

b1 = 0x01 graphic
= 0,89

b0 = 0x01 graphic
= 7,08 - 0,89 x 7 = 0,85

Przewidywany dochód ze sprzedaży przy wydatku na reklamę x = 10 (x 10000 zł ) wynosi

0x01 graphic
= 0,85 + 0,89 x 10 = 9,75 ( x 100000 zł ).

0x01 graphic
= 10,748

0x01 graphic
= 2,827

0x01 graphic
= 7,921

R2 = 0x01 graphic
= współczynnik determinacji.

R2 = 0,737

Zmienność dochodu w prawie 74% wyjaśniona przez zmienność wydatków ma reklamę.

Zmienność wydatków na reklamę w 74% określa zmienność dochodu.

Założenie: model liniowy zależności dochodu od wydatków na reklamę

0x01 graphic

0x08 graphic

0x08 graphic

Prognoza wartości 0x01 graphic
na podstawie 0x01 graphic
.

Obserwowane 0x01 graphic
.

0x01 graphic
, 0x01 graphic
.

Nieobserwowane 0x01 graphic
0x01 graphic
0x01 graphic
, (5)

gdzie 0x01 graphic
są niezależnymi zmiennymi losowymi o rozkładach 0x01 graphic
.

Zadania:

(a) ocena ( estymacja ) wartości średniej 0x01 graphic
=

0x01 graphic
zmiennej objaśnianej w sytuacji, gdy zmienna

objaśniająca 0x01 graphic
jest równa 0x01 graphic
.

(b) przewidywanie ( prognoza ) wartości 0x01 graphic
.

(a) Obliczając wartość średnią obu stron (5) mamy:

0x01 graphic
= 0x01 graphic
= 0x01 graphic
.

Stąd naturalnym oszacowaniem 0x01 graphic
jest

0x01 graphic
= 0x01 graphic
.

0x01 graphic
= 0x01 graphic
(6)

Zatem 0x01 graphic
jest nieobciążonym estymatorem 0x01 graphic
.

0x01 graphic
= Var(0x01 graphic
) = Var(0x01 graphic
).

Można pokazać, że 0x01 graphic
są nieskorelowane, stąd

0x01 graphic
= 0x01 graphic
(7)

Błąd standardowy estymatora 0x01 graphic
definiujemy jako

0x01 graphic
= 0x01 graphic
.

Twierdzenie. Estymator 0x01 graphic
wartości średniej 0x01 graphic
zmiennej objaśnianej Y dla wartości zmiennej objaśniającej 0x01 graphic
ma rozkład normalny o wartości średniej i wariancji postaci (6) i (7), odpowiednio. Ponadto,

0x01 graphic
.

Wniosek. Przedział ufności na poziomie ufności 0x01 graphic

dla 0x01 graphic
ma krańce

0x01 graphic
.

Długość przedziału nie jest stała, (wynosi 0x01 graphic
0x01 graphic
) , zależy od 0x01 graphic
, im dalej od 0x01 graphic
tym bardziej ocena staje się niedokładna.

(b) Prognoza (przewidywanie) 0x01 graphic
.

Niech 0x01 graphic
będzie oceną (prognozą) 0x01 graphic
. Zmienne

losowe 0x01 graphic
, 0x01 graphic
są niezależne, więc wariancja ich

różnicy ma postać:

0x01 graphic
= 0x01 graphic
0x01 graphic
0x01 graphic
=

= 0x01 graphic
.

Stąd naturalnym estymatorem standardowego odchylenia 0x01 graphic
jest tzw. błąd standardowy

0x01 graphic
jest

0x01 graphic
.

Twierdzenie. Zmienna losowa 0x01 graphic
ma rozkład normalny 0x01 graphic
, oraz

0x01 graphic
.

Wniosek. Przedział ufności na poziomie ufności 0x01 graphic

dla zmiennej 0x01 graphic
ma krańce

0x01 graphic
.

Przykład. Prosta regresji dla miesięcznego dochodu ze sprzedaży artykułu w zależności od miesięcznego wydatku na reklamę:

y = 0,85 + 0,89x

Stąd prognozowany dochód przy wydatku na reklamę x0 = 10 ( x 10000 zł.) oraz jednocześnie estymowana ( przewidywana ) wartość średnia dochodu na podstawie miesięcznych wydatków na reklamę x0 = 10 ( x 10000 zł.)

0x01 graphic
(x 100000 zł. )

Przedział ufności na poziomie ufności 0,90 dla :

(a) 0x01 graphic
ma granice 9,75 0x01 graphic
0x01 graphic
,

gdzie 0x01 graphic
= 2,353, 0x01 graphic
= 0x01 graphic
,

S = 0x01 graphic
0,9423,

0x01 graphic
= 0,9423 x (1/5 + (10 - 7)2/10)1/2 = 0,9883

granice 90% przedziału ufności dla 0x01 graphic
:

9,75 - 2,353 x 0,9883 = 7,354

9,75 + 2,353 x 0,9883 = 12,146

(b) granice 90% przedziału ufności dla prognozy zmiennej 0x01 graphic
:

9,75 0x01 graphic
,

gdzie 0x01 graphic
=

0,9423 x (1 +1/5 + (10 - 7)2/10)1/2 = 1,3655.

0x08 graphic

0x08 graphic

0x08 graphic

Analiza wartości resztowych ( rezyduów )

Poprawność testów dotyczących parametrów modelu oraz prognozy przyszłych zmiennych zależy istotnie od poprawności przyjętego modelu liniowego:

0x01 graphic
, 0x01 graphic
(8)

Wartość resztowa (rezyduum):

0x01 graphic
jest przybliżeniem błędu

0x01 graphic
.

Jeśli model (8) jest poprawny, błędy mają rozkład normalny, to rezyduua zachowują się w przybliżeniu tak jak ciąg niezależnych zmiennych losowych o rozkładzie normalnym. W szczególności, wykres rezyduów względem numeru porządkowego powinien przedstawiać „chmurę” punktów skupioną wokół osi Ox, bez wyraźnej struktury czy tendencji.

Stwierdzenie. Wariancja rezyduum ma postać:

0x01 graphic
.

Błąd standardowy rezyduum definiujemy

0x01 graphic
.

Oraz studentyzowane rezyduum 0x01 graphic
, 0x01 graphic

Przy małej liczbie obserwacji i dużym rozproszeniu zmiennej objaśniającej błędy 0x01 graphic
mogą odbiegać znacznie od błędu S.

Badanie odstępstw od modelu:

  1. Załóżmy, że model liniowy jest prawdziwy

( zachodzi związek (8) ), ale rozkład błędów różni się znacznie od normalnego rozkładu. Wówczas odkryjemy to analizując histogram oraz wykres kwantylowy rezyduów bądź studentyzowanych rezyduów. W przypadku rozkładu normalnego punkty wykresu kwantylowego będą skupiały się wokół pewnej prostej.

(b) Załóżmy, że model nie jest prawdziwy. Zachodzi związek 0x01 graphic
ale funkcja regresji 0x01 graphic
nie jest postaci 0x01 graphic
. Odstępstwo tego typu często udaje się odczytać z wykresu rezyduów. Rys. (a)-(b) sporządzone są dla obserwacji modelu 0x01 graphic
. Rys. (c)-(d) wykonany dla obserwacji modelu 0x01 graphic
, gdzie regresja jest liniowa, ale błędy nie są niezależne, kolejne 0x01 graphic
jest ujemnie zależne od 0x01 graphic
.

(c) Prawdziwy model zależności jest sprowadzalny do modelu liniowego, np. zależność 0x01 graphic
, i = 1, ... , n, sprowadzamy do modelu liniowego wprowadzając nowe zmienne objaśniające: 0x01 graphic
. Jeśli regresja jest liniowa względem współczynników 0x01 graphic
, to na ogół udaje się znaleźć przekształcenie 0x01 graphic
, które prowadzi do modelu w przybliżeniu liniowego, np. jeśli zależność y od x jest dodatnia i opisana przez funkcję wklęsłą, to próbujemy zastosować funkcje 0x01 graphic
lub 0x01 graphic
.

(d) Funkcja regresji jest liniowa ( równość (8) spełniona), ale wariancja błędów nie jest stała: Var(0x01 graphic
. Wówczas modyfikujemy kryterium najmniejszych kwadratów - zamiast minimalizacji sumy kwadratów błędów

0x01 graphic
,

minimalizujemy ważoną sumę kwadratów błędów:

0x01 graphic
.

Waga 0x01 graphic
powinna być tym mniejsza im większa jest wariancja błędu 0x01 graphic
. Przyjmujemy: 0x01 graphic
lub 0x01 graphic
( gdy 0x01 graphic
nie jest znane ).

Często 0x01 graphic
= wartość przewidywana dla i-tej obserwacji w modelu regresji z tą samą zmienną objaśniającą, gdy za wartości zmiennej objaśnianej przyjmuje się wartości

rezyduów.

(e) Model jest nieadekwatny ze względu na występowanie innych lub większej ilości zmiennych objaśniających.

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic



Wyszukiwarka

Podobne podstrony:
kol3(maj), PJWSTK, 0sem, SAD
SAD e 03.01.2006 v1, PJWSTK, 0sem, SAD
SAD k3 zadania pomocnicze, PJWSTK, 0sem, SAD, SAD inne, kolokwia
sadreg2-egzamin, PJWSTK, 0sem, SAD
sad11hipotezy, PJWSTK, 0sem, SAD
sad7(3), PJWSTK, 0sem, SAD
zasady, PJWSTK, 0sem, SAD
SAD e 09.02.2007, PJWSTK, 0sem, SAD
sad13p(1), PJWSTK, 0sem, SAD
sad11pp(02), PJWSTK, 0sem, SAD
sad8(2), PJWSTK, 0sem, SAD
SADegzamin2003, PJWSTK, 0sem, SAD
SAD e xx.09.2003 v2, PJWSTK, 0sem, SAD
SAD e 30.01.2009 v2, PJWSTK, 0sem, SAD, egzaminy
SAD e 03.01.2006 v2, PJWSTK, 0sem, SAD
sad9p(02), PJWSTK, 0sem, SAD

więcej podobnych podstron