plik


ÿþAnaliza regresji marcin.mazurek@wat.edu.pl 2009 Regresja wieloraka Regresja wielokrotna (ang. multiple regression) Wicej ni| jedna zmienna obja[niajca Liniowe równanie regresji wielorakiej przedstawiajcej zale|no[ zmiennej Y od zmiennych obja[niajcych X1, X2 , .. Xm Y = ± +± X +± X +...+± X + µ Y = ±0 +±1X1 +±2 X2 +...+±m X + µ m gdzie: Y zmienna zale|na, obja[niana przez dane równanie X1, X2 , .. Xm zmienne obja[niajce ±0, ±1, .. ±m parametry, zwane wspóBczynnikami regresji µ skBadnik losowy przypadkowy. marcin.mazurek@wat.edu.pl 2009 ZaBo|enia dla modelu regresji Model jest liniowy wzgldem parametrów Zmienna obja[niajca jest nielosowa, jej warto[ci s ustalonymi liczbami rzeczywistymi SkBadnik losowy ma rozkBad normalny o warto[ci oczekiwanej równej 0 SkBadnik losowy jest sferyczny SkBadnik losowy jest sferyczny Nie wystpuje autokorelacja Jest homoskedastyczny (wariancja jest staBa niezale|nie od warto[ci wektora zmiennych obja[niajcych X) marcin.mazurek@wat.edu.pl 2009 Próba Próba skBada si z n obserwacji dokonanych na zmiennych Y , X1, X2 , ... Xm. îø±0 ùø y1 1 x11 x12 ... x1m µ1 îø ùø îø ùø îø ùø ïø± úø ïø úø ïø1 x21 x22 ... x2m úø 1 ïøµ úø ïø úø y2 2 ïø úø ïø úø ïø úø ïø úø y = , X = , ± = ±2 , µ = ïø úø ïø úø ïø úø ... ... ... ïø úø ïø úø ïø úø ïø úø ïø... úø yn ðø ûø ðø1 xn1 xn2 ... xnm ûø ðøµn ûø ïø±m úø ðø ûø gdzie: gdzie: y wektor zaobserwowanych warto[ci zmiennej zale|nej Y X macierz, której pierwsz kolumn tworz jedynki, a pozostaBe kolumny to warto[ci zmiennych obja[niajcych ± wektor nieznanych warto[ci parametrów regresji ± ± ± µ wektor skBadników losowych równania µ µ µ Równanie regresji: y =X± µ ± + µ ± µ ± µ marcin.mazurek@wat.edu.pl 2009 Parametry modelu regresji Parametry funkcji regresji szacujemy metod Wektor estymatorów parametrów najmniejszych kwadratów. modelu regresji: Æ ±0 îø ùø Æ y = X± + e , ïø± úø Æ 1 ïø úø -1 ïø úø Æ Æ ± = ±2 = XT X XTy ( ) gdzie e oznacza wektor reszt. gdzie e oznacza wektor reszt. ïø úø ïø úø ïø... úø e = y - w ïø±m úø Æ ðø ûø Warto[ci teoretyczne wyznaczone na podstawie modelu: Æ w = X± marcin.mazurek@wat.edu.pl 2009 Zmienno[ zmiennej celu Suma kwadratów yródBo Stopnie Zredni kwadrat swobody zmienno[ci 2 BBd SSE SSE n-m-1 MSE MSE = SSE = y- w "( ) losowy (mean square error) (sum of squares error) n - m -1 " Suma kwadratów bBdu SSR oszacowania MSR = " Suma kwadratów bBdów m " Zmienno[ niewyja[niona Regresja SSR m MSR 2 (sum of squares regression) (mean square regression) SSR = w- y w- y "( ) "( ) " Regresyjna suma " Regresyjna suma kwadratów " Suma kwadratów odchyleD regresyjnych " Zmienno[ wyja[niona 2 Odchylenie SST = SSE + SSR n-1 SST = y- y "( ) caBkowite (sum of squares total) CaBkowita suma kwadratów SSR WspóBczynnik determinacji: R2 = SST MSR Statystyka F: F = MSE marcin.mazurek@wat.edu.pl 2009 Oszacowanie dopasowania modelu " wariancja skBadnika resztowego (wariancja resztowa) oraz odchylenie standardowe skBadnika resztowego eTe S2 = n - (m +1) " wspóBczynnik zmienno[ci resztowej S V = y y " wspóBczynnik zbie|no[ci eTe 2 Õ = 1 yT y - (1T y)2 n " Kwadrat wspóBczynnika korelacji wielorakiej (wspóBczynnik determinacji) 2 R2 =1-Õ " Odchylenia standardowe estymatorów parametrów modelu regresji marcin.mazurek@wat.edu.pl 2009 Model regresji z jedn zmienn obja[niajc Dla modelu regresji liniowej i m=1 (jedna zmienna obja[niajca) odpowiednie wzory macierzowe przyjmuj posta : n (x - x )(y - y ) " i i i =1 ±Æ = 1 n 2 (x - x ) (x - x ) " i " i i =1 ±Æ = y - ±Æ x 0 1 Æ Æ wi = ±0 +±1xi Wariancja resztowa: n "(w - y) i 2 i=1 S = n - 2 marcin.mazurek@wat.edu.pl 2009 Miary dopasowania modelu BBdy standardowe oszacowania parametrów modelu regresji (odchylenia standardowe dla estymatorów): n 2 S Å" "x i S i=1 S± = S± = Æ Æ 1 0 n n 2 2 xi ( - x n Å" xi - x ) ( ) " " i=1 i=1 Kwadrat wspóBczynnika korelacji wielorakiej: n 2 "( wi - y) i=1 i=1 R2 = = 1-Õ2 R2 = = 1-Õ2 n 2 "( yi - y) i=1 WspóBczynnik zbie|no[ci: n 2 "( yi - wi ) i=1 Õ2 = n 2 "( yi - y) i=1 marcin.mazurek@wat.edu.pl 2009 PrzykBad Badajc zale|no[ pomidzy nakBadami na reklam w mediach a poziomem sprzeda|y otrzymano dla wybranej losowo próby produktów tego samego typu n=7 zestawienia (x  nakBady na reklam, y- sprzeda|): xi 1 2 3 4 5 6 7 yi 8 13 14 17 18 20 22 (xi xi yi - x) - y) - x)(yi - y) - x) ei2 xi2 (yi (xi wi ei = yi - wi (xi 2 1 8 -3 -8 24 9 9,58 -1,58 2,50 1 1 8 -3 -8 24 9 9,58 -1,58 2,50 1 2 13 -2 -3 6 4 11,72 1,28 1,64 4 3 14 -1 -2 2 1 13,86 0,14 0,02 9 4 17 0 1 0 0 16 1 1,00 16 5 18 1 2 2 1 18,14 -0,14 0,02 25 6 20 2 4 8 4 20,28 -0,28 0,08 36 7 8 3 6 18 9 22,42 -0,42 0,18 49 £ = 28 £ =112 £ = 60 £ =28 £ =5,43 £ =140 x = 4 y =16 60 Æ ±1 = = 2,14 28 Æ ±0 =16 - 4Å" 2,14 = 7, 44 Równanie prostej regresji: Y = 2,14Å" X + 7,44 marcin.mazurek@wat.edu.pl 2009 PrzykBad- cd. Wariancja resztowa i odchylenie standardowe: 5,43 2 S = = 1,09 7 - 2 S = 1,09 = 1,04 Odchylenia standardowe wspóBczynników regresji: 1,04 S± = = 0,20 1 28 1,04 Å" 140 1,04 Å" 140 S = = 0,87 S± = = 0,87 0 7 Å" 28 Analiza istotno[ci wspóBczynników (na poziomie istotno[ci ±=0,05) Dla ±0: 7,44 Statystyka T = = 8,55, 0,87 t± = 2,571 Dla ±1: 2,14 Statystyka T = = 10,7 0,20 t± = 2,571 W obydwu przypadkach warto[ci statystyki T trafiaj do obszaru krytycznego dla testowanej hipotezy, a zatem hipotez zerow nale|y odrzuci. Graniczne poziomy wspóBczynników istotno[ci, przy których nie byBoby podstaw do odrzucenia hipotezy s mniejsze od 0,001. marcin.mazurek@wat.edu.pl 2009 Testowanie hipotez Weryfikacja hipotezy zerowej H0 Wybór odpowiedniej statystyki U, której rozkBad jest znany (test hipotezy) Ustalenie zbioru warto[ci W tych warto[ci statystyki U, których wystpienie uwa|amy za zaprzeczenie hipotezie zerowej (zbiór krytyczny) PrawdopodobieDstwo odrzucenia hipotezy zerowej, gdy jest ona PrawdopodobieDstwo odrzucenia hipotezy zerowej, gdy jest ona prawdziwa (poziom istotno[ci testu): P U "W H0 = ± ( ) Rzeczywisto[ Hipoteza zerowa Prawdziwa FaBszywa Przyjcie Poprawna decyzja BBd II rodzaju Odrzucenie BBd I rodzaju Poprawna decyzja (poziom istotno[ci) marcin.mazurek@wat.edu.pl 2009 Warto[ p PrawdopodobieDstwo wystpienia obserwowanych wyników w przypadku je|eli hipoteza zerowa jest prawdziwa Miara wiarygodno[ci hipotezy zerowej marcin.mazurek@wat.edu.pl 2009 Test t istotno[ci parametru regresji Badanie zale|no[ci pomidzy zmienn celu y a zmienn obja[niajc xi z uwzgldnieniem pozostaBych zmiennych obja[niajcych H0 :±i = 0 H0 : y = ±0 +±1 Å" x1 + ...+±i-1 Å" xi-1 +±i+1 Å" xi+1 +...±m Å" xm H1 :±i `" 0 H1 : y = ±0 +±1 Å" x1 + ...+±i-1 Å" xi-1 +±i Å" xi +±i+1 Å" xi+1 +...±m Å" xm Statystyka t - rozkBad t-studenta z n-m-1 stopniami swobody Statystyka t - rozkBad t-studenta z n-m-1 stopniami swobody ±i t = S± i Obszar krytyczny - je|eli warto[ statystyki znajdzie si w obszarze krytycznym, oznacza to |e hipotez zerow nale|y odrzuci. K = -", -t± *" t± , + " ( ) p  warto[ p = P T > t ( ) marcin.mazurek@wat.edu.pl 2009 Test F istotno[ci modelu regresji Badanie liniowej zale|no[ci pomidzy zmienn celu a zbiorem zmiennych obja[niajcych traktowanych jako caBo[ H0 :±1 = ±2 = ... = ±m = 0 H1 : "±i `" 0 Statystyka F Statystyka F 2 SSR w- y "( ) MSR n - m -1 m F = = = Å" 2 SSE MSE m w- y "( ) n - m -1 marcin.mazurek@wat.edu.pl 2009 Zmienne jako[ciowe w modelu regresji WyksztaBcenie Zmienna obja[niajca dyskretna przyjmujca Podstawowe k- warto[ci Zrednie Wy|sze k-1 zmiennych obja[niajcych binarnych (zmienne wskaznikowe, zmienne sztuczne) WyksztaBcenie WyksztaBcenie_S WyksztaBcenie_W Podstawowe 0 0 Zrednie 1 0 Wy|sze 0 1 marcin.mazurek@wat.edu.pl 2009 Metody wyboru zmiennych obja[niajcych Metoda doBczania (ang. forward selection) DoBczamy zmienne z najwy|sz warto[ci statystyki F() do chwili i sprawdzamy istotno[ sekwencyjnej statystyki F. Metoda eliminacji (ang. backward elimination) Usuwamy z modelu zmienn z najmniejsz warto[ci cz[ciowej statystyki F. statystyki F. Metoda krokowa (ang. stepwise) Po doBczeniu zmiennej usuwana jest ta, która nie jest istotna . Metoda najlepszych podzbiorów Maksymalna liczba p zmiennych obja[niajcych oraz k-modeli dla ka|dej liczby zmiennych obja[niajcych do 1 do p. Metoda wszystkich mo|liwych regresji marcin.mazurek@wat.edu.pl 2009 Cz[ciowy test F Sekwencyjne sumy kwadratów  (sequential sum of squares) PodziaB sumy kwadratów odchyleD regresji na cz[ci wyja[niane przez zmienn obja[niajc, po uwzgldnieniu wcze[niej wprowadzonych zmiennych Warto[ci sekwencyjnych sum kwadratów zale| od kolejno[ci wprowadzania zmiennych do modelu W modelu mamy ju| p-zmiennych  sprawdzenie czy w modelu W modelu mamy ju| p-zmiennych  sprawdzenie czy w modelu powinna zosta uwzgldniona dodatkowa zmienna SSi = SS xi x1, x2..., xi-1 ( ) SSi = SSRi - SSRi-1 Statystyka SSi F xi x1, x2..., xi-1 = ( ) MSE marcin.mazurek@wat.edu.pl 2009 Regresja logistyczna Predykcja warto[ci zmiennej dyskretnej (binarnej) Estymacja prawdopodobieDstwa przyjcia przez zmienn obja[niajc konkretnej warto[ci 0 e± +±1Å"x1+...+±m Å"xm p x = E Y x = ( ) ( ) 0 1+ e± +±1Å"x1+...+±mÅ"xm Iloraz szans p x ( ) OR = 1- p x ( ) Transformacja logitowa p x ( ) g x = ln = ±0 +±1 Å" x1 +...+±m Å" xm ( ) 1- p x ( ) marcin.mazurek@wat.edu.pl 2009 Estymacja parametrów Estymacja metod najwikszej wiarygodno[ci Funkcja wiarygodno[ci l(±|x) okre[la p-stwo uzyskania obserwowanych danych x. n yi 1- yi l ± x = ùø ùø ( ) "îø p(xi )ûø Å"îø1- p(xi )ûø ðø ðø i=1 Maksymalizacja funkcji wiarygodno[ci  poszukujemy takiego oszacowania nieznanych parametrów, dla którego prawdopodobieDstwo otrzymania zaobserwowanych warto[ci jest najwiksze. marcin.mazurek@wat.edu.pl 2009 Literatura A. Zelia[, B.PaweBek, S.Wanat  Metody statystyczne Zadania i sprawdziany, Polskie Wydawnictwo Ekonomiczne 2002 Hand David, Mannila Heikki, Smyth Padhraic  Eksploracja danych , WNT 2005 Daniel T.Larose  Metody i modele eksploracji danych Wydawnictwo Naukowe PWN 2008 A. PluciDska, E.PluciDski,  Probabilistyka , WNT 2000 A. PluciDska, E.PluciDski,  Probabilistyka , WNT 2000 marcin.mazurek@wat.edu.pl 2009

Wyszukiwarka

Podobne podstrony:
Analiza regresji
21 Analiza regresji
Analiza regresji liniowej
Analiza regresji wykład i lista nr 3
3 Analiza regresji
06 ANALIZA REGRESJI
Blyskawiczna analiza regresji SnapStat
analiza regresji
Elementy analizy korelacji i regresji
analizy opisowa, regresji i wariancji
Analiza Matematyczna 2 Zadania
analiza
regresja empiryczna
ANALIZA KOMPUTEROWA SYSTEMÓW POMIAROWYCH — MSE
Analiza stat ścianki szczelnej
Analiza 1
Analiza?N Ocena dzialan na rzecz?zpieczenstwa energetycznego dostawy gazu listopad 09

więcej podobnych podstron