WYKLAD 4 OPI


PRELIMINARIA DOTYCZCE WIELOWYMIAROWEJ
ANALIZY STATYSTYCZNEJ
W analizie wielowymiarowej rozwa\amy dane dotyczące obiektów rozpatrywanych ze
względu na dwie lub więcej zmiennych (cech). Dane takie ustawiamy na ogół w tzw.
n p macierz obserwacji (macierz danych)  ka\dy wiersz odpowiada obiektowi
natomiast ka\da kolumna odpowiada zmiennej (cesze).
Za przykład wezmy próbę stu klientów indywidualnych pewnego banku
rozpatrywanych ze względu na miesięczne dochody netto, wiek, całkowity sta\ pracy.
Przykładem mo\e być tak\e próba ośmiu mieszkań 2  pokojowych w Krakowie
rozpatrywanych ze względu na cenę, czas dojazdu komunikacją MPK do centrum,
roczne koszty eksploatacji.
1
Macierz danych Y(n p) mo\na zapisać w postaci
11
ły y12 " y1p łł
ły y22 " y2p śł
ł 21 śł
ł śł
Y = = (yij) (1)
ł śł
" " " "
ł śł
łyn1 yn2 " ynp śł
ł ł
2
PRZYKAAD: Płace, zasiłki, stopa bezrobocia i PKN w Wielkiej Brytanii w latach 1920 -1938
3
Kolumny macierzy Y wygodnie jest zapisywać w postaci y(1),y(2),...,y(p), tzn.
wkładając indeks kolumny w okrągły nawias, natomiast wiersze (rozpatrywane jako
wektory kolumnowe) jako y1,y2,...,yn . Czyli na macierz danych Y(n p) mo\emy
spojrzeć
ł ł
yt ł
1
ł
ł
ł
ł
ł
ł
yt ł
ł
2
ł
ł, (2)
ł
ł
Y = (y(1),y(2),...,y(p)) =
ł ł
ł ł
"
ł
ł
ł
ł
ł
ł
t
łyn ł
ł
ł
ł
ł łł
ły1j ł łyi1 ł
ł ł
ł ł
ł
ł
ł, y = ł " ł
ł.
ł ł
ł ł
gdzie y(j) = "
ł ł
i
ł ł
ł ł
ły ł ły ł
ł ł
ł ł ł ł
ł ł
ł ł
nj ip
ł łł ł łł
4
Wektor przeciętnych z próby definiujemy:
ły łł
1
ł śł
n
y2
ł śł
1
ł śł
y = yi = , (3)
"
ł śł
n "
i=1
ł śł
łyp śł
ł śł
ł ł
1
y = Yt j, gdzie joznacza wektor wymiaru n 1 zło\ony z jedynek.
n
5
Wektor przeciętnych z próby słu\y do oszacowania wektora wartości oczekiwanych
w populacji ( o ile ten istnieje patrz np. wielowywymiarowy rozkład Cauchy ego)
definiowanego jako:
łE(y1)łł
1 1
ły łł łm łł
ł śł
ły śł łm śł
łE(y2)śł
2 2
ł śł ł śł
ł śł
ł śł ł śł
E(Y) = E = = = m. (4)
ł śł
ł śł ł śł
" "
"
ł śł
ł śł ł śł
ł śł
łyp śł łmp śł
łE(yp)śł
ł ł ł ł
ł śł
ł ł
Dla ka\dego j ma miejsce równość:E(yj) = mj , skąd wynika , \e
1
łm łł
łm śł
ł 2 śł
ł śł
E(y) = = m, (5)
ł śł
"
ł śł
łmp śł
ł ł
co oznacza, \e wektor przeciętnych z próbyyjest nieobcią\onym estymatorem m.
6
Macierz kowariancji z próby definiujemy:
11
łs s12 " s1p łł
łs s22 " s2p śł
ł 21 śł
ł śł
S = , (6)
ł śł
" " " "
ł śł
łsp1 sp2 " spp śł
ł ł
n n
1 1
gdzie:sjj = s2 =
j ij ij
"(y - yj)2 , sij = n - 1"(y - yj)(yik - yk),
n - 1
i=1 i=1
Dysponując wektorami obserwacji y1,y2,...,yn, macierz kowariancji z próby mo\emy
obliczyć za pomocą wzoru:
n
1
S =
i
"(y - y)(yi - y)t , (7)
n - 1
i=1
7
W oparciu o macierz obserwacji Y macierz kowariancji z próby obliczymy za pomocą
wzoru:
1 1
S = YtY - Yt jjtY . (8)
( )
n - 1 n
Zachodzi równość:E(S) = Ł, co oznacza \e macierz kowariancji z próby jest
nieobcią\onym estymatorem macierzy kowariancji w populacji.
8
Macierz korelacji z próby definiowana jest jako:
1 r12 " r1p
ł łł
ł śł
łr21 1 " r2p śł
ł śł, (9)
R =
ł śł
" " " "
ł śł
ł śł
ł
łrp1 rp2 " 1 śł
ł
sjk sjk
gdzie rjk = =
oznacza współczynnik korelacji z próby pomiędzy j  tą i
sjjskk sjsk
k  tą zmienną,
9
10
Definiując macierz diagonalną:
DS = [diag(S)]1 2 = diag(s1,s2,...,sp), (10)
mamy następujące równości wią\ące macierze korelacji i kowariancji z próby:
R = D-1SD-1, (11)
S S
S = DSRDS. (12)
Macierz korelacji z próby jest estymatorem obcią\onym macierzy korelacji w populacji.
11
Badanie kombinacji liniowych zmiennych (cech) nale\y do najwa\niejszych metod
wielowymiarowej analizy statystycznej. Badania takie stanowią podstawę analizy
regresji, korelacji kanonicznych, głównych składowych, analizy czynnikowej i wielu
innych metod tzw. klasycznej analizy wielowymiarowej.
Rozwa\my następującą kombinacje liniową zmiennych X1,& ,Xp
yr = a1xr1 + ... + apxrp, r = 1,...,n, (13)
gdzie a1,...,ap są dane.
Warto samodzielnie sprawdzić czy prawdą jest, \e dla przeciętnej y z yr zachodzi
n
1
y = at
r
"x , (14)
n
r=1
12
natomiast wariancja dana jest przez
n n
1 1
2 t
sy =
r
"(y - y)2 = n "a (xr - x)(xr - x)t a = atSa. (15)
n
r=1 r=1
W ogólności mo\emy być zainteresowani q wymiarowym liniowym przekształceniem
zmiennych
yr = Axr + b,r = 1,...,n, (16)
co mo\na zapisać Y = XAt + 1bt , Aqp , b jest wektorem, q d" p.
Otó\ dla przeciętnej i macierzy kowariancji nowych obiektów yr zachodzi
y = Ax + b, (17)
n
1
Sy =
r
"(y - y)(yr - y)t = ASxAt . (18)
n
i=1
13
Je\eli A nie jest osobliwa ma miejsce
S = A-1Sy(At)-1. (19)
14
Bardzo często w analizie wielowymiarowej zachodzi potrzeba skorzystania z
przekształceń danych (zmiennych) o określonych własnościach. Poni\ej krótko
prezentujemy trzy często wykorzystywane przekształcenia a mianowicie
przekształcenie skalujące, przekształcenie Mahalanobisa i przekształcenie głównych
składowych.
Przekształcenie postaci
yr = D-1(xr - x),r = 1,...,n, (20)
gdzie D = diag(si),
nazywane jest przekształcenim skalującym. Zmienne poddane temu przekształceniu
mają jednostkowe wariancje, eliminujemy ewentualną nieporównywalność zmiennych
ze względu na skalę (jednostkę) badania.
15
W przypadku, gdy macierz S jest dodatnio określona S > 0, wtedy macierz S-1 ma
jednoznaczny dodatnio określony pierwiastek kwadratowy. Przekształcenie
Mahalanoisa definiowane jest przez
zr = S-1/2(xr - x),r = 1,...,n (21)
Zauwa\my, \e Sz = I, co oznacza, \e przekształcenie eliminuje skorelowanie
zmiennych.
16
(*** temat trudniejszy)
Z twierdzenia o dekompozycji spektralnej macierzy kowariancji S wiemy, \e S
mo\na przedstawić w postaci S = PPt , gdzie Pjest macierzą ortogonalną, której
kolumny stanowią wektory własne S i  jest macierzą diagonalną wartości własnych S
tzn. 1 e" 2 e" & e" p e" 0.
Przekształcenie głównych składowych definiowane jest jako
Wr = Pt(xr - x),r = 1,...,n (22)
Poniewa\ SW = PtSXP =  jest diagonalna, kolumny W nazywane są głównymi
składowymi, reprezentują one nieskorelowane kombinacje liniowe oryginalnych
zmiennych. Przekształcenie to słu\y m. in. do redukcji wymiaru rozpatrywanego
zagadnienia statystycznego.
17
Niech A będzie symetryczną macierzą wymiaru n n. Liczba rzeczywista 
nazywana jest wartością własną macierzy A je\eli istnieje niezerowy wektor x " !n
taki, \e
Ax = x.
Niezerowy wektor x nazywany jest wektorem własnym macierzy A związanym z
wartością własną .
Je\eli x jest wektorem własnym symetrycznej macierzy A związanym z wartością
własną , wtedy cx, c " !,c `" 0 jest tak\e wektorem własnym związanym z tą samą
wartością własną .
18
Wektor własny ł zło\ony z rzeczywistych składowych nazywany jest
standaryzowanym je\eli
łtł = 1.
Je\eli x i ysą wektorami własnymi dla i i ą " ! , wtedy x + y i ąx są tak\e
wektorami własnymi dla i . Stąd zbiór wszystkich wektorów własnych dla i tworzy
podprzestrzeń nazywaną podprzestrzenią niezmienniczą A odpowiadającą wartości
własnej i .
TWIERDZENIE D1: Wektory własne u1,u2,...,uk macierzy A wymiaru n n
związane z ró\nymi wartościami własnymi macierzy A 1,2,...,k , (k d" n) są liniowo
niezale\ne.
19
TWIERDZENIE D2: Niech 1,2,...,k będą wartościami własnymi macierzy A.
Wtedy
n
i
" = tr(A),
i=1
n
i
" = det(A) = A .
i=1
WAśNE TWIERDZENIE D3: Je\eli A jest n n macierzą symetryczną, wtedy
istnieją ortogonalna macierz P i diagonalna macierz takie, \e
D = P-1AP = PTAP,
kolumny macierzy P są n  liniowo niezale\nymi wektorami własnymi macierzy A
natomiast elementy diagonalne macierzy D są wartościami własnymi macierzy A
związanymi z tymi wektorami własnymi.
20
WNIOSEK: Symetryczną macierz A wymiaru n n mo\na przedstawić w formie:
A = 1P1P1T + 2P2P2T + & + sPsPsT,
przy czym I = P1P1T + P2P2T + & + PsPsT,
1,2,...,s - s niezerowych wartości własnych A, P1,P2,...,Ps- odpowiadające
wartościom własnym wektory własne A.
W przypadku macierzy symetrycznej, wektory własne odpowiadające ró\nym
wartościom własnym są wzajemnie ortogonalne.
21
Projekcja zmiennych na płaszczyznę czynnika ( x )
1,0
PKN
0,5
place
zasilek
ZP
0,0
-0,5
st_bezrob
-1,0
-1,0 -0,5 0,0 0,5 1,0
Czynn. 1 : 70,36%
22
Czynn. 2 : 20,41%
Analiza regresji jest jedną z najczęściej wykorzystywanych technik statystycznych w
badaniach naukowych, analizie rynku itd. Warto podkreślić, \e pomimo szczególnie
bogatej literatury, długiej historii  analiza regresji wcią\ niesie z sobą szereg
nierozwiązanych problemów. Podkreślmy, \e łatwość analizy regresji zarówno w
wymiarze formalnym jak i interpretacyjnym jest pozorna.
Tu przedstawimy kilka wiadomości nt najprostszego przykładu analizy regresji a
mianowicie tzw. modelu liniowego pierwszego stopnia (modelu regresji
wielorakiej). W wymiarze merytorycznym z grubsza rzecz biorąc powiemy, \e w
analizie regresji prowadzonej z jego wykorzystaniem chodzi o to aby wyrazić zale\ność
pomiędzy wartością przeciętną zmiennej objaśnianej (zale\nej) a ustalonymi
poziomami zmiennych objaśniających (niezale\nych, predykatorów). Krótko: chcemy
wiedzieć o ile przeciętnie zmieni się wartość zmiennej objaśnianej, gdy zwiększymy
(zmniejszymy) wartość predyktora o jednostkę.
23
24
Mamy n obserwacji (y1,x11,...,x1p), (y2,x21,...,x2p),& , (yn,xn1,...,xnp), n
obserwacji zmiennej y przy ustalonych poziomach p czynników x1,...,xp .
Staramy się znalezć liniową funkcję postaci y = b0 + b1x1 +b2x2 + " +bpxp
wyra\ającą zale\ność pomiędzy zmiennymi, funkcja która uwzględnia to co
zaobserwowaliśmy ( znalezć funkcję tu znaczy wskazać współczynniki b0,...,b1).
W modelu liniowym pierwszego stopnia na obserwacje patrzy się z perspektywy
yi = b0 +b1xi1 +b2xi2 + " +bpxip + i, i = 1,2,...,n, (*)
gdzie i oznaczają niezale\ne błędy o przeciętnej zero i wariancji 2.
( obserwujemy odpowiedzi yi przy poziomach xi1,...,xip w obecności zaburzeń i )
25
W zapisie macierzowym n równań (*) przybiera postać
Y = Xb + e,
ł1 x11 " x1p łł łb0 łł
ły1 łł ł 1 łł
ł śł ł śł
ł śł ł śł
ł śł, X = ł " " " " śł, b = ł " śł , e = ł śł,
gdzie Y = " "
ł śł ł śł
ł śł ł śł
ł śł ł śł
łyn śł ł śł
n
ł ł śł
ł śł ł śł
ł ł ł ł
ł1 xn1 " xnp śł łbp ł
ł
Naszym celem jest wskazać oszacowanie wektora współczynników b. Istnieje szereg
kryteriów wyboru  właściwego wektora współczynników b, najczęściej kryteria
sprowadzają się do całościowego porównania obserwowanych wartości yi z
wartościami generowanymi przez oszacowany model wi za pomocą stosownej tzw.
funkcji kryterium. Podajemy tutaj postaci oszacowań (estymatorów) szeroko
rozpowszechnionej metody najmniejszych kwadratów (NK), w ramach której
minimalizuje się sumę kwadratów ró\nic pomiędzy wartościami obserwowanymi a
wartościami generowanymi przez model (teoretycznymi).
26
Uwaga: Zakładamy \e zmienne x1,...,xp są liniowo niezale\ne, tzn. rząd XTX
równa się rzędowi X równa się p. Wynika z tego, \e istnieje XTX
( )-1
Ć
Estymator b otrzymamy minimalizując tzw. resztową sumę kwadratów:
( )T ( )
Q = eTe = y - Xb y - Xb .
Wyra\enie mo\emy zapisać Q = yTy - 2bTXTy + bTXTXb, ró\niczkując
względem b i przyrównując do zera
"Q
= 0,
"b
Ć
skąd mamy -2XTy + 2XTXb = 0, czyli b = XTX XTY.
( )-1
27
28
Podsumowując:
Ć łbĆ0 " bĆp łłT dany jest jako b = XTX XTY.
Ć
1. Estymator NK b =
( )-1
ł śł
ł ł
Ć
2. Macierz kowariancji wektora b jest proporcjonalna do 2 XTX
( )-1
3. Dla układu poziomów (x1,...,xp) mo\emy obliczyć wariancję przewidywania w,
s2(w) = 2(1,x1,...,xp) XTX (1,x1,...,xp)T .
( )-1
29
RESZTY NK
Mo\emy policzyć tzw. wartości teoretyczne w = X(XTX)-1XTy = Hy.
Macierz H = (hij) to tzw. hat matrix (macierz z daszkiem).
Wektor reszt NK ma postać
Ć
ę = y - Xb = (I - H)y
30
Wprowadzając wielkości:
n n n
SSreg =
i i i
"(w - y)2 , RSS = "(y - wi)2 , SYY = "(y - y)2 ,
i=1 i=1 i=1
Zauwa\ając, \e ma miejsce następująca dekompozycja wariancji zmiennej
objaśnianej regresją względem zmiennych objaśniających:
n n n
i i i
"(y - y)2 = "(y - wi)2 + "(w - y)2 .
i=1 i=1 i=1
Mo\emy zdefiniować współczynnik determinacji jako:
SSreg
R2 = .
SYY
31
ANALIZA WARIANCJI ZMIENNEJ OBJAŚNIANEJ
yródło Suma Liczba Przeciętna
wariancji kwadratów stopni swobody suma kwadratów
Regresja
SSreg SSreg /k
względem p
x1,...,xp
RSS /(T - k - 1)
Resztowa n-p-1
RSS
Całkowita n-1
SYY
32
33
34
35
36
37
38
Wartości przewidywane względem obserwowanych
Zmienna zale\na: place
76
74
72
70
68
66
64
62
60
58
56
54
52
50 52 54 56 58 60 62 64 66 68 70 72 74
Wart. przewidyw.
95% p.ufności
39
Wart. obserw.
Wartości obserwowane względem reszt
Zmienna zale\na: place
2,5
2,0
1,5
1,0
0,5
0,0
-0,5
-1,0
-1,5
-2,0
52 54 56 58 60 62 64 66 68 70 72 74 76
Wart. obserw.
95% p.ufności
40
Reszty


Wyszukiwarka

Podobne podstrony:
WYKLAD 3 OPI
WYKLAD 3 OPI
PRZ OPI wyklad 6 IIe pdf
PRZ OPI wyklad 7 IIe pdf
WYKŁAD St Opi cz3
WYKŁAD St Opi cz1
WYKŁAD St Opi cz4
WYKŁAD St Opi cz2
OPI wykład 9 IIe pdf
Sieci komputerowe wyklady dr Furtak
Wykład 05 Opadanie i fluidyzacja
WYKŁAD 1 Wprowadzenie do biotechnologii farmaceutycznej
mo3 wykladyJJ

więcej podobnych podstron