Wykład 6 Twierdzenie Otrębskiego
Macierz ortogonalna
forma kwadratowa – zamiana zmiennych, postać kanoniczna, wartości własne, ślad
ślad macierzy idempotentnej
Metoda Najmniejszych Kwadratów jako rzut
twierdzenie Otrębskiego
iloczyn zupełny (skalarny) tablic
Macierz ortogonalna (macierz obrotu, rotacji) RRT=RTR = I
czyli iloczyny skalarne wektorów wierszy (lub kolumn) są równe delcie Kroneckera
$$\mathbf{R}_{\mathbf{\text{i.}}}\mathbf{R}_{\mathbf{\text{j.}}}^{\mathbf{T}}\mathbf{=}\sum_{\mathbf{k = 1}}^{\mathbf{n}}{\mathbf{r}_{\mathbf{\text{ik}}}\mathbf{r}_{\mathbf{\text{jk}}}\mathbf{=}\mathbf{\delta}_{\mathbf{\text{ij}}}\mathbf{=}\begin{Bmatrix}
\mathbf{1\ \ dla\ i = j} \\
\mathbf{0\ \ dla\ i \neq j} \\
\end{Bmatrix}}$$
Wyznacznik macierzy ortogonalnej det(R) = 1
Forma kwadratowa wektora-kolumny zmiennych x: M(x, x)=xTMx
po zamianie zmiennych x = Uy
staje się formą kwadratową zmiennych y
N(y, y)=yTNy gdzie N=UTMU
Ślad formy trace(M)=m11+m22+…+mnn
Obrót formy – zamiana zmiennych przy pomocy macierzy ortogonalnej x = Ry
N=RTMR
Twierdzenie o śladzie – ślad formy jest niezmiennikiem obrotów trace(RTMR)=trace(M)
DOWÓD Element głównej przekątnej nowej formy
$${\mathbf{n}_{\mathbf{\text{ii}}}\mathbf{=}\left( \mathbf{R}^{\mathbf{T}}\mathbf{\text{MR}} \right)}_{\mathbf{\text{ii}}}\mathbf{=}\mathbf{R}_{\mathbf{\text{.i}}}\mathbf{\text{M\ }}\mathbf{R}_{\mathbf{\text{.i}}}\mathbf{=}\sum_{\mathbf{w}}^{}{\sum_{\mathbf{k}}^{}{\mathbf{r}_{\mathbf{\text{wi}}}\mathbf{m}_{\mathbf{\text{wk}}}\mathbf{r}_{\mathbf{\text{ki}}}}}$$
$$\mathbf{\text{trace}}\left( \mathbf{N} \right)\mathbf{=}\sum_{\mathbf{i}}^{}{\sum_{\mathbf{w}}^{}{\sum_{\mathbf{k}}^{}{\mathbf{r}_{\mathbf{\text{wi}}}\mathbf{m}_{\mathbf{\text{wk}}}\mathbf{r}_{\mathbf{\text{ki}}}}}\mathbf{=}\sum_{\mathbf{w}}^{}{\sum_{\mathbf{k}}^{}\left( \mathbf{m}_{\mathbf{\text{wk}}}\sum_{\mathbf{i}}^{}{\mathbf{r}_{\mathbf{\text{wi}}}\mathbf{r}}_{\mathbf{\text{ki}}} \right)}}\mathbf{=}\sum_{\mathbf{w}}^{}{\sum_{\mathbf{k}}^{}{\mathbf{m}_{\mathbf{\text{wk}}}\mathbf{\delta}_{\mathbf{\text{wk}}}}}\mathbf{=}\sum_{\mathbf{w}}^{}{\mathbf{m}_{\mathbf{\text{ww}}}\mathbf{= trace}\left( \mathbf{M} \right)}$$
Postać kanoniczna formy kwadratowej Q(x, x)=q1x12+q2x22+…+qnxn2
czyli macierz formy jest diagonalna Q = diag(qi)a
a współczynniki qi nazywamy wartościami własnymi
Obrót na wektory własne M=RTQR
Własności wartości własnych
q1+q2+…+qn=trace(M) (na podstawie twierdzenia o śladzie)
q1*q2*…*qn=det(RT)det(M)det(R)=det(M)
Ślad macierzy idempotentnej (macierzy rzutu) J * J = J2=J
Wykonamy obrót na wektory własne
J=RTQR J * J=RTQRRTQR=RTQQR=RTQ2R
Stąd Q = Q2 a ponieważ Q jest macierzą diagonalną to qi=qi2
czyli qi−qi2=qi(1−qi)=0. Równanie to ma dwa rozwiązania qi=0 lub qi=1
Liczba wartości własnych równych jedności określa rząd i ślad trace(Q)=rank(Q)
Co na podstawie twierdzenia o śladzie dla każdej macierzy idempotentnej trace(J)=rank(J)
Metoda Najmniejszych Kwadratów jako rzut
Równania poprawek V = Ax + L Równania normalne ATAx+ATL = 0
stąd rozwiązanie $\hat{\mathbf{x}}\mathbf{= -}\left( \mathbf{A}^{\mathbf{T}}\mathbf{A} \right)^{\mathbf{- 1}}\mathbf{A}^{\mathbf{T}}\mathbf{L}$
$\hat{\mathbf{V}}\mathbf{= A}\hat{\mathbf{x}}\mathbf{+ L = L -}{\mathbf{A}\left( \mathbf{A}^{\mathbf{T}}\mathbf{A} \right)}^{\mathbf{- 1}}\mathbf{A}^{\mathbf{T}}\mathbf{L =}\left( {\mathbf{I - A}\left( \mathbf{A}^{\mathbf{T}}\mathbf{A} \right)}^{\mathbf{- 1}}\mathbf{A}^{\mathbf{T}} \right)\mathbf{L}$
$$\hat{\mathbf{L}}\mathbf{= - A}\hat{\mathbf{x}}\mathbf{=}{\mathbf{A}\left( \mathbf{A}^{\mathbf{T}}\mathbf{A} \right)}^{\mathbf{- 1}}\mathbf{A}^{\mathbf{T}}\mathbf{L}$$
Ponieważ macierzami idempotentnymi są A(ATA)−1AT oraz I − A(ATA)−1AT to wartości wyrównane poprawek i obserwacji $\hat{\mathbf{V}}$ i $\hat{\mathbf{L}}$ są rzutami wektora obserwacji L na podprzestrzenie: modelu Ax i podprzestrzeń dopełniającą ją ortogonalnie.
Charakterystyki dokładnościowe rozwiązań
${\mathbf{\text{Cov}}\left( \hat{\mathbf{l}}\mathbf{,}\hat{\mathbf{l}} \right)\mathbf{= C}}_{\hat{\mathbf{l}}\hat{\mathbf{l}}} = {\mathbf{A}\left( \mathbf{A}^{\mathbf{T}}\mathbf{A} \right)}^{\mathbf{- 1}}\mathbf{A}^{\mathbf{T}}$ $\mathbf{\text{Cov}}\left( \hat{\mathbf{v}}\mathbf{,}\hat{\mathbf{v}} \right) = \mathbf{C}_{\hat{\mathbf{v}}\hat{\mathbf{v}}} = \mathbf{I -}{\mathbf{A}\left( \mathbf{A}^{\mathbf{T}}\mathbf{A} \right)}^{\mathbf{- 1}}\mathbf{A}^{\mathbf{T}}$
określają te same macierze idempotentne stąd
$\mathbf{\text{trace}}\left( \mathbf{C}_{\hat{\mathbf{l}}\hat{\mathbf{l}}} \right)\mathbf{=}\sum_{\mathbf{i = 1}}^{\mathbf{n}}\mathbf{\sigma}_{{\hat{\mathbf{L}}}_{\mathbf{i}}}^{\mathbf{2}}\mathbf{= rank}\left( \mathbf{A} \right)\mathbf{=}u$ $\mathbf{\text{trace}}\left( \mathbf{C}_{\hat{\mathbf{v}}\hat{\mathbf{v}}} \right)\mathbf{=}\sum_{\mathbf{i = 1}}^{\mathbf{n}}\mathbf{\sigma}_{{\hat{\mathbf{V}}}_{\mathbf{i}}}^{\mathbf{2}}\mathbf{=}n\mathbf{-}u$
Otrzymaliśmy w ten sposób wzory kontrolujące wyniki analizy dokładności. Pierwszy z nich został wyartykuowany w formie twierdzenia dla obserwacji niezależnych standaryzowanych.
Twierdzenie Otrębskiego
Średnie zmniejszenie stosunku wariancji (kwadratów odchyleń standardowych) obserwacji po wyrównaniu i przed wyrównaniem jest równe stosunkowi liczby obserwacji niezbędnych do liczby wszystkich obserwacji
$$\frac{\mathbf{1}}{\mathbf{n}}\sum_{\mathbf{i = 1}}^{\mathbf{n}}{\frac{\mathbf{\sigma}_{{\hat{\mathbf{L}}}_{\mathbf{i}}}^{\mathbf{2}}}{\mathbf{\sigma}_{\mathbf{L}_{\mathbf{i}}}^{\mathbf{2}}}\mathbf{=}\frac{\mathbf{u}}{\mathbf{n}}}$$
Iloczyn zupełny (skalarny) tablic jest liczbą
$$\mathbf{A \times B = B \times A}\mathbf{=}\sum_{\mathbf{i = 1}}^{\mathbf{n}}{\sum_{\mathbf{j = 1}}^{\mathbf{m}}{\mathbf{A}_{\mathbf{\text{ij}}}\mathbf{B}_{\mathbf{\text{ij}}}}}$$
dla tablic symetrycznych iloczyn zupełny jest równy śladowi iloczynu
trace(AB)=A × B
DOWÓD Element głównej przekątnej iloczynu
$$\left( \mathbf{\text{AB}} \right)_{\mathbf{\text{ii}}}\mathbf{=}\sum_{\mathbf{k = 1}}^{\mathbf{n}}{\mathbf{A}_{\mathbf{\text{ik}}}\mathbf{B}_{\mathbf{\text{ki}}}}\mathbf{=}\sum_{\mathbf{k = 1}}^{\mathbf{n}}{\mathbf{A}_{\mathbf{\text{ik}}}\mathbf{B}_{\mathbf{\text{ik}}}}\mathbf{\text{\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ trace}}\left( \mathbf{\text{AB}} \right)\mathbf{=}\sum_{\mathbf{i = 1}}^{\mathbf{n}}\left( \mathbf{\text{AB}} \right)_{\mathbf{\text{ii}}}\mathbf{=}\sum_{\mathbf{i = 1}}^{\mathbf{n}}{\sum_{\mathbf{k = 1}}^{\mathbf{n}}{\mathbf{A}_{\mathbf{\text{ik}}}\mathbf{B}_{\mathbf{\text{ik}}}}}\mathbf{= A \times B}$$
Odchylenie standardowe funkcji (obserwacji wyrównanej) F = fx można wyrazić iloczynem zupełnym σf2=fCxxfT=(fTf)×Cxx
Interesuje nas obliczenie odchyleń standardowych wyrównanych obserwacji. W tym celu potraktujemy macierz współczynników równań poprawek jako macierz blokową złożoną z macierzy-wierszy odpowiadającym poszczególnym obserwacjom
$$\mathbf{A =}\begin{bmatrix}
\mathbf{A}_{\mathbf{1.}} \\
\mathbf{\vdots} \\
\mathbf{A}_{\mathbf{\text{n.}}} \\
\end{bmatrix}$$
Macierz współczynników równań normalnych wyrazimy w funkcji wierszy-obserwacji
$$\mathbf{A}^{\mathbf{T}}\mathbf{A}\mathbf{=}\mathbf{A}_{\mathbf{1.}}^{\mathbf{T}}\mathbf{A}_{\mathbf{1.}}\mathbf{+ \ldots +}\mathbf{A}_{\mathbf{\text{n.}}}^{\mathbf{T}}\mathbf{A}_{\mathbf{\text{n.}}}\mathbf{=}\sum_{\mathbf{i = 1}}^{\mathbf{n}}{\mathbf{A}_{\mathbf{\text{i.}}}^{\mathbf{T}}\mathbf{A}_{\mathbf{\text{i.}}}}$$
Uzyskana suma ujawnia mechanizm współdziałania obserwacji podczas wyrównania ( i jest podstawą efektywnego algorytmu kumulacji )
Cxx=(ATA)−1 $\mathbf{\sigma}_{{\hat{\mathbf{L}}}_{\mathbf{i}}}^{\mathbf{2}}\mathbf{=}\mathbf{A}_{\mathbf{\text{i.}}}\mathbf{C}_{\mathbf{\text{xx}}}\mathbf{A}_{\mathbf{\text{i.}}}^{\mathbf{T}}\mathbf{=}\left( \mathbf{A}_{\mathbf{\text{i.}}}^{\mathbf{T}}\mathbf{A}_{\mathbf{\text{i.}}} \right)\mathbf{\times}\mathbf{C}_{\mathbf{\text{xx}}}\mathbf{=}\left( \mathbf{A}_{\mathbf{\text{i.}}}^{\mathbf{T}}\mathbf{A}_{\mathbf{\text{i.}}} \right)\mathbf{\times}\left( \sum_{\mathbf{i = 1}}^{\mathbf{n}}{\mathbf{A}_{\mathbf{\text{i.}}}^{\mathbf{T}}\mathbf{A}_{\mathbf{\text{i.}}}} \right)^{\mathbf{- 1}}$
$$\sum_{\mathbf{i = 1}}^{\mathbf{n}}\mathbf{\sigma}_{{\hat{\mathbf{L}}}_{\mathbf{i}}}^{\mathbf{2}}\mathbf{=}\sum_{\mathbf{i = 1}}^{\mathbf{n}}{\mathbf{A}_{\mathbf{\text{i.}}}^{\mathbf{T}}\mathbf{A}_{\mathbf{\text{i.}}}\mathbf{\times}\left( \sum_{\mathbf{i = 1}}^{\mathbf{n}}{\mathbf{A}_{\mathbf{\text{i.}}}^{\mathbf{T}}\mathbf{A}_{\mathbf{\text{i.}}}} \right)^{\mathbf{- 1}}\mathbf{=}}{\mathbf{C}_{\mathbf{\text{xx}}}}^{\mathbf{- 1}}\mathbf{\times}\mathbf{C}_{\mathbf{\text{xx}}}\mathbf{= trace}\left( \mathbf{I} \right)\mathbf{= rank}\left( \mathbf{C}_{\mathbf{\text{xx}}} \right)\mathbf{=}u$$
W ten sposób udowodniliśmy twierdzenie Otrębskiego dla obserwacji niezależnych. W przypadku ogólnym $\mathbf{\text{trace}}\left( \mathbf{C}_{\hat{\mathbf{L}}\hat{\mathbf{L}}}\mathbf{C}_{\mathbf{\text{LL}}}^{\mathbf{- 1}} \right)\mathbf{=}\mathbf{C}_{\hat{\mathbf{L}}\hat{\mathbf{L}}}\mathbf{\times}\mathbf{C}_{\mathbf{\text{LL}}}^{\mathbf{- 1}}\mathbf{= rank}\left( \mathbf{A} \right)$