3.1 Wstęp teoretyczny
Sekwencje wideo można przedstawić jako funkcję trzech zmiennych (x,y,t), dwie pierwsze zmienne określają współrzędne przestrzenne, natomiast zmienna t jest współrzędną czasową. Dziedziną funkcji są konkretne piksele występujące w ściśle określonym czasie, natomiast przeciwdziedziną są wartości w przestrzeni kolorów (np. RGB lub YCbCr). Zarówno argumenty jak i elementy zbioru wartości należą do zbioru liczb rzecz ywistych i są liczbami skończonymi.
W tej pracy początkowo użyto transformacji log-polar, ponieważ czyni ona algorytm detekcji i śledzenia określonego kształtu bardziej odpornym na zniekształcenia takie jak rotacja czy skalowanie, niż w przypadku badania obiektu w przestrzeni kartezjańskiej. Transformacja log-polar pozwala na uzyskanie najwyższej rozdzielczości w środku analizowanego obiektu. Rozdzielczość jest zmniejszana wraz z oddalaniem się od zdefiniowanego centrum transformacji.
Każdy obraz możemy opisać w przestrzeni biegunowej. Współrzędnymi tej przestrzeni są kąt 9 oraz promień p. Aby dokonać transformacji ze współrzędnych kartezjańskich do współrzędnych biegunowych należy posłużyć się następującymi przekształceniami:
P= \l{{x-xc)2 + {y-yc)2) |
(3.1) |
9 = arc tg -—— x — xc |
(3.2) |
gdzie xc i yc są współrzędnymi punktu określającego środek obrazu w przestrzeni biegunowej. Równania 3.1 i 3.2 nie opisują przestrzeni logarytmiczno-biegunowej. Konieczne jest dokonanie przekształcenia współrzędnej opisującej promień 3.1. W tym celu należy wykorzystać promień jako argument funkcji logarytmującej [11]:
Po = log(p) (3.3)
15