Między wspomnianymi grupami miar zachodzą związki1 które można ujmować w różny sposób, np.:
p(x.y) = c-d(x,y), I
gdzie p(x,y) to podobieństwo, d(x,y) — odległość. Nie zmienia to istoty zagadnienia grupowania,i nie wpływa na jego wyniki. Stąd często w literaturze z zakresu taksonomii terminy „odległość" i „podobieństwo" używane są zamiennie, należy jednak pamiętać o ich przeciwnym znaczeniu.
’ Do przydzielania obiektów do klas w ^(^^Źak^omet^cżnych wykorzystuje się także odległość między obiektem a skupieniem, np. określoną jako:
* Średnią, maksymalną lub minimalną z odleglośd nuędzy wj^żriionym obiektem (O) a wszystkimi obiektami (o,) należącymi doćkupierua&^njp.:
BMHfl yj(l89M |
(2.3) |
i | |
PJ = min {d(0,o,)). |
twih |
f^JOorzystiyąc określony sposób pomiaru odległości (podobieństwa) obiektów wielowymiarowej przestrzeni cech można podzielić zbiór (2 na podzbiory (grupy) tak, by zawierały obiekty najbardziej do siebie podobne. pj| ramach taksonomiinumeryezneji liczba algorytmów realizujących Wspomniany podział obiektów jest bardzo duża. Stosowane procedury można jednak zaliczyć w większości do jednej z poniższych technik: ^^S^^^min^cyjno-iteracyjnych, za pomocą których dokonuje się podziału zbioru obiektów na k rozłącznych podzbiorów, przy czym ' wartość parametru & jest podawana przez badacza.
Hierarchicznych, w ramach których skupienia tworzą binarne drzewa, żgdzfer-liście -reprezentują poszczególne obiekty, a węzły S ich grupy. Skupienia;,wyższego poziomu zawierają w sobie skupienia niższego
SjrfeuFworzących skupienia nierozłączne, w których niektóre obiekty ze gżmqpi. mogą należeć3 do więcej niż jednej grupy.
Jjllljipfc pierwszej z wymienionych grup metod polega na tym, że optymalizowana jest pewna funkcja jakości podziału obiektów. Najczęściej ćhodzi p^to.r.bj^roSmifeówanie.1 (mierzone np. za pomocą wariancji) mWelyóWf w grupach było jak najmniejsze, a między grapami — jak najwększe.^unkcję kryterium można zapisać w postaci formuły minimalizującej ślad macierzy wariancji wewnątrzgrupowej (W):
min{tr(W)}
lub maksymalizującej ślla macierzy \ś?anśnpji międzygrupowęj (M)s: max (tr(M)}.
Grupowanie obiektów w ramach metod; optymalizacyjnych przebiega, ogólnie hibrac,r:W(jtty^^ efapacli:,-
1. Wyznacz (np.- lófc^^jif^ óbielaóiyj tworzących .-środki (zaimki) początkowych skupień. .. .
*; t2^i|>r?ydziel poszczególne obiekty do skupień, których środek ciężkościleżynajbliżej.
3. Przenoś .obiekty, między skupieniami tak, by pzyskać poprawę jakości,
5 Czasami wykorzystuje się też macierz wariancji ogólnej T — W+M.
29
Odległość między obiektem (0) a reprezentantem (0R) obiektów należących do skupienia: abstrakcyjnym, np. będącym środkiem cjgżkóści, lub rzeczywistym, najbardziej podobnym do pozostałych' obiektów skupienia,, nfh tutalanym^t^ęyz.formułą:
0R = jo,: min £ d(oj,oĄ. (2.6)
W podobny sposób ustala się odległość między grupami (skupieniami) obiektów^ ' -