METODY PORZĄDKOWANIA NIELINIOWEGO
Założenia co do zmiennych charakteryzujących obiekty
zmienne opisujące obiekty powinny być mierzone na skali przedziałowej lub ilorazowej
zmienne powinny zostać poddane wstępnie normalizacji dla zapewnienia ich porównywalności
GRUPY METOD PORZĄDKOWANIA NIELINIOWEGO
metody dendrytowe - prowadzą do utworzenia dendrytu, który stanowi ilustrację sposobu łączenia obiektów
metody drzewkowe aglomeracyjne - prowadzą do utworzenia drzewka połączeń (tzw. dendrogramu), które stanowi ilustrację sposobu i hierarchii łączenia obiektów
METODY DENDRYTOWE
OGÓLNA CHARAKTERYSTYKA
metody dendrytowe opierają się na regułach i pojęciach teorii grafów
przez graf G(O,Γ) będziemy rozumieli zbiór porządkowanych obiektów, a przez Γ relację przyporządkowującą każdemu obiektowi ze zbioru O obiekt najbliżej od niego położony
w graficznej prezentacji grafu poszczególnym obiektom odpowiadają punkty nazywane wierzchołkami, a odcinki łączące te punkty, o długościach równym odległościom pomiędzy obiektami, nazywane są łukami lub wiązadłami
dendryt jest grafem spójnym i otwartym
graf nazywany jest spójnym, jeżeli jego każda para wierzchołków jest połączona nieprzerwanym ciągiem wiązadeł
graf otwarty charakteryzuje się brakiem cykli i pętli
cyklem jest skończony ciąg połączonych ze sobą wiązadeł, w którym początkowy wierzchołek pierwszej krawędzi stanowi jednocześnie końcowy wierzchołek ostatniej krawędzi
pętlą nazywamy cykl składający się tylko z jednego wiązadła
uporządkowanie dendrytowe polega na przyporządkowaniu obiektom poszczególnych wierzchołków dendrytu
TAKSONOMIA WROCŁAWSKA
w pierwszym etapie szukamy dla każdego obiektu Oi obiektu Oi' najbardziej do niego podobnego, wyznaczając w każdym wierszu (kolumnie) macierzy odległości D najmniejszy element:
, i,i'=1,2,...,n; i≠i'. (2.34)
otrzymane pary najbardziej podobnych do siebie obiektów przedstawiamy w postaci grafu niezorientowanego, tzn. grafu, w którym wierzchołki odpowiadające tym obiektom są połączone wiązadłami bez zaznaczania kierunku połączenia, których długości są proporcjonalne do odległości między obiektami
ponieważ kolejność połączeń w dendrycie nie odgrywa roli, z połączeń występujących dwukrotnie jedno jest eliminowane
ponieważ w dendrycie dany obiekt może występować tylko jeden raz (w łączeniu mogą występować wielokrotnie te same obiekty), połączenia występujące wielokrotnie łączone są w zespoły, nazywane skupieniami
po utworzeniu w powyższy sposób grafu sprawdzamy czy jest on spójny
jeżeli uzyskaliśmy spójny graf budowa dendrytu została zakończona
jeżeli natomiast otrzymany graf nie jest spójny to jego poszczególne składowe (skupienia) łączy się w większe zespoły
poszczególne skupienia łączymy ze sobą w miejscach określonych przez minimalną odległość między skupieniami, tworząc w ten sposób skupienia 2-giego rzędu
znajdujemy w tym celu najmniejszą odległość każdego obiektu jednego skupienia od obiektów należących do pozostałych skupień
z odległości tych wybieramy odległość najmniejszą, która zostaje wiązadłem łączącym skupienia
jeżeli graf w dalszym ciągu nie jest spójny proces ten jest kontynuowany poprzez tworzenie skupień wyższego rzędu
otrzymanie spójnego grafu kończy proces tworzenia dendrytu
uzyskane w ten sposób uporządkowanie dendrytowe jest najkrótsze (suma długości wiązadeł dendrytu jest najmniejsza) ze wszystkich możliwych uporządkowań dendrytowych
DENDRYTY PRIMA
w trakcie konstrukcji dendrytu, na każdym jej etapie, zbiór porządkowanych obiektów jest klasyfikowany do jednego z podzbiorów
pierwszy z nich, nazwijmy go A, zawiera obiekty należące na danym etapie do dendrytu
drugi, nazwijmy go B, tworzą obiekty nie należące na tym etapie do dendrytu
w kolejnych krokach włączamy do zbioru A kolejne obiekty, najbardziej do nich podobne, ze zbioru B, aż do momentu gdy zbiór B okaże się pusty
tworzymy, w pierwszym kroku, wektor d zawierający odległości wybranego obiektu od pozostałych obiektów
w wektorze tym szukamy najmniejszego elementu, a odpowiadający mu obiekt przyłącza się do zbioru A i wyłącza jednocześnie ze zbioru B
sprawdzamy, czy zbiór B już jest pusty
ponieważ zbiór B w pierwszym kroku nie jest pusty przechodzimy do drugiego kroku, ponownie tworząc wektor d, którego elementami są najmniejsze z odległości każdego z obiektów pozostających jeszcze w zbiorze B od obiektów ze zbioru A
wybieramy z wektora d najmniejszy element i włączamy do zbioru A odpowiadający mu obiekt, który usuwamy ze zbioru B
procedurę kończymy gdy wszystkie obiekty, które na jej początku znajdowały się w zbiorze B przejdą do zbioru A
obiekty przechodzące kolejno do zbioru A wyznaczają wierzchołki szukanego dendrytu
wiązadła łączące wierzchołki odpowiadają minimalnym wartościom elementów wektora d otrzymywanego w kolejnych krokach przyłączania odpowiadającym im obiektów do dendrytu
METODY DRZEWKOWE
OGÓLNA CHARAKTERYSTYKA
metody drzewkowe prowadzą do utworzenia drzewka połączeń (tzw. dendrogramu), które stanowi ilustrację sposobu i hierarchii łączenia obiektów, ze względu na zmniejszające się podobieństwo między obiektami włączonymi do drzewka w kolejnych etapach, a obiektami wcześniej włączonymi do drzewka
hierarchia połączeń pozwala na określenie wzajemnego położenia względem siebie obiektów oraz grup obiektów powstających na kolejnych etapach tworzenia drzewka
grupy podobnych do siebie obiektów tworzą na tym hierarchicznym drzewku oddzielne gałęzie
ETAPY TWORZENIA DRZEWKA
punktem wyjścia metod drzewkowych jest założenie, że każdy obiekt stanowi odrębną, jednoelementową grupę (Gr, r=1,2,...,z)
następnie, w kolejnych krokach, łączymy ze sobą grupy obiektów najbardziej do siebie podobnych ze względu na wartości opisujących je zmiennych (miarą tego podobieństwa są odległości między grupami obiektów)
w pierwszym kroku odległości między jednoelementowymi grupami obiektów G1,...,Gz są elementami wejściowej macierzy odległości D, a tym samym w macierzy D szukamy najmniejszej odległości pomiędzy tymi grupami obiektów:
, i=1,2,...,nr; i'=1,2,...,nr'; r,r'=1,2,...,z; r<r'. (2.35)
gdzie:
drr' - odległość r-tej od r'-tej grupy.
obiekty najbardziej do siebie podobne łączymy w jedną grupę, co powoduje zmniejszenie wyjściowej liczby grup o jeden, rozpoczynając budowę drzewka połączeń
następnie wyznaczamy odległości nowo utworzonej grupy obiektów od wszystkich pozostałych grup obiektów
odległości te wstawia się do macierzy odległości D w miejsce wierszy i kolumn odpowiadających obiektom (grupom obiektów) połączonych w jedną grupę
procedurę łączenia grup obiektów powtarza się do momentu gdy tworzą one jedną grupę (zostało utworzone pełne drzewko połączeń), czyli n-1 razy
po każdym etapie grupowania określamy odległości nowopowstałej grupy obiektów od pozostałych grup obiektów
odległości te tworzą nową, aktualną na danym etapie grupowania, macierz odległości o coraz mniejszym wymiarze (n-u) (n-u), gdzie u jest u-tym etapem łączenia grup obiektów
Ogólna formuła wyznaczania odległości nowo powstałej grupy obiektów Gr”, poprzez połączenie grup obiektów Gr i Gr', od pozostałych grup obiektów Gr'”, przy tworzeniu drzewka połączeń:
, (2.36)
gdzie:
- współczynniki przekształceń odmienne dla różnych metod drzewkowych.
METODA NAJBLIŻSZEGO SĄSIEDZTWA
(METODA POJEDYNCZEGO WIĄZANIA)
w metodzie tej odległości między dwoma grupami obiektów jest definiowana jako odległość pomiędzy najbliższymi obiektami (najbliższymi sąsiadami) należącymi do dwóch różnych grup obiektów (najmniejsza z odległości pomiędzy dwoma dowolnymi obiektami należącymi do poszczególnych grup), co od strony formalnej możemy przedstawić następująco:
,
i=1,2,...,nr; i'=1,2,...,nr'; r,r'=1,2,...,z; r≠r', (2.37)
gdzie:
Oi=[zij], j=1,2,...m. (2.38)
parametry przekształceń w formule (2.36) mają wartości: αr=0,5, αr'=0,5, β=0 i γ=0,5
w wyniku stosowania tej metody obiekty łączą się w grupy tworzące „łańcuchy”
Rys. 2.7. Odległości międzygrupowe w wybranych metodach drzewkowych.
Metoda najbliższego sąsiedztwa Metoda najdalszego sąsiedztwa
Metoda średnich połączeń Metoda Mediany
Metoda środków ciężkości Metoda Warda
METODA NAJDALSZEGO SĄSIEDZTWA
(METODA NAJDALSZEGO WIĄZANIA)
odległość między dwoma grupami obiektów jest tutaj określana jako odległość pomiędzy najdalszymi obiektami (najdalszymi sąsiadami) należącymi do różnych grup obiektów (największa spośród odległości pomiędzy dwoma dowolnymi obiektami należącymi do różnych grup), co od strony formalnej można zapisać:
,
i=1,2,...,nr; i'=1,2,...,nr'; r,r'=1,2,...,z; r≠r'. (2.39)
parametry przekształceń w formule (2.36) przyjmują wartości: αr=0,5, αr'=0,5, β=0 i γ=-0,5
metoda ta prowadzi do łączenia się obiektów w grupy tworzące „kępki”
METODA ŚREDNIEJ MIĘDZYGRUPOWEJ
(METODA ŚREDNICH POŁĄCZEŃ)
w metodzie tej odległość między dwoma grupami obiektów obliczana jest jako średnia arytmetyczna odległości między wszystkimi parami obiektów należących do dwóch różnych skupień:
,
r,r'=1,2,...,z; r≠r'. (2.40)
parametry przekształceń przyjmują w formule (2.36) wartości:
αr=
, αr'=
, β=0 i γ=0.
powyższa metoda może dawać w efekcie drzewka połączeń składające się zarówno z grup obiektów tworzących „kępki” jak i z grup obiektów tworzących „łańcuchy”
METODA MEDIANY
w metodzie mediany odległość między grupami obiektów definiowana jest jako mediana odległości pomiędzy wszystkimi parami obiektów należących do dwóch grup:
,
i=1,2,...,nr; i'=1,2,...,nr'; r,r'=1,2,...,z; r≠r'. (2.41)
parametry przekształceń w formule (2.36) mają wartości: αr=0,5, αr'=0,5, β=-0,25 i γ=0.
metoda ta powinna być stosowana gdy w zbiorze odległości pomiędzy obiektami należącymi do dwóch skupień występują odległości znacząco odstające od innych odległości
METODA ŚRODKÓW CIĘŻKOŚCI
odległość między dwoma grupami w tej metodzie określona jest jako odległość między środkami ciężkości tych grup:
,
i=1,2,...,nr;i'=1,2,...,nr'; r,r'=1,2,...,z; r≠r', (2.42)
gdzie:
- odległość środka ciężkości r-tej grupy od środka ciężkości r'-tej grupy.
- środki ciężkości odpowiednio r-tej i r'-tej grupy obiektów,
przy czym:
, (2.43)
. (2.44)
parametry przekształceń we wzorze (2.36) przyjmują wartości:
αr=
, αr'=
, β=
i γ=0.
METODA WARDA
w metodzie tej odległości między dwoma grupami obiektów nie można przedstawić wprost za pomocą odległości pomiędzy obiektami należącymi do tych grup
dwie grupy obiektów przy tworzeniu drzewka połączeń, na dowolnym etapie, są łączone w jedną grupę tak aby zminimalizowć sumę kwadratów odchyleń wszystkich obiektów z tych dwóch grup od środka ciężkości nowej grupy, która powstanie w wyniku połączeń tych dwóch grup (na każdym etapie łączenia grup obiektów, ze wszystkich możliwych do łączenia grup obiektów, łączy się w jedną grupę te grupy, które w rezultacie tworzą grupę obiektów o najmniejszym zróżnicowaniu ze względu na opisujące je zmienne)
miarą zróżnicowania grupy obiektów jest kryterium ESS (Error Sum of Squares) o postaci:
, (2.45)
gdzie:
- odległość i”-tego obiektu należącego do nowopowstałej r”-tej grupy od środka ciężkości tej grupy.
. (2.46)
w metodzie Warda parametry przekształceń we wzorze (2.36) przyjmują wartości:
αr=
, αr'=
, β=
i γ=0.