oraz
jest właśnie 3,18.
Wyniki łączenia w każdym kolejnym kroku można przedstawić w postaci wykazu wstępującego ciągu uzyskiwanych partycji, z wyliczeniem skupień, które daną partycję tworzą, oraz poziomu, na którym dana partycja zaistniała:
Krok fc |
Poziom |
Skupienia |
1 |
1 |
2,17 |
{2.7}. |
1.3.4.5.6 |
2 |
2.51 |
{2.7}. {5,6}, |
1.3,4 |
3 |
2.75 |
{1.2.7}, {5,6}. |
3,4 |
4 |
3,18 |
{1.2.5,6,7}. |
3.4 |
5 |
3,50 |
{1,2,3,5,6,7}, |
4 |
6 |
4,17 |
{1.2,3,4,5,6.7} |
Podstawowa własność metody najbliższego sąsiada polega na tym, że dwie podgrupy, które mają choćby jedno połączenie między obiektami, które je tworzą, nie pozostają odrębne (zob. Gordon, 1981). Przejawia się to tym, że skupienia są bardzo rozproszone, do tego stopnia, że dwa obiekty w skupieniu mogą nie mieć ze sobą wiele wspólnego. Metoda ta, łącząc grupy według najkrótszej odległości między nimi, nie umożliwia zatem odróżnienia słabo rozdzielonych grup77. Poprzez jednostki najbliższe, które niejako pośredniczą między kolejnymi skupieniami, tworzą się całe ich łańcuchy, przy czym skupienia łączą się w łańcuchy na względnie niskim poziomie odległości (zob. rysunek 4.6). Własność metody polegająca na jej zdolności do ujawniania wydłużonych pierścieniowatych grup znana jest jako tworzenie łańcuchów (ang. chaining) .
Z drugiej jednak strony metoda najbliższego sąsiada jest jedną z niewielu metod, które umożliwiają wyśledzenie takich nieelipsoidalnych grup, jeśli tylko taką szczególną strukturę ma zbiór obiektów (zob. metodę mediany; pkt 4.6.6).
77 Można je określić jako grupy kompaktowe. Na tle tej „niedogodności" Wishart zasugerował, aby obiekty pośredniczące między takimi grupami usuwać przed kolejnymi etapami grupowania tą metodą. Identyfikacja takich obiektów powinna się odbywać na podstawie tego, że mają mało sąsiadów (zob. Gordon. 1981}. Rzecz jasna, że kryteria identyfikacji powinny być bardziej precyzyjne.
71 Własność ta manifestuje się graficznie płaskim nierzadko dendrogramcm. ze słabo rozróżniał-nymi połączeniami na niskim poziomie odległości. Jest to nieraz tylko złudzenie, gdyż metoda najbliższego sąsiedztwa (a także najdalszego) tworzy dendrogram o wzrastających odległościach, na których następują kolejne łączenia, przez co skala odległości na dendrogramie zostaje nadmiernie ściśnięta, a w następstwie wartości względnie niskich odległości są na skali bardzo zagęszczone.
Rysunek 4.6. 1 worzenic się łańcuchów w metodzie najbliższego ^siada
Można więc powiedzieć, ze metoda najbliższego sąsiada komenlruje się nie jako na poszukiwaniu skupisk, które są wzajemnie izolowane lec/ me zwraca uwagi na wewnętrzną ich spójność (zob. Gordon, 1981 j jeśli struktura grupowa jest jednak inna, to użycie tej metody kryje pewne niebezpieczeństwo - w skraj nych przypadkach wszystkie obiekty mogą „szybko” znaleźć się w jednym łan cuchu, jeśli nawet obiekty na przeciwległych jego krańcach są w rzeczywistości zupełnie niepodobne (zob. Johnson i Wichern, 1992, Hair i m 1995 /
Grupy formowane metodą najbliższego sąsiedztwa są raczej niezmienne względem sposobu pomiaru odległości, dając względnie takie same konfiguracje
Pobieżne porównanie w naszym przykładzie rzeczywistych odległości między obiektami w macierzy D 0 oraz odległości zaznaczonych na dendrogramic pozwala dostrzec, że rzeczywiste odległości niejako skurczyły się Obiekty znacznie oddalone od pozostałych (np. nr 4 i 3) zostały dość szybko włączone do wczes niej utworzonych skupień na poziomie odległości nadspodziewanie niskim Drzewko połączeń dla metody najbliższego sąsiada jest najniższe ze wszy stkich drzewek. Metodę najbliższego sąsiada można więc określić jako zmniejszającą od ległości (ang. space-conlracting).
4.6.3. Metoda najdalszego sąsiada
Ograniczenia metody najbliższego sąsiada skłaniają do rozważenia innych możliwych strategii. Można by uczynić założenie, że określając odległości między skupieniami, nic będziemy się kierowali położeniem najbliższego obiektu w ugrupowaniach, ale na przy kład położeniem obiektu najbardziej oddalonego, który potencjalne połączenia będzie raczej oddalał niz je zbliżał
Koncepcja, aby o możliwym połączeniu skupień decydowały odległości między najbardziej oddalonymi w skupieniach obiektami leży u podstaw metody najdalszego sąsiada (ang complctc Jinkagc. furthest neighbour, diameter method. maximum method)80. Stosując to podejście, na każdym etapie łączy się oczywiście te dwa skupienia, które mają najmniejszą wśród największych odległości. Implikuje to prze-
79 Na temat analizy macierzy odległości (lub podobieństwa) i dendrogramu zobacz punkt 4.6.9.
80 Metoda o oryginalnej nazwie complctc linkage method została zaproponowana przez Sórenscna (1948). Następnie przez Johnsona (1967) nazwana została rruurimum method.