280 4. Analiza skupień
pewnia, żc a, + «2 +/5 = 19~. Tak zdefiniowana strategia nosi nazwę strategii elastycznej (ang. Jlexible). Wzór algorytmiczny na przeliczanie odległości w tej strategii można by zapisać w postaci
(4.108)
_ 5{d^ + du) dn
8 “T
Przykład 4.9. {grupowanie hierarchiczne - metoda elastyczna)
Metoda elastyczna zastosowana do macierzy odległości D10’ z przykładu 4.3 daje następujący dendrogram (rysunek 4.15).
Poziomy
Rysunek 4.15. Dendrogram (metoda elastyczna)
Otrzymaliśmy dendrogram, siódmy z kolei, który jest bardzo podobny do diagramu z metody najdalszego sąsiada. Różnica w konfiguracji polega na innej kolejności łączenia skupień na dwóch ostatnich etapach. Z punktu widzenia kolejności łączących się jest on identyczny z dendrogramem uzyskanym metodą Warda, choć poziomy łączenia są tu nieco niższe.
Wszystkie metody grupowania hierarchicznego są czułe na występowanie obiektów oddalonych (ang. outliers), bowiem nie mają żadnego mechanizmu umożliwiającego wykrywanie źródeł błędów i zróżnicowania93. Występowanie w zbiorze obiektów takich jednostek oddalonych powoduje wizualne (nie rzeczywiste) spłaszczenie (na dendrogramie) odległości, na których następują połączenia, a przez to nierzadko czyni drzewko połączeń nieczytelnym.
Z przeglądu własności strategii grupowania hierarchicznego, jak również odpowiadających im dendrogramów wynika, że dają one różniące się wyniki. O pewnych metodach, takich jak metoda średniej grupowej, metoda centroidalna czy 1 2 strategia elastyczna, można powiedzieć, że zachowują przestrzeń (ang. spocę eon serving) w tym sensie, że tworzenie się skupień na rożnych poziomach łączenia po woduje względnie niewielkie zniekształcenie odległości w porównaniu z wyj ściową macierzą odległości O '". Metodami zaś, które odległości zniekształcają, są metody najbliższego i najdalszego sąsiada Z kolei metody cenlroidalnc środka ciężkości oraz mediany cechują się dodatkowo własnością, która pozwala je ok reślić jako „odwracające" (ang. reversals). Cecha ta manifestuje się tym ze od ległości między środkami ciężkości pewnych par mogą być mniejsze niz między innymi parami, które połączyły się już we wcześniejszych fazach hierarchicznego grupowania3 4. Jeżeli metoda grupowania odwraca odległości łączenia to miara odległości między skupiskami nie jest ultrametryką i mówimy ż< metoda nie jest monotoniczna. Oznacza to więc, że sekwencja odległości między parami skupisk łączących się na kolejnych etapach łączenia nie stanowi rosnącego « lągu wartości Stwierdzenie to odnosi się także do metody mediany I ylko w przypadku, gdy suma parametrów algorytmu Lance’a i Williamsa jest równa 1 (a + u . fi = 1 sukcesywne hierarchiczne łączenie jest monotoniczne a wspomniana wyżej „odwracałność” nie występuje5. Właśnie dlatego strategia elastyczna może być w tym kontekście wyróżniona, a jej głów na dodatnia cecha sprow adza się do tego że poprzez parametr /?, który kontroluje własność zachowania odległości prze strzeń może być albo poszerzana albo zawężana Na przykład, jeżeli fi ma wartość mniej więcej -0,25, to odległości są zachowywane: ale jeśli wartości parametru są niższe (mniejsze niż —0,25), to zniekształcenie idzie w kierunku poszerzenia przestrzeni i odwrotnie w przeciwnym przypadku (Ludwig i Reynolds 1988 Praktyka zastosowań aglomeracyjnych technik grupowania hierarchicznego, w świetle omówionych własności, jest nierzadko wątpliw a, tak jakby te własności niebyły użytkownikom znane lub świadomie przez nich ignorowane Bo tylko tak można rozumieć uporczyw e stosowanie np. metody najbliższego czy najdalszego sąsiada6.
92 Mogą w tym zakresie być inne rozwiązania. Późniejsze badania wskazują, że dobre wyniki u/.ys kuje się dla fi = -0,50 (zob. Everitt, 1993).
Samo grupowanie hierarchiczne można potraktować jako nieformalną metodę wykrywania obiektów oddalonych.
Zobacz punkt 4.6.7.
Tę własność metody określa się jako brak monotoniczności t metoda ccntroidalna nie jest monotoniczna). Czytelnik może we własnym zakresie poklasyfikowac następujące punkty w przestrzeni dwuwymiarowej: >4(6.12,). IĄ6. 24). Ć( 16,4.18,8). D(26.10), Et 34.6i oraz F( 34.2 15)
9(' Ściślej mówiąc, aby nic wystąpiła własność ..odwracania". spełnione muszą być trzy warunki odnośnie do parametrów równania Lance a i Williamsa > —minia .a,\ a + a. > 0 oraz cr, + a2 + /9> 1.
Metody najdalszego i najbliższego sąsiada są łatwe w zastosowaniu bez komputera, a przez to są bardzo przydatne do wyjaśnienia istoty grupowania hierarchicznego. Są one zatem najczęściej i naj szerze) opisywane (także w niniejszym opracowaniu) Gdy współcześnie mamy do dyspozycji zaawansowane pa et> statystyczne z wieloma strategiami grupowania hierarchicznego, to wybór i tak pa f"’1 ,c s ra e®*c'. lo,c najlepiej znamy i przed którymi nie czujemy lęku. choć często i tak Y • ■ mudiniają sobie ich dobrych i słabych stron.