P3200175

P3200175



278 4. Analiza skupici

W metodzie Warda nie ma gwarancji, że dla wszystkich zbiorów danych otrzymywać będziemy optymalne (w sensie sumy kwadratów) grupy tworzone hierarchicznie. Połączenie hierarchizacji z optymalizacją powodować może zniekształcenie struktury danych (zob. Gordon, 1981) .

Mimo swoistego kryterium łączenia obiektów metoda Warda mieści się w schemacie Lance a i Williamsa, pod warunkiem że punktem wyjścia do procesu aglomeracji jest macierz kwadratowych odległości euklidesowych90, a wówczas algorytm przeliczania odległości na każdym etapie łączenia jest następujący

n. + n


n. + n. + n


■d.. +


n, + n. + n


fi; + n. 4- n


(4.105)


gdzie: djr == (<i^.2))2, podobnie jak dis, i nie może to być jakakolwiek inna miara odległości, jak tylko kwadratowa odległość euklidesowa91.

Metoda Warda wykazuje tendencję do tworzenia skupień o tej samej w przybliżeniu liczbie obiektów (Pielou, 1984). Jeżeli pojedynczy obiekt ma jednakową odległość od centroidów dwóch skupień o różnej liczbie obiektów, to ten punkt połączy się ze skupieniem o mniejszej liczbie obiektów. W wyniku tego małe skupienia przyłączają nowe obiekty szybciej niż skupienia duże i nie ma możliwości, aby tworzyły się łańcuchy. Tę własność metody Warda można w niektórych okolicznościach traktować jako pożyteczną.

Można mieć wątpliwości, czy metoda ta powinna być klasyfikowana w tej samej klasie co metody poprzednie. Jednak mimo odmiennego kryterium włączania obiektu do skupienia lub łączenia skupień, zaliczana jest do metod hierarchicznych (zob. Ludwig i Reynolds, 1988). Jeżeli obiekty stanowią próbę losową, to istnieje możliwość stosowania statystycznych testów homogeniczności lub hetero-geniczności skupień, w zależności z jakiej populacji pochodzą.

Przykład 4.8. (grupowanie hierarchiczne - metoda Warda)

Również metodę Warda zastosowano do macierzy odległości D(0) z przykładu 4.3, z tym że odległości podniesiono do kwadratu. Kierując się wzorem (4.105), przeliczano odległości od nowo tworzonych skupień. Na pierwszym oraz na dru-** Techniki minimum wariancji są łatwe do przeprowadzenia i efektywne, jeśli grupowanie wyko-nuje się po analizie głównych składowych, a klasyfikowane obiekty są lokowane według swych współrzędnych na pierwszej osi układu składowych (zob. l^ebart, 1984). W takim ujęciu grupowanie jest sprowadzone do jednego (zbiorczego) wymiaru.

Odpowiedź na pytanie, dlaczego punktem wyjścia dla metody Warda może być macierz kwadratowych odległości euklidesowych, kryje się w twierdzeniu F.dwardsa i Cavalli-Sforzy (zob. punkt 4.7 2).

91 W przykładzie, który towarzyszy kolejnym przedstawianym metodom, pierwsze dwa obiekty o numerach 2 i 7 połączyły się na poziomie 2,17 i jest to pierwszy najmniejszy przyrost sumy kwa dratów odchyleń od centroidu tego pierwszego skupiska {Z 7). Formalnie rzecz biorąc, przyrost ten jest dwa razy mniejszy (zob. wzór 4.104).

4,6. Grupowanie hierarchiczne

-------279

gim etapie połączyły się pojedyncze obiekty w skupienia dwuelementowe na po ziomachd z wyjściowej macierzy l)11 Dendrogram narysowano, uwzględniając poziomy łączenia w pierwszej potędze (zob. rysunek 4.14j.

Poziomy

-c.

—<

*)_ 4,6226

_r-<

>—| Ml

4    5    6    2    7    1    3 0biel“y

Rysunek 4.14. Dendrogram (metoda Warda)

Na wyższych etapach łączenia, gdy korzystamy już z odległości przeliczonych, poziomy łączenia skupień w metodzie W arda są znacznie większe od odległości w innych metodach, z wyjątkiem metody najdalszego sąsiada (tu są one porównywalne). Hierarchia połączeń w tej metodzie jest identyczna jak w meto dzie elastycznej (zob. przykład 4.9), choć poziomy łączenia są tu nieco wyższe

4.6.8. Strategia elastyczna oraz schemat Lance’a i Wilłiamsa

Powróćmy jeszcze na chwilę do wspomnianego na wstępie ogólnego schematu Lancea i Wilłiamsa - liniowego kombinatorycznego równania, zapisywanego w postaci

d¥ = axdir + a2dis + fidn + y\dit -</J    (4.106)

Identyfikacja parametrów a, ,a2,/? oraz y dla poszczególnych strategii grupowania hierarchicznego jest oczywista. Podano je dalej w tablicy 4.4.

Warto jednak najpierw podać pewną mniej znaną strategię, znaną z zastosowań ekologicznych (zob. Ludwig i Reynolds. 1988) Lance i Williams zaproponowali w 1967 r. zasadę, w której parametry równania rekurencyjnego (4.106) przyjmują wartości

a\ +a2 +/?= 1;    =cr2; fi<l; y=0    (4.107)

Stwierdzili oni, że najwłaściwsze są małe ujemne wartości parametru fi i przyjęli ^=-0,25. W świetle ograniczeń (4.107) otrzymali oni a, = a2 =0,625, co za-


Wyszukiwarka

Podobne podstrony:
P3200174 27t Analiza skupici kialac). Na pierwszych etapai h, na których łączą się w jedno skupienie
skanuj0039 (52) Nie ma to jak zabawa w berka. Ja
że doprowadził do tego, że te piękne słowa tu dziś padły. Nie ma wątpliwości, że kiedyś została komu
skanuj0254 48 Rozdział 2 sować, czy też strategia przedsiębiorstwa nie ma znaczenia ze względu na se
IMG02 556 V. Teoria opodatkowania darczą i spółki cywilne, gdzie takiego ograniczenia nie ma. W
scandjvutmp12801 287 wemi. Nie ma wątpliwości, ze takie uocne życie sztuką tylko, za pomocą przeciw
7. Analiza ilościowa Termin „analiza ilościowa” ma różne znaczenie dla różnych analityków. Kiedyś,
2009 06 23 0938 23 Ukryty - respondent nie ma świadomości, ze jest przedmiotem badania, stąd nie wyr

więcej podobnych podstron