18384 P3200179

18384 P3200179



286 4. A na li/a skupień

Łatwo jest zauważyć, że żadna metoda aglomeracyjnego grupowania hierarchicznego nie zapewnia w tym przykładzie odpowiednio dobrej zgodności. Może to sugerować, że dane nie mają wyraźnej struktury grupowej. Pomijając dwie pary obiektów: (2,7) oraz (5.6), które wykazują duże podobieństwo „akceptowane" przez wszystkie strategie grupowania, inne obiekty cechują się dużym ładunkiem różnorodności, który powoduje, że łączą się one w skupienia na zgoła nieoczekiwanych poziomach, zależnie od metody przeliczania odległości. W takiej sytuacji me mają już większego znaczenia wartości współczynnika korelacji kofene-tycznej, jakkolwiek warto podkreślić szczególnie mizerny efekt zastosowania metody najbliższego sąsiada. W zestawie analizowanych strategii wyróżniają się: metoda średniej grupowej, metoda centroidalna oraz metoda mediany. Te trzy metody sugerują ewentualne istnienie dwóch skupień: (1,2,7) oraz (4,5,6), z wątpliwym położeniem jednostki 3, która być może jest wyizolowana.

Wykonano wiele badan nad poszczególnymi metodami grupowania hierarchicznego i miarami oceny uzyskiwanych wyników grupowania. Stwierdzono na przykład, iż metodą, która maksymalizuje współczynnik korelacji kofenetycznej jest często metoda średniej grupowej (co potwierdza nasz przykład - por. tablicę 4.6).

Współczynnik korelacji kofenetycznej można obliczać dla dwóch macierzy kofenetycznych C 1 i C ~ otrzymanych dwiema różnymi metodami grupowania hierarchicznego, albo też dla dwóch różnych macierzy odległości lub podobieństwa otrzymanych w wyniku zastosowania różnych miar. Sneath i Sokal (1973) zaproponowali termin korelacje macierzowe (ang. matrix correlations) jako zbiorczą nazwę dla wszystkich trzech zastosowań współczynnika korelacji.

Współczynnik korelacji kofenetycznej wymaga pewnej dyskusji. Z formalnego punktu widzenia może on przyjmować wartości z przedziału [— 1, 1]. Merytorycznie zaś realizować się będą tylko wartości dodatnie od 0 do 1 - rosnącym rzeczywistym odległościom odpowiadają przeciętnie rosnące wartości odległości na dendrogramie. Wartości równej 1 współczynnik osiągnąć praktycznie nie może. Zastanówmy się, w jakiej sytuacji są możliwe wartości wysokie, bliskie 1.

1 Gdy rzeczywiste odległości różnią się tak nieznacznie, że żaden sposób ich przeliczania zbytnio ich nie wypaczy. Wówczas odległości dendrogramu będą mało różniły się od odległości rzeczywistych. Zachodzi jednak obawa, że zbiór obiektów może nie mieć w takiej sytuacji struktury grupowej.

2. Przeciętnie wyższe powinny być współczynniki dla metod mniej wypaczających odległości, czyli opartych na uśrednianiu odległości w procesie przeliczania.

Stwierdzenia te wymagają oczywiście empirycznej weryfikacji.

Warto jeszcze zastanowić się nad istotą współczynnika korelacji kofenetycznej. Mówi się, że jest on miarą dopasowania dendrogramu do macierzy od-

jjcci co oznacza owe „dopasowanie ' Z c ałą pewnością me oznac/.a dokładnego odtworzenia przez dendrogram odległości fenetycznych. gdyż jest to niemożliwe (poza paroma najmniejszymi odległościami). Chodzi więc o to. czy dendrogram nie wypacza odległości, zawłaszcza jednokierunkowo. Odległości mogą bowiem

jegłości lub też tego. jak dendrogram „podsumowuje rzeczywiste odległości''


być zaniżane w procesie przeliczania, nawet do tego stopnia ze trudno jest osia


tecznie rozróżnić grupy. Mogą być też one zwiększane, przez co nietrudno o elekt przeciwny - podzbiory mogą się sztucznie rozdzielać Odległości dendrogramu powinny raczej utrwalać względne relacje między rzeczywistymi odległościami Inne sposoby oceny grupowania są oparte na różnicach odległości w dwóch porównywanych macierzach: wyjściowej macierzy odległości i macierzy kole netycznej. Oceniany jest więc poziom niezgodności ang di:,urdui^e■ między d, acn w macierzach D i C. Wykorzystują one niektóre relacje, jakie zachodzą między sumami odległości w tych macierzach: £drt oraz He.. różnicami między odpo biadającymi sobie odległościami: dr) — cn oraz ich sumami X-'d cf jak można oczekiwać, w metodzie najbliższego sąsiada mamy drcr > 0. w metodzie najdalszego sąsiada mamy sytuację odwrotną, dn — cr <0 \\ pozostałych nato miast metodach różnice odległości są zarówno dodatnie tak i ujemne W konsek wencjisumy tych różnic będą bądź to dodatnie (w metodzie najbliższego sąsiada zawsze), bądź też ujemne (w metodzie najdalszego sąsiada zawsze Można zatem oprzeć ocenę grupowania na wielkości tej sumy. która oczy w iście spełnia relację


4 112

Dodatnia suma różnic (lub różnica sum) będzie świadczyła o łączny m spłasz czeniu odległości na dendrogramie w stosunku do odległości wyjściowych i od wrotnie - ujemna suma różnic będzie informowała o rozciągnięciu odległości Im większa jest bezwzględna w artość tej w ielkosci, tym gorzej dendrogram oddaic rzeczywiste odległości, bez względu na kierunek wy paczenia (zob. tablica 4.6, wktórej w przedostatnim w ierszu podano wartości tej sumy dla porównywanych metod grupowania). Wartość sumy H(dncn ) bliska 0 nic musi jednak świadczyć

0    tym, że dendrogram dobrze podsumow uje odległości drt. gdyż różnice ujemne

1    różnice dodatnie, nawet duże, mogą się znosić.

W każdym bądź razie badanie różnic było genezą znanego w literaturze przedmiotu wskaźnika całościowego dopasowania5



(4.113)


Gnanadcsikan (1997).

100 Ma on konstrukcję typową dla miar podobieństw a struktur



Wyszukiwarka

Podobne podstrony:
P3200179 286 4. A na li/a skupień Łatwo jest zauważyć, że żadna metoda aglomeracyjnego grupowania hi
P3200179 286 4. A na li/a skupień Łatwo jest zauważyć, że żadna metoda aglomeracyjnego grupowania hi
P3310044 2*6 4 Anali/a akuii ł atwo jest zauważyć, że żadna metoda aglomeracyjnego grupowania hierar
img222 sposobu jest lo. że ocena macierzy I oparta jest teraz na J próbach i w konsekwencji obliczan
page0222 218 wego. Wielki zaś dowód szkoły spirytualistycznej na korzyść jedności „ja“ jest ten, że
39534 img033 (19) Dochód narodowy liczony na głowę mieszkańca rocznie jest skorelowany ze zużyciem e
CAM00138 82 Wojny marketingowe na rynku, może łatwo nabrać przekonania, że „jesteśmy najlepsi” i „ni
296 6. PRZEKSZTAŁTNIKI NAPIĘCIA STAŁEGO NA NAPIĘCIE STAŁE Energia jest pobierana ze źródła prądowego
328 V. Funkcje wielu zmiennych tego punktu. Tak jak i wyżej, łatwo jest dowieść, że przy dostateczni
img033 (19) Dochód narodowy liczony na głowę mieszkańca rocznie jest skorelowany ze zużyciem energii
ANKIETA Proszę o dokładne odpowiedzi na pytania. Ankieta nie jest anonimowa ze względu na potrzebę z
img023 (29) 44 Reguła S.T.O.P. LO O Zgubić się można na różne sposoby. Pierwszy jest taki, że chwilo
img266 Łatwo jest stwierdzić, że te rodzaje prac dotyczą organizacji życia grupy dzieci. Wykonywanie

więcej podobnych podstron