P3310044

P3310044



2*6 4 Anali/a akuii

ł atwo jest zauważyć, że żadna metoda aglomeracyjnego grupowania hierar eh ii znego mc zapewnia w tym przykładzie odpowiednio dobrej zgodności. Może to sugerować, ze dane me mają wyraźnej struktury grupowej. Pomijając dwie pary obiektów: (2.7) oraz (5,6), które wykazują duże podobieństwo „akceptowane" przez wszystkie strategie grupowania, inne obiekty cechują się dużym ładunkiem i óżnorodności, który powoduje, że łączą się one w skupienia na zgoła nieocze-kiwanych poziomach, zależnie od metody przeliczania odległości. W takiej sytuacji nie mają już większego znaczenia wartości współczynnika korelacji kofene-tycznej, jakkolwiek warto podkreślić szczególnie mizerny efekt zastosowania metody najbliższego sąsiada. W zestawie analizowanych strategii wyróżniają się: metoda średniej grupowej, metoda centroidalna oraz metoda mediany. Te trzy metody sugerują ewentualne istnienie dwóch skupień: (1,2,7) oraz (4,5,6), z wątpliwym położeniem jednostki 3, która być może jest wyizolowana.

Wykonano wiele badań nad poszczególnymi metodami grupowania hierarchicznego i miarami oceny uzyskiwanych wyników grupowania. Stwierdzono na przykład, iż. metodą, która maksymalizuje współczynnik korelacji kofenetycznej jest często metoda średniej grupowej (co potwierdza nasz przykład - por. tablicę 4.6).

Współczynnik korelacji kofenetycznej można obliczać dla dwóch macierzy kofenetycznych C'n iCm otrzymanych dwiema różnymi metodami grupowania hierarchicznego, albo też dla dwóch różnych macierzy odległości lub podobieństwa otrzymanych w wyniku zastosowania różnych miar. Sneath i Sokal (1973) zaproponowali termin korelacje macierzowe (ang. matrbc correlations) jako zbiorczą nazwę dla wszystkich trzech zastosowań współczynnika korelacji.

Współczynnik korelacji kofenetycznej wymaga pewnej dyskusji. Z formalnego punktu widzenia może on przyjmować wartości z przedziału [— 1, 1]. Merytorycznie zaś realizować się będą tylko wartości dodatnie od 0 do 1 - rosnącym rzeczywistym odległościom odpowiadają przeciętnie rosnące wartości odległości na dendrogramie. Wartości równej 1 współczynnik osiągnąć praktycznie nie może. Zastanówmy się, w jakiej sytuacji są możliwe wartości wysokie, bliskie 1.

1 Gdy rzeczywiste odległości różnią się tak nieznacznie, że żaden sposób ich przeliczania zbytnio ich nie wypaczy. Wówczas odległości dendrogramu będą mało różniły się od odległości rzeczywistych. Zachodzi jednak obawa, że zbiór obiektów może nie mieć w takiej sytuacji struktury grupowej.

2. Przeciętnie wyższe powinny być współczynniki dla metod mniej wypacza jących odległości, czyli opartych na uśrednianiu odległości w procesie przeliczania.

Stwierdzenia te wymagają oczywiście empirycznej weryfikacji

Warto jeszcze zastanowić się nad istotą współczynnika korelacji kofenetycznej. Mówi się, że jest on miarą dopasowania dendrogramu do macierzy od-


Wyszukiwarka

Podobne podstrony:
P3200179 286 4. A na li/a skupień Łatwo jest zauważyć, że żadna metoda aglomeracyjnego grupowania hi
18384 P3200179 286 4. A na li/a skupień Łatwo jest zauważyć, że żadna metoda aglomeracyjnego grupowa
P3200179 286 4. A na li/a skupień Łatwo jest zauważyć, że żadna metoda aglomeracyjnego grupowania hi
s407 Administrowanie użytkownikami i grupami 407 Ta upros7.c7.ona konfiguracja jest zgodna ze standa
img108 2 w Europie", choć można zauważyć, że w lalach osiemdziesiątych jej związki z hierarchią
Uczniowie zauważają, że na negatywną kondycję psychiczną człowieka miała II wojna światowa, która
CCI00060 w Europie1, choć można zauważyć, że w latach osiemdziesiątych jej związki z hierarchią kośc
2.4 Mniej podstawowe testy Test Maurera Podstawą działania testu Maurera jest zauważenie faktu, że c
img110 110 Zauważmy, że układ (9.8) Jest wynikiem rugowanie parametru 71 z układu równań
NUMERON Pragniemy zauważyć, że oferowane przez nas oprogramowanie ukierunkowane jest także
skanowanie0028 (25) Zauważyłeś, że lis z Arktyki jest biały, tak jak większość elementów jego otocze

więcej podobnych podstron