skupisk. Jest suma wewnętrznego zróżnicowania w skupieniu w stosunku do zmienności miedzy skupieniami.
DB(v) = 1/c £max {a, ♦ a,)/ ó(x„xJ)}
8 - definiuje odległość miedzy skupieniem xi xj, najczęściej przyjmowana jako odległość miedzy centrami dwóch skupień; a - zróżnicowanie w i-tym skupieniu; c - liczba skupień
a,.(l/|Xj| Z(xW))2
Konfiguracja skupień, która minimalizuje wskaźnik uznawana jest za optymalną liczbę skupień.
Przeanalizowaliśmy zadanie Wnioski:
• Wskaźniki zdecydowanie różnią się swoją skutecznością.
• Najskuteczniejszymi wskaźnikami w badaniu okazały się: wskaźnik sylwetkowy, wskaźnik Davies Bouldin's, wskaźnik Dunn’a, wskaźnik Scotta-Symons’a, wskaźnik Calińskiego-Harabasza i wskaźnik Hartigaifa. Najsłabsze wyniki ukazywano dla wskaźników TraceCovW, TraceW, wskaźnik Friedman'a-Rubin'a FR i wskaźnik Ball’a-Hall’a.
• Badane wskaźniki są tym skuteczniejsze im badany zbiór danych jest lepiej separowany a grupy są bardziej okrągłe.
• Badane wskaźniki są skuteczniejsze im maksymalne odległości wewnątrzgrupowe są mniejsze w stosunku do odległości między centrami grup.
• Wskaźniki TraceCovW, TraceW, wskaźnik Friedman'a-Rubin'a FR i wskaźnik Ball’a-Hall’a najczęściej zaniżały liczbę grup o jedną.
• Wszystkie badane wskaźniki są wskaźnikami ex-post, co wymaga wielokrotnego grupowania danych dla różnej zadanej liczby grup.
• Dla dużej licz obiektów szacowanie wskaźników jest czasochłonne i uciążliwe numerycznie. W szczególności dotyczy to wskaźników opartych na miarach odległości obiektów.
• Dla wskaźników opartych na macierzy kowariancji i rozrzutu brak jest jednoznacznych kryteriów wyznaczania optymalnego podziału. Proponowane w literaturze rozwiązania poszukiwania „skoków” nie są optymalne ani uniwersalne. Skuteczność wskaźników można znacząco zwiększyć obserwując ich przebieg i indywidualnie interpretując wykresy.
• Nie zawsze ustalenie właściwej liczby skupień skutkuje prawidłową klasyfikacją.
• Można uzyskać bardzo wysoką zgodność klasyfikacji nawet przy zupełnie błędnym ustaleniu liczby skupień.
• Wskaźnik Randa jest dużo mniej wrażliwy na błędy klasyfikacji niż pozostałe.
• Z punktu widzenia analizowanych wskaźników jakości grupowania korzystniejsze jest podzielenie zbioru na większą niż na mniejszą liczbę skupień. W wielu przypadkach wyższe wartości wskaźników podobieństwa klasyfikacji uzyskiwano przy zawyżonej liczbie skupień.
Wskaźnik Dunn’a (Dunn's Index) - 1974