4.2.5. Obiekty nietypowe
prezentowane metody analizy skupień tworzą grupowanie zupełne tzn. każdy badany obiekt zostaje zaliczony do jakiegoś skupienia. Zdarza się, że w zbiorze obiektów znajdują się jednostki nietypowe, znacznie różniące się od pozostałych, które w konfiguracji przestrzennej znajdują się daleko od obszarów o większym zagęszczeniu. Gdy stosujemy procedurę ^-średnich, obiekty te z reguły generują małoliczne grupy (na ogół jednoelemenlo-we) i w znaczny sposób wpływają na zawartość pozostałych skupień.
Występowanie jednostek nietypowych (odstających, ang. outliers) wynika z dwóch powodów:
- pewne kategorie obiektów występujące w populacji nie są dostatecznie reprezentowane w próbie;
- pewne kategorie obiektów rzadko występują w populacji i dlatego tylko niewielka ich ilość przypadkowo znalazła się w próbie.
Pozostaje do rozstrzygnięcia problem, jak postępować z takimi obiektami. [Hair i in., 1995) zaleca ich identyfikację i usunięcie z rozważań (jednak z zachowaniem ostrożności), jeżeli sądzimy, że są to przypadki nie reprezentatywne dla populacji. Podobnego zdania są inny autorzy. Ch. Henning (1998) rozważa wyodrębnianie grup (tzw.fbced points clusters), które nie zawierają obiektów nietypowych oraz konstrukcję mierników (breakdown points), pozwalających identyfikować nietypowe obiekty.
Jeżeli badane obiekty stanowią niezbyt liczną populację, można identyfikować jednostki nietypowe poprzez analizę kolumny Stage Cluster First Appears harmonogramu skupiania (Agglomeration Schedule). Jednostki nietypowe są łączone na samym końcu procesu aglomeracji i dlatego w kolumnach tych występują zera w końcowych wierszach tablicy. W przypadku dużej liczby obiektów można przeprowadzić proces skupiania dla całego zbioru i usunąć z rozważań mało liczne grupy. Badanie obiektów nietypowych umożliwia też analiza odległości obiektów od środków ciężkości grup. Metody oparte na grupowaniu niezupełnym lub rozmytym również mogą być przydatne.
4.2.6. Ustalenie liczby grup
Ustalenie właściwej liczby skupi' r ; i krytycznym problemem w metodach grupowania. Przykład niewłaściwie wybranej lit z: w • ń pokazuje poniższy rysunek.