lak aby skupienia nie zawierały zbyt małej liczby obiektów. Ponadto, jeżeli w zbiorze danych są obiekty nietypowe (outliers), to należy je wyeliminować z analizy. O istnieniu obiektów nietypowych mogą świadczyć bardzo niskie wartości CCC (very negative values).
r\rI I tr* vH\/ eL- i
3. Warto oglądać wartości CCC na wykresie, jako funkcję zależną
leży wybierać liczbę skupień, dla której CCC ma maksimum globalne lub lokalne maksima, najlepiej o wartości większej niż 2 lub 3 (dodatnie wartości w przedziale od Odo 2 należy traktować ostrożnie).
4. Występowanie wielu maksimów lokalnych może świadczyć, że obiekty mają strukturę hierarchiczną. Można wtedy wybrać liczbę skupień odpowiadającą jednemu z maksimów biorąc również pod uwagę inne względy merytoryczne związane z celem grupowania.
5. Jeżeli wszystkie wartości CCC są ujemne albo CCC maleje wraz ze wzrostem liczby skupień, to prawdopodobnie mamy do czynienia z rozkładem jednomodalnym lub bardzo spłaszczonym na brzegach (long-tailed).
6. Jeżeli wartości CCC systematycznie rosną wraz ze wzrostem liczby skupień, to prawdopodobnie rozkłady nie są sferyczne (występują łańcuchy).
7. CCC nie jest odpowiednim kryterium jeżeli skupienia znacznie odbiegają od sferycznych (są podłużne, nieregularne). Wówczas zaleca się użyć metody Wonga lub Lane'a. zamiast metody Warda.
Często nie potrafimy a priori przewidzieć, jaka liczba grup jest najbardziej właściwa. Jeżeli celem jest sporządzenie empirycznej typologii obiektów, należy kierować się zasadą praktyczną, że liczba skupień powinna być dostatecznie duża, aby umożliwiała wyodrębnić różne typy, jednak na tyle ograniczona, aby rozwiązanie było czytelne Wystarczy ograniczyć się np. do przedziału k: A^k <20 iw tym przedziale poszukiwać rozwiązania. Na podstawie przeprowadzonej wstępnie procedury hierarchicznej na w \ i. w anych podzbiorach obiektów (np. 1 OO-elementowych) i analizy harmonogramów- skupiania można próbować ustalić proponowaną liczbę skupień. Ta wartość (lub kilka wartości) jest uwzględniana w procedurze k-średnich przy wyznaczaniu ostatecznego rozwiązania.
4.3. Procedury analizy skupień występu jące w systemie SAS W systemie SAS mamy dostępne następujące procedury związane z grupowaniem obie tów w skupienia
150