- znając środki ciężkości grup możemy dokonać wstępnego podziału obiektów przyporządkowując je do grupy o najbliższym środku ciężkości.
Następnie porównujemy otrzymane wyniki za pomocą pewnej miary oceny jakości grupowania. Oceniając jakość skupiania bierze się pod uwagę, że grupowanie jest poprawne, jeżeli odległości między obiektami należącymi do tego samego skupienia są znacznie mniejsze niż między obiektami należącymi do różnych skupień. Jedną ze stosowanych miar jest suma odległości między obiektami w tym samym skupieniu (total within-cluster distance between datapoints) lum suma odległości między obiektami a poszczególnymi środkami skupień (between points and their respective cluster centroids) [J.Solomon, J.C.Bezdek, 1980]. Miary te nie mogą być używane jako jedyne, gdyż maleją, gdy liczba skupień wzrasta.
Dlatego powstało wiele innych propozycji metod ustalania liczby klas. W polskiej literaturze są one opisane np. w {K.Migdał-Najman, K.Najman, 2005]. Tutaj zwrócimy uwagę na jedną z metod szacowania liczby skupień opracowaną przez SAS Institute i zaimplementowaną w programie SAS. Jest to metoda zwaną sześciennym kryterium grupowania (Cw-bic Clustering Criterion - CCC).
CCC jest jedną z metod szacowania liczby skupień w algorytmach analizy skupień, opartych na minimalizacji wewnątrzgrupowej sumy kwadratów (within-cluster sum of squ-ares). Do takich metod należy metoda minimalnej wariancji Warda (Ward's method) i metoda it-średnich. Idea metody polega na porównaniu obserwowanej wartości współczynnika R2 z aproksymacją wartości oczekiwanej E[R2] dla próby wylosowanej z rozkładu jednostajnego. Wzór obliczeniowy został skorygowany o empirycznie wyznaczony mnożnik zapewniający stabilizację wariancji. Dodatnie wartości współczynnika CCC oznaczają, że obserwowana wartość R2 jest większa niż należało oczekiwać, gdyby obiekty zostały wylosowane z rozkładu jednostajnego, zatem prawdopodobnie zbiór badanych obiektów można podzielić na różniące się od siebie skupienia. Badając zależność wartości CCC od liczby skupień uzyskanych w zastns. w:»:■«. n< lod/.ie grupowania można oszacować optymalną liczbę skupień, na które da s»v po.j/jelić /biór obiektów. Metoda nie daje definitywnej odpowiedzi, jak jest właściwa !w /b skupień i należy ją traktować jako wskazówkę w postępowaniu, biorąc również pod uwagę względy merytoryczne badanego problemu. Wiele stosowanych algorytmów grupowania jest opartych na minimalizacji wewnątrzgru-powej sumy kwadratów (within-cluster sum of squarcs), która może być obliczana jako ślad macierzy W tr(W). gdzie W = T B. gdzie T = X'X jest macierzą momentów (dla n