obserwacji, /> zmiennych macierz X jest (/i,/?)-wymiarową macierzą danych),
B = CZZC.
iici/ic Z jest macierzą przynależności obiektów do skupień, Zjj =1, gdy /-ty obiekt należy do j-tego skupienia, 0 - w przeciwnym przypadku;
C jest (</,/;) wymiarową macierzą środków ciężkości q skupień, C = (Z*Z) Z'X.
Ponieważ dla danej próby (X) macierz T jest stała, więc minimalizacja tr(W) jest równoważna maksymalizacji R2 = l-tr(W)/tr(T).
Współczynnik R jest zawarty w przedziale [0; 1] i ma interpretację jako udział wariancji wyjaśnionej przez podział na skupienia w stosunku do całkowitej wariancji obiektów. Ta statystyka rośnie wraz ze wzrostem liczby skupień i relatywnie duży skok jej wartości stanowi pewną wskazówkę przy wyborze optymalnej liczby skupień.
Jeżeli stosujemy kryterium dobroci dopasowania takie jak R2, to dobrze byłoby znać rozkład tej statystyki, chociażby po to, żeby móc zastosować odpowiednie testy istotności podziału obiektów na grupy. Zauważmy, że zwykle stosowane testy istotności jak testy w analizie wariancji oparte na statystyce F i inne nieparametryczne testy istotności nie są poprawne dla testowania istotności różnicy między skupieniami. Ponieważ celem metod grupowania jest taki podział, żeby maksymalizować zróżnicowanie między skupieniami, w drastyczny sposób są naruszone (nie są spełnione) założenia, na których te metody są oparte. Na przykład dla próby 100 obserwacji wylosowanych z jednowymiarowego rozkładu normalnego i podzielonego na 2 skupienia za pomocą algorytmu /:-średnich hipoteza o równości wartości oczekiwanych w obu grupach będzie odrzucana na poziomie istotności mniejszym niż 0.0001. Z tego samego powodu procedury testowania istotności podziału na skupienia względem hipotezy zerowej mówiącej, że obiekty zostały losowo przydzielone do skupień są bezużyteczne.
W metodach grupowania opartych na macierzy odległości popularną hipotezą zerową była taka. że wszystkie permutacje wartości w macierzy odległości są lak samo prawdopodobne [Ling 1973, Hubert 19741. Stawiając tę hipotezę można użyć testu »*ermutacji albo testu serii. Niestety, dla realistycznych danych, hipoteza zerowa będzie odrzucana nawet wtedy, gdy obiekty nie tworzą żadnych skupień, tak więc odrzucenie hipotezy zerowej nie da badaczowi żadnej użytecznej informacji.
Inną hipotezą zerową jest hipoteza mówiąca, że dane obiekty są losową próbą pochodzącą z tego samego wielowymiarowego rozkładu normalnego [Wolfe 1970, 1978. Duda and Hart 1973, Lee 1979]. Ten test jest lepszy niż test oparty na permutacji macierzy odległości, ale nie jest wystarczająco użyteczny ze względu na duże prawdopodobieństwo odrzu
ceń w i 19 Ba dai te* ni< v/J ro śc 1 o M w kł
P
K
Pc
n>
M
P<
m
cel
d<|
że
sl
U
1:
148