P3200054

P3200054



obserwacji, /> zmiennych macierz X jest (/i,/?)-wymiarową macierzą danych),

B = CZZC.

iici/ic Z jest macierzą przynależności obiektów do skupień, Zjj =1, gdy /-ty obiekt należy do j-tego skupienia, 0 - w przeciwnym przypadku;

C jest (</,/;) wymiarową macierzą środków ciężkości q skupień, C = (Z*Z) Z'X.

Ponieważ dla danej próby (X) macierz T jest stała, więc minimalizacja tr(W) jest równoważna maksymalizacji R2 = l-tr(W)/tr(T).

Współczynnik R jest zawarty w przedziale [0; 1] i ma interpretację jako udział wariancji wyjaśnionej przez podział na skupienia w stosunku do całkowitej wariancji obiektów. Ta statystyka rośnie wraz ze wzrostem liczby skupień i relatywnie duży skok jej wartości stanowi pewną wskazówkę przy wyborze optymalnej liczby skupień.

Jeżeli stosujemy kryterium dobroci dopasowania takie jak R2, to dobrze byłoby znać rozkład tej statystyki, chociażby po to, żeby móc zastosować odpowiednie testy istotności podziału obiektów na grupy. Zauważmy, że zwykle stosowane testy istotności jak testy w analizie wariancji oparte na statystyce F i inne nieparametryczne testy istotności nie są poprawne dla testowania istotności różnicy między skupieniami. Ponieważ celem metod grupowania jest taki podział, żeby maksymalizować zróżnicowanie między skupieniami, w drastyczny sposób są naruszone (nie są spełnione) założenia, na których te metody są oparte. Na przykład dla próby 100 obserwacji wylosowanych z jednowymiarowego rozkładu normalnego i podzielonego na 2 skupienia za pomocą algorytmu /:-średnich hipoteza o równości wartości oczekiwanych w obu grupach będzie odrzucana na poziomie istotności mniejszym niż 0.0001. Z tego samego powodu procedury testowania istotności podziału na skupienia względem hipotezy zerowej mówiącej, że obiekty zostały losowo przydzielone do skupień są bezużyteczne.

W metodach grupowania opartych na macierzy odległości popularną hipotezą zerową była taka. że wszystkie permutacje wartości w macierzy odległości są lak samo prawdopodobne [Ling 1973, Hubert 19741. Stawiając tę hipotezę można użyć testu »*ermutacji albo testu serii. Niestety, dla realistycznych danych, hipoteza zerowa będzie odrzucana nawet wtedy, gdy obiekty nie tworzą żadnych skupień, tak więc odrzucenie hipotezy zerowej nie da badaczowi żadnej użytecznej informacji.

Inną hipotezą zerową jest hipoteza mówiąca, że dane obiekty są losową próbą pochodzącą z tego samego wielowymiarowego rozkładu normalnego [Wolfe 1970, 1978. Duda and Hart 1973, Lee 1979]. Ten test jest lepszy niż test oparty na permutacji macierzy odległości, ale nie jest wystarczająco użyteczny ze względu na duże prawdopodobieństwo odrzu

ceń w i 19 Ba dai te* ni< v/J ro śc 1 o M w kł


P

K

Pc

n>

M

P<

m

cel

d<|

że

sl

U

1:


148


Wyszukiwarka

Podobne podstrony:
00091 Ostatni etap IV opiera się na zbudowaniu macierzy XG. Jest to macierz obserwacji zmiennych ob
00091 Ostatni etap IV opiera się na zbudowaniu macierzy XG. Jest to macierz obserwacji zmiennych ob
2.1.4 Deklarowanie zmiennych • Deklarowanie typu i wymiarów macierzy odbywa się automatycznie - prze
Zapis modelu w postaci macierzowej:y = X(3 + e    (3) y - wektor obserwacji zmiennej
Estymator liniowy to estymator który jest liniową funkcją obserwacji, w zapisie macierzowym:f(,)=G y
img197 Cechy występujące w macierzy danych posiadają różne jednostki miar, również ich wartości bezw
gdzie Xir jest i-tą obserwacją r-tej zmiennej niezależnej, p jest liczbą zmiennych niezależnych w mo
Zmienna strumieniowa użyta do wprowadzania danych z pliku jest typu ifstream. Otwarcie pliku odbywa
20354 slajd09 umożliwiająca wzrokową obserwację zmiennych nych, których maksymalna szybkość zmian je
DSC02107 I/ On :<i satii Spektrum zmian obserwowanych w wyniku zmienności somaklonalnej jest podo

więcej podobnych podstron