P3200056

P3200056



lak aby skupienia nie zawierały zbyt małej liczby obiektów. Ponadto, jeżeli w zbiorze danych są obiekty nietypowe (outliers), to należy je wyeliminować z analizy. O istnieniu obiektów nietypowych mogą świadczyć bardzo niskie wartości CCC (very negative values).

r\rI I tr* vH\/ eL- i


3. Warto oglądać wartości CCC na wykresie, jako funkcję zależną

leży wybierać liczbę skupień, dla której CCC ma maksimum globalne lub lokalne maksima, najlepiej o wartości większej niż 2 lub 3 (dodatnie wartości w przedziale od Odo 2 należy traktować ostrożnie).

4. Występowanie wielu maksimów lokalnych może świadczyć, że obiekty mają strukturę hierarchiczną. Można wtedy wybrać liczbę skupień odpowiadającą jednemu z maksimów biorąc również pod uwagę inne względy merytoryczne związane z celem grupowania.

5.    Jeżeli wszystkie wartości CCC są ujemne albo CCC maleje wraz ze wzrostem liczby skupień, to prawdopodobnie mamy do czynienia z rozkładem jednomodalnym lub bardzo spłaszczonym na brzegach (long-tailed).

6.    Jeżeli wartości CCC systematycznie rosną wraz ze wzrostem liczby skupień, to prawdopodobnie rozkłady nie są sferyczne (występują łańcuchy).

7.    CCC nie jest odpowiednim kryterium jeżeli skupienia znacznie odbiegają od sferycznych (są podłużne, nieregularne). Wówczas zaleca się użyć metody Wonga lub Lane'a. zamiast metody Warda.

Często nie potrafimy a priori przewidzieć, jaka liczba grup jest najbardziej właściwa. Jeżeli celem jest sporządzenie empirycznej typologii obiektów, należy kierować się zasadą praktyczną, że liczba skupień powinna być dostatecznie duża, aby umożliwiała wyodrębnić różne typy, jednak na tyle ograniczona, aby rozwiązanie było czytelne Wystarczy ograniczyć się np. do przedziału k: A^k <20 iw tym przedziale poszukiwać rozwiązania. Na podstawie przeprowadzonej wstępnie procedury hierarchicznej na w \ i. w anych podzbiorach obiektów (np. 1 OO-elementowych) i analizy harmonogramów- skupiania można próbować ustalić proponowaną liczbę skupień. Ta wartość (lub kilka wartości) jest uwzględniana w procedurze k-średnich przy wyznaczaniu ostatecznego rozwiązania.

4.3. Procedury analizy skupień występu jące w systemie SAS W systemie SAS mamy dostępne następujące procedury związane z grupowaniem obie tów w skupienia

150


Wyszukiwarka

Podobne podstrony:
Podstawy chemii, ćwiczenia laboratoryjne7 w wyniku analizy, tak aby nie otrzymać zbyt małej lub duż
•    ZIEMIAŃSTWO. Nie dostarczało zbyt dużej liczby studentek. W okresie austriackim
page0289 285 dóbr, nie można jeszcze mówić o szczęściu całkowitem, bo jeżeli pojedyncze dobra są kru
20090617343[1] >2. Srednta arytmetyczna at) nie maże być ganityjsza ad arnejss; wadosoi cechy w
File1059 (2) ® Uwaga: Poproś dziecko, niech pomyśli i powie na głos wyrazy zawierające głoskę „o”, a
40 ZBIGNIEW BAJKA nie znalazł zbyt szybko pełnego oddźwięku, co nie znaczy, aby temat nie przewijał
46,47 (2) mi oczyma. Należy zadbać również o to, aby liczba pieniędzy uczestników nie była zbyt duża

więcej podobnych podstron