4. Wybór metody grupowania w lynv. ustalenie liczhy skupień.
•s. Interpretacja wyników podziału, w szczególności charakterystyka grup-segmentów. b. Walidacja, w tym badanie stabilności rozwiązania.
Cele przeprowadzania analizy skupień przedstawiliśmy na początku rozdziału.
4.2.1. Wybór zmiennych diagnostycznych
Jest oczywiste, że wybór cech diagnostycznych (zmiennych) wpływa na wyniki grupowania. Analiza skupień odzwierciedla strukturę danych tylko w zakresie wybranych zmiennych. Wybór zmiennych jest jedną z najważniejszych decyzji w procesie analizy i powinien być oparty na przesłankach teoretycznych oraz praktycznych. Metody analizy skupień pozwalają uwzględnić ogromne ilości zmiennych (kilkaset), jednak nie dostarczają żadnych wskazówek, które zmienne należy wybrać. Powinno się uwzględniać poprzednie badania i doświadczenia innych badaczy. Należy wybierać tylko te zmienne, które według naszej opinii istotnie charakteryzują badane obiekty i są zgodne z celem naszych badań, natomiast odrzucać zmienne mało istotne. Praktyka pokazuje, że wprowadzenie chociażby jednej niepotrzebnej zmiennej może istotnie zmienić wyniki grupowania. Problem ten badał m.in. G.W.Millikan stosując metodę Monte Carlo do piętnastu różnych algorytmów skupiania [Milligan. 1980]. Zaleca się przed przystąpieniem do grupowania przeprowadzić wstępną analizę opisową proponowanych zmiennych w celu zbadania ich rozkładów i współzależności (korelacji). Przy wyborze zmiennych pomocna może okazać się analiza czynnikow a. Psycholodzy zauważyli, że ludzie odróżniają przedmioty na podstawie małego zestawu najbardziej istotnych zmiennych. Można przypuszczać, że powiększanie zestawu zmiennych uwzględnionych w analizie skupień nie idzie w parze z poprawieniem wyników.
Po wykonaniu analizy dokonujemy weryfikacji, czy rozkłady zmiennych w poszczególnych grupach różnią się (powinny się różnić) i ewentualnie powtui zamy procedurę grupowania modyfikując zestaw zmiennych diagnostycznych.
stosowane V> podczas gd' i porzątlkov o cechach i wane i nay. ściowe. Mierniki \ „wzorców chowując
Przykladi - Wsp<
— Cosi
Odleg1
zdefu
l3o
4.2.2. Wybór mierników podobieństwa lub niepodobieństwa obiektów Wyróżnia się 3 rodzaje mierników podobieństwa lub niepodobieństwa obieklów*.
• mierniki korelacji;
• mierniki odległości;
• mierniki asocjacji.
Każda / tych klas mierników służy innym celom. Mierniki korelacji i odległości mogą być
140