208 _____________________________4. Analiza skunigj
akty wnośc kryje się pod nazwami knowledge discoveiy in databaseł i data mining1 (Gordon, 1999).
Z różnorodności zastosowań bierze się bogata terminologia i różne definicje (nawet tych samych terminów). I tak nazwa taksonomia numeryczna (ang. nume rieal nu o nomy) jest stosowana głównie w biologii, Q-analiza w psychologii, rozpoznawanie obrazow bez nauczyciela (ang. unsupervised patiem recognition) w piśmiennictwie poświęconym sztucznej inteligencji. W wielu dziedzinach stosowany test po prostu termin grupowanie (ang. grouping, dumping, clustering). Obecnie coraz powszechniej używa się terminu analiza skupień (ang. duster analysis), choć ogolny termin klasyfikacja (ang. dassification) nie stracił na znaczeniu10.
Zdecydowana większość technik klasyfikacji ma charakter deterministyczny si} one na ogół postrzegane jako eksploracyjne, nieposjadające formalnych pod staw probabilistycznych. Wydaje się, że od roku 1973, od prac R.F. Linga, rozwija się nurt formalny, wyrażający się próbami wypracowania podejścia probabilistycznego (zob. Ling. 1973; a także Everitt i Dunn, 1991; Gordon, 1999)" . Podejście probabilistyczne w analizie skupień nie jest jeszcze dość powszechne.
Analizę skupień (ang. duster analysis) możemy określić jako dział wielowymiarowej analizy statystycznej obejmujący zbiór technik znajdujących zastosowanie w badaniu danych o obiektach wielowymiarowych (jednostek lub zmiennych) w celu podzielenia zbioru tych obiektów na grupy (skupienia), które w świetle danych wykazują odrębność (zob. Maxwell, 1977).
Ideą analizy skupień jest zatem znajdowanie jednorodnych podzbiorów w niejednorodnym zbiorze obiektów. Mówiąc inaczej, chodzi o wyłonienie grup
' W literaturze polskiej termin ten tłumaczy się jako odkrywanie wiedzy w bazach danych. Termin knowledge dsicovery pojawił się po raz pierwszy około 1989 roku i przypisuje się go trójce badaczy: Frawley, PiatetskyShapiro i Mathers (1991). Wprowadzono go dla zastąpienia wszystkich wcześniej używanych pojęć, w tym pojęcia data mining, które często stosowano zamiennie z pojęciem knowledge Jiscover}' m databases (w skrócie KDD), uzyskując jaśniejszą terminologię nowej dziedziny nauki - Knowledge Discovery. Zobacz za Stafanowski (2001).
9 W literaturze polskiej termin data mining tłumaczy się jako zagłębianie danych, drążenie danych, przekopywanie danych lub przesiewanie danych. W rozwoju tego pojęcia wykształciły się dwa podejścia. dwa obszary definiowania, zależne od konkretnej treści zastosowań.
10 Sneath i Sokal 11973) już przed trzydziestu laty stwierdzili, iż adekwatne zdefiniowanie termi-nów taksonomicznych wymagałoby samo w sobie odrębnej książki. Od tego czasu dokonał się zna czny „postęp*
11 Najogólniej rzecz ujmując, w podejściu probabilistycznym zakłada się, że elementy dolnego trójkąta —cierzy podobieństwa lub odległości (zob. dalsze fragmenty tego rozdziału) są uporządkowane losowo. a wszystkie możliwe uporządkowania są jednakowo prawdopodobne. Podejście to w tej książce pominięto.
obiektów, które sij bardziej podobne do obiektów tworzących daną grupę ni/ do obiektów spoza tej grupy Przyjmijmy więc, ze mamy zbiór Q*{0 ,0 ,0 j
n obiektów, które charakteryzujemy za pomocą /> i ech których wartom są ujęte w postaci macierzy danych X Obiekty t» należy podzielić na grupy (skupienia)
(’ ,C .....(\ Na początku analizy grupy lub skupienia me s.j znane, podobnie jak
jch liczba, charakterystyki wyznaczające skupienia oraz obiekty, które skupienia tworzą To wszystko zostanie określone dopiero w wyniku analizy, której osia lecznym rezultatem jest podział obiektów na grupy
Zgodnie z dokonaną w rozdziale 1 klasyfikacją meiod wielowymiarowych analiza skupień odpowiada zasadniczo taksonomii w węzsz.ym znaczeniu Nie rzadko jest ona rozumiana węziej niż taksonomia i jest traktowana jako jedna i technik grupowania Cechą charakterystyczną analizy skupień jest to ze me określa się żadnych zewnętrznych kryteriów kategor \ /ac ii obiektów podobnii jak nie czyni się założeń co do liczby skupień, które powinniśmy uzyskać W tym sensie jest to metoda prymitywna w porównaniu z analizą dyskryminacyjną Analiza skupień jest użytecznym narzędziem analizy danych w wielu rożnych sytuacjach. Ma ona zastosowanie zarówno do jednostek, które są obiektami w wie lowymiarowej przestrzeni cech, jak i zmiennych, które możemy traktować jako obiekty w wielowymiarowej przestrzeni jednostek W związku z tym można wymienić dwa główne obszary zastosowań analizy:
• Podstawowe zastosowanie w ynika z samej idei analizy , t/n wykrycia homo genicznych grup obiektów dla celów zarówno poznawczy li jak i praktycznych które mogą się wiązać z analizą spoistości grupy, identyfikacją obiektów me należących do zbioru (ang. outlitrs), czy też wykorzystaniem grup w dalszych ba daniach porównawczych. Jest to poszukiwanie w danych naturalnej struktury gru powej. Załóżmy, że badacz zgromadził dane za pośrednictwem kwestionariusza Duży zbiór danych o wielu obiektach i wielu cechach dopot\ nie będzie miał większego praktycznego znaczenia, dopóki obiekty mc zostaną pokiasyfikowanr w dające się „zarządzać" (ang managcablć) grupy
• W wielu badaniach ważnym zastosowaniem analizy skupień jest ocena wy miarowości złożonego zjawiska i ustalenie zmiennych diagnostycznych, które spośród licznego zestawu zmiennych najlepiej odzwierciedlają najistotniejsze własności obiektów12. Wymaga to z kolei podziału zmiennych na grupy podob nych cech (/{-techniki) i wybrania z nich reprezentant'iw To zastosowanie kryje się też pod pojęciem redukcji przestrzeni cech lecz me wynika w sposób natural ny z istoty analizy skupień, lecz jest niejako ubocznym efektem możliwości, jakie stwarzają techniki grupowania
Zagadnienie wyboru zmiennych dla potrzeb klasyfikacji zostało szerzej omówione w punkcie 4.6.