15895 P3200140

208 _____________________________4. Analiza skunigj

akty wnośc kryje się pod nazwami knowledge discoveiy in databaseł i data mining¹(Gordon, 1999).

Z różnorodności zastosowań bierze się bogata terminologia i różne definicje (nawet tych samych terminów). I tak nazwa taksonomia numeryczna (ang. nume rieal nu o nomy) jest stosowana głównie w biologii, Q-analiza w psychologii, rozpoznawanie obrazow bez nauczyciela (ang. unsupervised patiem recognition) w piśmiennictwie poświęconym sztucznej inteligencji. W wielu dziedzinach stosowany test po prostu termin grupowanie (ang. grouping, dumping, clustering). Obecnie coraz powszechniej używa się terminu analiza skupień (ang. duster analysis), choć ogolny termin klasyfikacja (ang. dassification) nie stracił na znaczeniu¹⁰.

Zdecydowana większość technik klasyfikacji ma charakter deterministyczny si} one na ogół postrzegane jako eksploracyjne, nieposjadające formalnych pod staw probabilistycznych. Wydaje się, że od roku 1973, od prac R.F. Linga, rozwija się nurt formalny, wyrażający się próbami wypracowania podejścia probabilistycznego (zob. Ling. 1973; a także Everitt i Dunn, 1991; Gordon, 1999)" . Podejście probabilistyczne w analizie skupień nie jest jeszcze dość powszechne.

4.2. Istota analizy skupień

Analizę skupień (ang. duster analysis) możemy określić jako dział wielowymiarowej analizy statystycznej obejmujący zbiór technik znajdujących zastosowanie w badaniu danych o obiektach wielowymiarowych (jednostek lub zmiennych) w celu podzielenia zbioru tych obiektów na grupy (skupienia), które w świetle danych wykazują odrębność (zob. Maxwell, 1977).

Ideą analizy skupień jest zatem znajdowanie jednorodnych podzbiorów w niejednorodnym zbiorze obiektów. Mówiąc inaczej, chodzi o wyłonienie grup

' W literaturze polskiej termin ten tłumaczy się jako odkrywanie wiedzy w bazach danych. Termin knowledge dsicovery pojawił się po raz pierwszy około 1989 roku i przypisuje się go trójce badaczy: Frawley, PiatetskyShapiro i Mathers (1991). Wprowadzono go dla zastąpienia wszystkich wcześniej używanych pojęć, w tym pojęcia data mining, które często stosowano zamiennie z pojęciem knowledge Jiscover}' m databases (w skrócie KDD), uzyskując jaśniejszą terminologię nowej dziedziny nauki - Knowledge Discovery. Zobacz za Stafanowski (2001).

⁹ W literaturze polskiej termin data mining tłumaczy się jako zagłębianie danych, drążenie danych, przekopywanie danych lub przesiewanie danych. W rozwoju tego pojęcia wykształciły się dwa podejścia. dwa obszary definiowania, zależne od konkretnej treści zastosowań.

¹⁰ Sneath i Sokal 11973) już przed trzydziestu laty stwierdzili, iż adekwatne zdefiniowanie termi-nów taksonomicznych wymagałoby samo w sobie odrębnej książki. Od tego czasu dokonał się zna czny „postęp*

¹1 Najogólniej rzecz ujmując, w podejściu probabilistycznym zakłada się, że elementy dolnego trójkąta —cierzy podobieństwa lub odległości (zob. dalsze fragmenty tego rozdziału) są uporządkowane losowo. a wszystkie możliwe uporządkowania są jednakowo prawdopodobne. Podejście to w tej książce pominięto.

obiektów, które sij bardziej podobne do obiektów tworzących daną grupę ni/ do obiektów spoza tej grupy Przyjmijmy więc, ze mamy zbiór Q*{0 ,0 ,0 j

n obiektów, które charakteryzujemy za pomocą /> i ech których wartom są ujęte w postaci macierzy danych X Obiekty t» należy podzielić na grupy (skupienia)

(’ ,C .....(\ Na początku analizy grupy lub skupienia me s.j znane, podobnie jak

jch liczba, charakterystyki wyznaczające skupienia oraz obiekty, które skupienia tworzą To wszystko zostanie określone dopiero w wyniku analizy, której osia lecznym rezultatem jest podział obiektów na grupy

Zgodnie z dokonaną w rozdziale 1 klasyfikacją meiod wielowymiarowych analiza skupień odpowiada zasadniczo taksonomii w węzsz.ym znaczeniu Nie rzadko jest ona rozumiana węziej niż taksonomia i jest traktowana jako jedna i technik grupowania Cechą charakterystyczną analizy skupień jest to ze me określa się żadnych zewnętrznych kryteriów kategor \ /ac ii obiektów podobnii jak nie czyni się założeń co do liczby skupień, które powinniśmy uzyskać W tym sensie jest to metoda prymitywna w porównaniu z analizą dyskryminacyjną Analiza skupień jest użytecznym narzędziem analizy danych w wielu rożnych sytuacjach. Ma ona zastosowanie zarówno do jednostek, które są obiektami w wie lowymiarowej przestrzeni cech, jak i zmiennych, które możemy traktować jako obiekty w wielowymiarowej przestrzeni jednostek W związku z tym można wymienić dwa główne obszary zastosowań analizy:

• Podstawowe zastosowanie w ynika z samej idei analizy , t/n wykrycia homo genicznych grup obiektów dla celów zarówno poznawczy li jak i praktycznych które mogą się wiązać z analizą spoistości grupy, identyfikacją obiektów me należących do zbioru (ang. outlitrs), czy też wykorzystaniem grup w dalszych ba daniach porównawczych. Jest to poszukiwanie w danych naturalnej struktury gru powej. Załóżmy, że badacz zgromadził dane za pośrednictwem kwestionariusza Duży zbiór danych o wielu obiektach i wielu cechach dopot\ nie będzie miał większego praktycznego znaczenia, dopóki obiekty mc zostaną pokiasyfikowanr w dające się „zarządzać" (ang managcablć) grupy

• W wielu badaniach ważnym zastosowaniem analizy skupień jest ocena wy miarowości złożonego zjawiska i ustalenie zmiennych diagnostycznych, które spośród licznego zestawu zmiennych najlepiej odzwierciedlają najistotniejsze własności obiektów¹². Wymaga to z kolei podziału zmiennych na grupy podob nych cech (/{-techniki) i wybrania z nich reprezentant'iw To zastosowanie kryje się też pod pojęciem redukcji przestrzeni cech lecz me wynika w sposób natural ny z istoty analizy skupień, lecz jest niejako ubocznym efektem możliwości, jakie stwarzają techniki grupowania

Zagadnienie wyboru zmiennych dla potrzeb klasyfikacji zostało szerzej omówione w punkcie 4.6.

Wyszukiwarka

Podobne podstrony:
36. Jaki rodzaj osnowy kryję się pod nr 1 ? A. pomiarowa B.
Zrozumiec Assembler7 50 Zrozumieć Asembler Rozdział 2_Co kryje się pod obudową komputera?Czym
DSC03337 Czy rozpoznanie nieswoiste jest przypadkowe? • Co kryje się pod nazwą mechanizmów odpornośc
Padalec to beznoga jaszczurka. Mierzy od 50 cm do 100 cm. Kryje się pod ziemię, pod k
Galeria Konspektu natomiast oraz jej siostra, pani Nieta, zostały w tym muzeum kustoszami. - Co kryj
W tym artykule staram się przybliżyć czytelnikowi co kryje się pod pojęciem diagnostyki kanny. Jak n
P3200162 252 4 Analizą skupią, Współczynnik skojarzenia oraz współczynnik korelacji (p jk można równ
P3200174 27t Analiza skupici kialac). Na pierwszych etapai h, na których łączą się w jedno skupienie
15728 P3200144 216 4-Analiza skupią kioi 4 możemy zapisać również w postaci«2 )2 =(x - X J(x, - xj=
81081 P3200141 210 4. Analiza skupień Naszą uwagę będziemy koncentrowali przede wszystkim na podstaw
56342 wstęp do teorii polityki img 192 182 miot)- stosunków międzynarodowych, które ze względu na sw

więcej podobnych podstron