Kryteria stopu algorytmu grupowania reguł a efektywność systemu wspomagania decyzji Agnieszka Nowak Alicja Wakulicz-Deja Zakład Systemów Informatycznych Instytut Informatyki Uniwersytetu Śląskiego Sosnowiec, ul. Będzińska 39, +48 (0-32) 291 82 83 Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Informatycznych Instytut Informatyki a efektywność systemuSosnowiec, ul. decyzji 39, +48 1 / 34 2 Kryteria stopu algorytmu grupowania regułUniwersytetu Śląskiego wspomagania Będzińska (0-32) Plan referatu 1 Efektywność wnioskowania w klasycznych systemach wspomagania decyzji. 2 Motywacja tworzenia hierarchicznej bazy wiedzy. 3 Prawda o aglomeracyjnym algorytmie grupowania. 4 Efektywność osiągana różnymi drogami ?. 5 Podsumowanie. Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Informatycznych Instytut Informatyki a efektywność systemuSosnowiec, ul. decyzji 39, +48 2 / 34 2 Kryteria stopu algorytmu grupowania regułUniwersytetu Śląskiego wspomagania Będzińska (0-32) Zagadnienia... Referat powinien udzielić satysfakcjonujących odpowiedzi na pytania: 1 Dlaczego potrzebna jest zmiana struktury bazy wiedzy ? 2 Dlaczego proponujemy hierarchię ? 3 Dlaczego jako algorytm grupowania wybieramy akurat AHC ? 4 Jak zamierzamy zmodyfikować klasyczne podejścia ? 5 W jakim celu wprowadzamy swoje zmiany ? 6 Jak będziemy sprawdzać efektywność (jakość) zbudowanego systemu ? 7 Podsumowanie - odpowiedz na pytanie: Jaka jest efektywność proponowanego rozwiązania? Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Informatycznych Instytut Informatyki a efektywność systemuSosnowiec, ul. decyzji 39, +48 3 / 34 2 Kryteria stopu algorytmu grupowania regułUniwersytetu Śląskiego wspomagania Będzińska (0-32) Dlaczego potrzebna jest zmiana struktury bazy wiedzy ? Efektywność wnioskowania w klasycznych systemach wspomagania decyzji takich jak np MYCIN, EMYCIN etc. zależy od kilku czynników: wybranej metody wnioskowania, posiadanej w systemie wiedzy (liczby reguł w bazie wiedzy), liczby obserwacji, wybranej strategii sterowania wnioskowaniem. Konkluzje: trudna ocena takiego systemu, wymagana kompletność bazy wiedzy, czas wnioskowania rośnie gdy zwiększa się liczba reguł w bazie wiedzy, optymalny system wspomagania decyzji, to taki system, który dostarcza decyzji w jak najkrótszym czasie, angażując użytkownika tylko w pewnym minimalnym zakresie. Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Informatycznych Instytut Informatyki a efektywność systemuSosnowiec, ul. decyzji 39, +48 4 / 34 2 Kryteria stopu algorytmu grupowania regułUniwersytetu Śląskiego wspomagania Będzińska (0-32) Dlaczego proponujemy hierarchię ? Wiedza każdego systemu może być reprezentowana na wiele różnych sposobów, np. za pomocą rozkładów prawdopodobieństwa, współczynników pewnych funkcji, struktur symbolicznych gramatyk formalnych, czy hierarchii podziałów. Poprzez analizowanie przykładów, system ma odkryć nieznany podział (lub hierarchię podziałów) dostarczonego mu zbioru, czyli dokonać grupowania tego zbioru. Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Informatycznych Instytut Informatyki a efektywność systemuSosnowiec, ul. decyzji 39, +48 5 / 34 2 Kryteria stopu algorytmu grupowania regułUniwersytetu Śląskiego wspomagania Będzińska (0-32) Motywacja tworzenia hierarchicznej bazy wiedzy Optymalizacja czasu pracy systemu, jak i metody wnioskowania jest skomplikowana. Zadaniem interpretera reguł jest znalezienie i uaktywnienie reguł odpowiednich do zaobserwowanych faktów. Oczywiste jest, że jeżeli rozmiar bazy reguł wzrasta, to i czas szukania reguł przez interpreter się zwiększa. Aby temu zapobiec proponujemy grupowanie reguł (aglomerację) w bazach wiedzy i wnioskowanie na grupach (skupieniach) reguł. Cel: Analiza skupień ma skrócić w sposób istotny czas wnioskowania. Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Informatycznych Instytut Informatyki a efektywność systemuSosnowiec, ul. decyzji 39, +48 6 / 34 2 Kryteria stopu algorytmu grupowania regułUniwersytetu Śląskiego wspomagania Będzińska (0-32) Dlaczego spośród wszystkich algorytmów grupowania wybieramy akurat AHC ? Liczba Stirlinga II-go rzędu Moc (liczba możliwych kombinacji) grupowania metodą k-optymalizacyjną n elementów na k grup (skupień) da się wyznaczyć z następującego wyrażenia: n
1 M = ( )[ (k)(-1)k-i " in]] i k! i=1 Wówczas majÄ…c zaledwie do pogrupowania 6 (n = 6) obiektów do 3 (k = 3) grup, liczba możliwych kombinacji wynosi: 1 M = ( )[(3)(-1)2 " 16 + (3)(-1) " 26 + (3)(-1)0 " 36] = 90 1 2 3 3! Algorytm hierarchicznego Å‚Ä…czenia obiektów - rozwiÄ…zuje ten problem poprzez samÄ… ideÄ™ algorytmu, która zawsze nakazuje w każdym kroku poÅ‚Ä…czyć dwa najbardziej podobne obiekty. Agnieszka Nowak, Alicja Wakulicz-Deja (ZakÅ‚ad Systemów Informatycznych Instytut Informatyki a efektywność systemuSosnowiec, ul. decyzji 39, +48 7 / 34 2 Kryteria stopu algorytmu grupowania reguÅ‚Uniwersytetu ÅšlÄ…skiego wspomagania BÄ™dziÅ„ska (0-32) Klasyczne grupowanie hierarchiczne Agnieszka Nowak, Alicja Wakulicz-Deja (ZakÅ‚ad Systemów Informatycznych Instytut Informatyki a efektywność systemuSosnowiec, ul. decyzji 39, +48 8 / 34 2 Kryteria stopu algorytmu grupowania reguÅ‚Uniwersytetu ÅšlÄ…skiego wspomagania BÄ™dziÅ„ska (0-32) Klasyczne grupowanie hierarchiczne krok 1: poÅ‚Ä…czenie w grupÄ™ obiektów 1 i 2 Agnieszka Nowak, Alicja Wakulicz-Deja (ZakÅ‚ad Systemów Informatycznych Instytut Informatyki a efektywność systemuSosnowiec, ul. decyzji 39, +48 9 / 34 2 Kryteria stopu algorytmu grupowania reguÅ‚Uniwersytetu ÅšlÄ…skiego wspomagania BÄ™dziÅ„ska (0-32) Klasyczne grupowanie hierarchiczne krok 2: poÅ‚Ä…czenie w grupÄ™ obiektów 3 i 4 Agnieszka Nowak, Alicja Wakulicz-Deja (ZakÅ‚ad Systemów Informatycznych Instytut Informatyki a efektywność systemuSosnowiec, ul. decyzji 39, +48 (0-32) 2 Kryteria stopu algorytmu grupowania reguÅ‚Uniwersytetu ÅšlÄ…skiego wspomagania BÄ™dziÅ„ska 10 / 34 Klasyczne grupowanie hierarchiczne krok 3: poÅ‚Ä…czenie w grupÄ™ obiektów 7 i 5 Agnieszka Nowak, Alicja Wakulicz-Deja (ZakÅ‚ad Systemów Informatycznych Instytut Informatyki a efektywność systemuSosnowiec, ul. decyzji 39, +48 (0-32) 2 Kryteria stopu algorytmu grupowania reguÅ‚Uniwersytetu ÅšlÄ…skiego wspomagania BÄ™dziÅ„ska 11 / 34 Klasyczne grupowanie hierarchiczne krok 4: poÅ‚Ä…czenie w grupÄ™ obiektów 6 i 8 Agnieszka Nowak, Alicja Wakulicz-Deja (ZakÅ‚ad Systemów Informatycznych Instytut Informatyki a efektywność systemuSosnowiec, ul. decyzji 39, +48 (0-32) 2 Kryteria stopu algorytmu grupowania reguÅ‚Uniwersytetu ÅšlÄ…skiego wspomagania BÄ™dziÅ„ska 12 / 34 Macierzowy algorytm aglomeracyjny - algorytm Johnson a 1 t=0 /*nr poziomu w hierarchii*/ 2 utworzenie poczÄ…tkowego podziaÅ‚u N Podz0 (N) = {Gi = {xi }|i = 1, . . . , N} 3 utworzenie poczÄ…tkowej N × N macierzy niepodobieÅ„stwa P(t) : P(i, j)(t) = D(Gi , Gj )i, j = 1, . . . , N 4 repeat a) - e): a) wybranie spoÅ›ród wszystkich par grup (Gi , Gj ) w podziale t najbliższej pary (Gi , Gj ): min D(Gi , Gj ) = D(Gi , Gj ) r,s b) t = t + 1 c) utworzenie nowej grupy Gq = Gi *" Gj d) utworzenie nowego podziaÅ‚u: N-1 N-t+1 Podzt (N) = {Podzt-1 (N) - {Gi , Gj }} *" {Gq} e) aktualizacja macierzy niepodobieÅ„stwa P(t) dla kroku t na podstawie P(t - 1) (kroki 1-2): 1.UsuniÄ™cie dwóch rzÄ™dów i dwóch kolumn z macierzy P(t - 1), które odpowiadajÄ… Å‚Ä…czonym grupom. 2.Dodanie nowego rzÄ™du i nowej kolumny dla nowo utworzonej grupy, które zawierajÄ… obliczone odlegÅ‚oÅ›ci pomiÄ™dzy nowo utworzonÄ… grupÄ… i wszystkimi grupami z kroku (t - 1), które nie zostaÅ‚y w tym kroku zmienione. 5 until (wszystkie wektory sÄ… w jednej grupie). Agnieszka Nowak, Alicja Wakulicz-Deja (ZakÅ‚ad Systemów Informatycznych Instytut Informatyki a efektywność systemuSosnowiec, ul. decyzji 39, +48 (0-32) 2 Kryteria stopu algorytmu grupowania reguÅ‚Uniwersytetu ÅšlÄ…skiego wspomagania BÄ™dziÅ„ska 13 / 34 Sposoby aktualizacji macierzy - obliczania nowych odlegÅ‚oÅ›ci w każdym kroku Wg Jain i Dubes a: 1 Algorytm pojedynczego Å‚Ä…czenia (ang. single linkage algorithm) D(Cq, Cs) = min{D(Ci , Cs), D(Cj, Cs)} 2 Algorytm peÅ‚nego Å‚Ä…czenia (ang. complete linkage algorithm) D(Cq, Cs) = max{D(Ci , Cs), D(Cj, Cs)} 3 Algorytm uÅ›redniania par (ang. weighted average linkage) 1 D(Cq, Cs) = (D(Ci , Cs) + D(Cj, Cs)) 2 Ponadto: 4 Average Linkage (UPGMA),Centroid (UPGMC), Median (WPGMC), 5 Algorytm Warda (ang. Increase in Sum of Squares). Agnieszka Nowak, Alicja Wakulicz-Deja (ZakÅ‚ad Systemów Informatycznych Instytut Informatyki a efektywność systemuSosnowiec, ul. decyzji 39, +48 (0-32) 2 Kryteria stopu algorytmu grupowania reguÅ‚Uniwersytetu ÅšlÄ…skiego wspomagania BÄ™dziÅ„ska 14 / 34 Ważne aspekty grupowania hierarchicznego ZÅ‚ożoność czasowa macierzowych algorytmów aglomeracyjnych wynosi O(N2 lg N) natomiast pamiÄ™ciowa O(N2). Ta ostatnia wynika z koniecznoÅ›ci pamiÄ™tania macierzy niepodobieÅ„stwa o wymiarach N × N. Wynik algorytmu grupowania hierarchicznego można przedstawić w postaci tzw. dendrogramu niepodobieÅ„stwa, w którym wystÄ™puje oÅ› skojarzona z używanÄ… miarÄ… niepodobieÅ„stwa. PrzeciÄ™cie poziome dendrogramu daje jeden z możliwych podziałów. Agnieszka Nowak, Alicja Wakulicz-Deja (ZakÅ‚ad Systemów Informatycznych Instytut Informatyki a efektywność systemuSosnowiec, ul. decyzji 39, +48 (0-32) 2 Kryteria stopu algorytmu grupowania reguÅ‚Uniwersytetu ÅšlÄ…skiego wspomagania BÄ™dziÅ„ska 15 / 34 Jak bÄ™dziemy sprawdzać efektywność (jakość) zbudowanego systemu ? [Jain A.K., Dubes R.C., Algorithms for clustering data , Prentice Hall, 1998] Procedura grupowania to nie tylko samo grupowanie ? ProcedurÄ™ grupowania tworzÄ… nastÄ™pujÄ…ce zadania skÅ‚adowe: 1 utworzenie reprezentacji, 2 wybór miary podobieÅ„stwa, 3 ustalenie tendencji grupujÄ…cej, 4 grupowanie, 5 walidacja wyniku, 6 abstrakcja cech. W zależnoÅ›ci od użytej miary podobieÅ„stwa, rodzaju algorytmu grupowania oraz różnych wartoÅ›ci jego parametrów, uzyskuje siÄ™ różne wynikowe podziaÅ‚y danego zbioru obiektów. Z tego wzglÄ™du konieczne jest stosowanie weryfikacji uzyskanego podziaÅ‚u zwanej potocznie walidacjÄ…, która stanowi procedurÄ™ sprawdzajÄ…cÄ… poprawność uzyskanego podziaÅ‚u. Walidacji tej dokonuje siÄ™ za pomocÄ… weryfikacji hipotez statystycznych lub odpowiednio skonstruowanych wskazników (indeksów) walidacyjnych: np. indeks Dunn a czy Xie - Beni. Agnieszka Nowak, Alicja Wakulicz-Deja (ZakÅ‚ad Systemów Informatycznych Instytut Informatyki a efektywność systemuSosnowiec, ul. decyzji 39, +48 (0-32) 2 Kryteria stopu algorytmu grupowania reguÅ‚Uniwersytetu ÅšlÄ…skiego wspomagania BÄ™dziÅ„ska 16 / 34 Zdefiniowanie kryterium jakoÅ›ci [K.StÄ…por, Automatyczna klasyfikacja obiektów , EXIT, W-wa 2005] W algorytmach iteracyjnej optymalizacji tj. k-means, k-medoids, najlepszy podziaÅ‚ zbioru jest wyznaczany przez iteracyjne polepszanie pewnych wskazników jakoÅ›ci, startujÄ…c z poczÄ…tkowego podziaÅ‚u, najczęściej losowego. Wskazniki jakoÅ›ci definiuje siÄ™ w postaci funkcji kryterialnej, która jest zależna od zbioru uczÄ…cego oraz wektora nieznanych parametrów okreÅ›lajÄ…cych danÄ… grupÄ™. Funkcja kryterialna najczęściej jest konstruowana w postaci sumy kwadratów odlegÅ‚oÅ›ci wektorów w grupach od prototypów tych grup. Stanowi wiÄ™c miarÄ™ rozproszenia wektorów w poszczególnych grupach. Ocenie może podlegać: uzyskany pojedynczy podziaÅ‚, hierarchia podziałów, pojedyncza grupa. SpoÅ›ród wszystkich możliwych podziałów uzyskanych jako wynik dziaÅ‚ania danego algorytmu grupowania z różnymi wartoÅ›ciami parametrów należy wybrać ten, który najlepiej opisuje strukturÄ™ zbioru. Agnieszka Nowak, Alicja Wakulicz-Deja (ZakÅ‚ad Systemów Informatycznych Instytut Informatyki a efektywność systemuSosnowiec, ul. decyzji 39, +48 (0-32) 2 Kryteria stopu algorytmu grupowania reguÅ‚Uniwersytetu ÅšlÄ…skiego wspomagania BÄ™dziÅ„ska 17 / 34 Jak oceniać rezultaty k-means, k-medoids ? JeÅ›li xc - centroid, Å›rednia wartość z wszystkich obiektów nalezÄ…cych do danej grupy C . wówczas, można zdefiniować miarÄ™ dopasowania skupienia c:
TD(C ) = dist(p, xc)2 p"C Dalej, całkowity koszt grupowania w danej iteracji mozna wyznaczyć jako: k
TD = TD(Ci ) i=1 Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Informatycznych Instytut Informatyki a efektywność systemuSosnowiec, ul. decyzji 39, +48 (0-32) 2 Kryteria stopu algorytmu grupowania regułUniwersytetu Śląskiego wspomagania Będzińska 18 / 34 Jak oceniać rezultaty grupowania hierarchicznego ? Problem wyboru optymalnego podziału rozwiązuje sama idea algorytmu. Jedynie, w zależności od wybranej metody tworzenia centroidu (single linkage, complete linkage, Ward, etc.), dwa najbardziej podobne obiekty mogą zostać łączone w grupę w innym czasie (w innym kroku algorytmu, raz wcześniej, raz pózniej). Zatem, stosując techniki hierarchiczne, zwiększamy co prawda czas działania algorytmu, ale usuwamy problem oceny otrzymanego rozwiązania. Efektywność wnioskowania po grupowaniu reguł metodą analizy skupień Kryteria oceny systemów wnioskujących można podzielić na dwie grupy: kryteria związane ze złożonością obliczeniową algorytmu, kryteria związane z jakością otrzymanego podziału, kryteria związane z jakością generowanych wyników, np. trafność rozpoznawania, dokładność lokalizacji obiektu, etc.[kompletność, dokładność]. Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Informatycznych Instytut Informatyki a efektywność systemuSosnowiec, ul. decyzji 39, +48 (0-32) 2 Kryteria stopu algorytmu grupowania regułUniwersytetu Śląskiego wspomagania Będzińska 19 / 34 Jak zamierzamy zmodyfikować klasyczne podejścia ? Pożądane własności dobrego podziału: możliwie najmniejsza liczba parametrów koniecznych do specyfikowania, możliwie najmniejsza krotność analizy elementów zbioru U, możliwość wykrywania grup o dowolnym kształcie, wielkości, gęstości, niewrażliwość na obecność szumu (wektorów odstających) w zbiorze, możliwość przetwarzania danych różnych typów (ciągłe, dyskretne), w szczególności ich kombinacji, niezależność wyniku od kolejności analizy obiektów zbioru U, możliwie największe podobieństwo obiektów wewnątrz danej grupy oraz możliwie najmniejsze podobieństwo grup do siebie. Rzeczywistość jest inna - niepożądane własności podziału: podobieństwo między obiektami w danej grupie spada poniżej pewnego ustalonego poziomu minimum. Różne są sposoby ustalania tego minimalnego współczynnika podobieństwa. W rozważaniach podejmowanych przez nas wcześniej brane były pod uwagę dwie metody: średnia z minimum i maksimum, min(s(x, y)) + max(s(x, y)) T = , 2 średnia ważona. T = s (x, y). gdzie: s(x, y)- to pewna miara podobieństwa między obiektami x oraz y(np. miara Gowera). Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Informatycznych Instytut Informatyki a efektywność systemuSosnowiec, ul. decyzji 39, +48 (0-32) 2 Kryteria stopu algorytmu grupowania regułUniwersytetu Śląskiego wspomagania Będzińska 20 / 34 Kryteria oceny jakości podziału Jakość grupowania zależy od tego jak różnie obiekty są rozrzucone w węzłach drzewa a to z kolei zależy od algorytmu jakim były łączone i od tego jakich metryk używano do ich łączenia. Są 2 standardowe miary: miara oceny (ang. FScore), 2RP FScore = R + P gdzie: R - kompletność (ang. Recall), P - dokładność (ang. Precision). miara rozkładu - entropii (ang.Entropy). q i i
1 nr nr Entropy(Sr ) = - lg lg q nr nr i=1 gdzie: i q - liczba klas, nr - liczba obiektów w i-tej klasie. Entropia całego drzewa T wynosi: t
1 Entropy(T ) = (Sr ) t r=1 Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Informatycznych Instytut Informatyki a efektywność systemuSosnowiec, ul. decyzji 39, +48 (0-32) 2 Kryteria stopu algorytmu grupowania regułUniwersytetu Śląskiego wspomagania Będzińska 21 / 34 t - liczba węzłów w drzewie T . Miara Theodoridis i Koutroumbas,1999 [S. Theodoridis, K. Koutroumbas, Patern Recognition , Academic Press, 1999] Odpowiedni poziom odcięcia to ten, dla którego spełniony jest warunek: "G ,Gj Dmin(Gi , Gj) > max{h(Gi , Gj)} i gdzie: h(Gi ) jest miarą samopodobieństwa grupy, tj. podobieństwa pomiędzy wektorami z danej grupy. Miarę samopodobieństwa można zdefiniować np. jako maksymalną odległość wektorów w grupie: h(G ) = max{d(x, y)|x,y"G } lub też jako średnią wartość odległości między wektorami w grupie:
1 h(G ) = d(x, y) 2NG x"G y"G gdzie: d(x, y) oznacza którąkolwiek z miar niepodobieństwa wektorów. Innymi słowy, w końcowym podziale niepodobieństwo pomiędzy dowolną parą grup musi być większe niż samopodobieństwo każdej z grup. Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Informatycznych Instytut Informatyki a efektywność systemuSosnowiec, ul. decyzji 39, +48 (0-32) 2 Kryteria stopu algorytmu grupowania regułUniwersytetu Śląskiego wspomagania Będzińska 22 / 34 mAHC Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Informatycznych Instytut Informatyki a efektywność systemuSosnowiec, ul. decyzji 39, +48 (0-32) 2 Kryteria stopu algorytmu grupowania regułUniwersytetu Śląskiego wspomagania Będzińska 23 / 34 mAHC Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Informatycznych Instytut Informatyki a efektywność systemuSosnowiec, ul. decyzji 39, +48 (0-32) 2 Kryteria stopu algorytmu grupowania regułUniwersytetu Śląskiego wspomagania Będzińska 24 / 34 mAHC Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Informatycznych Instytut Informatyki a efektywność systemuSosnowiec, ul. decyzji 39, +48 (0-32) 2 Kryteria stopu algorytmu grupowania regułUniwersytetu Śląskiego wspomagania Będzińska 25 / 34 mAHC Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Informatycznych Instytut Informatyki a efektywność systemuSosnowiec, ul. decyzji 39, +48 (0-32) 2 Kryteria stopu algorytmu grupowania regułUniwersytetu Śląskiego wspomagania Będzińska 26 / 34 mAHC Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Informatycznych Instytut Informatyki a efektywność systemuSosnowiec, ul. decyzji 39, +48 (0-32) 2 Kryteria stopu algorytmu grupowania regułUniwersytetu Śląskiego wspomagania Będzińska 27 / 34 AHC kontra mAHC a b c d e f g AHC [100] 5 30 4 0 4 0.09 99 mAHC [70] 1 22 4 9 13 0.13 85 mAHC [90] 3 27 5 5 10 0.03 39 mAHC [95] 4 28 5 0 5 0.04 52 mAHC - inne 4 25 3 8 11 0.13 85 a - poziom w drzewie b - liczba pamietanych elementow c - liczba porównań w drzewie d - liczba porównań w innych drzewach e - suma porównań f - odchylenie g - procent błędu Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Informatycznych Instytut Informatyki a efektywność systemuSosnowiec, ul. decyzji 39, +48 (0-32) 2 Kryteria stopu algorytmu grupowania regułUniwersytetu Śląskiego wspomagania Będzińska 28 / 34 mAHC kontra AHC Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Informatycznych Instytut Informatyki a efektywność systemuSosnowiec, ul. decyzji 39, +48 (0-32) 2 Kryteria stopu algorytmu grupowania regułUniwersytetu Śląskiego wspomagania Będzińska 29 / 34 mAHC kontra AHC Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Informatycznych Instytut Informatyki a efektywność systemuSosnowiec, ul. decyzji 39, +48 (0-32) 2 Kryteria stopu algorytmu grupowania regułUniwersytetu Śląskiego wspomagania Będzińska 30 / 34 Miara efektywności van Rijsbergen a, 1979 Miara ta umożliwia ocenę obydwu parametrów: kompletności oraz dokładności jednocześnie. 1 + b2 EHC = 1 - b2 1 + R P gdzie odpowiednio: b to współczynnik skalujący " [0..1], R to to kompletność (ang. recall), P to dokładność (ang. precision). Idealna sytuacja RHC = 1.0, PHC = 1.0 5 5/4 1 4 jeśli b = wówczas: EHC = 1 - = 1 - = 1 - 1 = 0 1 2 5/4 +1 4 Zależność jest taka, że im wartość EHC jest bliższa 0 tym większa jest efektywność systemu, i odwrotnie. Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Informatycznych Instytut Informatyki a efektywność systemuSosnowiec, ul. decyzji 39, +48 (0-32) 2 Kryteria stopu algorytmu grupowania regułUniwersytetu Śląskiego wspomagania Będzińska 31 / 34 Eksperymenty Wyniki eksperymentów a b c d e f baza nr 1 16 31 5 16 10 62 baza nr 2 199 397 23 199 34 17 baza nr 3 480 959 27 480 36 7 baza nr 4 702 1403 30 702 38 5, 4 gdzie: a - liczba reguł, b - liczba grup,c - liczba poziomow w drzewie (wysokość drzewa), d - liczba porownań przy PZ, e - liczba porownań w AHC, f - procent BD Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Informatycznych Instytut Informatyki a efektywność systemuSosnowiec, ul. decyzji 39, +48 (0-32) 2 Kryteria stopu algorytmu grupowania regułUniwersytetu Śląskiego wspomagania Będzińska 32 / 34 Podsumowanie - Wnioski 1 Hierarchiczne grupowanie reguł w bazach wiedzy przyspieszy procesy wnioskowania poprzez kryterium podobieństwa - relewantności elementów drzewa względem podanej nowej wiedzy. 2 Niekwestionowaną zaletą, drugą obok krótkiego czasu jest także fakt, iż wnioskując w ten sposób system będzie generował tylko niezbędne nowe fakty, nie obciążając w ten sposób systemu czy użytkownika nową wiedzą. 3 Dodatkowo - możemy zwiększyć jakość uzyskanego podziału poprzez grupowanie obiektów z kontrolą bliskości - kryterium stopu algorytmu. Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Informatycznych Instytut Informatyki a efektywność systemuSosnowiec, ul. decyzji 39, +48 (0-32) 2 Kryteria stopu algorytmu grupowania regułUniwersytetu Śląskiego wspomagania Będzińska 33 / 34 Literatura 1 Anderberg M.R., "Cluster analysis for applications", New York, Academic Press, 1973. 2 Dubes R.C., Jain A.K., "Algorithms for clustering data", Prentice Hall, 1998. 3 Everitt B.S., "Cluster Analysis (3rd edition)", Edward Arnold / Halsted Press, London, 1993. 4 Hand D., Mannila H., Smyth P., "Eksploracja danych", Wydawnictwa Naukowo-Techniczne, Warszawa, 2005. 5 Kaufman L., Rousseeuw P.J., "Finding Groups in Data: An Introduction to Cluster Analysis", John Wiley Sons, New York, 1990. 6 Nowak A., Wakulicz-Deja A. Bachliński S., "Optimization of Speech Recognition by Clustering of Phones", Concurrency, Specification and Concurrency 2005 - Ruciane-Nida, Poland, September 28-30, 2005 7 Nowak A., Wakulicz-Deja A. , "The concept of the hierarchical clustering algorithms for rules based systems", Intelligent Information Systems 2005 - New Trends in Intelligent Information Processing and Web Mining, Gdańsk, Poland, June 13-16, 2005 8 Nowak A., Wakulicz-Deja A., "Aglomeracyjne metody tworzenia skupień reguł dla optymalizacji procesów wnioskowania", Systemy Wspomagania Decyzji 2004, Zakopane, Poland, Grudzień 7-9, 2004. 9 Stąpor K., "Automatyczna klasyfikacja obiektów", Akademicka Oficyna Wydawnicza EXIT, Warszawa 2005. 10 Theodoridis S., Koutroumbas K., "Patern Recognition", Academic Press, 1999. Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Informatycznych Instytut Informatyki a efektywność systemuSosnowiec, ul. decyzji 39, +48 (0-32) 2 Kryteria stopu algorytmu grupowania regułUniwersytetu Śląskiego wspomagania Będzińska 34 / 34