Ol', te-** a] [xs ~ cl(*3 = ęjk ■ oj^[x,^a]ix2 = c];j*3 =^i-' ■ > o3'. = bj\[x2 m dj[x3 ę ej,
04: ^^Hu9
jeśli wybierzemy cechę xt jako podstawę podziału, to powstaną dwie klasy: fet * c]fx3 = ev/],
które reprezentuje drzewo binarne (rys. 6.3). Prostota obu klas wynosi P(xt) = 2/3, | ich zróżnicowanie Z(rt) = 1/4.
Rys. 63. Fragment drzewa klas w algorytmie RUMMAGE
Zakładając jednakową wagę obu kryteriów elementarnych, funkcja jakości podziału (6.1) przyjmuje wartość J(Xj) = 0,458. A zatem w rozważanym węźle drzewa powinien znaleźć się test pytający o wartość cechy xt lub x2amejCiS: ^ : • , *.
Najważniejszym algorytmem sekwencyjnym taksonomii symbolicznej jest COBWEB zbudowany przez D. Fishera w 1986 roku (Fisher 1987ą). Realizuje on podział zbioru obiektów w ten sposób, by maksymalizować przydatność struktury skupieó do przewidywania klasy, dó której będzie należał nowy obiekt W rolt później Fisher przedstawił w swojej pracy doktorskiej (Fisher 1987b) nieco ulepszoną wersję podstawowego algorytmu o nazwie COBWEB/2. Z kolei K. McKusick i K. Thompson zbudowali algorytm COBWEB/3 umożliwiający klasyfikację obiektów, których cechy mają także charakter ilościowy.
COBWEB jest przykładem algorytmu hierarchicznego, bowiem tworzy
drzewo klas, które następnie przeszukuje w dwu kierunkach za pomocą strategii wspinaczki. Ponieważ stosuję on zarówno dzielenie, jak i bieżenie klas, nie można jednoznacznie powiedzieć czy jest to algorytm aglomera-ęyjny, czy podziałowy.
Ciekawej modyfikacji algorytmu COBWEB dokonali J.H.Gennari, P.Langley, D, Fisher w 1989 roku, tworząc algorytm CLASSIT uwzględniający także cechy ilościowe obiektów (Gennari i in. 1989). ,
Należy dodać, że COBWEB stał się źródłem inspiracji do skonstruowania podobnych algorytmów; są to min. LABIRYNTH, OXBOW, ITERATE (tablica 4.1).
£3.1. Aspekty psychologiczne
W wyniku badań psychologicznych- wyodrębniono preferowany przez ludzi poziom w hierachii pojęć, nazywając go poziomem, podstawowym. Pojęcia z tego poziomu są najczęściej wykorzystywane w operacjach myślowych, są w pierwszej kolejności przyswajane przez dzieci i najszybciej kojarzone przez dorosłych, np. pojęcie „pies” zamiast bardziej ogólnego „ssak”ilub bardziej szczegółowego „jamnik”. Kategorie te (klasy obiektów) dostarczają:r^^^|..info^a^^.$ą. najbard^ej; zróżnicowane, mają najwięcej cech charakterystycznych i pozwalają uporządkować pozos^łe informacje o świecie (Rosch 1978); Inaczej mówiąc, jest to ten poziom w hierarchii skupień, który maksymalizuje wartość prawdopodobieństwa warunkowego przynależności do klasy na podstawie znajomości danej cechy. Na tej podstawie można skonstruować miarę nazywaną istotnością cechy (ang. cue validity) w postaci:
gdzie K to rozważana klasa, Wy.—wartość cechy Cf. Podobnie można zdefiniować istotność kategorii (ang.: category validity). Tak więc w zbiorze możliwych.podziałów zbioru obiektów ta struktura, która ma największą liczbę cech o maksymalnej wartości /, odpowiada podstawowemu poziomowi pojęć.
Jednak interpretacja miary nazywanej istotnością cechy za pomocą prawdopodobieństwa warunkowego nie jest do końca uprawniona, gdyż wybierany na jej podstawie poziom w hierarchii pojęć jest zwykle poziomem nadrzędnym (bardziej ogólnym) w stosunku do podstawowego.
109