10320 IMAGE8 (2)

10320 IMAGE8 (2)



cechy ilościowo. W zależności od tego czy wspomniany podział oparty jest na wartości jednej cech, czy kilku można wyróżnić;

—    drzewa jednowymiarowe (ang. unb/ariate trees),

—    drzewa wielowymiarowe (ang. multivariate trees), Jednowymiarowe drzewa klasyfikacyjne dzielą zbiory obiektów na

podstawie pojedynczych cech, tj. w oparciu o testy w postaci: x, < C, a wielowymiarowe na podstawie ich kombinacji liniowych: a0 -f ]T<7, .v( > 0.

i

Metody te zostaną omówione dokładniej w dalszej części rozdziału.

Chociaż prace nad algorytmami tworzącymi drzewa klasyfikacyjne rozpoczęły się już w latach sześćdziesiątych, ich rozwój nastąpił dopiero w ostatnich dziesięciu latach. Najbardziej znane z nich zawiera tablica 9.1.

Tablica 9.1. Metody konstruowania drzew klasyfikacyjnych

. Nazwa algorytmu

Rok

Autorzy

Rodzaj drzewa

Sekwencje

obiektów

cis '

1966

Hunt. Marin. Słone

binarne

nie

A CLS

1982

Paterson, Niblctt

binarne

nie

ID3 .

1983

Quinlan

dowolne

nie

j CART

1984

Brtiman, Friedman. Olshen, Słone

binarne

(ASSISTANT

198S

Kononenko

binarne

mc

IJD4

1986

Schlimmcr. FIsher

dowolne

tak

1 PIS

1986

Rendell

dowolne

nie

lot

1987

Ouirilan

dowolne

nie

1 GID3

1988

Cbeaz. Fayyad, Darii 1

dowolne

nie

j ms

1989

Ułgoff

dowolne

tak

(LMDT

1991

Brodley, Ułgoff

binarne, wielowymiarowe

nie

ICHAID

1993

SPSS Inc.

dowolne

[IND

1993

Buntine, Ganiana

dowolne

- nie'

jsADT

1993

Heat. Kasif, Salzberg

binarne, wielowymiarowe

nie fll

ISE-LEARN I

1993

Rym on

dowolne

nie • 1

[OC1 .

1994

Munhy

binarne, wielowymiarowe |

_nic,.

Należy zwrócić uwagę, "że niektóre z prezentowanych w tablicy 9.1 algorytmów łączą w sobie kilka rozwiązań, np. IND, którego autorami są Buntine i Caruana (1993) czy SE-LEARN Rymona (1993) zawierają procedury bezpośrednio zaczerpnięte z CLS czy CART, z ich Aukcjami oceny jakości podziału, metodami dychotomizacji cech ilościowych itd.

Inne zaś są ciągle rozwijane przez ich twórców; przykładem jest algorytm C4 Quinlana — efektem jest zmodyfikowana wersja o nazwie C4.8 (Quinlan 1996).

Niektóre z algorytmów wymienionych w tablicy 9.1 są algorytmami sekwencyjnymi, np. DD4 oraz ID5. Oznacza to, że drzewa klasyfikacyjne mogą być tworzone w sytuacji, gdy obiekty w próbie uczącej nie są dostępne jednocześnie, tj. pojawiają się kolejno. Znacznie obniża to koszty gromadzenia i przechowywania danych, wykorzystania pamięci komputera itd.

W przedstawionym zestawieniu znalazł się także algorytm CHAID rozpowszechniany jako jeden z modułów komercyjnego pakietu statystycznego SPSS (Magidson 1993). Jest on rozwinięciem znanych w statystyce od wielu lat metod detekcji interakcji: AID oraz THAID, tworzących pewną odmianę drzew klasyfikacyjnych4.

Poza algorytmami przedstawionymi wyżej powstały także komercyjne systemy wykorzystujące drzewa klasyfikacyjne. Pierwszym z nich był ACLS, następnie powstały Expeit-Ease, EX-TRAN itd„ rozpowszechniane pizeż Turing Institutc w Glasgow.

9.3; Proces tworzenia drzewa klasyfikacyjnego

Jak już wspomniano, tworzenie drzew klasyfikacyjnych odbywa się przez rekurencyjny podział zbioru uczącego na podzbiory aż do uzyskania ich jednorodności ze względu na przynależność obiektów do klas. Chodzi przy tym o. to, by takie drzewo było jak najmniejsze (miało minimalną liczbę węzłów), tj. by otrzymane reguły klasyfikacji były jak najprostsze.

Tworzenie drzewa klasyfikacyjnego na podstawie zbioru uczącego, tj. zbioru poprawnie sklasyfikowanych obiektów, odbywa się zgodnie ze strategią wspinaczki. Bardzo ogólna postać algorytmu składa się z następujących kroków:

1.    Mając zbiór obiektów S sprawdź, czy należą one do rej samej klasy. Jeśli tak, to zakończ pracę.

2,    W przeciwnym przypadku rozważ wszystkie możliwe podziały

| Ściśle biorąc, w odniesieniu do nich stosowana jest nazwa drzewa represyjne. Wiole się to | tradycyjną terminologią statystyczną, gdyż podział zbioru obiektów następuje w oparciu o zmienne niezależne, a „klasy” wyznaczają wartości zmiennej zależnej.


Wyszukiwarka

Podobne podstrony:
img157 (16) 5.    należy opisać różnice w wyniku próby w zależności od tego, czy osob
Uwaga! Indeksy w poszczególnych bazach różnią się tylko nieznacznie. W zależności od tego, czy znamy
warstwa fizyczna ISDN ramki w warstwie fizycznej różnią się w zależności od tego, czy ramka jest
? 290 Część czwarta. Pomoc postpenitencjarna ków). W zależności od tego, czy wykonują swoje zadania
84 FRANCISZEK KRZYK ALA nika z tych dwóch przesłanek i w zależności od tego, czy w tym zachowaniu pr
Document (22) W zależności od tego czy znajdują się na powierzchni ziemi czy pod powierzchnią wyrobi
18.04.lir. W zależności od tego czy przedsiębiorstwo opiera swoją strategię na konkurencji cenowej,
ZAWIESZENIE POSTĘPOWANIA O WYDANIE DECYZJI O WARUNKACH ZABUDOWY W ZALEŻNOŚCI OD TEGO CZY DLA DANEGO
Bank inwestycyjny na ry nku wtórnym może występować w różnych rolach, w zależności od tego, czy ryne
sieci` typu „3" łub typu ,ł4’ w zależności od tego, czy : wzmacniacza — automatyczna regulacja
0015 2 W zależności od tego, czy realizowana budowla ziemna ma charakter wykopu, bądź nasypu oraz cz

więcej podobnych podstron