IMAGE6 (2)

IMAGE6 (2)



xi >c


xi < ę


^    : ■;    !*f«i:

Rys. 918; Dyskreiyzacja cechy ilościowej X w algorytmie C4

obiektów w zbiorze uczącym porządkuje się rosnąco (rys. 9.8), a następnie sprawdza wartość funkcji jakości podziału J(StX) dla wszystkich możliwych podziałów tego przedziału na dwie części. Wybiera się ten, który daje największą wartość J(S,X).

9.6.4. ASSISTANT

Algorytm ASSISTANT powstał na podstawie XD3; stosuje się w nim ciekawy mechanizm dychotomizacji cech jakościowych, który powodował, że budowane drzewa klasyfikacyjne były mniejsze, przy podobnym poziomie błędu klasyfikacji, jak w przypadku algorytmu Quinlana (Cestnik i im 1987).

WJD3 dokonuje się podziału zbioru obiektów w oparciu o pewną cechę jakościową i tworzy tyle podzbiorów, ile wartości ma wybrana cecha; Natomiast w ASSISTANT łączy się wszystkie wartości cechy w dwa takie zbiory, które dają największą wartość funkcji jakości podziału

Metodę tę przejął także. Quinlan, którego algorytm C4 może dokonać takiej operacji na żądanie użytkownika1.

9.6.5. CHAID

Metoda detekcji interakcji CHAID (ang. Chisquared Automatic Interaction Detector) tworzy drzewa klasyfikacyjne w nieco inny sposób niż omawiane wyżej metody. Algorytm ten powstał na gruncie statystyki, a więc bardziej odpowiednie byłoby nazywanie drzew klasyfikacyjnych drzewami regresyjnymi, gdyż rozważany jest model y — f(xt ,x2,... ,x„) ’y w którym y jest zmienną zależną (objaśnianą), natomiast xi,x2, ...,x„ są zmiennymi niezależnymi (objaśniającymi). Wartości cechy, jakościowej y wyznaczają klasy, do których należą obiekty ze zbioru uczącego (Magidson 1993).

Najpierw dla każdej ze zmiennych objaśniających buduje się tablicę kontyngencji ze zmienną objaśnianą y r oblicza wartość statystyki z1Następnie w oparciu o tę statystykę łączy się wartości„ cechyM\które nie wykazują istotnej statystycznie, różnicy, przy czym realizowane jest to inaczej dla cech nominalnych, a inaczej dla porządkowych Wyboru cechy X/ decydującej o podziale zbioru obiektów na podzbiory dokonuje się także w oparciu o statystykę jt2, .czyli chodzi' p>:(ęięecjię, która jest. najbardziej związana ze zmienną objaśnianą y. Ściśle biorąc, chodzi o cechę, dla której prawdopodobieństwo tego, że obserwowany związek między nią a y wystąpiłby wtedy, gdy. obie cechy .byłyby statystycznie niezależne, jest najmniejsze. Jako wartość graniczną tego prawdopodobieństwa przyjmuje się d = 0,058.

9.6.Ó. Pozostałe metody

System IND, którego autorami są W. Buntine i R. Caruana, łączy w sobie Mika algorytmów budowy drzew klasyfikacyjnych (Buntine, Caruana 1993). Przede wszystkim są to: CART, ID3, C4 oraz metody: bayesowska, MML Wallace’a i Patricka2, a także metoda opaim uu grafach,decyzyjnych 01iviera i Wallace’a. IND składa się z czterech modułów: manipulacji danymi2 tworzenia dntew klasyfikacyjnych, testowania ich oraz graficznej

.^-INieco inne. rozwiązanie zaproponował R. Rymon w ramach swojego algorytmu- SErLeam. (ang. ■ Set-Enumeration) (Rymon 1993):-' Jest: on pewnego rodzaju uogólnieniem przedstawionych wcześniej /algorytmów budujących drzewa klasyfikacyjne2 tzn. test- dzielący zbiór obiektów w pewnym węźle drzewa jest oparty nie na jednej cesze, lecz na kilku. W efekcie, ten. sam obiekt może znaleźć się w kilku liściach (klasach) drzewa jednocześnie. Tworzy się więc klasy nierozłączne.

W pewnym sensie: następcą algotytmn. ID3 jest ID£, stworzony przez J.C. Schlimmera i D.Fishera (1986). Dokonuje on analizy rozkładu wartości cech dla każdego z • węzłów drzewa. Następnie stosując miarę entropii z teorii informacji wybiera „najlepszą” cechę i dokonuje względem niej podziwu obiektów w węźle. Z kolei jeśli jakiś węzeł w wyniku podziału utracił wysoką wartość informaęj^ną, cały fragment drzewa w nim

185

1

Dokładniej chodzi o program C4.5. w którym procedura ta jest realizowana po włączenia jednej z opcji (Qoinlan 1993)..

2

Algorytm ,CHAID realizowany w ramach pakietu statystycznego SPSS stosuje


Wyszukiwarka

Podobne podstrony:
59497 IMAGE6 (2) xi >c xi < ę ^    : ■;    !*f«i: Rys. 918
IMAGE6 (2) xi >c xi < ę ^    : ■;    !*f«i: Rys. 918; Dysk
zywienie czlowieka TTT 22 .XI. .1^ .-.;/ f.i?prr J,r- - •i V <v rSK ‘f- :
poel cw16 [/y; ■J ^ oUc £ .2 ^ /<’,-ULV    ;U.LO .Xi * -1—}-—i -4 ~L 9 (CltC*
Image (2) .V O Xi    i&r,vodijn£miwndCfa cnouia, obliczyć rthCKDMŹ CX^1%0 titObiC
& B
& B
□ I KiHCX*IA OGÓ1 NA 2011/12HARMONOGRAM ĆWICZEŃ t»M W: I. III. V, Ml. »X. XI f§^ ę . X IV U X 2
BIALEMOCNE t * M II Ml IX X XI VH i»**ł
Image03 XI takową sumkę 4,800. w gotowiźnie do rąk matki tych dzieci a żony mojej oddal, a jej obow
image 012 12 Parametry anten Rys. 1.1. Układ współrzędnych sferycznych W zagadnieniach energetycznyc
image 015 Charakterystyka promieniowania 15 Rys. 1.2. Ilustracja graficzna zależności płaszczyzn: a)
image 017 Charakterystyka, promieniowania 17 Rys. 1.5. Przykładowa charakterystyka kierunkowa promie
image 026 26 Parametry anten Rys. 1.7. Przykładowy system telekomunikacyjny do analizy równania
image 063 Twierdzenie o dualności 63 Rys. 3.3. Antena szczelinowa: a) struktura anteny, b) struktura

więcej podobnych podstron