• Poprawia zdolność klasyfikatora do klasyfikacji nowych przypadków
> Metody przycinania drzew decyzyjnych- bazują najczęściej na miarach statystycznych np. MDL (Minimum Description Lenght), MCP (Minimal Cost-complexity Puning)
> Wstępne przycięcie drzewa (stop):
Drzewo jest przycinane poprzez wcześniejsze zatrzymanie procedury konstrukcji drzewa (tj. wstrzymujemy dalsze dzielenie zbioru treningowego na części np. warunek stopu polegający na przyjęciu minimalnej liczby elementów należących do zbioru, które podlega dzieleniu).
> Przycinanie drzewa po zakończeniu konstrukcji, ucinamy gałęzie i wierzchołki po zakończeniu procedury konstrukcji drzewa
C4.5
> Analizowany jest każdy węzeł decyzyjny i wybierany jest możliwy podział
> Model nie ogranicza się do binarnych podziałów
> Dla zmiennych jakościowych algorytm tworzy osobne gałęzie dla każdej wartości algorytmu jakościowego
> Metoda mierzenia jednorodności podziału bazuje na pojęciu entropii Zysk informacji lub redukcja entropii
> Załóżmy że mamy zmienną X, której k możliwych wartości ma prawdopodobieństwo PI, P2, P3,...Pn. Jaka jest najmniejsza ilość bitów, średnia na symbol, potrzebna do przesłania łańcucha symboli reprezentujących obserwowane wartości X
> Entropia X zdefiniowana jako H(X)=-IPjlog2(Pj) => Iog2(0,5)=l bit
> Załóżmy że mamy możliwy podział S, który dzieli zbiór uczący T na kilka podzbiorów Tl,T2,Tk, wtedy obliczone jako wartość suma entropii dla pojedynczych podzbiorów:
Hs(T)=IPiHs(Ti)
> Zysk informacji-w każdym węźle algorytm C4.5 wybiera podział optymalny czyli mający największy zysk informacji, zysk(S).
Reguły asocjacyjne