6218157021

6218157021



niezależności chi-kwadrat) o wymiarach dxj, przez łączenie w dozwolony sposób kategorii zmiennej objaśniającej. Oryginalny CHAID pozwala budować modele dyskryminacyjne, czyli takie, których zmienna objaśniana jest zmienną nominalną.

2.3 Cel budowy drzew

Drzewo budujemy po to by potem móc klasyfikować nowe przypadki (przyszłe obserwacje), o których nie mamy informacji o przynależności klasowej. Budowane drzewo powinno być jak najmniejsze, większość algorytmów dodatkowo dokonuje porządkowania drzewa (prunning), polegającego na usuwaniu tych jego fragmentów, które mają niewielkie znaczenie dla jakości rezultatów klasyfikacji.

2.4 Problemy ?

Każdy algorytm tworzący drzewa klasyfikacyjne musi zatem rozwiązać 3 problemy:

•    jak wybrać jedną lub kilka cech, w oparciu o które nastąpi podział zbioru obiektów?

•    kiedy zakończyć podział pozostałego podzbioru obiektów ?

•    w jaki sposób przydzielić obiekty znajdujące się w liściu drzewa do pewnej klasy ?

3 Ważne aspekty budowy drzewa

Zasadniczym problemem jest wybór właściwego atrybutu do zbudowania całego testu. Najlepszy wybór to wybór takiego atrybutu, dla którego skrócimy ścieżkę w drzewie prowadzącą przez ten węzeł do liści wskazujących klasę decyzyjną. W tym celu, niezbędny jest wybór pewniej miary oceniającej, np. miarę przyrostu informacji (ang. Information gain). Wykorzystywane jest przy tym zjawisko entropii. Jeśli S będzie zbiorem uczącym zawierającym n przykładów należących do jednej z k klas decyzyjnych oznaczonych przez K\,... ,Kk, a n* oznacza liczebność klasy Ki, wówczas entropia związana z klasyfikacją zbioru S jest zdefiniowana jako:

fc

Ent(S) = -y>lg2 Pi

i= i

, gdzie Pi jest prawdopodobieństwem, że losowo wybrany przykład z S należy do klasy Ki, estymowanym jako Entropia podziału zbioru przykładów S ze względu na atrybut a jest zdefiniowana jako:

p

Ent(S\a) =    Ent(Sj).

3= 1

Można stwierdzić, że entropia Ent(S\a) jest średnią ważoną dla entropii poszczególnych podzbiorów Sj. Im mniejsza wartość Ent(S\a), tym większa jednorodność klasyfikacji dla przykładów podzielonych na podzbiory. Przyrost

4



Wyszukiwarka

Podobne podstrony:
8c (6)
ROZKŁAD CHI-KWADRAT (X2) Po raz pierwszy został opracowany i zastosowany w 1863 roku przez A. Abbego
Test Chi-kwadrat (%2) niezależności X 2 emp — n1 i2EE- i=l 7=1 W;: tlij ~ liczba obserwacji
Czuprowa T (to samo;/). W ich strukturze występuje chi-kwadrat, który jest miarę niezależności
rozklad chi kwadrat cz2 TABLICA 7 (cd.). Wartości krytyczne /2(a, r) rozkładu
statystyka skrypt80 Tablica ni Wartości krytyczne rozkładu chi-kwadrat Liczba stopni swobody, f P
14315 stat Page8 resize 38 3.6 Testy statystyczne gdzie 2(n — 1) oznacza rozkład chi-kwadrat o n —
2010 10 16! B - Ciągła cienka 6. Przekątne prostokątów, kwadratów, trapezów utworzonych przez widocz
IMAG0602 (3) Wymiarowanie stóżków*i. klinów i ej Stożki wymiaruje się przez podanie; większej średni
3a (6) *=S «*ro --4 Tablica 5. Rozkład chi-kwadrat ftf)P(X2
O il poezja Iwaszkiewicza była w swym metafizycznym wymiarze zdeterminowana przez śmierć, o tyle w p
JB = n• 6    24 Statystyka JB ma rozkład chi-kwadrat o dwóch stopniach swobody. W tab

więcej podobnych podstron