1310109186

1310109186



dochody

b"—r~"^

piskie wysokie średnie


tak


średnje^


j | student | .tak    ]


J


tak

Rysunek 2: Drzewo decyzyjne dla pojęcia "kupuję komputer".

Zbiór 8 przykładów składa się z 3 przykładów decyzji Tak i 5 na decyzję Nie. Odpowiednie prawdopodobieństwa są równe ptak = 3/8 oraz pnie = 5/8. Wartość entropii związanej z binarną klasyfikacją rozważanego zbioru przykładów jest następująca:

Ent(S) = -(3/8) lg2(3/8) - (5/8) łg2(5/8) = 0.531 + 0.424 = 0.955

. Jeśli wybierzemy atrybut dochody do zbudowania korzenia drzewa, a ma on 3 wartości: {niskie,rednie,wysokie}.

Pierwszy podzbiór Sn^s^e = {4,5,7} zawiera 3 przykłady, które należą do klasy decyzyjnej Nie.

Drugi podzbiór rednie — {1,2,6,8} zawiera po 2 przykłady z obu klas, podczas, gdy podzbiór SWySOj^e = {3} złożony jest z jednego przykłady z klasy Tak.

Wartość entropii warunkowej ze względu na ten atrybut jest następująca: Ent(S\dochody) = § * Ent(Sniskie) + f *Ent(Sśrednie) + § * Ent(Swysokie) = 2„(—0*log20—l*log2 l)+|(-|*log2|-i*log2|)+|*(-0*log20-l*log2l) = 0 + 0.5 + 0 = 0.5 Przyrost informacji:

GainInformation{S, dochody) = Ent(S) — Ent{S\dochody) = 0.955 — 0.5 = 0.455.

Wartości miar przyrostu informacji wynikających z zastosowania pozostałych atrybutów do budowy korzenia drzewa są następujące:

Gain(S, student) = 0.348 oraz Gain(S, płeć) = 0.004.

Podzbiory przykładów przypisane gałęziom odpowiadającym wartościom niskie oraz wysokie mają jednoznaczne przydziały do klas decyzyjnych, dlatego te gałęzie można zakończyć liśćmi etykietowanymi odpowiednio klasami tak i nie. W przypadku podzbiorów przykładów Srednie = (1, 2,6,8} należy rekurencyjnie wywołać algorytm. Z dwóch rozważanych atrybutów korzystniejszy przyrost informacji pozwala osiągnąć atrybut student, którego wartości jednoznacznie rozdzielają podzbiór przykładów na klasę tak (przykłady 1,6) oraz klasę nie (odpowiednio pozostałe przykłady 2,8) .

3.1.1 Problem z miarą Information Gain

Niestety miara przyrostu informacji (ang. gain) mając dwa atrybuty do wyboru, wybierze ten o większej liczbie wartości. Nie jest to pożądana właściwość,

5



Wyszukiwarka

Podobne podstrony:
Obowiązek wykazania wysokiej średniej nie dotyczy studentów wykazujących się szczególnymi
d’ dochody ^ --1-~ ^ liskie^ wysokie średnie lnle tak tak
n wysokie n średnie n cienkie □    grube n krzywe □    proste n
Inga Iwasiów Gender dla średniozaawansowanych8 Tak by było. Gdybyśmy dbali o edukację przez dobra
Inga Iwasiów Gender dla średniozaawansowanych5 na głowę studentki w mieście, państwie, może na ca
JAK PIJĄ POLACY? Kto pije?# W# 20% nie 11% nie 70% podstawowe 81%«r«^ zawodowe PŁEĆ 80% tak 89%
78 ruch języka podniebienie twarde wysokie e o średnie a niska Obserwując ruch poziomy
JM Rektora Dostojni Goście, Wysoki Senacie, Drodzy Pracownicy i Studenci! Inauguracja nowego roku
IMAG0606 nymi kopułami i wysokimi minaretami - tak np wybada fMl centralny meczet w Kano. Poza budow
IMAG0684 1 _ MMkf BES r„    -naturalny średni czas życia cząsteczek w stanie wzbudzon
• wysokiej średniej wieku maszynistów kolejowych na rynku pracy - długotrwała przerwa w systematyczn

więcej podobnych podstron