1310109185

1310109185



3 Ważne aspekty budowy drzewa

Zasadniczym problemem jest wybór właściwego atrybutu do zbudowania całego testu. Najlepszy wybór to wybór takiego atrybutu, dla którego skrócimy ścieżkę w drzewie prowadzącą przez ten węzeł do liści wskazujących klasę decyzyjną.W tym celu, niezbędny jest wybór pewniej miary oceniającej, np. miarę przyrostu informacji (ang. Information gain). Wykorzystywane jest przy tym zjawisko entropii. Jeśli S będzie zbiorem uczącym zawierającym n przykładów należących do jednej z k klas decyzyjnych oznaczonych przez K±,..., Kk, a n* oznacza liczebność klasy Ki, wówczas entropia związana z klasyfikacją zbioru S jest zdefiniowana jako:

k

Ent(S) = - ^ Pi lg2 Pi

i=1

, gdzie pi jest prawdopodobieństwem, że losowo wybrany przykład z S należy do klasy Ki, estymowanym jako Entropia podziału zbioru przykładów S ze względu na atrybut a jest zdefiniowana jako:

p

Ent(S\a) = ^-EntiSj). j=1

Można stwierdzić, że entropia Ent(S\a) jest średnią ważoną dla entropii poszczególnych podzbiorów Sj. Im mniejsza wartość Ent(S\a), tym większa jednorodność klasyfikacji dla przykładów podzielonych na podzbiory. Przyrost informacji wynikający z zastosowania atrybutu a do zbudowania testu dzielącego zbiór przykładów uczących S jest zdefiniowany jako różnica:

Gain(S,a) = Ent(S) — Ent(S\a).

3.1 Przykład tworzenia drzewa

Załóżmy, że chcemy klasyfikować klientów sklepu elektronicznego pod względem tego czy kupią komputer czy nie. Elementy tego zbioru zestawiono w tabeli 2.

Tablica 2: Zbiór przykładów uczących opisujących grupę klientów sklepu elektronicznego

Ip

Dochody

Student

Płeć

Kupuje komputer

1

średnie

tak

mężczyzna

tak

2

średnie

nie

kobieta

nie

3

wysokie

tak

kobieta

tak

4

niskie

tak

mężczyzna

nie

5

niskie

tak

kobieta

nie

6

średnie

tak

kobieta

tak

7

niskie

nie

kobieta

nie

8

średnie

nie

mężczyzna

nie

Wśród przykładów występuje binarna klasyfikacja. W związku z tym miara entropii dla zbioru S wyraża się wzorem:

Ent{S) = ~PTak lg2 PTak ~ PNie lg2 PNie

4



Wyszukiwarka

Podobne podstrony:
img003 (19) PODSTAWOWE ASPEKTY BUDOWY ZIEMI Budowa Ziemi jest uwarunkowana jej rozmiarami, kształtem
DSC98 Przy projektowamu struktury produkcyjnej i zasadniczym problemem jest znalezienie odpowi
DSC00401 (4) Bardzo ciekawym i słusznym podejściem jest wybór darmowego oprogramowania do realizacji
Część .teoretyczna Mapa zasadnicza (wielkoskalowa) jest to mapa wykorzystywana do realizacji
doskonałą „samo naprawę”. Problem jest dużo poważniejszy, gdy do sumowania się przeciążeń i
IMG86 Sepsa • dlaczego problem jest ważny i Drugie co do częstości zakażenie szpitalne i ciężki prz
Elongacja translacji Elongacja Drugi aminokwas dostarczony jest przez właściwy tRNA do miejsca A ry-
•    Wybór właściwych wymiarów do agregacji Relacje zbiorcze są naturalnym
DHTML0110 Marginesy i obramowania Listing 6.15. Właściwość display używana jest • raz z właściwościa
•    Wybór właściwych wymiarów do agregacji Relacje zbiorcze są naturalnym
•    Wybór właściwych wymiarów do agregacji Relacje zbiorcze są naturalnym
12 W stęp. drzewa są wysokowartościowe, lecz materjał jest zbyt twardy i suchy do budowy. Należy wsp
Problemy ergonomiczne Również istotny jest wybór bodźców, czyli wybór narządu zmysłu, do którego
12 W stęp. drzewa są wysokowartościowe, lecz materjał jest zbyt twardy i suchy do budowy. Należy wsp
CCF20090523011 tif KARL R. POPPER Tą uwagą zakończę na razie przegląd zasadniczych problemów, który

więcej podobnych podstron