6218157024

6218157024



dziedziny atrybutu a. Jest zdefiniowana w następujący sposób:

Split(S\a) =

Zl

S’


gdzie Sj jest podzbiorem przykładów opisanych j-tą wartością atrybutu a, r jest liczbą różnych wartości w dziedzinie tego atrybutu.

• ilorazem przyrostu informacji(ang. (/am ratio) zaproponowana również przez Quinlana jako miara do "normalizacji” przyrostu informacji i oceny jakości testu w węźle:

Gainratio(S\a) =


Gain (S \ a) Split(S\a)

Zasada wyboru atrybutu do stworzenia węzła w algorytmie indukcji drzew jest niezmieniona, tzn. zawsze wybierać będziemy ten atrybut, który pozwala maksymalizować wartość miary Gain ratio.

4    Binaryzacja drzew decyzyjnych

W przypadku, gdy mamy do czynienia z bardziej zróżnicowanymi danymi, (nie tylko jakościowymi) o małym zbiorze wartości, często modyfikuje się podstawowy schemat algorytmu, tak, aby generować binarne drzewa decyzyjne. Binarne drzewo decyzyjne charakteryzuje się tym, że z każdego jego wewnętrznego węzła wychodzą jedynie dwie krawędzie, czyli każdy zbiór przykładów związany z węzłem dzieli się na dwa rozłączne podzbiory. Taki rodzaj drzew ogranicza wystąpienie zjawiska fragmentacji danych, tj. stopniowego podziału zbioru przykładów na coraz mniejsze podzbiory, które mogą zawierać zbyt małą liczbę przykładów. Konstruowanie binarnych drzew decyzyjnych wiąże się z innymi sposobami tworzenia testów do umieszczenia w węźle drzew, tak, aby odpowiedzi na test były zawsze dwuwartościowe, np. prawda lub fałsz.

5    Postępowanie w przypadku brakujących wartości atrybutów

Rzeczywiste dane mogą zawierać nieznane (niezdefiniowane) wartości części atrybutów (ang. unknown values of attributes) dla niektórych obiektów. Sytuacje takie mogą wynikać z błędów podczas rejestracji danych, zagubienia zapisów bądź niedostępności pewnych informacji. Występowanie niezdefiniowanych wartości atrybutów wpływa zarówno na sam proces budowy drzewa, jak i na późniejsze użycie go do klasyfikowania nowych lub testowych obiektów. Część metod stosowana jest we wstępnym przetwarzaniu danych przed użyciem właściwego algorytmu indukcji. Wiele z nich jest ukierunkowanych na zastępowanie nieznanej wartości atrybutu dla określonego przykładu wartością z dziedziny tego atrybutu. Używa się najczęściej występującej wartości atrybutu, określonej na podstawie przykładów z pełnym opisem lub podzbioru tych przykładów należących do tej samej klasy decyzyjnej co analizowany przykład.

7



Wyszukiwarka

Podobne podstrony:
Niech liczby wi,, u>2k+i będą zdefiniowane w następujący sposób: = (13 “i* ) • (13 w)- i=0
44 EWA REPUCHO Dziś nie jest inaczej. Przemek Dębowski w następujący sposób opisywał swoje doświadcz
Mnożenie macierzy jest zdefiniowane następująco: (M- W)(m) = mg(M(p,r)). (W(r,«)). Po wprowadzeniu t
IMAG0755 (2) d2    ^ećfśpa gwintu [mm] Pozorny kąt tarcia jest zdefiniowany następują
Powyższy program działa w następujący sposób: -    po pierwsze tworzone jest „nowe”
wGRUPA 1 ZAD. 1. Dana jest relacja R Q N2x N2(N-zbiór liczb naturalnych, zdefiniowana następująco:
3. Projekt systemu Analizerkę opisać można w następujący sposób. Jest to aplikacja do zarządzania
Asocjacje Innym sposobem zapisania atrybutu jest użycie asocjacji. Większość tych samych informacji,
Zdjęcie0370 ■B I# U kotów barwa sierści Jest warunkowana priei gen H leżący na PCJJhromosomach w nas
Aktualizowanie istniejących międzynarodowych konwencji realizowane jest w następujący sposób: -
3 (1795) hóhióm rozszemny 1Zadanie 2. (7 pkt) Przekształcenie Pokreślone jest w następujący sposób:
3-2012 PROBLEMY EKSPLOATACJI 179 Funkcja f(t) jest określona w następujący sposób: /(r) = r3 dl
image049 Proces PI utworzył obiekt synclironizacji typu zdarzenie w następujący sposób:CEvent
Image202 2.    Jeśli liczba 27 zostanie rozłożona w następujący sposób: 27 = (8+l)(2+
Image222 Jeżeli poszczególne funkcje przełączające zostaną zrealizowane w następujący sposób: Da = A
Image233 Jeżeli funkcje przełączające dla wejść J i K zostaną przekształcone w następujący sposób: j

więcej podobnych podstron