background image

Instrukcja do ćwiczeń 2 i 3 – drzewa decyzyjne 
 
W zadaniach należy użyć wskazany zbiór danych (spośród zbiorów: dane1,…,dane11) – dla 
grup 2 osobowych. 
 
Ćwiczenia 2 

1. Polecenia obliczeniowe "na kartkach" (bez wykorzystania narzędzia komputerowego):  

a)

  Obliczyć i narysować drzewo decyzyjne tworzone przez algorytm CART, przyjmując 

jako dane trenujące 8 wybranych losowo rekordów wskazanego zbioru danych. 

b)

  Przetestować  obliczone  drzewo  przyjmując  jako  dane  testowe  6  losowo  wybranych 

rekordów. 

c)

  Sporządzić  odpowiednią  macierz  pomyłek  i  obliczyć  poziom  błędu.  Skomentować 

uzyskane wyniki. 

  

  2. Polecenia do wykonania z wykorzystaniem pakietu Tanagra. 

a)

  Za  pomocą  algorytmu  CART  dostępnego  w  środowisku  Tanagra  przeprowadzić 

indukcję drzewa decyzyjnego korzystając ze zbioru danych z punktu 1a. Przetestować 
otrzymane  drzewo  na  zbiorze  danych  z  punktu  1b.  Porównać  wyniki  z  wynikami 
otrzymanymi w punkcie 1. 

b)

  Dla pełnego zbioru danych obliczyć drzewo decyzyjne za pomocą algorytmu CART. 

Należy przyjąć, że zbiór treningowy stanowi 80% danych, oraz zbadać różne wartości 
parametrów algorytmu:  

  Min size of node to split = 2, 5, 10, 15 i 20 przy wartości parametru “Pruning set 

size” = 10%. 

  Zespoły  3  osobowe  dodatkowo:  Pruning  set  size  =  10%,  20%,  30%,  40%  i  50% 

przy wartości parametru “Min size of node to split” = 10. 

Dla  każdej  rozważanej  wartości  parametru  (parametrów)  określić  poziom  błędu. 
Wyniki przedstawić w postaci tabeli lub wykresu i skomentować.  

c)

  Dla  „najlepszego”  drzewa  (znalezionego  w  pkt  2b)  zbadać,  jak  wielkość  zbioru 

treningowego wpływa na poziom błędu. Przeprowadzić obliczenia dla przypadków, w 
których  zbiór  treningowy  stanowi  40%,  60%  i  80%  wszystkich  danych.  Uzyskane 
wyniki przedstawić w postaci tabeli lub wykresu i skomentować. 

 
 
Ćwiczenia 3 

1. Polecenia obliczeniowe "na kartkach" (bez wykorzystania narzędzia komputerowego):  

a)

  Obliczyć  i  narysować  drzewo  decyzyjne  tworzone  przez  algorytm  C4.5,  przyjmując 

jako dane trenujące 8 wybranych losowo rekordów wskazanego zbioru danych. 

b)

  Przetestować  obliczone  drzewo  przyjmując  jako  dane  testowe  6  losowo  wybranych 

rekordów. 

c)

  Sporządzić  odpowiednią  macierz  pomyłek  i  obliczyć  poziom  błędu.  Skomentować 

uzyskane wyniki. 

d)

  Porównać uzyskane drzewo z drzewem obliczonym za pomocą algorytmu CART.  

background image

  

  2. Polecenia do wykonania z wykorzystaniem pakietu Tanagra. 

a)

  Przeprowadzić  serię  eksperymentów  oceny  drzew  decyzyjnych  wygenerowanych  za 

pomocą algorytmu C4.5, zmieniając wartość parametru Min. size of leaves od 1 do 30 
z krokiem 2 i sporządzić wykres: 

   zależności średniej trafności klasyfikowania od zmienianego parametru. 

oraz omówić zależność trafności klasyfikowania od rozmiaru drzewa. 

Przyjąć podział zbioru danych na 5 podzbiorów (Podział należy wykonać tak, aby 
podzbiory miały podobne rozmiary i dystrybucje klas. Przyjąć standardowe ustawienia 
pozostałych  parametrów).  Wyniki  (poziom  błędu,  rozmiar  drzewa)  dla  każdego  z 
podzbiorów powinny być zamieszczone w tabeli. 

b)

  Przeprowadzić  serię  eksperymentów  oceny  drzew  decyzyjnych  wygenerowanych  za 

pomocą  algorytmu  C4.5,  zmieniając  wartość  parametru  Confidence  level  od  0.05  do 
0.5 z krokiem 0.05 i sporządzić wykres 

   zależności średniej trafności klasyfikowania od zmienianego parametru. 

oraz omówić zależność trafności klasyfikowania od rozmiaru drzewa. 

Przyjąć podział zbioru danych na 5 podzbiorów (Podział należy wykonać tak, aby 
podzbiory miały podobne rozmiary i dystrybucje klas). Eksperyment przeprowadzić 
dla  dwóch  warto
ści  parametru  Min.  size  of  leaves:  5  i  20.  Wyniki  (poziom  błędu, 
rozmiar drzewa) dla każdego z podzbiorów powinny być zamieszczone w tabeli. 

c)

  Przeprowadzić dyskusję wyników otrzymanych w punktach a i b zwracając uwagę na 

zjawisko przeuczenia.