Instrukcja do ćwiczeń 2 i 3 – drzewa decyzyjne
W zadaniach należy użyć wskazany zbiór danych (spośród zbiorów: dane1,…,dane11) – dla
grup 2 osobowych.
Ćwiczenia 2
1. Polecenia obliczeniowe "na kartkach" (bez wykorzystania narzędzia komputerowego):
a)
Obliczyć i narysować drzewo decyzyjne tworzone przez algorytm CART, przyjmując
jako dane trenujące 8 wybranych losowo rekordów wskazanego zbioru danych.
b)
Przetestować obliczone drzewo przyjmując jako dane testowe 6 losowo wybranych
rekordów.
c)
Sporządzić odpowiednią macierz pomyłek i obliczyć poziom błędu. Skomentować
uzyskane wyniki.
2. Polecenia do wykonania z wykorzystaniem pakietu Tanagra.
a)
Za pomocą algorytmu CART dostępnego w środowisku Tanagra przeprowadzić
indukcję drzewa decyzyjnego korzystając ze zbioru danych z punktu 1a. Przetestować
otrzymane drzewo na zbiorze danych z punktu 1b. Porównać wyniki z wynikami
otrzymanymi w punkcie 1.
b)
Dla pełnego zbioru danych obliczyć drzewo decyzyjne za pomocą algorytmu CART.
Należy przyjąć, że zbiór treningowy stanowi 80% danych, oraz zbadać różne wartości
parametrów algorytmu:
Min size of node to split = 2, 5, 10, 15 i 20 przy wartości parametru “Pruning set
size” = 10%.
Zespoły 3 osobowe dodatkowo: Pruning set size = 10%, 20%, 30%, 40% i 50%
przy wartości parametru “Min size of node to split” = 10.
Dla każdej rozważanej wartości parametru (parametrów) określić poziom błędu.
Wyniki przedstawić w postaci tabeli lub wykresu i skomentować.
c)
Dla „najlepszego” drzewa (znalezionego w pkt 2b) zbadać, jak wielkość zbioru
treningowego wpływa na poziom błędu. Przeprowadzić obliczenia dla przypadków, w
których zbiór treningowy stanowi 40%, 60% i 80% wszystkich danych. Uzyskane
wyniki przedstawić w postaci tabeli lub wykresu i skomentować.
Ćwiczenia 3
1. Polecenia obliczeniowe "na kartkach" (bez wykorzystania narzędzia komputerowego):
a)
Obliczyć i narysować drzewo decyzyjne tworzone przez algorytm C4.5, przyjmując
jako dane trenujące 8 wybranych losowo rekordów wskazanego zbioru danych.
b)
Przetestować obliczone drzewo przyjmując jako dane testowe 6 losowo wybranych
rekordów.
c)
Sporządzić odpowiednią macierz pomyłek i obliczyć poziom błędu. Skomentować
uzyskane wyniki.
d)
Porównać uzyskane drzewo z drzewem obliczonym za pomocą algorytmu CART.
2. Polecenia do wykonania z wykorzystaniem pakietu Tanagra.
a)
Przeprowadzić serię eksperymentów oceny drzew decyzyjnych wygenerowanych za
pomocą algorytmu C4.5, zmieniając wartość parametru Min. size of leaves od 1 do 30
z krokiem 2 i sporządzić wykres:
zależności średniej trafności klasyfikowania od zmienianego parametru.
oraz omówić zależność trafności klasyfikowania od rozmiaru drzewa.
Przyjąć podział zbioru danych na 5 podzbiorów (Podział należy wykonać tak, aby
podzbiory miały podobne rozmiary i dystrybucje klas. Przyjąć standardowe ustawienia
pozostałych parametrów). Wyniki (poziom błędu, rozmiar drzewa) dla każdego z
podzbiorów powinny być zamieszczone w tabeli.
b)
Przeprowadzić serię eksperymentów oceny drzew decyzyjnych wygenerowanych za
pomocą algorytmu C4.5, zmieniając wartość parametru Confidence level od 0.05 do
0.5 z krokiem 0.05 i sporządzić wykres
zależności średniej trafności klasyfikowania od zmienianego parametru.
oraz omówić zależność trafności klasyfikowania od rozmiaru drzewa.
Przyjąć podział zbioru danych na 5 podzbiorów (Podział należy wykonać tak, aby
podzbiory miały podobne rozmiary i dystrybucje klas). Eksperyment przeprowadzić
dla dwóch wartości parametru Min. size of leaves: 5 i 20. Wyniki (poziom błędu,
rozmiar drzewa) dla każdego z podzbiorów powinny być zamieszczone w tabeli.
c)
Przeprowadzić dyskusję wyników otrzymanych w punktach a i b zwracając uwagę na
zjawisko przeuczenia.