Ćwiczenie 6. Tworzenie drzew klasyfikacyjnych dla zmiennej wyjściowej (zależnej) typu ilościowego (11.05.2015r.) (prowadzący ćwiczenie: dr inż. Artur Soroczyński)
6.1. Opis narzędzi eksploracji danych opartych na drzewach decyzyjnych
Według Bogunia [1] drzewa decyzji to narzędzie Inteligencji Obliczeniowej. Są one wykorzystywane jako instrument wspierający proces podejmowania decyzji oraz w zjawisku maszynowego uczenia się. Drzewa klasyfikacyjne służą jako klasyfikatory do wyodrębnienia struktury zawartej w badanym zbiorze danych na skutek procesów selekcji, redukcji oraz rozpoznania zależności między zmiennymi. Istotą drzew klasyfikacyjnych jest zbudowanie modelu odzwierciedlającego zjawiska w nim zachodzące. Elementami składowymi drzew klasyfikacyjnych, czyli skierowanych, acyklicznych grafów o strukturze drzewiastej [3] są węzły symbolizujące testy wykonane na wartościach atrybutów, gałęzie przedstawiające wyniki testów oraz liście, które przedstawiają pojedynczą klasę lub rozkład wartości klas. Ponadto warto zauważyć, że każdy wewnętrzny wierzchołek zawiera punkt podziału, w którym dokonuje się podział danych na części.
W myśl tezy postawionej przez Sędka [2] należy zauważyć, że dzięki zastosowaniu drzew klasyfikacyjnych możliwe jest określenie prawdopodobieństwa wystąpienia określonej wartości zmiennej celu. Ponadto, możliwe jest wykorzystanie różnych algorytmów podziału węzła, a także uwzględnienie innych parametrów. Warto zwrócić również uwagę na zalety, jakie niesie ze sobą to narzędzie, a mianowicie łatwość graficznej interpretacji schematu oraz intuicyjność zastosowania.
Na potrzeby ćwiczenia wykorzystano program Statistica. Badanie przebiegało w etapach:
1. Wykonanie sześciu wariantów podziału dla metod Gini, Chi kwadrat oraz G kwadrat
z prawdopodobieństwem równym lub szacowanym dla każdej kategorii zmiennej wyjściowej Y.
2. Stworzenie drzew klasyfikacyjnych dla wszystkich przypadków oraz odczytanie liczby węzłów.
3. Wyznaczenie procentowego błędu przewidywania dla każdego rozpatrywanego wariantu.
4. Analiza otrzymanych wyników.
6.3. Wyniki badań i analiza
Poniżej przedstawiono zestawienie tabelaryczne wyników przeprowadzonych badań (tab. 1.).
Tabela 1.: Wyniki badań dla klas 5, 7 oraz 10.
Liczba kategorii zmiennej wyjściowej Y | Metoda podziału | Praw. a priori | Liczba węzłów | Błąd przewidywania % |
---|---|---|---|---|
5 | gini | szacowane | 9 | 9,13 |
gini | równe | 12 | 10,68 | |
Chi kwadrat | szacowane | 7 | 9,89 | |
Chi kwadrat | równe | 12 | 11,24 | |
G kwadrat | szacowane | 6 | 12,27 | |
G kwadrat | równe | 12 | 11,58 | |
średnia: | 9,67 | 10,80 | ||
7 | gini | szacowane | 18 | 7,80 |
gini | równe | 17 | 7,98 | |
Chi kwadrat | szacowane | 16 | 7,60 | |
Chi kwadrat | równe | 16 | 9,05 | |
G kwadrat | szacowane | 15 | 7,30 | |
G kwadrat | równe | 15 | 8,11 | |
średnia: | 16,17 | 7,97 | ||
10 | gini | szacowane | 15 | 8,84 |
gini | równe | 18 | 8,46 | |
Chi kwadrat | szacowane | 17 | 8,19 | |
Chi kwadrat | równe | 17 | 9,43 | |
G kwadrat | szacowane | 14 | 8,67 | |
G kwadrat | równe | 15 | 8,84 | |
średnia: | 16,00 | 8,74 |
Wykresy:
a)
b) W celu wykonania poprawnej analizy otrzymanych danych wykonano sortowanie danych w tabeli po liczbie węzłów rosnąco. Poniżej przedstawiono tabelę z posortowanymi danymi (tab. 2.).
Tabela 2.: Uszeregowane rosnąco wyniki badań dla klas 5, 7 oraz 10.
Liczba kategorii zmiennej wyjściowej Y | Metoda podziału | Praw. a priori | Liczba węzłów | Błąd przewidywania % |
---|---|---|---|---|
5 | G kwadrat | szacowane | 6 | 12,27 |
Chi kwadrat | szacowane | 7 | 9,89 | |
gini | szacowane | 9 | 9,13 | |
gini | równe | 12 | 10,68 | |
Chi kwadrat | równe | 12 | 11,24 | |
G kwadrat | równe | 12 | 11,58 | |
średnia: | 9,67 | 10,80 | ||
7 | G kwadrat | szacowane | 15 | 7,30 |
G kwadrat | równe | 15 | 8,11 | |
Chi kwadrat | szacowane | 16 | 7,60 | |
Chi kwadrat | równe | 16 | 9,05 | |
gini | równe | 17 | 7,98 | |
gini | szacowane | 18 | 7,80 | |
średnia: | 16,17 | 7,97 | ||
10 | G kwadrat | szacowane | 14 | 8,67 |
gini | szacowane | 15 | 8,84 | |
G kwadrat | równe | 15 | 8,84 | |
Chi kwadrat | szacowane | 17 | 8,19 | |
Chi kwadrat | równe | 17 | 9,43 | |
gini | równe | 18 | 8,46 | |
średnia: | 16,00 | 8,74 |
c) Na podstawie otrzymanych wyników można wnioskować, że najlepsze efekty osiągnięto dla 7 kategorii zmiennej wyjściowej przy wykorzystaniu metody G kwadrat
z prawdopodobieństwem szacowanym, ponieważ dla tego wariantu uzyskano najmniejszą wartość procentowego błędu przewidywania (wynosi on 7,30%). Poniżej przedstawiono graf drzewa oraz wykres istotności zmiennych wejściowych dla przywołanego wyżej przypadku.
Rysunek 1.: Graf drzewa dla najlepszej metody
Rysunek 2.: Wykres ważności zmiennej wyjściowej dla najlepszej metody.
6.4. Wnioski
Na podstawie przeprowadzonych badań można wnioskować, że najlepsze wyniki uzyskano dla siedmiu kategorii zmiennej wyjściowej przy wykorzystaniu metody G kwadrat
z prawdopodobieństwem szacowanym (z błędem przewidywania 7,30%). Podczas, gdy najwyższą wartość błędu przewidywania otrzymano dla pięciu kategorii zmiennej wyjściowej Y, również dla metody G kwadrat z prawdopodobieństwem szacowanym (błąd przewidywania 12,27%).
Analizując rozkład otrzymanych wyników można stwierdzić, że najlepsze wyniki,
a zatem najmniejsze wartości błędów przewidywania otrzymano dla siedmiu kategorii zmiennej wyjściowej. Ponadto warto zwrócić uwagę na brak klarownej zależności pomiędzy liczbą węzłów, a błędem przewidywania. Nie można zatem wysnuć wniosku, że wartość błędy przewidywania maleje ze wzrostem liczby węzłów.
Znaczącym efektem wykonania ćwiczenia jest potwierdzenie zalet wykorzystania drzew decyzyjnych, a zatem ich prostoty, intuicyjności stosowania oraz możliwości przetwarzania dużej ilości danych.
6.5. Bibliografia
BOGUNIA M., Drzewa decyzji idea i zastosowania, Praca zaliczeniowa z przedmiotu „Inteligencja Obliczeniowa. Metody i Zastosowania” Rok akademicki 2007/2008, semestr letni, Fizyka , I rok MU, Optoelektronika z Mikroelektroniką, http://www.is.umk.pl/~duch/Wyklady/CIS/Prace%20zalicz/08-Bogunia-drzewa_decyzji.pdf, dostęp: 11.06.2015r.
Sędek J., Praca Dyplomowa Inżynierska „Aplikacja do oceny kredytowej klientów banku zrealizowana z wykorzystaniem środowiska i narzędzi SAS”, Politechnika Warszawska Wydział Elektroniki i Technik Informacyjnych Instytut Informatyki, Rok akademicki 2013/2014, Opiekun pracy dr inż. Andrzej Ciemski, file:///C:/Users/Kinga/Downloads/J.Sedek_pdi.pdf, dostęp: 11.06.2015r.
Witryna internetowa: http://wazniak.mimuw.edu.pl/images/5/5f/ED-4.2-m07-1.0.pdf, Materiały wykładowe - Eksploracja danych Klasyfikacja – Klasyfikacja, Sformułowanie problemu, Metody klasyfikacji, Kryteria oceny metod klasyfikacji, dostęp: 11.06.2015r.