Raport ćw 8

Ćwiczenie 6. Tworzenie drzew klasyfikacyjnych dla zmiennej wyjściowej (zależnej) typu ilościowego (11.05.2015r.) (prowadzący ćwiczenie: dr inż. Artur Soroczyński)

6.1. Opis narzędzi eksploracji danych opartych na drzewach decyzyjnych

Według Bogunia [1] drzewa decyzji to narzędzie Inteligencji Obliczeniowej. Są one wykorzystywane jako instrument wspierający proces podejmowania decyzji oraz w zjawisku maszynowego uczenia się. Drzewa klasyfikacyjne służą jako klasyfikatory do wyodrębnienia struktury zawartej w badanym zbiorze danych na skutek procesów selekcji, redukcji oraz rozpoznania zależności między zmiennymi. Istotą drzew klasyfikacyjnych jest zbudowanie modelu odzwierciedlającego zjawiska w nim zachodzące. Elementami składowymi drzew klasyfikacyjnych, czyli skierowanych, acyklicznych grafów o strukturze drzewiastej [3] są węzły symbolizujące testy wykonane na wartościach atrybutów, gałęzie przedstawiające wyniki testów oraz liście, które przedstawiają pojedynczą klasę lub rozkład wartości klas. Ponadto warto zauważyć, że każdy wewnętrzny wierzchołek zawiera punkt podziału, w którym dokonuje się podział danych na części.

W myśl tezy postawionej przez Sędka [2] należy zauważyć, że dzięki zastosowaniu drzew klasyfikacyjnych możliwe jest określenie prawdopodobieństwa wystąpienia określonej wartości zmiennej celu. Ponadto, możliwe jest wykorzystanie różnych algorytmów podziału węzła, a także uwzględnienie innych parametrów. Warto zwrócić również uwagę na zalety, jakie niesie ze sobą to narzędzie, a mianowicie łatwość graficznej interpretacji schematu oraz intuicyjność zastosowania.

6.2. Metodyka badań

Na potrzeby ćwiczenia wykorzystano program Statistica. Badanie przebiegało w etapach:
1. Wykonanie sześciu wariantów podziału dla metod Gini, Chi kwadrat oraz G kwadrat
z prawdopodobieństwem równym lub szacowanym dla każdej kategorii zmiennej wyjściowej Y.

2. Stworzenie drzew klasyfikacyjnych dla wszystkich przypadków oraz odczytanie liczby węzłów.

3. Wyznaczenie procentowego błędu przewidywania dla każdego rozpatrywanego wariantu.

4. Analiza otrzymanych wyników.


6.3. Wyniki badań i analiza

Poniżej przedstawiono zestawienie tabelaryczne wyników przeprowadzonych badań (tab. 1.).

Tabela 1.: Wyniki badań dla klas 5, 7 oraz 10.

Liczba kategorii zmiennej wyjściowej Y Metoda podziału Praw. a priori Liczba węzłów Błąd przewidywania %
5 gini szacowane 9 9,13
gini równe 12 10,68
Chi kwadrat szacowane 7 9,89
Chi kwadrat równe 12 11,24
G kwadrat szacowane 6 12,27
G kwadrat równe 12 11,58
    średnia: 9,67 10,80
7 gini szacowane 18 7,80
gini równe 17 7,98
Chi kwadrat szacowane 16 7,60
Chi kwadrat równe 16 9,05
G kwadrat szacowane 15 7,30
G kwadrat równe 15 8,11
    średnia: 16,17 7,97
10 gini szacowane 15 8,84
gini równe 18 8,46
Chi kwadrat szacowane 17 8,19
Chi kwadrat równe 17 9,43
G kwadrat szacowane 14 8,67
G kwadrat równe 15 8,84
    średnia: 16,00 8,74

Wykresy:
a)

b) W celu wykonania poprawnej analizy otrzymanych danych wykonano sortowanie danych w tabeli po liczbie węzłów rosnąco. Poniżej przedstawiono tabelę z posortowanymi danymi (tab. 2.).

Tabela 2.: Uszeregowane rosnąco wyniki badań dla klas 5, 7 oraz 10.

Liczba kategorii zmiennej wyjściowej Y Metoda podziału Praw. a priori Liczba węzłów Błąd przewidywania %
5 G kwadrat szacowane 6 12,27
Chi kwadrat szacowane 7 9,89
gini szacowane 9 9,13
gini równe 12 10,68
Chi kwadrat równe 12 11,24
G kwadrat równe 12 11,58
    średnia: 9,67 10,80
7 G kwadrat szacowane 15 7,30
G kwadrat równe 15 8,11
Chi kwadrat szacowane 16 7,60
Chi kwadrat równe 16 9,05
gini równe 17 7,98
gini szacowane 18 7,80
    średnia: 16,17 7,97
10 G kwadrat szacowane 14 8,67
gini szacowane 15 8,84
G kwadrat równe 15 8,84
Chi kwadrat szacowane 17 8,19
Chi kwadrat równe 17 9,43
gini równe 18 8,46
    średnia: 16,00 8,74

c) Na podstawie otrzymanych wyników można wnioskować, że najlepsze efekty osiągnięto dla 7 kategorii zmiennej wyjściowej przy wykorzystaniu metody G kwadrat
z prawdopodobieństwem szacowanym, ponieważ dla tego wariantu uzyskano najmniejszą wartość procentowego błędu przewidywania (wynosi on 7,30%). Poniżej przedstawiono graf drzewa oraz wykres istotności zmiennych wejściowych dla przywołanego wyżej przypadku.

Rysunek 1.: Graf drzewa dla najlepszej metody

Rysunek 2.: Wykres ważności zmiennej wyjściowej dla najlepszej metody.

6.4. Wnioski

Na podstawie przeprowadzonych badań można wnioskować, że najlepsze wyniki uzyskano dla siedmiu kategorii zmiennej wyjściowej przy wykorzystaniu metody G kwadrat
z prawdopodobieństwem szacowanym (z błędem przewidywania 7,30%). Podczas, gdy najwyższą wartość błędu przewidywania otrzymano dla pięciu kategorii zmiennej wyjściowej Y, również dla metody G kwadrat z prawdopodobieństwem szacowanym (błąd przewidywania 12,27%).

Analizując rozkład otrzymanych wyników można stwierdzić, że najlepsze wyniki,
a zatem najmniejsze wartości błędów przewidywania otrzymano dla siedmiu kategorii zmiennej wyjściowej. Ponadto warto zwrócić uwagę na brak klarownej zależności pomiędzy liczbą węzłów, a błędem przewidywania. Nie można zatem wysnuć wniosku, że wartość błędy przewidywania maleje ze wzrostem liczby węzłów.

Znaczącym efektem wykonania ćwiczenia jest potwierdzenie zalet wykorzystania drzew decyzyjnych, a zatem ich prostoty, intuicyjności stosowania oraz możliwości przetwarzania dużej ilości danych.

6.5. Bibliografia

  1. BOGUNIA M., Drzewa decyzji idea i zastosowania, Praca zaliczeniowa z przedmiotu „Inteligencja Obliczeniowa. Metody i Zastosowania” Rok akademicki 2007/2008, semestr letni, Fizyka , I rok MU, Optoelektronika z Mikroelektroniką, http://www.is.umk.pl/~duch/Wyklady/CIS/Prace%20zalicz/08-Bogunia-drzewa_decyzji.pdf, dostęp: 11.06.2015r.

  2. Sędek J., Praca Dyplomowa Inżynierska „Aplikacja do oceny kredytowej klientów banku zrealizowana z wykorzystaniem środowiska i narzędzi SAS”, Politechnika Warszawska Wydział Elektroniki i Technik Informacyjnych Instytut Informatyki, Rok akademicki 2013/2014, Opiekun pracy dr inż. Andrzej Ciemski, file:///C:/Users/Kinga/Downloads/J.Sedek_pdi.pdf, dostęp: 11.06.2015r.

  3. Witryna internetowa: http://wazniak.mimuw.edu.pl/images/5/5f/ED-4.2-m07-1.0.pdf, Materiały wykładowe - Eksploracja danych Klasyfikacja – Klasyfikacja, Sformułowanie problemu, Metody klasyfikacji, Kryteria oceny metod klasyfikacji, dostęp: 11.06.2015r.


Wyszukiwarka

Podobne podstrony:
Raport ćw 3
Raport ćw 5
Raport ćw 7 Wnioski
Raport ćw 5
raport ćw 1
raport ćw 5, ►► UMK TORUŃ - wydziały w Toruniu, ► WYDZIAŁ Biologii, WYDZIAŁ Chemii, Biotechnologia U
raport z Cw 2
raport ćw 2 2 na poziomie istotniości alfa
Raport ćw 7
Raport ćw 8
Raport ćw 3 Wnioski
Raport ćw 1 Wnioski
raport ćw 6
Raport ćw 2
raport ćw 3
Raport ćw 8 Wnioski
Raport ćw 4
raport ćw 4

więcej podobnych podstron