Klasyfikacja
Klasyfikacja (ang. classification) jest to technika predykcyjna oraz technika uczenia nadzorowanego. Jest jedną z najpopularniejszych metod eksploracji danych. Klasyfikacja jest stosowana do rozwiązywania problemów biznesowych dotyczących migracji klientów czy też szacowania ryzyka kredytowego. Głównym celem klasyfikacji jest zbudowanie, na podstawnie zawartości bazy danych, modelu zwanego klasyfikatorem. Otrzymany model służy następnie do klasyfikowania nowych obiektów w bazie danych do wcześniej zdefiniowanych klas. Klasyfikacja składa się z dwóch etapów (rys. 1.1), pierwszym z nich jest budowanie modelu, drugim wykorzystanie modelu w odniesieniu do nowych danych. Etap budowania modelu można z kolei podzielić na proces uczenia oraz następujące po nim testowanie. Proces uczenia oznacza budowanie modelu w oparciu o zbiór danych treningowych wyselekcjonowanych z bazy danych. Kolejnym krokiem jest pozyskanie zbioru danych testujących, również pochodzących z istniejącej bazy danych, oraz określenie jakości - dokładności klasyfikatora. Na podstawie testowania modelu można określić współczynnik dokładności modelu (ang. accuracy rate). Współczynnik ten określa procentową ilość poprawnie zaklasyfikowanych danych testowych przez zbudowany klasyfikator.
Rys. 1.1 Etapy klasyfikacji.
Algorytm drzew decyzyjnych
Algorytm drzew decyzyjnych jest jednym z najpopularniejszych algorytmów ze względu na szybkość działania oraz stosunkowo wysoki stopień dokładności zwracanych wyników, a także intuicyjną formę zapisu rezultatów. Algorytm najczęściej stosowany jest do klasyfikacji atrybutów dyskretnych oraz regresji atrybutów ciągłych. Podstawową ideą algorytmu drzew decyzyjnych jest podział danych na podzbiory. W modelach opartych na tym algorytmie należy zdefiniować kolumnę klucza oraz kolumny wejściowe. Kolumna klucza nie może zawierać kluczy złożonych, natomiast kolumny wejściowe mogą przyjmować zarówno wartości ciągłe jak i dyskretne. Pamiętać należy, że zwiększanie kolumn wejściowych ma wpływ na czas wykonywania. Konieczne jest również określenie kolumny, której wartości będą przewidywane. Można zdefiniować jedną bądź więcej kolumn do przewidzenia.
Głównymi parametrami mającymi największy wpływ na wygląd i podział drzewa decyzyjnego są :
COMPLEXITY_PENALTY - określa stopień wzrostu drzew decyzyjnych, manipulacja przy tym parametrze pozwala na określenie głębokości drzewa, im bardziej wartość parametru zbliżona jest do 1 tym mniej węzłów będzie posiadało drzewo,
SCORE_METHOD - określa sposób obliczania punktów podziału drzew decyzyjnych,
MINIMUM_SUPPORT - określa minimalną liczbę przypadków wymagana do utworzenia węzła drzewa decyzyjnego
SPLIT_METHOD - określa metodę podziału drzew decyzyjnych. 1-podzial binarny, 2-podział zupełny.
Przykładowo algorytm drzew decyzyjnych może dać odpowiedź na pytanie o ryzyko związane z udzieleniem kredytu danemu klientowi bądź też może odszukać atrybuty mające największy wpływ na decyzję o zakupie konkretnego produktu.
Klasyfikacja przy użyciu algorytmu drzew decyzyjnych
W bazie danych podane zostały dane dotyczące wiarygodności firmy, jeśli chodzi o spłacanie przez nią kredytu. Powody przydzielenia kredytu zostały podzielone na kategorie: dochody, status firmy i zobowiązania miesięczne. Na podstawie tych danych została określona kolejna kategoria, status materialny, która bezpośrednio wpływa na określenie wiarygodności firmy.
Model eksploracji danych o przedstawionej powyżej charakterystyce przy użyciu algorytmu drzew decyzyjnych zwrócił następujące wyniki:
Rys. Wyniki zwrócone przy użyciu algorytmu drzew decyzyjnych.
Każdy element drzewa jest oznaczony odpowiednio intensywnym kolorem. Im barwa jest intensywniejsza tym większy wpływ danego atrybutu na podatność na kampanie reklamowe. Z powyższego drzewa wynika, że najbardziej wiarygodnymi firmami są te o dochodach najmniejszych, czyli poniżej 4367 oraz o zobowiązaniach miesięcznych powyżej 0,146, ale mniejsze od 0,438. Na każdym poziomie można dokonywać kolejnych analiz. Ilość poziomów, na które zostanie podzielone drzewo decyzyjne zależy w największej mierze od ustawienia parametru algorytmu COMPLEXITY_PENALTY odpowiedzialnego za stopień wzrostu drzewa. Zależności pomiędzy atrybutami a przewidywaną wartością można obejrzeć również w postaci sieci zależności. Można wybrać wszystkie zależności lub tylko najsilniejsze z nich, korzystając z suwaka znajdującego się po lewej stronie. Na schemacie poniżej zostały wyróżnione wszystkie zależności, gdyż nie ma tutaj rozróżnienia na najsilniejsze czy najsłabsze.
Rys. Sieć zależności z zaznaczonymi najsilniejszymi zależnościami.
Zapytania predykcyjne - testowanie nowych danych przy użyciu istniejących modeli eksploracji danych
Jednym z zastosowań metod eksploracji danych są analiza predykcyjna . W bazie danych Dane_Klienci znajduje się tabela Klienci_New zawierająca dane firm, dla których oceniana jest wiarygodność. Na podstawie tej tabeli oraz stworzonego modelu można ocenić, na ile wiarygodna jest wybrana firma. Można dowolnie wybrać atrybuty jakie zostaną zwrócone w wyniku poprzez przeciągnięcie ich w wyznaczone miejsce pod tabelami. W tym przypadku wynik zawierać wszystkie atrybuty.
Uzyskane wyniki przedstawione są w postaci tabelarycznej. Dla każdej firmy oceniona została jej wiarygodność. Bazując na tych wynikach Ban może ocenić, czy przyznawać danej firmie kredyt.