MS SQL Server Klasyfikacja przy użyciu algorytmu drzew decyzyjnych Dane Klienci Anna Ociepa


Klasyfikacja

Klasyfikacja (ang. classification) jest to technika predykcyjna oraz technika uczenia nadzorowanego. Jest jedną z najpopularniejszych metod eksploracji danych. Klasyfikacja jest stosowana do rozwiązywania problemów biznesowych dotyczących migracji klientów czy też szacowania ryzyka kredytowego. Głównym celem klasyfikacji jest zbudowanie, na podstawnie zawartości bazy danych, modelu zwanego klasyfikatorem. Otrzymany model służy następnie do klasyfikowania nowych obiektów w bazie danych do wcześniej zdefiniowanych klas. Klasyfikacja składa się z dwóch etapów (rys. 1.1), pierwszym z nich jest budowanie modelu, drugim wykorzystanie modelu w odniesieniu do nowych danych. Etap budowania modelu można z kolei podzielić na proces uczenia oraz następujące po nim testowanie. Proces uczenia oznacza budowanie modelu w oparciu o zbiór danych treningowych wyselekcjonowanych z bazy danych. Kolejnym krokiem jest pozyskanie zbioru danych testujących, również pochodzących z istniejącej bazy danych, oraz określenie jakości - dokładności klasyfikatora. Na podstawie testowania modelu można określić współczynnik dokładności modelu (ang. accuracy rate). Współczynnik ten określa procentową ilość poprawnie zaklasyfikowanych danych testowych przez zbudowany klasyfikator.

0x01 graphic

Rys. 1.1 Etapy klasyfikacji.

Algorytm drzew decyzyjnych

Algorytm drzew decyzyjnych jest jednym z najpopularniejszych algorytmów ze względu na szybkość działania oraz stosunkowo wysoki stopień dokładności zwracanych wyników, a także intuicyjną formę zapisu rezultatów. Algorytm najczęściej stosowany jest do klasyfikacji atrybutów dyskretnych oraz regresji atrybutów ciągłych. Podstawową ideą algorytmu drzew decyzyjnych jest podział danych na podzbiory. W modelach opartych na tym algorytmie należy zdefiniować kolumnę klucza oraz kolumny wejściowe. Kolumna klucza nie może zawierać kluczy złożonych, natomiast kolumny wejściowe mogą przyjmować zarówno wartości ciągłe jak i dyskretne. Pamiętać należy, że zwiększanie kolumn wejściowych ma wpływ na czas wykonywania. Konieczne jest również określenie kolumny, której wartości będą przewidywane. Można zdefiniować jedną bądź więcej kolumn do przewidzenia.

Głównymi parametrami mającymi największy wpływ na wygląd i podział drzewa decyzyjnego są :

Przykładowo algorytm drzew decyzyjnych może dać odpowiedź na pytanie o ryzyko związane z udzieleniem kredytu danemu klientowi bądź też może odszukać atrybuty mające największy wpływ na decyzję o zakupie konkretnego produktu.

Klasyfikacja przy użyciu algorytmu drzew decyzyjnych

W bazie danych podane zostały dane dotyczące wiarygodności firmy, jeśli chodzi o spłacanie przez nią kredytu. Powody przydzielenia kredytu zostały podzielone na kategorie: dochody, status firmy i zobowiązania miesięczne. Na podstawie tych danych została określona kolejna kategoria, status materialny, która bezpośrednio wpływa na określenie wiarygodności firmy.

Model eksploracji danych o przedstawionej powyżej charakterystyce przy użyciu algorytmu drzew decyzyjnych zwrócił następujące wyniki:

0x01 graphic

Rys. Wyniki zwrócone przy użyciu algorytmu drzew decyzyjnych.

Każdy element drzewa jest oznaczony odpowiednio intensywnym kolorem. Im barwa jest intensywniejsza tym większy wpływ danego atrybutu na podatność na kampanie reklamowe. Z powyższego drzewa wynika, że najbardziej wiarygodnymi firmami są te o dochodach najmniejszych, czyli poniżej 4367 oraz o zobowiązaniach miesięcznych powyżej 0,146, ale mniejsze od 0,438. Na każdym poziomie można dokonywać kolejnych analiz. Ilość poziomów, na które zostanie podzielone drzewo decyzyjne zależy w największej mierze od ustawienia parametru algorytmu COMPLEXITY_PENALTY odpowiedzialnego za stopień wzrostu drzewa. Zależności pomiędzy atrybutami a przewidywaną wartością można obejrzeć również w postaci sieci zależności. Można wybrać wszystkie zależności lub tylko najsilniejsze z nich, korzystając z suwaka znajdującego się po lewej stronie. Na schemacie poniżej zostały wyróżnione wszystkie zależności, gdyż nie ma tutaj rozróżnienia na najsilniejsze czy najsłabsze.

0x01 graphic

Rys. Sieć zależności z zaznaczonymi najsilniejszymi zależnościami.

Zapytania predykcyjne - testowanie nowych danych przy użyciu istniejących modeli eksploracji danych

Jednym z zastosowań metod eksploracji danych są analiza predykcyjna . W bazie danych Dane_Klienci znajduje się tabela Klienci_New zawierająca dane firm, dla których oceniana jest wiarygodność. Na podstawie tej tabeli oraz stworzonego modelu można ocenić, na ile wiarygodna jest wybrana firma. Można dowolnie wybrać atrybuty jakie zostaną zwrócone w wyniku poprzez przeciągnięcie ich w wyznaczone miejsce pod tabelami. W tym przypadku wynik zawierać wszystkie atrybuty.

0x01 graphic

Uzyskane wyniki przedstawione są w postaci tabelarycznej. Dla każdej firmy oceniona została jej wiarygodność. Bazując na tych wynikach Ban może ocenić, czy przyznawać danej firmie kredyt.

0x01 graphic



Wyszukiwarka

Podobne podstrony:
Bazy danych MS SQL Server 2008
BEZPIECZEŃSTWO DOSTĘPU DO DANYCH MS SQL SERVER POSTGRESQL, 9 semestr, SQL, RÓŻNE
Ćw 1 Pomiar strumienia objętości i masy płynu przy użyciu rurek spiętrzających
Wykonywanie robót ziemnych przy użyciu koparek
ebook microsoft sql server black book cff45xf7ii4jb4gq3rzk3uhmzhx5z3u62hytpuy CFF45XF7II4JB4GQ3RZK3
Cele nauczania wyrażone przy użyciu czasowników operacyjnych, edukacja specjalna
1 Wyznaczanie wartości przyspieszenia ziemskiego g przy użyciu wahadła matematycznego instr przys
Pomiary wykonaliśmy przy użyciu suwmiarki oraz mikrometru
Metoda mostkowa przy użyciu technicznego mostka Wheatstone
Latwiejsze Zarzadzanie, Informatyka, MS Windows Server 2003 instrukcje PL
Programowanie sieciowe przy użyciu gniazdek w?lphi 3 MPLMRFGCOQC4VOMKHU5DAT5YKUDWUHLWUTINXRI
Cw 4 Karta Pomiary temperatury przy uzyciu
ABC zasad bezpieczenstwa przetwarzania danych osobowych przy uzyciu systemow
Identyfikacja miejskiej przestrzeni publicznej przy użyciu alternatywnych form oświetlenia
2006 06 RSA w PHP chronimy nasze dane przy użyciu kryptografii asymetrycznej [Kryptografia](1)
SQL Server 2005 typy danych
MS Project 2010 i MS Project Server 2010 Efektywne zarzadzanie projektem i portfelem projektow pro21
27 Wyznaczanie prędkości dźwięku w powietrzu w oparciu o efekt Dopplera i przy użyciu oscyloskopu
microsoft sql server 2000 ksieg Nieznany

więcej podobnych podstron