Wachnicki J Co za duzo to niezdrowo Drzewa klasyfikacyjne


co za dużo,
to niezdrowo  czyli
Janusz Wachnicki
spss polska chwila relaksu
Ten artykuł miał być kolejnym artykułem poświęconym analizie regresji  byłby to już
dziewiąty artykuł z tego cyklu. Jednak, co za dużo to niezdrowo, czas więc zrobić chwilę
przerwy i dać odpocząć Czytelnikom od zgłębiania prawdziwej natury piwa w kontekście
regresji (czy też odwrotnie  jak kto woli). Koleżanka zajmująca się redakcją e-biuletynu,
która z konieczności musi czytać zamieszczone w nim artykuły  szczerze Jej tego współ-
czuję : )  zasugerowała  może by tak, coś o data mining, tak żeby użytkownicy pasw
Modeler też mieli coś dla siebie w e biuletynie . No cóż, czemu nie! Jednak, żeby  wilk
był syty i Manchester City chciałbym opowiedzieć trochę o drzewach decyzyjnych, które
występują także w pasw Statistics, choć w pasw Modeler ich implementacja jest znacznie
rozbudowana.
drzewa decyzyjne
Można by się sprzeczać co do pochodzenia tego typu technik. Zadając pytanie, czy aby
na pewno w przypadku drzew decyzyjnych mamy do czynienia z technikami powstałymi na
gruncie data mining? To w praktyce jednak do takich zastosowań są one wykorzystywane
najczęściej i w tym obszarze są najsilniej rozwijane.
Drzewa decyzyjne, jak każda inna technika analityczna, oferują użytkownikowi szereg
korzyści, ale też z ich wykorzystaniem związane są pewne problemy  jak powszechnie
wiadomo nie istniejÄ… idealne techniki analityczne.
Do zalet drzew decyzyjnych można na przykład zaliczyć możliwość wykorzystywania
w analizie zmiennych mierzonych na różnych poziomach pomiaru  nominalnym, porząd-
kowym, interwałowym i ilorazowym zarówno po stronie zmiennej wyjaśnianej jak i po
stronie zmiennych wyjaśniających. Stawiają one także mniej restrykcyjne wymagania co do
rozkładów i jakości danych  często jest to zaleta w stosunku do takich technik jak analiza
dyskryminacyjna czy regresja liniowa.
Ogólnie algorytmy drzew decyzyjnych można podzielić na dwie kategorie:
drzewa regresyjne
drzewa klasyfikacyjne
Drzewa regresyjne to drzewa, w których zmienna wyjaśniana mierzona jest na poziomie
interwałowym lub ilorazowym, są więc one wykorzystywane w zastosowaniach podobnych
jak klasyczna technika regresji liniowej.
Drzewa klasyfikacyjne to drzewa, w których zmienna wyjaśniana mierzona jest na poziomie
nominalnym lub porządkowym. Jest to więc rodzaj drzew używany tam, gdzie zazwyczaj
korzysta siÄ™ z regresji logistycznej czy analizy dyskryminacyjnej.
W artykule tym skoncentruję się na omówieniu zasad działania drzew klasyfikacyjnych.
drzewa klasyfikacyjne
Do grupy drzew klasyfikacyjnych można zaliczyć takie algorytmy jako chaid, quest, c5.0
czy też cart, choć cart pozwala także na tworzenie drzew regresyjnych.
Ogólnie techniki te opierają się, podobnie jak techniki statystyczne, na różnego typu miarach
pozwalających na ocenę zmienności w zmiennej wyjaśnianej, a następnie na sprawdzaniu
na ile ta zmienność może być zredukowana poprzez rozpatrywanie wartości tej zmiennej
w podziale na kategorie zmiennej wyjaśniającej. Mówiąc przykładowo, na ile użycie zmien-
nej płeć jako predyktora redukuje zmienność opinii respondentów na temat aborcji.
Kluczowe w tym wypadku jest pytanie, jakie miary mogą być użyte do badania zmienności.
W tym obszarze istnieje podział na dwie kategorie drzew klasyfikacyjnych  te opierające
się o testy statystyczne, jak na przykład chaid bazujący na teście Chi-kwadrat, a dokładniej
na wyliczonej wartości prawdopodobieństwa dla tego testu, z drugiej strony mamy szereg
algorytmów opartych na innych miarach, jak na przykład cart oparty o indeks Gini czy
też c5.0 oparty o kryterium informacyjne.
Algorytmy te można też podzielić na algorytmy o  jednym przebiegu , w których mamy
do czynienia tylko z procesem budowania drzewa (np. chaid) oraz  dwuprzebiegowe ,
w których po etapie budowania drzewa następuje jego przycinanie (np. cart).
Aby lepiej zrozumieć działanie drzew decyzyjnych warto omówić je na przykładzie jednego
z wybranych algorytmów  algorytmu cart.
tworzenie drzew klasyfikacyjnych z wykorzystaniem algorytmu cart
Drzewa klasyfikacyjne w ramach algorytmu cart budowane sÄ… z wykorzystaniem indeksu
Gini, który mierzy koncentracje wartości w ramach danej zmiennej. Jest to miara wyko-
rzystywana między innymi do badania rozdystrybuowania dóbr w ramach określonej
zbiorowości.
Ponieważ wzór na indeks Gini jest prosty do interpretacji, warto go tutaj przytoczyć, dzięki
temu łatwiej będzie wytłumaczyć, jak indeks Gini jest wykorzystywany do budowy drzew
klasyfikacyjnych:
Gdzie: P(t)i  to proporcja obserwacji w węzle t dla i-tej kategorii
Przyjrzyjmy się liczeniu indeksu Gini dla wybranego rozkładu cechy
opinia& mężczyzna kobieta ogółem
n % n % n %
tak 50 100 0 0 50 50
nie 0 0 50 100 50 50
ogółem 50 100 50 100 100 100
Jak widać z powyższego przykładu wartość indeksu Gini dla rozkładu zmiennej (procent
z kolumny Ogółem podzielony przez 100) wynosi:
G = 1  (0,52 + 0,52) = 0,5
Natomiast, jeśli rozpatrywać wartość indeksu wyliczoną w podziale na kategorię zmiennej
 Płeć możemy zauważyć, iż dla każdej z kategorii płci wynosi ona:
dla mężczyzn
Gk1 = 1  (12 + 02) = 0
dla kobiet
Gk2 = 1  (02 + 12) = 0
2
Powyższa wartość indeksu jest więc mniejsza niż w przypadku tej wyliczonej dla rozkładu
zmiennej Opinia. Patrząc też na powyższą tabelę można zauważyć, że różnice te znajdują
także odzwierciedlenie w korelacji pomiędzy tymi zmiennymi  widać, że rozkład zmiennej
Opinia jest zdeterminowany przez rozkład zmiennej Płeć, czyli znając wartość zmiennej
Płeć jesteśmy w stanie bezbłędnie przewidzieć wartość zmiennej Opinia.
Przyjrzyjmy się, jak wyglądałoby to w innej sytuacji:
opinia& dzieci ogółem
tak nie
n % n % n %
tak 40 80 10 20 50 50
nie 10 20 40 80 50 50
ogółem 50 100 50 100 100 100
Tutaj widać, iż wartość indeksu Gini jest mniejsza w obrębie kategorii wyznaczanych przez
zmienną Dzieci, ale już nie zerowa.
dla posiadajÄ…cych dzieci
Gk1 = 1  (0,82 + 0,22) = 0,32
dla nieposiadajÄ…cych dzieci
Gk2 = 1  (0,22 + 0,82) = 0,32
W konsekwencji, w oparciu o porównanie wartości indeksu licznego dla rozkładu zmiennej
z rozkładem w podziale na kategorie zmiennej wyjaśniającej, możemy odpowiedzieć na
pytanie, jak mocno dana zmienna wpływa na drugą. Porównywanie odbywa się poprzez
wyliczenie ważonego indeksu Gini dla kategorii zmiennej wyjaśniającej. W efekcie ważony
indeks Gini wyliczany jest tutaj następująco.
Gdzie:
wk1  waga będąca odsetkiem obserwacji wpadających do pierwszego węzła podrzęd-
nego (czyli proporcji osób posiadających dzieci i tych, którzy ich nie posiadają)
Gk1  indeks Gini dla pierwszego węzła podrzędnego
Różnica pomiędzy wartością wyliczoną dla rozkładu zmiennej nosi nazwę Poprawa
(improvement) i jest używana w procesie podejmowania decyzji o budowaniu drzewa.
Gdzie:
G  indeks Gini dla zmiennej wyjaśnianej
Z  ważony indeks Gini dla zmiennej wyjaśnianej w podziale na kategorie zmiennej
wyjaśniającej
W efekcie, wyliczone wartości tej miary dla zmiennych Płeć i Dzieci wynoszą:
Dla tabeli z Płeć
P = G  (wk1 × Gk1 + wk2 × Gk2) = 0,5  (0,5 × 0 + 0,5 × 0) = 0,5
Dla tabeli z Dzieci
P = G  (wk1 × Gk1 + wk2 × Gk2) = 0,5  (0,5 × 0,32 + 0,5 × 0,32) = 0,18
Jak widać, wyższa wartość Poprawy uzyskiwana jest w przypadku tabeli ze zmienną
Płeć. Można więc powiedzieć, iż Płeć silniej różnicuje Opinię.
W praktyce miara ta jest wyliczana dla wszystkich zmiennych wyjaśniających, a następnie
wybierana jest ta zmienna, która ma najwyższą wartość Poprawy.
3
W efekcie tak realizowanej procedury dokonuje się pierwszy podział drzewa. Jak widać
na przykładzie obok  w oparciu o  silniejszą zmienną, czyli Płeć.
W następnym kroku dla każdej gałęzi drzewo jest rozbudowane, aż do miejsca, kiedy
w oparciu o pewne kryteria, rozwój drzewa nie zostanie przerwany.
Poprzez dalszą rozbudowę na kolejnych poziomach otrzymujemy pełne drzewo decyzyjne.
Przykładowo, drzewo poniżej przedstawia opinię na temat reformy terytorialnej (wprowa-
dzenie powiatów) w podziale na podstawowe zmienne metryczkowe z ankiety.
Jak widać na przykładzie poniżej, opinię na temat reformy terytorialnej najmocniej różnicuje
wykształcenie respondentów. Przy czym, przewagę zwolenników reformy terytorialnej
mamy w kategorii wykształcenia powyżej pomaturalnego, czyli wśród respondentów
z wykształceniem wyższym.
Osoby z wykształceniem wyższym nie zostały podzielone dalej ze względu na jednorodność
tej grupy (brak zmiennych mogący w ramach tej grupy lepiej podzielić opinię) lub inne
kryteria zatrzymania rozwoju drzewa na przykład, zbyt małą liczność grup po podziale.
Natomiast wśród osób o wykształceniu do pomaturalnego włącznie, można zauważyć
głębszy podział ze względu na wiek respondenta. I tak, możemy powiedzieć, iż podział
przebiega na poziomie do 38 lat włącznie. W tej grupie mamy 42% zwolenników reformy
terytorialnej (pamiętając oczywiście o wcześniejszym podziale ze względu na wykształ-
cenie). Jest to więcej niż w grupie powyższej 38 lat  tam odsetek zwolenników wynosi
tylko 26%.
Ta grupa dzieli się dalej ze względu na wiek. W efekcie dwukrotnego podziału ze względu
na wiek otrzymujemy grupy do 38 lat włącznie, 39 do 66 i powyżej 66 lat.
Respondenci w wieku pomiędzy 39 a 66 lat zostali głębiej podzieleni ze względu na miejsce
zamieszkania. W ten sposób moglibyśmy dalej zagłębiać się w analizę wyników, której
niewątpliwą zaletą jest przejrzysta forma prezentacji wyników za pomocą drzewa.
Przy okazji analizy tego drzewa, warto zwrócić uwagę na kilka istotnych dodatkowych
elementów związanych z procesem budowy drzewa.
Po pierwsze, drzewo dokonuje automatycznego podziału używając  najsilniejszego pre-
dyktora w oparciu o iteracyjne sprawdzanie wszystkich predyktorów, a następnie tak
podzielone grupy dzieli dalej iteracyjnie, sprawdzając wszystkie predykatory dla każdej
z grup osobno.
Po drugie, podział odbywa się zawsze na dwie grupy. Dzieje się tak, ponieważ algorytm
cart zalicza się do grupy algorytmów dokonujących podziału binarnego. Inne algorytmy,
jak na przykład: chaid, c5.0, pozwalają na dokonywanie podziału na większą liczbę
kategorii na każdym poziomie drzewa.
Po trzecie, skoro podział dokonywany jest na dwie kategorie, a zmienne wyjaśniające mogą
mieć więcej niż dwie kategorie, oznacza to łączenie kategorii zmiennej wyjaśniającej. Aącze-
nie dokonuje się tak, by połączyć ze sobą kategorie, które są do siebie podobne z perspek-
tywy zmiennej wyjaśnianej. Przykładowo, jeśli osoby z wykształceniem podstawowym mają
podobną strukturę opinii jak osoby z wykształceniem zawodowym, to zostaną połączone
w jedną kategorię. Jeśli jednak istotne podziały przebiegają w więcej niż dwóch punktach
rozkładu, to wybierany jest silniejszy, a na kolejnym poziomie może dokonać się dalszy
podział w oparciu o tę samą zmienną (patrz przykład wyżej  podział w oparciu o zmienną
Wiek). Choć jeśli na kolejnym, ważniejszym okaże się inny predykator, to podział dokona
się według jego wartości. Procedura łącznia kategorii poprzedza wyliczenie ostatecznej
wartości Poprawy dla danej zmiennej, tak więc porównywane są między sobą zmienne
po ich uprzednim sprowadzeniu do dwóch kategorii.
4
Po czwarte, jeśli kategorie zmiennej są łączne, to możemy wpływać na zasady łącznia
kategorii poprzez deklaracjÄ™ poziomu pomiaru zmiennej i tak w przypadku zmiennych
zadeklarowanych jako:
nominalne  sprawdzana jest możliwość łączenia każdej kategorii z każdą
porządkowe  sprawdzana jest możliwość łączenia ze sobą sąsiadujących kategorii
( A nie może być połączone z  C z pominięciem  B )
interwałowe lub ilorazowe  po posortowaniu rozkładu empirycznego, od wartości
najmniejszej do największej, sprawdzany jest każdy punkt podziału rozkładu na dwie
kategorie.
Należy przy tym zwrócić uwagę, iż deklaracja poziomu pomiaru cech uzależniona jest tutaj
od tego, jakich relacji spodziewa się analityk i do jakich chce dopuścić. Przykładowo, mając
wiek podzielony na kategorie wiekowe, możemy chcieć zadeklarować poziom pomiaru
takiej zmiennej jako nominalnych  jeśli chcemy dopuść łącznie ze sobą wartości z dwóch
skrajnych końców rozkładu. Jeśli badamy wpływ wieku na korzystanie z usług bankowych,
to okazuje się, że zarówno wśród osób młodych jak i starszych występuje wysoki odsetek
niekorzystających z usług bankowych. Jeśli chcemy dopuścić połączenie tych dwóch grup
w jedną, musimy zadeklarować nominalny poziom pomiaru cechy.
Po piąte, podział dokonuje się automatycznie i opiera się o określoną miarę analityczną.
Jak wiemy, istnienie korelacji nie musi oznaczać istnienia zależności w sensie przyczynowo-
-skutkowym, dodatkowo problemem w automatycznym doborze predyktorów może być
współliniowość zmiennych wyjaśniających. pasw Modeler (opcja niedostępna w pasw
Statistics) daje analitykowi na każdym poziomie drzewa podgląd pod uporządkowaną ze
względu na siłę związku listę zmiennych wyjaśniających, tak by analityk mógł sam wybie-
rać z listy zmiennych wyjaśniających te, które jego zdaniem powinny powodować głębszy
podział drzewa. Jest to szczególnie przydatne, gdy różnice pomiędzy kolejnymi zmiennymi
wyjaśniającymi na liście są niewielkie. Taki hybrydowy sposób budowy drzewa pozwala
wykorzystywać wiedzę i doświadczenie badacza oraz kryteria statystyczne do budowy
drzewa. Należy przy tym zwrócić uwagę, iż tego typu funkcjonalność jest nie tyle związana
z samym algorytmem, co z jego implementacją w określonym programie.
W tak krótkim artykule nie sposób omówić działania wszystkich szczegółów działania
nawet jednego algorytmu cart. Warto jednak przybliżyć jeszcze jeden aspekt związany
z działaniem algorytmu cart tzn. kwestię przycinania drzewa.
Jak już wcześniej wspomniałem, algorytmy można podzielić na jednoprzebiegowe, które
poprzestają na budowie drzewa, jak np. chaid i dwuprzebiegowe, które po  wyhodowa-
niu drzewa dokonują jego pielęgnacji poprzez przycinanie zbędnych gałęzi  do takich
algorytmów zalicza się algorytm cart.
Proces przycinania jest o tyle ważny, iż w analizie danych ciągle balansujemy pomiędzy
skutecznością klasyfikacji, a zdolnością do uogólniania drzewa na danych niezależnych
(nieużytych do budowy drzewa). Im bardziej rozbudowany model tym zazwyczaj większa
skuteczność, jednak często stoi to w sprzeczności z umiejętnością radzenia sobie takiego
drzewa na danych niezależnych i zdolnością do uogólniania wyników. Mówi się wtedy
często o przeuczeniu modelu, a mówiąc przez analogię do procesu uczenia u ludzi, o wyku-
ciu na pamięć odpowiedzi z konkretnego podręcznika.
W praktyce zazwyczaj dążymy do budowy jak najprostszego modelu, ale w granicach
rozsądku  to znaczy tak, by usuwanie kolejnych gałęzi drzewa nie powodowało zbyt
dużego spadku zdolności do dobrego klasyfikowania obserwacji. Tego typu cel przyświeca
procesowi przycinania drzewa.
Pomijając tutaj szczegółową kwestię działania samego algorytmu przycinania drzewa,
warto tylko wspomnieć, iż w przypadku algorytmu cart proces wygląda następująco. Po
zbudowaniu drzewa wyliczany jest ważony indeks Gini dla wszystkich węzłów nie podle-
gających dalej podziałowi. Następnie, wyliczana jest Poprawa poprzez odjęcie od indeksu
Gini dla zmiennej wyjaśnianej wyliczonej wartości ważonej dla całego drzewa. Dostajemy
w efekcie miarę, która mówi nam, jak efektywny jest proces klasyfikacji za pomocą całego
drzewa. Kolejno, algorytm cart próbuje zwrotnie przycinać gałęzie drzewa sprawdzając
jednocześnie zmiany wartości Poprawy  tzn. czy są one na tyle małe, by można było daną
gałąz wyciąć. Proces postępuje iteracyjnie, aż do momentu, w którym dalsze przycinanie
będzie powodowało znaczące straty informacji w drzewie klasyfikacyjnym.
5
Poniższy rysunek prezentuje, co dzieje się z drzewem w procesie wstecznego przycinania
jego gałęzi.
zastosowania w analizie danych
Podstawowym zastosowaniem drzew decyzyjnych jest budowa modeli klasyfikacyjnych
służących do przewidywania przynależności do z góry znanej klasy ( kupi / nie kupi ;
 odejdzie / zostanie ) lub do zagadnień o charakterze regresyjnym, czyli przewidywania
wartości ilościowej zmiennej wyjaśnianej (np. zysku na kliencie).
W badaniach marketingowych zastosowaniem tego typu technik jest zazwyczaj poszu-
kiwanie profilu klientów przejawiających określone zachowania lub mających określone
opinie.
Na tym jednak obszar zastosowań tego typu technik się nie kończy, mają one szereg dodat-
kowych zastosowań praktycznych w analizach. Są one, na przykład, wykorzystywane do
eksploracji danych przez badaczy, którzy chcą sprawdzić, czy nie umknęły im jakieś istotne
czynniki wpływające na badaną cechę. W tym obszarze najczęściej wykorzystywany jest
algorytm chaid. Pozwala on odnalezć w danych zmienne wyjaśniające, których wpływ na
zmienną wyjaśnianą jest istotny statystycznie (niestety z  przymrużeniem oka ze względu
na eksploracyjny, a nie konfirmacyjnych charakter analizy) używając do tego statystyki
Chi-2. De facto, dostajemy dzięki temu odpowiedz na pytanie, z jakimi zmiennymi  warto
krzyżować w tabelach dwudzielczych zmienną wyjaśnianą. Takie postępowanie może być
jednak niebezpieczne  badacz może dać się uwieść korelacjom nie mającym znaczenia
merytorycznego. W praktyce jest to jednak postępowanie często stosowane i przy zacho-
waniu zdrowego rozsądku, może być pomocne badaczowi w prowadzeniu analiz.
6
Inne zastosowania algorytmów drzew decyzyjnych to poszukiwanie punktów podziału
w zmiennej ilościowej (kategoryzacja) z perspektywy wartości zmiennej wyjaśnianej. Przy-
kładowo, jeśli nie wiemy jak podzielić wiek na kategorie, a nie chcemy dzielić na kwartyle
czy równe wiekowo przedziały, możemy wykorzystać algorytm cart do tego, by znalezć
najlepszy podział z punktu widzenia zmiennej wyjaśnianej np. opinii na temat reformy tery-
torialnej. Tak rekodowana zmienna  Wiek , może być pózniej wykorzystywana w tabelach
krzyżowych i wielu innych technikach analitycznych.
Drzewa decyzyjne są też wykorzystywane do poszukiwania interakcji pomiędzy wartościami
zmiennych, które pózniej mogą być zadeklarowane w modelu budowanym z użyciem regresji
logistycznej. Znów jednak z pewnym zastrzeżeniem  w przypadku analiz konfirmacyjnych
interakcje sÄ… wynikiem posiadania modelu teoretycznego, indukowanie interakcji z danych
ma charakter działania eksploracyjnego i może budzić obawy, czy  analiza wiedziona
danymi nie zostanie przez nie uwiedziona .
Kolejne zastosowanie to redukcja listy zmiennych wyjaśniających do tych, które mają znacze-
nie przy przewidywaniu wartości zmiennej zależnej, czyli zawężanie obszaru poszukiwań
zmiennych i upraszczanie budowanych pózniej modeli predykcyjnych. Podobnie jak można
to robić, wykorzystując krokowe metody w technikach regresyjnych.
Więcej praktycznych informacji na temat Reasumując, algorytmy drzew decyzyjnych znajdują obecnie szerokie zastosowanie w tych
drzew klasyfikacyjnych uzyskasz obszarach, gdzie potrzebujemy narzędzi analitycznych pozwalających prosto prowadzić
na kursach mc2a, mc2b oraz st3a złożone analizy, a jednocześnie w przejrzysty sposób prezentować ich wyniki.
s pss p ol sk a
ul. Racławicka 58
30 017 Kraków
tel./faks 012.636.96.80
e mail: info@spss.pl
www.spss.pl
www.analizadanych.pl
www.webmining.pl


Wyszukiwarka

Podobne podstrony:
home dzine co za How to colour or tint cement and concrete
Monet to tylko oko ale, dobry Boże, co za oko!
O jeden system za dużo
Człowiek, który wiedział za dużo (The Man Who Knew Too Much) (1934)
Uzaleznienie od siebie Dlaczego tak trudno sie zmienic i co mozna na to poradzic uzasie
ach co za dzien
co za radosc
Bułyczow Kirył Co dwa buty to nie jeden

więcej podobnych podstron