Microsoft Word - L2 - drzewa decyzyjne.doc

SAS Enterprise Miner Klasyfikacja za pomocą drzew decyzyjnych – laboratorium nr 3

Wczytać z pliku SPAMBASE.DATA do zbioru SPAMBASE dane opisujące e-maile pod kątem
częstości  występowania słów  i znaków, oraz zaklasyfikowanych jako spam lub normalna
poczta.
W pliku SPAMBASE.DESC oraz SPAMBASE.NAMES znajduje się opis zmiennych
zawartości pliku i interpretacji zmiennych.

Zbudować model predykcyjny dla klasyfikowania e-maila jako spam w oparciu o
zaproponowane w modelu zmienne predykcyjne, przyjmując założenia opisane poniżej.
Elementy nieokreślone w instrukcji pozostawić domyślne.

• 70% losowo wybranych rekordów ze zbioru powinno stanowić ciąg uczący, pozostałe

30 % powinno być ciągiem walidującym.

• Drzewo powinno być oceniane na podstawie wskaźnika błędnie zaklasyfikowanych

emaili (misclassifictaion rate)

• Minimalna liczba obserwacji w węźle, umożliwiająca jego podział powinna wynosić

50.

• Żaden z liści nie powinien posiadać mniejszej liczby obserwacji niż 20. Głębokość

drzewa nie może być większa niż 5.

1. Dla kryterium podziału opartego na teście Chi-kwadrat zbuduj model decyzyjny oparty na
drzewie decyzyjnym.

Jaką liczbę liści ma wynikowe drzewo?

Jaką głębokość ma wynikowe drzewo ?

Podaj proporcję błędnych klasyfikacji wyznaczoną w oparciu o ciąg walidujący. Jaka

jest wartość tej proporcji w całym zbiorze obserwacji ( przy założeniu że zbiór jest
klasyfikowany tak, jak większość jego elementów) ?

Jak zmienia się proporcja błędnych klasyfikacji w miarę rozbudowy drzewa i wzrostu

liczby liści ( dla danych walidacyjnych) ? Podać kilka kolejnych wartości.

Które zmienne są istotne dla procesu weryfikacji czy poczta jest spamem ?

Ile jest maili jest spamowych, w 10% obserwacji, w których wystąpienie jest

najbardziej prawdopodobne ?

Wyznacz liść odpowiadający zbiorowi obserwacji, w którym znajduje się

proporcjonalnie najwięcej wiadomości zaklasyfikowanych jako spam (Największa
częstość wiadomości spamowych). Napisz w 4GL regułę selekcji odpowiadającą temu
liściowi regułę.

Napisz w 4GL pełną regułę klasyfikacyjną.

Podaj, jaki procent normalnej poczty został by zaklasyfikowany jako spam w

przypadku, gdyby obcinanie drzewa zakończyło się na 5 liściach.

2. Zaklasyfikuj każdą obserwację ze zbioru NEWMAIL.DAT jako normalną pocztę lub
spam.

3. Zbadaj, jak zmienia się zdolność klasyfikacyjna, mierzona jako proporcja błędnych
klasyfikacji w przypadku zmiany parametrów: głębokości drzewa, liczby obserwacji w węźle.