background image

SAS Enterprise Miner  Klasyfikacja za pomocą drzew decyzyjnych – laboratorium nr 3 
– klucz.  

 

Wczytać z pliku SPAMBASE.DATA do zbioru SPAMBASE dane opisujące e-maile pod kątem 
częstości  występowania słów  i znaków, oraz zaklasyfikowanych jako spam lub normalna 
poczta.   
W pliku SPAMBASE.DESC oraz SPAMBASE.NAMES znajduje się opis zmiennych  
zawartości pliku i interpretacji zmiennych.  
 
Zbudować model predykcyjny dla klasyfikowania e-maila jako spam w oparciu o 
zaproponowane w modelu zmienne predykcyjne, przyjmując założenia opisane poniżej.  
 
 
 
 
 
Elementy nieokreślone w instrukcji pozostawić domyślne.  

•  70% losowo wybranych rekordów ze zbioru powinno stanowić ciąg uczący, pozostałe 

30 % powinno być ciągiem walidującym.  

 

•  Drzewo powinno być oceniane na podstawie wskaźnika błędnie zaklasyfikowanych 

emaili (misclassifictaion rate)  

 

•  Minimalna liczba obserwacji w węźle, umożliwiająca jego podział powinna wynosić  

50.  

•  Żaden z liści nie powinien posiadać mniejszej liczby obserwacji niż 20. Głębokość 

drzewa nie może być większa niż 5.  

 

background image

 

  
1. Dla kryterium podziału opartego na teście Chi-kwadrat zbuduj model decyzyjny oparty na 
drzewie decyzyjnym.  

a)

  Jaką liczbę liści ma wynikowe drzewo?  

Odp. 10. 

  

 

b)

  Jaką głębokość ma wynikowe drzewo?  

Odp.  ( uwzględniając korzeń drzewa , który nie jest uwzględniany w parametrach 
konfiguracyjnych algorytmu budowy drzewa).   

c)

  Podaj proporcję błędnych klasyfikacji wyznaczoną w oparciu o ciąg walidujący. Jaka 

jest wartość tej proporcji w całym zbiorze obserwacji   ( przy założeniu że  zbiór jest 
klasyfikowany tak, jak większość jego elementów) ? 

Odp. 0.1072, czyli 10,72% rekordów w ciągu walidacyjnym zostało zaklasyfikowane 
błędnie.  

d)

  Jak zmienia się proporcja błędnych klasyfikacji w miarę rozbudowy drzewa i wzrostu 

liczby liści ( dla danych walidacyjnych) ? Podać kilka kolejnych wartości.  

Odp. Dla drzewa o liczbie liści do 17 włącznie  nie zmienia się i wynosi 0.1072, dla 
drzewa o liczbie liści 18 wynosi 0.1116.  

e)

  Które zmienne są istotne dla procesu weryfikacji czy poczta jest spamem ? 

background image

 

Odp.FREQ4, WORD7, FREQ5, RUN_LENGHT1, WORD16, WORD25, 
WORD46, WORD17 

f)

  Ile jest  maili jest spamowych, w 10% obserwacji, w których wystąpienie jest 

najbardziej prawdopodobne ?  

 

Odp. 0.9386   W 10 %  rekordów wybranych z całego ciągu walidacyjnego pod 
względem prawdopodobieństwa  że jest to poczta spam, znajduje się 93,86% maili 
spamowych.   

g)

  Wyznacz liść odpowiadający zbiorowi obserwacji, w którym znajduje się 

proporcjonalnie najwięcej wiadomości zaklasyfikowanych jako spam (Największa 
częstość wiadomości spamowych). Napisz w 4GL regułę selekcji odpowiadającą temu 
liściowi regułę. 

  

background image

 
 

h)

  Napisz w 4GL pełną regułę klasyfikacyjną 

 

i)

  Podaj, jaki procent normalnej poczty został by zaklasyfikowany jako spam w 

przypadku, gdyby obcinanie drzewa zakończyło się na 5 liściach.  

 

 

Odp. 0.1478 

2. Zaklasyfikuj każdą obserwację ze zbioru NEWMAIL.DAT jako normalną pocztę lub 
spam.