background image

SAS Enterprise Miner  Klasyfikacja za pomocą drzew decyzyjnych – laboratorium nr 3  

 

Wczytać z pliku SPAMBASE.DATA do zbioru SPAMBASE dane opisujące e-maile pod kątem 
częstości  występowania słów  i znaków, oraz zaklasyfikowanych jako spam lub normalna 
poczta.   
W pliku SPAMBASE.DESC oraz SPAMBASE.NAMES znajduje się opis zmiennych  
zawartości pliku i interpretacji zmiennych.  
 
Zbudować model predykcyjny dla klasyfikowania e-maila jako spam w oparciu o 
zaproponowane w modelu zmienne predykcyjne, przyjmując założenia opisane poniżej.  
Elementy nieokreślone w instrukcji pozostawić domyślne.  

•  70% losowo wybranych rekordów ze zbioru powinno stanowić ciąg uczący, pozostałe 

30 % powinno być ciągiem walidującym.   

•  Drzewo powinno być oceniane na podstawie wskaźnika błędnie zaklasyfikowanych 

emaili (misclassifictaion rate)  

•  Minimalna liczba obserwacji w węźle, umożliwiająca jego podział powinna wynosić  

50.  

•  Żaden z liści nie powinien posiadać mniejszej liczby  obserwacji niż 20.  Głębokość 

drzewa nie może być większa niż 5.  

 

 

  
1. Dla kryterium podziału opartego na teście Chi-kwadrat zbuduj model decyzyjny oparty na 
drzewie decyzyjnym.  

a)

  Jaką liczbę liści ma wynikowe drzewo?    

b)

  Jaką głębokość ma wynikowe drzewo ?  

c)

  Podaj proporcję błędnych klasyfikacji wyznaczoną w oparciu o ciąg walidujący. Jaka 

jest wartość tej proporcji w całym zbiorze obserwacji   ( przy założeniu że  zbiór jest 
klasyfikowany tak, jak większość jego elementów) ? 

d)

  Jak zmienia się proporcja błędnych klasyfikacji w miarę rozbudowy drzewa i wzrostu 

liczby liści ( dla danych walidacyjnych) ? Podać kilka kolejnych wartości.  

e)

  Które zmienne są istotne dla procesu weryfikacji czy poczta jest spamem ? 

f)

  Ile jest  maili jest spamowych, w 10% obserwacji, w których wystąpienie jest 

najbardziej prawdopodobne ?  

g)

  Wyznacz liść odpowiadający zbiorowi obserwacji, w którym znajduje się 

proporcjonalnie najwięcej wiadomości zaklasyfikowanych jako spam (Największa 
częstość wiadomości spamowych). Napisz w 4GL regułę selekcji odpowiadającą temu 
liściowi regułę.   

h)

  Napisz w 4GL pełną regułę klasyfikacyjną.  

i)

  Podaj, jaki procent normalnej poczty został by zaklasyfikowany jako spam w 

przypadku, gdyby obcinanie drzewa zakończyło się na 5 liściach.  

 

2. Zaklasyfikuj każdą obserwację ze zbioru NEWMAIL.DAT jako normalną pocztę lub 
spam. 
   
3. Zbadaj, jak zmienia się zdolność klasyfikacyjna, mierzona jako proporcja błędnych 
klasyfikacji w przypadku zmiany parametrów: głębokości drzewa, liczby obserwacji w węźle.