SAS Enterprise Miner Klasyfikacja za pomocą drzew decyzyjnych laboratorium nr 3
Wczytać z pliku SPAMBASE.DATA do zbioru SPAMBASE dane opisujące e-maile pod kątem
częstości występowania słów i znaków, oraz zaklasyfikowanych jako spam lub normalna
poczta.
W pliku SPAMBASE.DESC oraz SPAMBASE.NAMES znajduje się opis zmiennych
zawartości pliku i interpretacji zmiennych.
Zbudować model predykcyjny dla klasyfikowania e-maila jako spam w oparciu o
zaproponowane w modelu zmienne predykcyjne, przyjmując założenia opisane poniżej.
Elementy nieokreślone w instrukcji pozostawić domyślne.
" 70% losowo wybranych rekordów ze zbioru powinno stanowić ciąg uczący, pozostałe
30 % powinno być ciągiem walidującym.
" Drzewo powinno być oceniane na podstawie wskaznika błędnie zaklasyfikowanych
emaili (misclassifictaion rate)
" Minimalna liczba obserwacji w węzle, umożliwiająca jego podział powinna wynosić
50.
" Żaden z liści nie powinien posiadać mniejszej liczby obserwacji niż 20. Głębokość
drzewa nie może być większa niż 5.
1. Dla kryterium podziału opartego na teście Chi-kwadrat zbuduj model decyzyjny oparty na
drzewie decyzyjnym.
a) Jaką liczbę liści ma wynikowe drzewo?
b) Jaką głębokość ma wynikowe drzewo ?
c) Podaj proporcję błędnych klasyfikacji wyznaczoną w oparciu o ciąg walidujący. Jaka
jest wartość tej proporcji w całym zbiorze obserwacji ( przy założeniu że zbiór jest
klasyfikowany tak, jak większość jego elementów) ?
d) Jak zmienia się proporcja błędnych klasyfikacji w miarę rozbudowy drzewa i wzrostu
liczby liści ( dla danych walidacyjnych) ? Podać kilka kolejnych wartości.
e) Które zmienne są istotne dla procesu weryfikacji czy poczta jest spamem ?
f) Ile jest maili jest spamowych, w 10% obserwacji, w których wystąpienie jest
najbardziej prawdopodobne ?
g) Wyznacz liść odpowiadający zbiorowi obserwacji, w którym znajduje się
proporcjonalnie najwięcej wiadomości zaklasyfikowanych jako spam (Największa
częstość wiadomości spamowych). Napisz w 4GL regułę selekcji odpowiadającą temu
liściowi regułę.
h) Napisz w 4GL pełną regułę klasyfikacyjną.
i) Podaj, jaki procent normalnej poczty został by zaklasyfikowany jako spam w
przypadku, gdyby obcinanie drzewa zakończyło się na 5 liściach.
2. Zaklasyfikuj każdą obserwację ze zbioru NEWMAIL.DAT jako normalną pocztę lub
spam.
3. Zbadaj, jak zmienia się zdolność klasyfikacyjna, mierzona jako proporcja błędnych
klasyfikacji w przypadku zmiany parametrów: głębokości drzewa, liczby obserwacji w węzle.
Wyszukiwarka
Podobne podstrony:
L3 drzewa decyzyjne kluczdrzewa decyzyjneDrzewa decyzyjne wprowadzenie 20061206Drzewa decyzyjne 20090518drzewa decyzyjneDrzewa decyzyjne9 01 07 drzewa binarneDrzewaLOGALL L32510?lass101BD V600 L3 C A3 V1[1] 1 id 2157 Nieznany09 Drzewa wyższych rzędówC550 PCB P01?50? C L3 V1więcej podobnych podstron