L3 drzewa decyzyjne

background image

SAS Enterprise Miner Klasyfikacja za pomocą drzew decyzyjnych – laboratorium nr 3

Wczytać z pliku SPAMBASE.DATA do zbioru SPAMBASE dane opisujące e-maile pod kątem
częstości występowania słów i znaków, oraz zaklasyfikowanych jako spam lub normalna
poczta.
W pliku SPAMBASE.DESC oraz SPAMBASE.NAMES znajduje się opis zmiennych
zawartości pliku i interpretacji zmiennych.

Zbudować model predykcyjny dla klasyfikowania e-maila jako spam w oparciu o
zaproponowane w modelu zmienne predykcyjne, przyjmując założenia opisane poniżej.
Elementy nieokreślone w instrukcji pozostawić domyślne.

• 70% losowo wybranych rekordów ze zbioru powinno stanowić ciąg uczący, pozostałe

30 % powinno być ciągiem walidującym.

• Drzewo powinno być oceniane na podstawie wskaźnika błędnie zaklasyfikowanych

emaili (misclassifictaion rate)

• Minimalna liczba obserwacji w węźle, umożliwiająca jego podział powinna wynosić

50.

• Żaden z liści nie powinien posiadać mniejszej liczby obserwacji niż 20. Głębokość

drzewa nie może być większa niż 5.


1. Dla kryterium podziału opartego na teście Chi-kwadrat zbuduj model decyzyjny oparty na
drzewie decyzyjnym.

a)

Jaką liczbę liści ma wynikowe drzewo?

b)

Jaką głębokość ma wynikowe drzewo ?

c)

Podaj proporcję błędnych klasyfikacji wyznaczoną w oparciu o ciąg walidujący. Jaka

jest wartość tej proporcji w całym zbiorze obserwacji ( przy założeniu że zbiór jest
klasyfikowany tak, jak większość jego elementów) ?

d)

Jak zmienia się proporcja błędnych klasyfikacji w miarę rozbudowy drzewa i wzrostu

liczby liści ( dla danych walidacyjnych) ? Podać kilka kolejnych wartości.

e)

Które zmienne są istotne dla procesu weryfikacji czy poczta jest spamem ?

f)

Ile jest maili jest spamowych, w 10% obserwacji, w których wystąpienie jest

najbardziej prawdopodobne ?

g)

Wyznacz liść odpowiadający zbiorowi obserwacji, w którym znajduje się

proporcjonalnie najwięcej wiadomości zaklasyfikowanych jako spam (Największa
częstość wiadomości spamowych). Napisz w 4GL regułę selekcji odpowiadającą temu
liściowi regułę.

h)

Napisz w 4GL pełną regułę klasyfikacyjną.

i)

Podaj, jaki procent normalnej poczty został by zaklasyfikowany jako spam w

przypadku, gdyby obcinanie drzewa zakończyło się na 5 liściach.

2. Zaklasyfikuj każdą obserwację ze zbioru NEWMAIL.DAT jako normalną pocztę lub
spam.

3. Zbadaj, jak zmienia się zdolność klasyfikacyjna, mierzona jako proporcja błędnych
klasyfikacji w przypadku zmiany parametrów: głębokości drzewa, liczby obserwacji w węźle.


Wyszukiwarka

Podobne podstrony:
L3 drzewa decyzyjne klucz
minswd L3, drzewa decyzyjne
DRZEWA DECYZYJNE
Wersja do oddania, Rozdzial 5 - Drzewa decyzyjne, Rozdział III
drzewa decyzyjne
Drzewa decyzyjne
Drzewa decyzyjne wprowadzenie 20061206
Drzewa decyzyjne 2009 id 143623 Nieznany
Drzewa decyzyjne 20090518
hd 06 drzewa decyzyjne id 19989 Nieznany
12 Drzewa Decyzyjne
drzewa decyzyjne

więcej podobnych podstron