L3 drzewa decyzyjne klucz

background image

SAS Enterprise Miner Klasyfikacja za pomocą drzew decyzyjnych – laboratorium nr 3
– klucz.

Wczytać z pliku SPAMBASE.DATA do zbioru SPAMBASE dane opisujące e-maile pod kątem
częstości występowania słów i znaków, oraz zaklasyfikowanych jako spam lub normalna
poczta.
W pliku SPAMBASE.DESC oraz SPAMBASE.NAMES znajduje się opis zmiennych
zawartości pliku i interpretacji zmiennych.

Zbudować model predykcyjny dla klasyfikowania e-maila jako spam w oparciu o
zaproponowane w modelu zmienne predykcyjne, przyjmując założenia opisane poniżej.





Elementy nieokreślone w instrukcji pozostawić domyślne.

• 70% losowo wybranych rekordów ze zbioru powinno stanowić ciąg uczący, pozostałe

30 % powinno być ciągiem walidującym.

• Drzewo powinno być oceniane na podstawie wskaźnika błędnie zaklasyfikowanych

emaili (misclassifictaion rate)

• Minimalna liczba obserwacji w węźle, umożliwiająca jego podział powinna wynosić

50.

• Żaden z liści nie powinien posiadać mniejszej liczby obserwacji niż 20. Głębokość

drzewa nie może być większa niż 5.

background image


1. Dla kryterium podziału opartego na teście Chi-kwadrat zbuduj model decyzyjny oparty na
drzewie decyzyjnym.

a)

Jaką liczbę liści ma wynikowe drzewo?

Odp. 10.

b)

Jaką głębokość ma wynikowe drzewo?

Odp. 6 ( uwzględniając korzeń drzewa , który nie jest uwzględniany w parametrach
konfiguracyjnych algorytmu budowy drzewa).

c)

Podaj proporcję błędnych klasyfikacji wyznaczoną w oparciu o ciąg walidujący. Jaka

jest wartość tej proporcji w całym zbiorze obserwacji ( przy założeniu że zbiór jest
klasyfikowany tak, jak większość jego elementów) ?

Odp. 0.1072, czyli 10,72% rekordów w ciągu walidacyjnym zostało zaklasyfikowane
błędnie.

d)

Jak zmienia się proporcja błędnych klasyfikacji w miarę rozbudowy drzewa i wzrostu

liczby liści ( dla danych walidacyjnych) ? Podać kilka kolejnych wartości.

Odp. Dla drzewa o liczbie liści do 17 włącznie nie zmienia się i wynosi 0.1072, dla
drzewa o liczbie liści 18 wynosi 0.1116.

e)

Które zmienne są istotne dla procesu weryfikacji czy poczta jest spamem ?

background image

Odp.FREQ4, WORD7, FREQ5, RUN_LENGHT1, WORD16, WORD25,
WORD46, WORD17

f)

Ile jest maili jest spamowych, w 10% obserwacji, w których wystąpienie jest

najbardziej prawdopodobne ?

Odp. 0.9386 W 10 % rekordów wybranych z całego ciągu walidacyjnego pod
względem prawdopodobieństwa że jest to poczta spam, znajduje się 93,86% maili
spamowych.

g)

Wyznacz liść odpowiadający zbiorowi obserwacji, w którym znajduje się

proporcjonalnie najwięcej wiadomości zaklasyfikowanych jako spam (Największa
częstość wiadomości spamowych). Napisz w 4GL regułę selekcji odpowiadającą temu
liściowi regułę.

background image


h)

Napisz w 4GL pełną regułę klasyfikacyjną

i)

Podaj, jaki procent normalnej poczty został by zaklasyfikowany jako spam w

przypadku, gdyby obcinanie drzewa zakończyło się na 5 liściach.

Odp. 0.1478

2. Zaklasyfikuj każdą obserwację ze zbioru NEWMAIL.DAT jako normalną pocztę lub
spam.


Wyszukiwarka

Podobne podstrony:
L3 drzewa decyzyjne
minswd L3, drzewa decyzyjne
DRZEWA DECYZYJNE
Wersja do oddania, Rozdzial 5 - Drzewa decyzyjne, Rozdział III
drzewa decyzyjne
Drzewa decyzyjne
Drzewa decyzyjne wprowadzenie 20061206
Drzewa decyzyjne 2009 id 143623 Nieznany
Drzewa decyzyjne 20090518
hd 06 drzewa decyzyjne id 19989 Nieznany
12 Drzewa Decyzyjne
drzewa decyzyjne

więcej podobnych podstron