SAS Enterprise Miner Klasyfikacja za regresji logistycznej – laboratorium nr 5

Wczytać z pliku SPAMBASE.DATA do zbioru SPAMBASE dane opisujące e-maile pod kątem

częstości występowania słów i znaków, oraz zaklasyfikowanych jako spam lub normalna

poczta.

W pliku SPAMBASE.DESC oraz SPAMBASE.NAMES znajduje się opis zmiennych

zawartości pliku i interpretacji zmiennych.

Zbudować model predykcyjny dla klasyfikowania e-maila jako spam w oparciu o

zaproponowane w modelu zmienne predykcyjne, przyjmując założenia opisane poniżej.

Wykorzystać diagram budowany dla drzewa decyzyjnego.

Przyjąć metodę Backward doboru zmiennych do modelu. Pozostałe parametry pozostawić

domyślne.

a) Podaj proporcję błędnych klasyfikacji wyznaczoną w oparciu o ciąg walidujący

b) Porównać proporcję błędnych klasyfikacji w porównaniu z modelem opartym o

drzewo decyzyjne.

c) Podaj trzy najistotniejsze zmienne dla prognozowania zawartości maila ?