Jakub Soja 161319
Marcin Kowalski 161275
Damian Kołodziejski 161268
Zadanie klasyfikacja
Zadanie 1
a)
Model pierwszy był utworzony z domyślnymi wartościami parametrów konstrukcji drzewa decyzyjnego, oraz ze wszystkimi wybranymi zmiennymi. Pominięta została kolumna ID.
Parametry modelu 1.
Drzewo decyzyjne modelu 1.
Sieć zależności atrybutów w modelu 1.
Drugi model został utworzony również z domyślnie wybranymi parametrami, lecz zmienionymi parametrami algorytmu konstrukcji drzewa decyzyjnego.
W drugim modelu parametr COMPLEXITY_PENALTY zamieniliśmy na 0.2, a MINIMUM_SUPPORT na 4.
Drzewo decyzyjne modelu 2.
Sieć zależności atrybutów w modelu 2.
b)
W modelu najsilniejszym atrybutem, najbardziej znaczącym jest Age potem Cars, Children, Marital Status, Region, Occupation, Commute Distance , Yearly Income, Gender, Education, Home Owner.
c)
Trafność: 90,75%
Czułość: 9,25%
Liczba przykładów popranie nieprzydzielonych: 8976
Liczba poprawnie sklasyfikowanych: 99
Liczba błednie przydzielonych: 24
Liczba blednie sklasyfikowanych: 901
Specyficzność: 99,73%
d)
Przypadek 1.
Jeżeli osoba ma mniej niż 33 lata i jego ilość samochodów jest równa 0 to prawdopodobieństwo kupna roweru wzrasta znaczaco
Przypadek 2.
Jeśli osoba jest pomiędzy 41 a 57 rokiem zycia i nie posiada dzieci to prawdopodobieństwo kupna roweru wzrasta
Przypadek 3.
Jeśli osoba jest pomiedzy 33 a 41 rokiem zycia i nie ma 2 samochodów to prawdopodobieństwo kupna roweru wzrasta
e)
Trafność: 90,74%
Czułość: 9,26%
Liczba przykładów popranie nieprzydzielonych: 8976
Liczba poprawnie sklasyfikowanych: 99
Liczba błednie przydzielonych: 24
Liczba blednie sklasyfikowanych: 901
Specyficzność: 99,73%
f)
Wnioski:
Model można uznać za poprawny na wysokim poziomie. Można go wykorzystać do dalszych analiz