Piotr Ogrodziński 161297, Katarzyna Frankowska 161251, IiE, Analiza danych w SQL Server
1a)
Model 1 (losowy):
Model 2:
Zmiana parametrów algorytmu konstrukcji drzewa klasyfikacyjnego spowodowała znaczną poprawę modelu.
1b)
Atrybuty w kolejności od najmniej wpływowych.
Default parameters:
Age
Cars
Children
Martial Status
Region
Occupation
Occupation = 0.1 , Min. Support = 5 :
Age
Cars
Children
Martial Status
Region
Occupation
Education
Commute distance
Yearly income
Home owner
Gender
1c)
Dzięki zastosowaniu drugiego modelu udaje nam się o 13,6% lepiej określić zmienną BikeBuyer, 13,6 więcej ludzi kupi rower.Bardziej intersują nas petenci , którzy kupią rower niż Ci którzy go nie kupią. Model drugi lepiej klasyfikuje przypadki ‘yes’ niż model pierwszy.
d)
Reguły zawierające znaczące artybuty wejścia (model 2):
Jeżeli wiek zawiera się między 33, a 41 to prawdopodobieństwo kupienia roweru jest mniejsze, niż wtedy, gdy osoba na więcej niż 41, a 57 lat. Największe p-stwo jets wtedy, gdzy osoba ma mnie niż 33 lata.
Jeżeli osoba jest w wieku 44-57 lat i nie posiada dzieci to ma większe prawdopodobieństwo, że kupi rower niż wtedy, gdy posiada dzieci. Jeżeli osoba posiada dzieci, to następnym atrybutem wpływającym na kupno roweru jest to czy osoba zalicza się do regionu „Pacyfic”.
Jeżeli osoba jest mlodsza niż 33 lata , to jeżeli nie posiada samochodu, to większe jest p-stwo, że kupi rower.