Klasyfikacja kredytobiorców
Do zanalizowania 1000 klientów pewnego banku w Niemczech. Każdy klient charakteryzuje się 20 atrybutami (między innymi: wiek, wielkość zarobki, rodzaj umowy zatrudnienia, historia poprzedniego kredytu,…) Wśród atrybutów jest 6 numerycznych i 14 symbolicznych. Są dwie klasy klientów: kompetentny (dobry) i niekompetentny (zły).
Predykatory ryzyka w modelu German credit
A1 Stan istniejącego rachunku a Vista
A11 < 0 DEM
A12 w przedziale (0,200> DEM
A13 ≥ 200 DEM / pensja na rachunek min 1 rok
A14 brak rachunku
A2 Czas trwania w miesiącach
A3 Historia kredytowa
A30 bez kredytów / wszystkie kredyty spłacone
A31 wszystkie kredyty w tym banku spłacone
A32 istniejące kredyty spłacane regularnie
A33 opóźnienie w spłatach w przeszłości
A34 rachunek krytyczny / są inne kredyty (poza)
A4 Cel kredytu
A40 samochód (nowy)
A41 samochód (używany)
A42 meble / wyposażenie
A43 radio / telewizor
A44 artykuły gospodarstwa domowego
A45 naprawy
A46 edukacja
A47 wakacje
A48 szkolenie
A49 biznes
A410 inny cel
A5 Kwota kredytu
A6 Rachunki oszczędnościowe / obligacje
A61 < 100 DEM
A62 w przedziale <100, 500) DEM
A63 w przedziale <500, 1000) DEM
A64 ≥ 1000 DEM
A65 brak danych / brak rach. oszczędnościowego
A7 Okres obecnego zatrudnienia
A71 bezrobotny
A72 < 1 rok
A73 w przedziale <1, 4) lata
A74 w przedziale <4, 7) lat
A75 ≥ 7 lat
A8 Rata kredytu jako procent dochodu
A9 Stan cywilny i płeć
A91 M: rozwiedziony / w separacji
A92 K: rozwiedziona / w separacji / zamężna
A93 M: samotny
A94 M: żonaty / wdowiec
A95 K: samotna
A10 Inni dłużnicy / żyranci
A101 brak
A102 współaplikant wniosku
A102 żyrant
A11 Okres obecnego zamieszkania w latach
A12 Własność
A121 nieruchomość
A122 (jeśli nie A121)
wkład do spółdzielni mieszk. / polisa na życie
A123 (jeśli nie A121 / A122)
samochód lub in.
A124 nie wiadomo / bez własności
A13 Wiek w latach
A14 Inne powinności ratalne
A141 bank
A142 sklepy
A143 brak
A15 Mieszkanie
A151 wynajmowane
A152 własne
A153 za darmo
A16 Liczba kredytów w tym banku
A17 Praca
A171 bezrobotny / bez kwalifikacji – nierezydent
A172 bez kwalifikacji – rezydent
A173 kwalifikowany / urzędnik
A174 zarządca / własna firma / pracownik wysoko kwalifikowany
A18 Liczba osób na utrzymaniu
A19 Telefon
A191 brak
A192 tak, zarejestrowany na nazwisko klienta
A20 Pracownik zagraniczny
A201 tak
A202 nie
Źródło: German credit data oraz opracowanie własne
Zbiór wszystkich danych został podzielony na:
Zbiór treningowy – 800
Zbiór testowy – 200
Liczba atrybutów: 20
Liczba klas decyzyjnych: 2
Baza wszystkich danych została podzielona w proporcji 80% danych treningowych i 20% danych testowych. Dane te zostały podzielone na dwa pliki arff (ucz.arff – zbiór treningowy – oraz spr.arff – zbiór testowy). Zostały one opisane w następujący sposób:
@relation test
@attribute account_status {A11, A12, A13, A14}
@attribute duration real
@attribute credit_history {A30, A31, A32, A33, A34}
@attribute purpose {A40, A41, A42, A43, A44, A45, A46, A47, A48, A49, A410}
@attribute credit_amount real
@attribute savings {A61, A62, A63, A64, A65}
@attribute employment_since {A71, A72, A73, A74, A75}
@attribute installment_percent real
@attribute status_sex {A91, A92, A93, A94, A95}
@attribute other_debtors {A101, A102, A103}
@attribute residence real
@attribute property {A121, A122, A123, A124}
@attribute age real
@attribute other_installment {A141, A142, A143}
@attribute housing {A151, A152, A153}
@attribute number_of_credits_in_this_bank real
@attribute job {A171, A172, A173, A174}
@attribute people_lialable real
@attribute telephone {A191, A192}
@attribute foreign_worker {A201, A202}
@data
…
Opis danych został zawarty w dziale „Opis problemu”.
Do rozwiązania użyto programu Weka 3.6.1. Użyto pakietu J48 (drzewo decyzyjne).
Rys. 1. Po wczytaniu pliku ze zbiorem testowym, wybrano wszystkie dane.
Rys. 2. Wybór drzewa binarnego.
Rys. 3. Wybór zbioru testowego.
Rys. 4. Okno opcji drzewa binarnego.
Rys. 5. Przykładowy wynik testu.
Wykonane testy znajdują się w załączniku nr 1.
Rodzaj drzewa: Drzewo binarne
Praca pochłonęła wiele czasu ale jest wsparcie wielu programów analizujących. Początkowo problem wydawał się bardzo trudny do rozwiązania lecz już po pierwszych godzinach pracy z programem Weka wynik analizy stawał się co raz bliższy. Wyniki zawarte w analizie pokazują, że rezultat uczenia i rysowania drzewa zależy od parametrów algorytmu.