Kierunkowe zbiory podobieństwa a problem niekompletności danych... 11
UCI [4]. W pierwszym etapie obliczeń zastosowano podejście dla niekompletnych próbek, o brakujących wartościach, dla których faktyczne wartości istnieją, lecz nie zostały zaobserwowane, bądź zarejestrowane. W tym celu zbiór o nazwie 'diabetes’ został zdekompletowany w stopniu od 2 do 30 procent, z krokiem równym 2, wg schematu przedstawionego w dalszej części referatu. Analizowany zbiór składa się z 768 próbek opisanych przy pomocy 8 atrybutów warunkowych o ciągłej reprezentacji. Atrybut decyzyjny posiada dwie klasy.
We wszystkich przypadkach, weryfikacji metod dokonano korzystając z procedury k-krotnej walidacji krzyżowej, dla k = 10.
W celu zdekompletowania próbek pomiarowych zbioru ’diabetes ’ posłużono się schematem zgodnym z taksonomią rodzaju niekompletności przyjętą w literaturze oraz opisaną już we wcześniejszej części referatu1 2.
W celu wygenerowania reguł zastosowano algorytm LEM2 (Learning from Examples Module, version 2) [7], polegający na wyliczaniu lokalnych pokryć, par wartości atrybutów, tworzących minimalne kompleksy. Dodatkowo, algorytm ten wykorzystuje elementy teorii zbiorów przybliżonych, gdyż reguły generowane są na podstawie przybliżeń zbiorów decyzyjnych. Uzasadnienie zastosowania algorytmu w pracy, wynika z możliwości swobodnego zastosowania wybranej relacji (podobieństwa bądź tolerancji), w przypadku obecności niekompletnych danych.
Celem eksperymentów obliczeniowych jest porównanie wydajności klasyfikatorów regułowych wygenerowanych przy zastosowaniu klasycznej - niesymetrycznej relacji podobieństwa bez uzupełniania, z wariantem metody uwzględniającym uzupełnianie niekompletnych danych, czyli metodą warunkowego uzupełniania niekompletnych danych dopełnieniami klas podobieństwa.
W przypadku zastosowania do klasyfikacji obiektu, nieuporządkowanego zbioru reguł może wystąpić jeden z następujących scenariuszy [10]:
1. Obiekt jest pokrywany przez jedną regułę.
2. Do klasyfikacji obiektu pretenduje wiele reguł.
3. Część warunkowa obiektu nie zgadza się z żadną z reguł.
Dla sytuacji 1, klasyfikacja obiektu jest jednoznacznie określona przez regułę, której część warunkowa zgadza się z obiektem. Jeżeli dodatkowo występuje zgodność co do wartości atrybutu decyzyjnego, obiekt jest poprawnie zaklasyfikowany.
Jeżeli zdefiniujemy macierz M indykatorów niekompletności, o tym samym rozmiarze co tabela z danymi D, o wartościach elementów równych 1, dla zaobserwowanych wartości w D oraz 0 dla wartości brakujących. Dodatkowo, jeżeli pr = stopień niekompletności/100; n - liczba pseudo-losowa, o rozkładzie równomiernym, z zakresu (0,1); i, j: nr wiersza oraz kolumny macierzy M, wówczas dla niekompletności typu:
— MC AR: j. ra < pr to Mij = 0, w przeciwnym przypadku Mij = 1,
— MAR: losowo wybrano: 1 atrybut, dla którego zastosowano schemat MCAR\ 4 atrybuty: {j'l,j2,J3,j'4}, dla których: j. Xij\ < 0.7 i n < pr wówczas Mij2 = 0; j. Xij3 < 0.3 oraz n < pr wówczas Mi ją = 0,
— NI: losowo wybrano: 2 atrybuty, dla których zastosowano schemat MAR; 1 atrybut - MCAR-,
atrybuty: ({j4, j5,j‘6}), dla których: j. n < pr oraz Yi = 0 to Mąją = 0, j. Yi = 1 to Mij5 = 0 oraz Mij6 = 0.