6218156474

6218156474



Kierunkowe zbiory podobieństwa a problem niekompletności danych... 11

UCI [4]. W pierwszym etapie obliczeń zastosowano podejście dla niekompletnych próbek, o brakujących wartościach, dla których faktyczne wartości istnieją, lecz nie zostały zaobserwowane, bądź zarejestrowane. W tym celu zbiór o nazwie 'diabetes’ został zdekompletowany w stopniu od 2 do 30 procent, z krokiem równym 2, wg schematu przedstawionego w dalszej części referatu. Analizowany zbiór składa się z 768 próbek opisanych przy pomocy 8 atrybutów warunkowych o ciągłej reprezentacji. Atrybut decyzyjny posiada dwie klasy.

We wszystkich przypadkach, weryfikacji metod dokonano korzystając z procedury k-krotnej walidacji krzyżowej, dla k = 10.

W celu zdekompletowania próbek pomiarowych zbioru ’diabetes ’ posłużono się schematem zgodnym z taksonomią rodzaju niekompletności przyjętą w literaturze oraz opisaną już we wcześniejszej części referatu1 2.

W celu wygenerowania reguł zastosowano algorytm LEM2 (Learning from Examples Module, version 2) [7], polegający na wyliczaniu lokalnych pokryć, par wartości atrybutów, tworzących minimalne kompleksy. Dodatkowo, algorytm ten wykorzystuje elementy teorii zbiorów przybliżonych, gdyż reguły generowane są na podstawie przybliżeń zbiorów decyzyjnych. Uzasadnienie zastosowania algorytmu w pracy, wynika z możliwości swobodnego zastosowania wybranej relacji (podobieństwa bądź tolerancji), w przypadku obecności niekompletnych danych.

Celem eksperymentów obliczeniowych jest porównanie wydajności klasyfikatorów regułowych wygenerowanych przy zastosowaniu klasycznej - niesymetrycznej relacji podobieństwa bez uzupełniania, z wariantem metody uwzględniającym uzupełnianie niekompletnych danych, czyli metodą warunkowego uzupełniania niekompletnych danych dopełnieniami klas podobieństwa.

W przypadku zastosowania do klasyfikacji obiektu, nieuporządkowanego zbioru reguł może wystąpić jeden z następujących scenariuszy [10]:

1.    Obiekt jest pokrywany przez jedną regułę.

2.    Do klasyfikacji obiektu pretenduje wiele reguł.

3.    Część warunkowa obiektu nie zgadza się z żadną z reguł.

Dla sytuacji 1, klasyfikacja obiektu jest jednoznacznie określona przez regułę, której część warunkowa zgadza się z obiektem. Jeżeli dodatkowo występuje zgodność co do wartości atrybutu decyzyjnego, obiekt jest poprawnie zaklasyfikowany.

1

   Jeżeli zdefiniujemy macierz M indykatorów niekompletności, o tym samym rozmiarze co tabela z danymi D, o wartościach elementów równych 1, dla zaobserwowanych wartości w oraz 0 dla wartości brakujących. Dodatkowo, jeżeli pr = stopień niekompletności/100; n - liczba pseudo-losowa, o rozkładzie równomiernym, z zakresu (0,1); i, j: nr wiersza oraz kolumny macierzy M, wówczas dla niekompletności typu:

—    MC AR: j. ra < pr to Mij = 0, w przeciwnym przypadku Mij = 1,

—    MAR: losowo wybrano: 1 atrybut, dla którego zastosowano schemat MCAR\ 4 atrybuty: {j'l,j2,J3,j'4}, dla których: j. Xij\ < 0.7 i n < pr wówczas Mij2 = 0; j. Xij3 < 0.3 oraz n < pr wówczas Mi ją = 0,

—    NI: losowo wybrano: 2 atrybuty, dla których zastosowano schemat MAR; 1 atrybut - MCAR-,

2

   atrybuty: ({j4, j5,j‘6}), dla których: j. n < pr oraz Yi = 0 to Mąją = 0, j. Yi = 1 to Mij5 = 0 oraz Mij6 = 0.



Wyszukiwarka

Podobne podstrony:
13 Kierunkowe zbiory podobieństwa a problem niekompletności danych... Niekompletność typu:
15 Kierunkowe zbiory podobieństwa a problem niekompletności danych... [9] Little R. J., Rubin D. B.
Kierunkowe zbiory podobieństwa a problem niekompletności danych Ewa Adamus Politechnika Szczecińska,
Kierunkowe zbiory podobieństwa a problem niekompletności danych... 1.    Metody
?w  (I) Imię i nazwisko.Kierunek... Ó^O.CkK^rC hbb.CSprawozdanie z ów. 11 STĘŻENIE JONÓW WODOROWYCH
Slajd30 (44) Sieci neuronowe cechuje: •    zdolność przetwarzania niekompletnych dany
Statystyka na kierunku „leśnictwo”A w razie problemów: -    Osobiście: budynek 34, II
Literatura............................ 882 Zadania problemowe do rozdziału 11    
IMG48 (8) Wspomagania kierowania operacyjnego Podstawowy problem: 1.    Integrowaniu
zakresie. Dzieci potrafią rozwiązywać niektóre problemy logiczne danych, jednak niektó-także wtedy,
10.    Podstawowe pojęcia dotyczące relacyjnych baz danych. 11.    Sch
SYLLABUS Kierunek Ekonomia Specjalność Gospodarka regionalna i lokalna 11 stopień Nazwa
W artykule podejmuje się próbę syntetycznej oceny stanu i kierunków badań w zakresie problematyki
P6080220 Zadania bloku przetwarzania danych 11. Gromadzenie próbek sygnału (lub bieżąca analiza) Ide

więcej podobnych podstron