Kierunkowe zbiory podobieństwa a problem niekompletności danych...
1. Metody sekwencyjne (preprocessing methods).
a) Dane z brakującymi wartościami nie są uwzględniane w analizie danych (complete - case analysis, listwise deletion, casewise deletion).
b) Szacowanie brakujących wartości - zazwyczaj w ramach wstępnego przygotowania danych.
2. Metody równoległe („parallel methods”).
W przypadku metod sekwencyjnych, niekompletny zbiór danych przekształcany jest w wariant kompletny, po czym stosowana jest odpowiednia metoda obliczeniowa.
Druga kategoria - metody równoległe - niekompletne próbki pomiarowe uwzględniane są we właściwym procesie obliczeniowym. Metody są odpowiednio dostosowywane do możliwości braku wartości w pewnych atrybutach wektora wejściowego próbki - wykorzystywana jest wyłącznie zdefiniowana informacja w wnie-kompletnej próbce. W tym przypadku chodzi o takie dostosowanie istniejących metod, aby „tolerowały” one niekompletne próbki. Podstawową zaletą takiego podejścia - w stosunku do poprzedniej kategorii - jest fakt, że nie wprowadzamy do systemu dodatkowego błędu związanego z szacowaniem brakujących wartości.
W przypadku teorii zbiorów przybliżonych, nie możemy dokonać jednoznacznej klasyfikacji tej teorii do jednej z wymienionych kategorii postępowania z niekompletnością. W tym aspekcie teoria ta wyróżnia się na tle pozostałych metod (patrz [1]). Niekompletna próbka bowiem, w zależności od kontekstu (wzajemnych relacji z pozostałymi obiektami w bazie wiedzy), zostanie zaakceptowana z całkowitą pewnością do dalszej analizy (znajdzie się w dolnym przybliżeniu danego konceptu decyzyjnego), bądź przypuszczalnie (znajdzie się w obszarze granicznym). W przypadku uwzględnienia niekompletnego obiektu wnosi on jedynie posiadaną informację (bez uzupełniania) - akceptowane są wyłącznie zdefiniowane wartości niekompletnego obiektu. W sytuacji, gdy niepełna próbka znajdzie się w obszarze granicznym klasy decyzyjnej stanie się tym samym obiektem wątpliwym, co do przynależności do konceptu decyzyjnego. Celem niniejszej pracy jest uwzględnienie kolejnego wariantu postępowania z niekompletnością, czyli warunkowego uzupełniania niekompletnych danych. Warunkowego, gdyż wymogiem uzupełniana jest obecność spójnej informacji przeciwnej (reprezentującej inne koncepty decyzyjne) do obiektu uzupełnianego.
Zakładamy, że dla niekompletnego obiekt x € U, zaklasyfikowanego do uzupełniania, mamy określoną klasę obiektów, do których x jest podobny: 5_1(x). W celu uzupełnienia x uwzględniamy informację przeciwną do reprezentowanej przez zbiór S~1(x), czyli jego dopełnienie (gdzie x to hipotetyczny, niekompletny obiekt kwalifikujący się do uzupełnienia). S~1(x) można interpretować jako zbiór stanowiący koniunkcję obiektów, do których x jest podobny (mówimy, że obiekt jest podobny do obiektu x\ i do X2xn, gdzie n - liczność zbioru S-1(x)).