Ewa Adamus
Brak wartości w pewnych atrybutach wektora wejściowego próbki może być różnie interpretowany. W pracy 111] nieznane wartości atrybutu podzielone zostały na dwie grupy:
— niedostępne wartości, brakujące wartości.
Do pierwszej kategorii zaliczyć należy sytuacje, kiedy wartość określonego atrybutu jest „ostatecznie niedostępna” (przykładowo nie mamy fizycznej (technicznej) możliwości zarejestrowania pewnych pomiarów). Drugą grupę należy interpretować jako wartości, które obiekt mógłby posiadać, lecz z różnych przyczyn nie zostały zarejestrowane. W związku z tym, że przyczyny nieznajomości wartości dla pewnych atrybutów mogą być różne, stosuje się odpowiednio odmienne podejścia do tego problemu.
W literaturze dotyczącej problemu niekompletności danych przyjęto formalny podział tego zjawiska. Ponieważ wiele metod bazuje na pewnych założeniach co do rodzaju niekompletności danych, poniżej przedstawiono ogólnie przyjętą klasyfikację [9].
Jeżeli zdefiniujemy macierz M indykatorów niekompletności, o tym samym rozmiarze co tabela z danymi D, o wartościach elementów równych 1, dla zaobserwowanych wartości w D oraz 0 dla wartości brakujących. Wówczas podział rodzaju niekompletności danych, z formalnego punktu widzenia, wygląda następująco [8|:
MC AR (missing completely at random - M jest niezależne od D : P(M\D) = P(M), czyli na podstawie części zaobserwowanej nie jesteśmy w stanie dokonać prawidłowej predykcji wartości brakującej. Prawdopodobieństwo, że pewien przypadek (przykład) nie posiada wartości dla określonego atrybutu, nie zależy od wartości zdefiniowanych tego przypadku, ani od części wektora bez wartości.
MAR (missing at random) - prawdopodobieństwo braku wartości może zależeć od Dobs ale musi być niezależne od DmiS. Formalnie M jest niezależne od Dmis : P(M\D) = P{M\Dobs).
— NI (nonignorable) lub NMAR (not missing at random). Prawdopodobieństwo braku wartości zależy od nie zaobserwowanej części. Formalnie M jest zależne od D, czyli P(M\D) nie upraszcza się.
Najprostszym podejściem, w przypadku stwierdzenia braku wartości w pewnych atrybutach wektora wejściowego próbki jest usunięcie takich próbek ze zbioru danych. Taki sposób postępowania nie ma znacząco ujemnego skutku, jeżeli dysponujemy licznym, w miarę dobrze zdefiniowanym - w przestrzeni rozważań
— zbiorem danych, w którym dodatkowo niekompletne dane nie stanowią istotnej części naszego zbioru. W przeciwnym przypadku możemy oszacować brakujące wartości lub zmodyfikować metodę tak, aby uwzględniała niekompletne dane. Pierwszy przypadek, będzie stanowił wówczas, jeden z etapów wstępnego przetwarzania danych. Generalnie w literaturze spotkać możemy następujący podział metod postępowania z problemem niekompletności [5]: