6218156490

6218156490



Ewa Adamus

Brak wartości w pewnych atrybutach wektora wejściowego próbki może być różnie interpretowany. W pracy 111] nieznane wartości atrybutu podzielone zostały na dwie grupy:

—    niedostępne wartości, brakujące wartości.

Do pierwszej kategorii zaliczyć należy sytuacje, kiedy wartość określonego atrybutu jest „ostatecznie niedostępna” (przykładowo nie mamy fizycznej (technicznej) możliwości zarejestrowania pewnych pomiarów). Drugą grupę należy interpretować jako wartości, które obiekt mógłby posiadać, lecz z różnych przyczyn nie zostały zarejestrowane. W związku z tym, że przyczyny nieznajomości wartości dla pewnych atrybutów mogą być różne, stosuje się odpowiednio odmienne podejścia do tego problemu.

W literaturze dotyczącej problemu niekompletności danych przyjęto formalny podział tego zjawiska. Ponieważ wiele metod bazuje na pewnych założeniach co do rodzaju niekompletności danych, poniżej przedstawiono ogólnie przyjętą klasyfikację [9].

Jeżeli zdefiniujemy macierz M indykatorów niekompletności, o tym samym rozmiarze co tabela z danymi D, o wartościach elementów równych 1, dla zaobserwowanych wartości w D oraz 0 dla wartości brakujących. Wówczas podział rodzaju niekompletności danych, z formalnego punktu widzenia, wygląda następująco [8|:

MC AR (missing completely at random - M jest niezależne od D : P(M\D) = P(M), czyli na podstawie części zaobserwowanej nie jesteśmy w stanie dokonać prawidłowej predykcji wartości brakującej. Prawdopodobieństwo, że pewien przypadek (przykład) nie posiada wartości dla określonego atrybutu, nie zależy od wartości zdefiniowanych tego przypadku, ani od części wektora bez wartości.

MAR (missing at random) - prawdopodobieństwo braku wartości może zależeć od Dobs ale musi być niezależne od DmiS. Formalnie M jest niezależne od Dmis : P(M\D) = P{M\Dobs).

—    NI (nonignorable) lub NMAR (not missing at random). Prawdopodobieństwo braku wartości zależy od nie zaobserwowanej części. Formalnie jest zależne od D, czyli P(M\D) nie upraszcza się.

Najprostszym podejściem, w przypadku stwierdzenia braku wartości w pewnych atrybutach wektora wejściowego próbki jest usunięcie takich próbek ze zbioru danych. Taki sposób postępowania nie ma znacząco ujemnego skutku, jeżeli dysponujemy licznym, w miarę dobrze zdefiniowanym - w przestrzeni rozważań

—    zbiorem danych, w którym dodatkowo niekompletne dane nie stanowią istotnej części naszego zbioru. W przeciwnym przypadku możemy oszacować brakujące wartości lub zmodyfikować metodę tak, aby uwzględniała niekompletne dane. Pierwszy przypadek, będzie stanowił wówczas, jeden z etapów wstępnego przetwarzania danych. Generalnie w literaturze spotkać możemy następujący podział metod postępowania z problemem niekompletności [5]:



Wyszukiwarka

Podobne podstrony:
r2 Częściowe krzyżowanie rąk - w pewnych sytuacjach pełne skrzyżowanie rąk może być nie na miejscu,
Strona0109 109 na początku obiektowi stała co do wartości siła Px = mav Siła ta może być realizowana
Dr. Ewa Feder-Sempach Seminarium licencjackie Pytania egzaminacyjne Akredytywa odwołalna - może
[1 Rząd 2 TEST 1. Czy wektor £: x = 1 2 3 4 0 2 1 101 -1 może być wektorem dla modelu o
PA KF 037 Wzmacniacze KF CO Amatorskie Radio zawężeniu. Przy większej dobroci, WFS na wejściu wzmac
img069 (33) Elementarne wprowadzenie do techniki: -i neuronowych => jeśli kąt między wektorem wej
img069 69 Rozdział 5. Sieci CP & zatem wraz z każdym wektorem wejściowym X podawany jest wektor
IMGP1163 Identyfikacja l klasyfikacja obiektów, wartości, powiązań l atrybutów Do podstawowych faktó
miasto Nagłówki wierszy i kolumn kostki zawierają wartości wymiarów (atrybutów) Komórki
img030 (4) WEKTORY WEJŚCIA I WYJŚCIA SYSTEMU PRODUKCYJNEGOSYSTEM PRODUKCYJNY Przopływ zaso
img036 (2) WEKTOR WEJŚCIA Energia jest podstawowym pojęciem w naukach przyrodniczych i stanowi od za
img099 WEKTORY WEJŚCIA I WYJŚCIA SYSTEMU PRODUKCYJNEGOSYSTEM PRODUKCYJNY Przepływ zasobów
ły się tam gotowe dziedziny (zbiory wartości) dla atrybutów takich jak: status rekordu, poziom
Sieci CP str069 69 Rozdział 5. Sieci CP a zatem wraz z każdym wektorem wejściowym X podawany jest we

więcej podobnych podstron