Selekcja danych jest ważnym procesem ze względu na przygotowane odpowiedniego zbioru danych do dalszej analizy, wpływa ona na uogólnianie algorytmu. Wektory odstające mogą wystąpić w każdym zbiorze danych, wynikają one z błędów pomiarowych, lub błędu ludzkiego. Próbka odstająca od pozostałych może reprezentować obszar, gdzie badana teoria może nie występować. Znalezienie optymalnej reprezentacji wektorów (danych) dzieli się na selekcję i optymalizację. Zagadnienie optymalizacji oraz selekcji prototypów dla algorytmu k - NN jest bardzo ważne, ponieważ nie tylko wpływa na zdolność do uogólniania algorytmu, ale również zmniejsza jego złożoność obliczeniową.
Metody eliminacji przypadków odstających określa się również, jako zagadnienie poszukiwania prototypów. W literaturze można znaleźć szereg metod taksonomii takich algorytmów. Wśród nich należy wymienić podział na metody optymalizacji i selekcji. Selekcja cechuje się bezpośrednim wyborem prototypów - wektorów zbioru trenującego. Natomiast optymalizacja minimalizuje wybrane kryterium w celu wyznaczenia nowego położenia wektorów prototypowych. Optymalizację od selekcji rozróżnia to, że położenia wektorów prototypowych nie muszą być dopasowane do konkretnego przypadku ze zbioru treningowego, a mogą to być nowe wektory wyznaczone na bazie oryginalnego zbioru uczącego. W grupie metod optymalizujących rozróżnia się dwie strategie rozwiązania problemu, bezpośrednią i pośrednią. Metoda bezpośrednia wyróżnia się bezpośrednią minimalizacją błędu klasyfikacji danych, zaś metodę pośrednią charakteryzuje algorytmy nienadzorowanej analizy danych. Metody znajdowania prototypów można również podzielić na przyrostowe i redukcyjne. W metodzie przyrostowej poszukiwanie wektorów wzorcowych zaczyna się od pustego zbioru P = 0. Następnie do zbioru P dodaje się nowe wektory, poprzez minimalizację określonego kryterium. W metodach redukcyjnych działanie algorytmu rozpoczyna się od pełnego zbioru prototypów P = T, następnie usuwane są wektory niewpływające na polepszenie generalizacji algorytmu. Jednym z przypadków metod przyrostowych jest kondensacja danych. W metodzie tej eliminuje się wektory „wewnętrzne”, które leżą daleko od granicy decyzji i nie mają wpływu na klasyfikacje. Drugą grupą jest metoda filtrów albo edycji eliminującej wektory odstające. Metody te zalicza się do metod redukcyjnych. W praktyce wykorzystuje się często oba rodzaje algorytmów, dzięki czemu ze zbioru danych usuwane są wektory odstające i kondensujące dane. W dalszej części podrozdziału zostaną przedstawione przykłady algorytmu selekcyjnego oraz redukcyjnego, których wpływ jest badany w niniejszej pracy. [15]
17