dokumentów tekstowych jest zastosowanie uczenia maszynowego. Wybranie odpowiedniej metody uczenia maszynowego zależy m.in. od wielkości zbioru trenującego oraz od tępa jej przyrostu. [2] Jednym z najczęściej wykorzystywanych przy kategoryzacji algorytmów jest klasyfikator k-Najbliższych Sąsiadów.
[6] Na początku lat 2000' zaczęto pojawiać się coraz większe zapotrzebowanie na rozproszenie zasobów komputerowych między wiele węzłów. Rozpraszanie zasobów jest technologią niezbędną do szybkiego zarządzania danymi w dużych i szybko rozwijających się serwisach jak np. Google czy Facebook. gdzie użytkownicy każdego dnia generują setki gigabajtów danych. Jednym z najlepszych wymyślonych rozwiązań, jest model o nazwie MapReduce wykorzystywany w firmie Google i opisany przez dwóch pracowników tej firmy. Jeffrey’a Deana iSanjaya Ghemawata. Model ten wykorzystywany jest do dziś przez koiporacje na całym świecie do rozpraszania operacji między komputerami. Powstały również inne modele jak na przykład Bulk Synchronous Parallel. jednak nie są one tak popularne jak MapReduce.
1.4 Przedstawienie zawartości poszczególnych rozdziałów pracy
W pierwszej kolejności w rozdziale Teoria zostały wyjaśnione podstawy teoretyczne mechanizmów wykorzystanych w implementacji. Zostały zgłębione szczegóły działania klasyfikatora, a w szczególności sposoby wyszukiwania podobieństw tekstu, ewentualne ulepszenia i modyfikacje oraz kroswalidacja. Dodatkowo wyjaśnione zostały podstawy rozpraszania aplikacji poruszając tematy struktury klastra. przechowywania danych oraz fazy redukcji i mapowania.
W następnym rozdziale Implementacja zgłębione zostały szczegóły implementacji wcześniej wymienionych zagadnień teoretycznych i bezpośrednie dostosowanie ich do rozwiązania poruszonego problemu. Głównym tematem implementacji są sposoby zrównoleglania technik przygotowania danych, klasyfikacji i kroswalidacji. Duża część rozdziału została także poświęcona opisowi działania projektu, w którym wyjaśniony jest proces przygotowania danych oraz przedstawiony został schemat współpracy poszczególnych sekcji klasyfikatora.
W rozdziale Ocena zostały przedstawione uzyskane wyniki klasyfikacji. W pieiwszej kolejności zostały Mazane korzyści i starty jakościowe w zależności od pizyjętych parametrów wejściowych dotyczących k najbliższych sąsiadów iflub zastosowanych ulepszeń klasyfikacji. W głównej części rozdziału zostały zawarte wyniki testów sprawdzających wydajność działania algorytmu. Szczególny nacisk położony został na aspekt korzyści wynikających ze zrównoleglania poszczególnych zadań w czasie klasyfikacji. Wszystkie wyniki testów zostały przedstawione w tabelach, oraz podsumowanie krótkim komentarzem.
W Podsumowaniu zawarto informacje odnośnie uzyskanych efektów i osiągnięć a także przedstawiono wnioski z wykonanych pomiarów. Na zakończenie zostały poroszone kwestie ewentualnych ścieżek rozwoju klasyfikatora i zastosowania otrzymanych wyników w przyszłych projektach.
10