3582277768

3582277768



dokumentów tekstowych jest zastosowanie uczenia maszynowego. Wybranie odpowiedniej metody uczenia maszynowego zależy m.in. od wielkości zbioru trenującego oraz od tępa jej przyrostu. [2] Jednym z najczęściej wykorzystywanych przy kategoryzacji algorytmów jest klasyfikator k-Najbliższych Sąsiadów.

[6] Na początku lat 2000' zaczęto pojawiać się coraz większe zapotrzebowanie na rozproszenie zasobów komputerowych między wiele węzłów. Rozpraszanie zasobów jest technologią niezbędną do szybkiego zarządzania danymi w dużych i szybko rozwijających się serwisach jak np. Google czy Facebook. gdzie użytkownicy każdego dnia generują setki gigabajtów danych. Jednym z najlepszych wymyślonych rozwiązań, jest model o nazwie MapReduce wykorzystywany w firmie Google i opisany przez dwóch pracowników tej firmy. Jeffrey’a Deana iSanjaya Ghemawata. Model ten wykorzystywany jest do dziś przez koiporacje na całym świecie do rozpraszania operacji między komputerami. Powstały również inne modele jak na przykład Bulk Synchronous Parallel. jednak nie są one tak popularne jak MapReduce.

1.4 Przedstawienie zawartości poszczególnych rozdziałów pracy

W pierwszej kolejności w rozdziale Teoria zostały wyjaśnione podstawy teoretyczne mechanizmów wykorzystanych w implementacji. Zostały zgłębione szczegóły działania klasyfikatora, a w szczególności sposoby wyszukiwania podobieństw tekstu, ewentualne ulepszenia i modyfikacje oraz kroswalidacja. Dodatkowo wyjaśnione zostały podstawy rozpraszania aplikacji poruszając tematy struktury klastra. przechowywania danych oraz fazy redukcji i mapowania.

W następnym rozdziale Implementacja zgłębione zostały szczegóły implementacji wcześniej wymienionych zagadnień teoretycznych i bezpośrednie dostosowanie ich do rozwiązania poruszonego problemu. Głównym tematem implementacji są sposoby zrównoleglania technik przygotowania danych, klasyfikacji i kroswalidacji. Duża część rozdziału została także poświęcona opisowi działania projektu, w którym wyjaśniony jest proces przygotowania danych oraz przedstawiony został schemat współpracy poszczególnych sekcji klasyfikatora.

W rozdziale Ocena zostały przedstawione uzyskane wyniki klasyfikacji. W pieiwszej kolejności zostały Mazane korzyści i starty jakościowe w zależności od pizyjętych parametrów wejściowych dotyczących k najbliższych sąsiadów iflub zastosowanych ulepszeń klasyfikacji. W głównej części rozdziału zostały zawarte wyniki testów sprawdzających wydajność działania algorytmu. Szczególny nacisk położony został na aspekt korzyści wynikających ze zrównoleglania poszczególnych zadań w czasie klasyfikacji. Wszystkie wyniki testów zostały przedstawione w tabelach, oraz podsumowanie krótkim komentarzem.

W Podsumowaniu zawarto informacje odnośnie uzyskanych efektów i osiągnięć a także przedstawiono wnioski z wykonanych pomiarów. Na zakończenie zostały poroszone kwestie ewentualnych ścieżek rozwoju klasyfikatora i zastosowania otrzymanych wyników w przyszłych projektach.

10


Wyszukiwarka

Podobne podstrony:
0000046 (10) operacji matematycznych, jest możliwe jedynie przy zastosowaniu elektronicznych maszyn
Wybrane definicje etyki biznesu •    Velazquez (1988): „Etyka biznesu jest zastosowan
P1010001 Nowy Dokument tekstowy (3) ZAD 1. Dany jest komin żelbetowy o wysokości Ho(szukane). zew. ś
Dokument wejściowy jest — umożliwia wybranie strony dokumentu, po której znajdują się informacje, kt
87799 Zoologia Nowy Dokument tekstowy.txt TASIEMIEC nieuzbrojony - jest znacznie dłuższy i osiąga n
87799 Zoologia Nowy Dokument tekstowy.txt TASIEMIEC nieuzbrojony - jest znacznie dłuższy i osiąga n
82059 Zoologia Nowy Dokument tekstowy.txt Natomiast przykładem pasożyta wewnętrznego jest glista lu
Wybrane aktywizujące metody nauczania w pracy z uczniem... 293 Proces uczenia NLP jest możliwy przez
Dokumentacja technologiczna -jest to zbiór dokumentów (tekstowych lub graficznych) określających
( Ankieta jest anonimowa. Zakreśl wybraną odpowiedź.) 1.    Czy podobała ci się taka

więcej podobnych podstron