3582277776

3582277776



skomplikowana. Mimo to otrzymane narzędzie stanowi solidną podstawę do dalszego rozwoju w dziedzinie klasyfikacji danych tekstowych.

Zaprezentowane w powyższej pracy rozwiązanie problemu, testy oraz analiza otrzymanych wyników ukazują, że zagadnienia związane z pracą zostały sumiennie opracowane, stawiane wymagania zrealizowane oraz cel pracy osiągnięty.

52 Wnioski z przeprowadzonych badań

Podczas prowadzenia badań nad powyższym zagapieniem natrafiono na wiele aspektów związanych z rozpraszaniem aplikacji czy klasyfikacją danych. Poniższe wnioski przedstawiają nabytą wiedzę podczas wykonywania projektu:

•    wszelkie technologie oparte o MapReduce dobrze nadają się do implementacji klasyfikacji opartej o algorytm kNN. ze względu na skuteczne rozdzielanie zadań w oparciu o zadany klucz. W przypadku klasyfikacji artykułów, kluczem tym może być nazwa danego artykułu.

•    klasyfikacja danych jest procesem bardzo złożonym, wymagającym zastosowania wielu technik w celu zwiększenia jej efektywności i zmniejszenia złożoności czasowej.

•    kluczem do efektywnej klasyfikacji jest dobór odpowiednich charakterystyk danych wejściowych.

•    zastosowanie technologii Apache Hadoop znacznie usprawnia realizację podobnych projektów, ponieważ pomaga programiście uzyskać pełne rozproszenie danych oraz przy pomocy MapReduce pomaga rozproszyć obliczenia pomiędzy węzły klastra,

•    technologia Apache Hadoop nadaje się również do realizacji wielu innych projektów, na przykład do realizacji rozproszonej bazy danych.

Przeprowadzane testy wydajnościowe i jakościowe działania algorytmu prowadzą do następujących konkluzji:

•    zastosowana strategia progowania wyników na poziomie 90% nie zawsze korzystnie wpływa na jakość wyników.

•    zastosowany sposób oceny jakości (f-measure) okazał się być dobrym wyznacznikiem jakości wyników.

•    w walidacji skrośnej nie uwzględniono stratyfikacji (podziału na zbioru artykułów na foldy tak. aby każdy z podzbiorów zawierał podobnej klasy artykuły) co może wpływać negatywnie na uzyskane wyniki.

•    zauważono znaczną poprawę w aspekcie złożoności czasowej dla operacji zliczania słów wraz ze wzrostem używanych węzłów klastra. natomiast proces klasyfikacji uzyskał wzrost wydajności znacznie niższy od oczekiwanego.

•    optymalną ilością parametru k jest wartość zawierająca się między 2. a 5 najbliższych sąsiadów.

•    najbardziej czasochłonnymi operacjami są folding i walidacja skrośna i to w nich należy doszukiwać się wąskiego gardła rozproszenia.

39


Wyszukiwarka

Podobne podstrony:
page0096 86 S. DICKSTEIN. już narzędzia astronomiczne, to otrzymamy szereg prac, na podstawie któryc
w zamian za to otrzyma użytkowanie ziemi. Inny przykład do dziś szeroko spotykany w Indiach to osobi
Ratownictwo techniczne hydrauliczne urządzenia ratownicze (str 3) •    Również przez
2013 10 28 05 02 9Pomosty lądowe Gondwana Aczkolwiek teoria stałości kontynentów stanowi zadowalają
DSC07074 (3) rodziny. Owa identyczność rodziny tworzy jedność uczuć, myśli i działania oru stanowi t
13619 skanuj0005 (417) właszczenie może stanowić jedynie podstawę do poczucia relatywnego uprzywilej
Instrukcja o sposobie przeprowadzenia GPR 2010 4. STANOWISKA POMIAROWE 4.1.    Podsta
postępowania opisana powyżej może stanowić solidne przygotowanie do zajęć, w ramach których studenci
I. Rozwój Gminy Obecna kadencja to bez wątpienia czas budowania podstaw do jeszcze szybszego rozwoju

więcej podobnych podstron