skomplikowana. Mimo to otrzymane narzędzie stanowi solidną podstawę do dalszego rozwoju w dziedzinie klasyfikacji danych tekstowych.
Zaprezentowane w powyższej pracy rozwiązanie problemu, testy oraz analiza otrzymanych wyników ukazują, że zagadnienia związane z pracą zostały sumiennie opracowane, stawiane wymagania zrealizowane oraz cel pracy osiągnięty.
52 Wnioski z przeprowadzonych badań
Podczas prowadzenia badań nad powyższym zagapieniem natrafiono na wiele aspektów związanych z rozpraszaniem aplikacji czy klasyfikacją danych. Poniższe wnioski przedstawiają nabytą wiedzę podczas wykonywania projektu:
• wszelkie technologie oparte o MapReduce dobrze nadają się do implementacji klasyfikacji opartej o algorytm kNN. ze względu na skuteczne rozdzielanie zadań w oparciu o zadany klucz. W przypadku klasyfikacji artykułów, kluczem tym może być nazwa danego artykułu.
• klasyfikacja danych jest procesem bardzo złożonym, wymagającym zastosowania wielu technik w celu zwiększenia jej efektywności i zmniejszenia złożoności czasowej.
• kluczem do efektywnej klasyfikacji jest dobór odpowiednich charakterystyk danych wejściowych.
• zastosowanie technologii Apache Hadoop znacznie usprawnia realizację podobnych projektów, ponieważ pomaga programiście uzyskać pełne rozproszenie danych oraz przy pomocy MapReduce pomaga rozproszyć obliczenia pomiędzy węzły klastra,
• technologia Apache Hadoop nadaje się również do realizacji wielu innych projektów, na przykład do realizacji rozproszonej bazy danych.
Przeprowadzane testy wydajnościowe i jakościowe działania algorytmu prowadzą do następujących konkluzji:
• zastosowana strategia progowania wyników na poziomie 90% nie zawsze korzystnie wpływa na jakość wyników.
• zastosowany sposób oceny jakości (f-measure) okazał się być dobrym wyznacznikiem jakości wyników.
• w walidacji skrośnej nie uwzględniono stratyfikacji (podziału na zbioru artykułów na foldy tak. aby każdy z podzbiorów zawierał podobnej klasy artykuły) co może wpływać negatywnie na uzyskane wyniki.
• zauważono znaczną poprawę w aspekcie złożoności czasowej dla operacji zliczania słów wraz ze wzrostem używanych węzłów klastra. natomiast proces klasyfikacji uzyskał wzrost wydajności znacznie niższy od oczekiwanego.
• optymalną ilością parametru k jest wartość zawierająca się między 2. a 5 najbliższych sąsiadów.
• najbardziej czasochłonnymi operacjami są folding i walidacja skrośna i to w nich należy doszukiwać się wąskiego gardła rozproszenia.
39