3582277781

1. WSTĘP I CEL PRACY

1.1 Nakreślenie problematyki

Ilość danych produkowanych przez ludzkość stale wzrasta. W 2014 roku globalny ruch sieciowy wynosił 16TB na sekundę [2], Coraz większy nacisk kładzie się na technologie pozwalające wyciągać pewne zależności między danymi w sposób automatyczny. Jest to możliwe dzięki zastosowaniu technologii rozproszonych oraz łączeniu komputerów w klastry. aby uzyskać w ten sposób moc obliczeniową niezbędną do przetworzenia dużej ilości danych. Aby programy uruchamiane na klastrach były w stanie wykorzystać całkowicie ich potencjał, istotne jest jak najlepsze zrównoleglenie operacji wykonywanych przez program oraz danych, z których program korzysta.

Uporanie się z problematyką przetwarzania wielkich zbiorów danych jest w tym momencie jectoym z głównych wyzwań dla branż technologicznych. Prowadzenie badań i poszerzanie wiedzy w zakresie dziedziny Big Data prowadzi do bezpośrednich zmian i Jepszeń w większości dziedzin żyda. a w aspekcie naukowym prowadzić może do zdobycia nowej wiedzy.

1.2 Cel pracy

W niniejszej pracy przedstawiono podejśde do analizy big data na przykładzie repozytorium Wikipedii. Repozytorium to. jest dynamicznie rozwijającym się zbiorem danych. Sam Polski odłam w roku 2014 powiększył swoje zbiory o ponad 64 tysiące artykułów, czyli o 6.34% całośd [31.

Zaimplementowano klasyfikator, który przy pomocy uczenia maszynowego, oraz przetwarzania równdegłego. jest w stanie zanalizować nowe artykuły i przypisać je do istniejących kategorii artykułów Wikipedii. Istotny dla nas jest aspekt wydajnościowy oraz ocena zysków czasowych podczas przetwarzania danych za pomocą klastra obliczeniowego utworzonego z domowych komputerów.

W niniejszym projekcie jakość klasyfikacji schodzi na drugi plan. podczas gdy główne starania skupione są na polepszaniu wydajnośd i efektywnym wykorzystaniu klastrów w skomplikowanych działaniach. Mimo tego aspekt jakości klasyfikacji nie został całkowide pominięty. W tym kiemnku zostały wykonane konieczne czyn nośd doboru odpowiedniej miary niepodobieństwa obiektów oraz dobom algorytmu klasyfikacji. Dodatkowo zostały wprowadzone niestandardowe technfci ulepszenia procesu Majority Voting naszego autorstwa. Wszystkie aspekty jakośd zostały podsumowane odpowiednimi testami weryfikującymi poprawność zastosowanych technik.

1.3 Stan wiedzy obecnej

[41 Istnieje wiele zastosowań automatycznej klasyfikacji danych, dobrym przykładem mogą być rozwiązania stosowane w klientach poczty e mail przydzielające wiadomości do konkretnych kategorii na podstawie jej treści. Najlepszym rozwiązaniem problemu kategoryzacji

Wyszukiwarka

Podobne podstrony:
Struktura pracy typu: poglądowa. Wstęp 1.    Cel pracy (problemy badawcze, metodyka
m U< INSTYTUT, BIOLOGII 1. Wstęp i cel pracy Uniwersytet ^łtk łr w Sil V*7 W _____
1. WSTĘP I CEL PRACY „ Tatry są po to ,by zmieniać Ciebie, nie po to, byś Ty zmieniał Tatry... (z Mi
Ad 10 Streszczenie pracy Powinno obejmować na jednej stronie następujące dane: wstęp, cel pracy, mat
1. WSTĘP I CEL PRACY Geodezja - nazwa wprowadzona przez Arystotelesa, pochodzi z języka greckiego od
1 Wstęp 1.1 Cel pracy Celem tej pracy jest analiza procesu różnicowania się komórek. By go osiągnąć,
2012 10 16 52 33 SPIS TREŚCI 1.    Wstęp i cel pracy................................
SPIS TREŚCI Wstęp Cel pracy Dobór materiału badawczego. Metoda analizy i
Wstęp i cel pracy Wprowadzenie zasad gospodarki rynkowej na początku lat dziewięćdziesiątych przynio
Spis treści 1.    Wstęp 1.1    Cel pracy 1.2    Opis
Spis treści Spis treści 1    Wstęp 2    Cel pracy 2.1
SPIS TREŚCI I. Wstęp................... 7 Cel i zakres pracy................ 8 Problematyka i
ROZDZIAŁ II PROBLEMY BADA WCZE 2.1. Cel pracy. Celem podjętej przeze mnie pracy jest przedstawi

więcej podobnych podstron