1.1 Nakreślenie problematyki
Ilość danych produkowanych przez ludzkość stale wzrasta. W 2014 roku globalny ruch sieciowy wynosił 16TB na sekundę [2], Coraz większy nacisk kładzie się na technologie pozwalające wyciągać pewne zależności między danymi w sposób automatyczny. Jest to możliwe dzięki zastosowaniu technologii rozproszonych oraz łączeniu komputerów w klastry. aby uzyskać w ten sposób moc obliczeniową niezbędną do przetworzenia dużej ilości danych. Aby programy uruchamiane na klastrach były w stanie wykorzystać całkowicie ich potencjał, istotne jest jak najlepsze zrównoleglenie operacji wykonywanych przez program oraz danych, z których program korzysta.
Uporanie się z problematyką przetwarzania wielkich zbiorów danych jest w tym momencie jectoym z głównych wyzwań dla branż technologicznych. Prowadzenie badań i poszerzanie wiedzy w zakresie dziedziny Big Data prowadzi do bezpośrednich zmian i Jepszeń w większości dziedzin żyda. a w aspekcie naukowym prowadzić może do zdobycia nowej wiedzy.
1.2 Cel pracy
W niniejszej pracy przedstawiono podejśde do analizy big data na przykładzie repozytorium Wikipedii. Repozytorium to. jest dynamicznie rozwijającym się zbiorem danych. Sam Polski odłam w roku 2014 powiększył swoje zbiory o ponad 64 tysiące artykułów, czyli o 6.34% całośd [31.
Zaimplementowano klasyfikator, który przy pomocy uczenia maszynowego, oraz przetwarzania równdegłego. jest w stanie zanalizować nowe artykuły i przypisać je do istniejących kategorii artykułów Wikipedii. Istotny dla nas jest aspekt wydajnościowy oraz ocena zysków czasowych podczas przetwarzania danych za pomocą klastra obliczeniowego utworzonego z domowych komputerów.
W niniejszym projekcie jakość klasyfikacji schodzi na drugi plan. podczas gdy główne starania skupione są na polepszaniu wydajnośd i efektywnym wykorzystaniu klastrów w skomplikowanych działaniach. Mimo tego aspekt jakości klasyfikacji nie został całkowide pominięty. W tym kiemnku zostały wykonane konieczne czyn nośd doboru odpowiedniej miary niepodobieństwa obiektów oraz dobom algorytmu klasyfikacji. Dodatkowo zostały wprowadzone niestandardowe technfci ulepszenia procesu Majority Voting naszego autorstwa. Wszystkie aspekty jakośd zostały podsumowane odpowiednimi testami weryfikującymi poprawność zastosowanych technik.
1.3 Stan wiedzy obecnej
[41 Istnieje wiele zastosowań automatycznej klasyfikacji danych, dobrym przykładem mogą być rozwiązania stosowane w klientach poczty e mail przydzielające wiadomości do konkretnych kategorii na podstawie jej treści. Najlepszym rozwiązaniem problemu kategoryzacji
9