1
Autor: mgr inż. Jakub Siwiec
mgr inż. Jakub Siwiec (j.siwiec@utp.edu.pl)
mgr inż. Cezary Graul (cezary.graul@utp.edu.pl)
Katedra Informatyki w Zarządzaniu
Wydział Zarządzania
PODSTAWY ZARZĄDZANIA WIEDZĄ
Ćwiczenia praktyczne nr 2 – Programowanie pierwszego procesu text-mining’owego
Zadanie:
Na podstawie zdobytej na poprzednich zajęciach bazy tekstów anglojęzycznych (30 artykułów, w 30
plikach tekstowych *.txt, w języku angielskim, o minimalnej długości 1800 znaków bez spacji) oraz
zastosowaniu programu RapidMiner, zaprogramuj sw
ój pierwszy proces text-mining’owy.
Środowisko pracy:
stwórz „nowy folder” na pulpicie o nazwie Imie_nazwisko,
przekopiuj 1 plik tekstowy
(z poprzednich zajęć) do nowoutworzonego folderu,
otwórz program RapidMiner (Start Programy RapidMiner) w razie potrzeby ściągnij i
zainstaluj (Strona WZ
– materiały dla studenta).
Pierwsza i druga kostka:
stwórz „new process” i zapisz go jako swoje imię_i_nazwisko, bez polskich znaków,
skorzystaj z lewego drzewka procesów – rozwiń „Text Processing”,
przeciągnij proces „Read Document” na pulpit ekranu projektowego,
o
klikając na każdej kostce jednokrotnie masz możliwość sformułować założeń,
o w opcji file
wskaż skopiowany wcześniej plik tekstowy,
o use file extesion as type
– zaznaczone,
dołącz proces tokenizacji, połącz go z poprzednim oraz doprowadź do punktu wynikowego
uruchom procesy ikonką „play” i zapoznaj się z rezultatami,
następnie wróć do okna projektowego (ikona )
dodaj kolejny proces
„Filter Tokens (by length)
o
ustaw następujące założenia: min chars (min. il. Znaków) = 3) max chars= 25
uruchom ponownie procesy i sprawdź wyniki,
2
Autor: mgr inż. Jakub Siwiec
Krok końcowy:
z otrzymanych wyników można wykonać zrzuty ekranu, które następnie zostaną wklejone do
dokumentu np. WORD, w celu ich zachowania i zaobserwowania zmian,
pozostawić swój plik projektowy w programie RapidMiner
usunąć dane z pulpitu,
opróżnić kosz,
wyłączyć komputer.