background image

Autor: mgr inż. Jakub Siwiec 

mgr inż. Jakub Siwiec (j.siwiec@utp.edu.pl) 
mgr inż. Cezary Graul (cezary.graul@utp.edu.pl) 
Katedra Informatyki w Zarządzaniu 
Wydział Zarządzania 

    

PODSTAWY ZARZĄDZANIA WIEDZĄ 

Ćwiczenia praktyczne nr 2 – Programowanie pierwszego procesu text-mining’owego 

Zadanie:  

Na podstawie zdobytej na poprzednich zajęciach bazy tekstów anglojęzycznych (30 artykułów, w 30 
plikach tekstowych *.txt, w języku angielskim, o minimalnej długości 1800 znaków bez spacji) oraz 
zastosowaniu programu RapidMiner, zaprogramuj sw

ój pierwszy proces text-mining’owy.

 

Środowisko pracy: 

 

stwórz „nowy folder” na pulpicie o nazwie Imie_nazwisko

  przekopiuj 1 plik tekstowy 

(z poprzednich zajęć) do nowoutworzonego folderu, 

 

otwórz  program  RapidMiner  (Start    Programy    RapidMiner)  w  razie  potrzeby  ściągnij  i 
zainstaluj (Strona WZ 

– materiały dla studenta). 

Pierwsza i druga kostka: 
 

 

stwórz „new process” i zapisz go jako swoje imię_i_nazwisko, bez polskich znaków, 

 

skorzystaj z lewego drzewka procesów – rozwiń „Text Processing”, 

 

przeciągnij proces „Read Document” na pulpit ekranu projektowego, 

klikając na każdej kostce jednokrotnie masz możliwość sformułować założeń, 

o  w opcji file 

wskaż skopiowany wcześniej plik tekstowy, 

o  use file extesion as type 

– zaznaczone, 

 

dołącz proces tokenizacji, połącz go z poprzednim oraz doprowadź do punktu wynikowego 

 

 

 

uruchom procesy ikonką „play” i zapoznaj się z rezultatami, 

 

 

 

następnie wróć do okna projektowego (ikona             ) 

  dodaj kolejny proces 

„Filter Tokens (by length) 

ustaw następujące założenia: min chars (min. il. Znaków) = 3) max chars= 25 

 

uruchom ponownie procesy i sprawdź wyniki, 

 

background image

Autor: mgr inż. Jakub Siwiec 

 
Krok końcowy: 
 

 

z  otrzymanych  wyników  można  wykonać  zrzuty  ekranu,  które  następnie  zostaną  wklejone  do 
dokumentu np. WORD, w celu ich zachowania i zaobserwowania zmian, 

 

pozostawić swój plik projektowy w programie RapidMiner 

 

usunąć dane z pulpitu, 

 

opróżnić kosz, 

 

wyłączyć komputer.