1
Autor: mgr inż. Jakub Siwiec
mgr inż. Jakub Siwiec (j.siwiec@utp.edu.pl)
mgr inż. Cezary Graul (cezary.graul@utp.edu.pl)
Katedra Informatyki w Zarządzaniu
Wydział Zarządzania
PODSTAWY ZARZĄDZANIA WIEDZĄ
Ćwiczenia praktyczne nr 3 – Programowanie procesów text-mining’owych
Zadanie:
Na podstawie zdobytej na poprzednich zajęciach bazy tekstów anglojęzycznych (30 artykułów, w 30
plikach tekstowych *.txt, w języku angielskim, o minimalnej długości 1800z znaków bez spacji) oraz
zastosowaniu programu RapidMiner,
zaprogramuj swój pierwszy proces text-mining’owy.
Środowisko pracy:
stwórz „nowy folder” na pulpicie o nazwie Imie_nazwisko,
przekopiuj wszystkie 30 plików tekstowych do nowoutworzonego folderu,
otwórz program RapidMiner (Start Programy RapidMiner) w razie potrzeby ściągnij i zainstaluj
(Strona WZ
– materiały dla studenta),
stwórz nowy proces - „new process” i zapisz go jako 30_imię_i_nazwisko, bez polskich znaków.
Pierwsza kostka:
UWAGA
– pamiętaj o wiązaniach między procesami
skorzystaj z lewego drzewka procesów – rozwiń „Text Processing”,
przeciągnij proces „Process Documents from Files” na pulpit ekranu projektowego, pamiętaj o
połączeniu wszystkich wiązań związanych z ładowaniem danych (wejściem – input) oraz wynikami
o
klikając na każdej kostce jednokrotnie masz możliwość sformułować założeń,
o w opcji text directories edit list
wskaz folder zawierający Twoje 30 plików tekstowych
(.txt),
o zaznacz opcje:
extract text only
use file extension as type
encoding
– UTF-8
vector creation
– TF-IDF
add meta information
prune method
– none
datamanagement
– double_sparse_array
2
Autor: mgr inż. Jakub Siwiec
Kolejne kostki:
UWAGA
– śledź zmiany w wynikach po każdym dodatkowym procesie!!!
otwórz dodany przez siebie proces „Process Documents from Files” „(podwójne kliknięcie)
dołącz proces tokenizacji, doprowadź go do punktu wynikowego
o mode
– non letters
dołącz proces tranform cases
o opcjonalnie
– lower case (małe litery) lub upper case (wielkie litery)
dołącz proces filter stopwords (English)
dołącz process generate n-Grams (Terms)
o max length - 2
dołącz process filter tokens (by length)
o min chars
– 4
o max chars - 50
Krok końcowy:
zapoznaj się z otrzymanymi wynikami – czyli wykazem wyrazów wraz z ich ilościami wystąpień
(total occurences)
otrzymane wyniki (WordList) przefiltruj
pod względem najczęściej występujących - od najczęściej do
najrzadziej występujących
wykonaj 2 zrzuty ekranu (Print Screen)
o filtr
najczęściej występujących wyrazów
o
filtr najrzadziej występujących wyrazów
zrzuty ekranu wklej do dokumentu WORD i prześlij na adres prowadzącego (
usuń pliki z pulpitu
opróżnij kosz,
wyłącz komputer.