1
Autor: mgr inż. Jakub Siwiec
mgr inż. Jakub Siwiec (j.siwiec@utp.edu.pl)
mgr inż. Cezary Graul (cezary.graul@utp.edu.pl)
Katedra Informatyki w Zarządzaniu
Wydział Zarządzania
PODSTAWY ZARZĄDZANIA WIEDZĄ
Ćwiczenia praktyczne nr 6 – podobieństwo dokumentów
Zadanie:
Na podstawie zdobytej na poprzednich zajęciach bazy tekstów anglojęzycznych (30 artykułów, w 30
plikach tekstowych *.txt, w języku angielskim, o minimalnej długości 1800 znaków bez spacji) oraz
zastosowaniu programu RapidMiner, zaprogramuj kolejny proces j
akim będzie „podobieństwo
dokumentów”. Proces ten wskaże w jakim stopniu posiadane przez Państwa artykuły są do siebie
podobne.
Środowisko pracy:
stwórz „nowy folder” na pulpicie o nazwie Imie_nazwisko,
przekopiuj wszystkie 30 plików tekstowych do nowoutworzonego folderu,
otwórz program RapidMiner (Start Programy RapidMiner),
stwórz nowy proces - „new process” i zapisz go jako podobieństwo_imię_i_nazwisko, bez
polskich znaków.
1.Pierwsza kostka:
UWAGA
– pamiętaj o wiązaniach między procesami
skorzystaj z lewego drzewka procesów – rozwiń „Text Processing”,
przeciągnij proces „Process Documents from Files” na pulpit ekranu projektowego, pamiętaj o
połączeniu wszystkich wiązań związanych z ładowaniem danych (wejściem – input) oraz wynikami.
UWAGA
– w tym przypadku, nie łączymy wyniku WOR (wordlist) !!!!
o
klikając na każdej kostce jednokrotnie masz możliwość sformułować założeń,
o w opcji text directories edit list
wpisz nazwę klasy (np. swoje imię), wskaż folder
zawierający Twoje 30 plików tekstowych (.txt), kliknij „apply”,
o zaznacz opcje:
extract text only
use file extension as type
encoding
– UTF-8
2
Autor: mgr inż. Jakub Siwiec
vector creation
– TF-IDF
add meta information
prune method
– absolute
prune below absolute
– 3
prune above absolute - 100
datamanagement
– double_sparse_array
2.Kolejne kostki
– podprocesy w 1 kostce::
otwórz dodany przez siebie proces „Process Documents from Files”, (podwójne kliknięcie)
dołącz proces tokenizacji, doprowadź go do punktu wynikowego
o mode
– non letters
dołącz proces tranform cases
o opcjonalnie
– lower case (małe litery) lub upper case (wielkie litery)
dołącz proces filter stopwords (English)
dołącz process filter tokens (by length)
o min chars
– 3
o max chars
– 50
3.Kostka
mierząca podobieństwo każdego rekordu z wszystkimi pozostałymi po kolei:
powróć do nadrzędnego ekranu projektowego - tak aby widoczna była tylko pierwsza, główna
kostka
– PROCESS DOCUMENTS FROM FILES.
Dodaj kolejną kostkę Data to SImilarity (Modeling / Similarity Computation)
o z
definiuj wartość “measures type” – NumericalMeasures
o z
definiuj wartość “numerical measures” – CosineSimilarity
o
połącz ze sobą obie kostki oraz dodaj wiązanie wynikowe
4.
Krok końcowy:
zapoznaj się z wynikami podobieństwa, sprawdź wyniki pod kątem najbardziej podobnych do siebie
rekordów oraz najmniej podobnych do siebie artykułów (filtrowanie poprzez „similarity” –
podobieństwo),
zapoznaj się z graficznym przedstawieniem wyników, a dokładnie z HISTOGRAMEM
3
Autor: mgr inż. Jakub Siwiec
stwórz raport z niniejszego ćwiczenia w dokumencie typu WORD, raport powinien zawierać
następujące informacje:
o
imię i nazwisko,
o klasyfikacj
ę 5 najbardziej podobnych do siebie par artykułów wraz z ich tytułami,
o klasyfikacj
ę 5 najmniej podobnych do siebie par artykułów wraz z ich tytułami,
o zrzut ekranu
– widok HISTOGRAM.
tak
sporządzony dokument wyślij na adres prowadzącego (
lub
w temacie wiadomości wpisując: IMIĘ i NAZWISKO – Dzień i godz. Zajęć
(np. Śr. 13:00),
usuń pliki z pulpitu,
opróżnij kosz,
wyłącz komputer.