plik

Autor: mgr inż. Jakub Siwiec

mgr inż. Jakub Siwiec (j.siwiec@utp.edu.pl)
mgr inż. Cezary Graul (cezary.graul@utp.edu.pl)
Katedra Informatyki w Zarządzaniu
Wydział Zarządzania

PODSTAWY ZARZĄDZANIA WIEDZĄ

Ćwiczenia praktyczne nr 6 – podobieństwo dokumentów

Zadanie:

Na podstawie zdobytej na poprzednich zajęciach bazy tekstów anglojęzycznych (30 artykułów, w 30
plikach tekstowych *.txt, w języku angielskim, o minimalnej długości 1800 znaków bez spacji) oraz
zastosowaniu programu RapidMiner, zaprogramuj kolejny proces j

akim będzie „podobieństwo

dokumentów”. Proces ten wskaże w jakim stopniu posiadane przez Państwa artykuły są do siebie
podobne.

Środowisko pracy:



stwórz „nowy folder” na pulpicie o nazwie Imie_nazwisko,



przekopiuj wszystkie 30 plików tekstowych do nowoutworzonego folderu,



otwórz program RapidMiner (Start  Programy  RapidMiner),



stwórz nowy proces - „new process” i zapisz go jako podobieństwo_imię_i_nazwisko, bez
polskich znaków.

1.Pierwsza kostka:

UWAGA

– pamiętaj o wiązaniach między procesami



skorzystaj z lewego drzewka procesów – rozwiń „Text Processing”,



przeciągnij proces „Process Documents from Files” na pulpit ekranu projektowego, pamiętaj o
połączeniu wszystkich wiązań związanych z ładowaniem danych (wejściem – input) oraz wynikami.

UWAGA

– w tym przypadku, nie łączymy wyniku WOR (wordlist) !!!!

klikając na każdej kostce jednokrotnie masz możliwość sformułować założeń,

o w opcji text directories  edit list

wpisz nazwę klasy (np. swoje imię), wskaż folder

zawierający Twoje 30 plików tekstowych (.txt), kliknij „apply”,

o zaznacz opcje:

  extract text only
  use file extension as type
  encoding

– UTF-8

Autor: mgr inż. Jakub Siwiec

 vector creation

– TF-IDF

 add meta information
 prune method

– absolute

 prune below absolute

– 3

 prune above absolute - 100
 datamanagement

– double_sparse_array

2.Kolejne kostki

– podprocesy w 1 kostce::



otwórz dodany przez siebie proces „Process Documents from Files”, (podwójne kliknięcie)



dołącz proces tokenizacji, doprowadź go do punktu wynikowego

o mode

– non letters



dołącz proces tranform cases

o opcjonalnie

– lower case (małe litery) lub upper case (wielkie litery)



dołącz proces filter stopwords (English)



dołącz process filter tokens (by length)

o min chars

– 3

o max chars

– 50

3.Kostka

mierząca podobieństwo każdego rekordu z wszystkimi pozostałymi po kolei:



powróć do nadrzędnego ekranu projektowego - tak aby widoczna była tylko pierwsza, główna
kostka

– PROCESS DOCUMENTS FROM FILES.



Dodaj kolejną kostkę Data to SImilarity (Modeling / Similarity Computation)

o z

definiuj wartość “measures type” – NumericalMeasures

o z

definiuj wartość “numerical measures” – CosineSimilarity

połącz ze sobą obie kostki oraz dodaj wiązanie wynikowe

Krok końcowy:



zapoznaj się z wynikami podobieństwa, sprawdź wyniki pod kątem najbardziej podobnych do siebie
rekordów oraz najmniej podobnych do siebie artykułów (filtrowanie poprzez „similarity” –
podobieństwo),



zapoznaj się z graficznym przedstawieniem wyników, a dokładnie z HISTOGRAMEM

Autor: mgr inż. Jakub Siwiec



stwórz raport z niniejszego ćwiczenia w dokumencie typu WORD, raport powinien zawierać
następujące informacje:

imię i nazwisko,

o klasyfikacj

ę 5 najbardziej podobnych do siebie par artykułów wraz z ich tytułami,

o klasyfikacj

ę 5 najmniej podobnych do siebie par artykułów wraz z ich tytułami,

o zrzut ekranu

– widok HISTOGRAM.



tak

sporządzony dokument wyślij na adres prowadzącego (

j.siwiec@utp.edu.pl

lub

cezary.graul@utp.edu.pl

)

w temacie wiadomości wpisując: IMIĘ i NAZWISKO – Dzień i godz. Zajęć

(np. Śr. 13:00),



usuń pliki z pulpitu,



opróżnij kosz,



wyłącz komputer.