cw 6 podobienstwo id 122439 Nieznany

background image

1

Autor: mgr inż. Jakub Siwiec

mgr inż. Jakub Siwiec (j.siwiec@utp.edu.pl)
mgr inż. Cezary Graul (cezary.graul@utp.edu.pl)
Katedra Informatyki w Zarządzaniu
Wydział Zarządzania

PODSTAWY ZARZĄDZANIA WIEDZĄ

Ćwiczenia praktyczne nr 6 – podobieństwo dokumentów

Zadanie:

Na podstawie zdobytej na poprzednich zajęciach bazy tekstów anglojęzycznych (30 artykułów, w 30
plikach tekstowych *.txt, w języku angielskim, o minimalnej długości 1800 znaków bez spacji) oraz
zastosowaniu programu RapidMiner, zaprogramuj kolejny proces j

akim będzie „podobieństwo

dokumentów”. Proces ten wskaże w jakim stopniu posiadane przez Państwa artykuły są do siebie
podobne.

Środowisko pracy:

stwórz „nowy folder” na pulpicie o nazwie Imie_nazwisko,

przekopiuj wszystkie 30 plików tekstowych do nowoutworzonego folderu,

otwórz program RapidMiner (Start  Programy  RapidMiner),

stwórz nowy proces - „new process” i zapisz go jako podobieństwo_imię_i_nazwisko, bez
polskich znaków.

1.Pierwsza kostka:

UWAGA

– pamiętaj o wiązaniach między procesami

skorzystaj z lewego drzewka procesów – rozwiń „Text Processing”,

przeciągnij proces „Process Documents from Files” na pulpit ekranu projektowego, pamiętaj o
połączeniu wszystkich wiązań związanych z ładowaniem danych (wejściem – input) oraz wynikami.

UWAGA

– w tym przypadku, nie łączymy wyniku WOR (wordlist) !!!!

o

klikając na każdej kostce jednokrotnie masz możliwość sformułować założeń,

o w opcji text directories edit list

wpisz nazwę klasy (np. swoje imię), wskaż folder

zawierający Twoje 30 plików tekstowych (.txt), kliknij „apply”,

o zaznacz opcje:

 extract text only
 use file extension as type
 encoding

– UTF-8

background image

2

Autor: mgr inż. Jakub Siwiec

 vector creation

– TF-IDF

 add meta information
 prune method

– absolute

 prune below absolute

– 3

 prune above absolute - 100
 datamanagement

– double_sparse_array


2.Kolejne kostki

– podprocesy w 1 kostce::

otwórz dodany przez siebie proces „Process Documents from Files”, (podwójne kliknięcie)

dołącz proces tokenizacji, doprowadź go do punktu wynikowego

o mode

– non letters

dołącz proces tranform cases

o opcjonalnie

– lower case (małe litery) lub upper case (wielkie litery)

dołącz proces filter stopwords (English)

dołącz process filter tokens (by length)

o min chars

– 3

o max chars

– 50


3.Kostka

mierząca podobieństwo każdego rekordu z wszystkimi pozostałymi po kolei:

powróć do nadrzędnego ekranu projektowego - tak aby widoczna była tylko pierwsza, główna
kostka

PROCESS DOCUMENTS FROM FILES.

Dodaj kolejną kostkę Data to SImilarity (Modeling / Similarity Computation)

o z

definiuj wartość “measures type” – NumericalMeasures

o z

definiuj wartość “numerical measures” – CosineSimilarity

o

połącz ze sobą obie kostki oraz dodaj wiązanie wynikowe


4.

Krok końcowy:

zapoznaj się z wynikami podobieństwa, sprawdź wyniki pod kątem najbardziej podobnych do siebie
rekordów oraz najmniej podobnych do siebie artykułów (filtrowanie poprzez „similarity” –
podobieństwo),

zapoznaj się z graficznym przedstawieniem wyników, a dokładnie z HISTOGRAMEM

background image

3

Autor: mgr inż. Jakub Siwiec

stwórz raport z niniejszego ćwiczenia w dokumencie typu WORD, raport powinien zawierać
następujące informacje:

o

imię i nazwisko,

o klasyfikacj

ę 5 najbardziej podobnych do siebie par artykułów wraz z ich tytułami,

o klasyfikacj

ę 5 najmniej podobnych do siebie par artykułów wraz z ich tytułami,

o zrzut ekranu

– widok HISTOGRAM.

tak

sporządzony dokument wyślij na adres prowadzącego (

j.siwiec@utp.edu.pl

lub

cezary.graul@utp.edu.pl

)

w temacie wiadomości wpisując: IMIĘ i NAZWISKO – Dzień i godz. Zajęć

(np. Śr. 13:00),

usuń pliki z pulpitu,

opróżnij kosz,

wyłącz komputer.


Wyszukiwarka

Podobne podstrony:
cw med 5 id 122239 Nieznany
cw excel3 id 166408 Nieznany
cw 13 id 121763 Nieznany
Cw mikrob 2 id 122249 Nieznany
CW K2 id 217375 Nieznany
cw mocz id 100534 Nieznany
cw med 2 id 122233 Nieznany
cw 11 id 122151 Nieznany
Instrukcja cw 3 PI id 216486 Nieznany
cw 1 ZL id 100327 Nieznany
CW 08 id 122562 Nieznany
cw 12 id 122179 Nieznany
cw excel2 id 122222 Nieznany
A ET cw 6 MRJ3A id 49207 Nieznany (2)
Fundamentowanie cw cz 2 id 181 Nieznany
MD cw 08 id 290129 Nieznany
MD cw 02 id 290123 Nieznany
cw 5 stokes id 121301 Nieznany

więcej podobnych podstron