plik

Autor: mgr inż. Jakub Siwiec

mgr inż. Jakub Siwiec (j.siwiec@utp.edu.pl)
mgr inż. Cezary Graul (cezary.graul@utp.edu.pl)
Katedra Informatyki w Zarządzaniu
Wydział Zarządzania

PODSTAWY ZARZĄDZANIA WIEDZĄ

Ćwiczenia praktyczne nr 4 – Programowanie procesu klasteryzacji

Zadanie:

Na podstawie zdobytej na poprzednich zajęciach bazy tekstów anglojęzycznych (30 artykułów, w 30
plikach tekstowych *.txt, w języku angielskim, o minimalnej długości 1800 znaków bez spacji) oraz
zastosowaniu programu RapidMiner, zaprogramuj kolejny proces

jakim jest „klasteryzacja”.

Środowisko pracy:



stwórz „nowy folder” na pulpicie o nazwie Imie_nazwisko,



przekopiuj wszystkie 30 plików tekstowych do nowoutworzonego folderu,



otwórz program RapidMiner (Start  Programy  RapidMiner),



stwórz nowy proces - „new process” i zapisz go jako klasteryzacja_imię_i_nazwisko, bez
polskich znaków.

1.Pierwsza kostka:

UWAGA

– pamiętaj o wiązaniach między procesami



skorzystaj z lewego drzewka procesów – rozwiń „Text Processing”,



przeciągnij proces „Process Documents from Files” na pulpit ekranu projektowego, pamiętaj o
połączeniu wszystkich wiązań związanych z ładowaniem danych (wejściem – input) oraz wynikami

klikając na każdej kostce jednokrotnie masz możliwość sformułować założeń,

o w opcji text directories  edit list w

pisz nazwę klasy (np. swoje imię), wskaż folder

zawierający Twoje 30 plików tekstowych (.txt), kliknij „apply”,

o zaznacz opcje:

  extract text only
  use file extension as type
  encoding

– UTF-8

 vector creation

– TF-IDF

 add meta information
 prune method

– none

 datamanagement

– double_sparse_array

Autor: mgr inż. Jakub Siwiec

2.Kolejne kostki

– podprocesy w 1 kostce::

UWAGA

– śledź zmiany w wynikach po każdym dodatkowym procesie aby uniknąć pomyłki!!!



otwórz dodany przez siebie proces „Process Documents from Files” „(podwójne kliknięcie)



dołącz proces tokenizacji, doprowadź go do punktu wynikowego

o mode

– non letters



dołącz proces tranform cases

o opcjonalnie

– lower case (małe litery) lub upper case (wielkie litery)



dołącz proces filter stopwords (English)



dołącz process generate n-Grams (Terms)

o max length - 2



dołącz process filter tokens (by length)

o min chars

– 3

o max chars

– 50

3.Kostka klasteryzacji:



powróć do nadrzędnego ekranu projektowego - tak aby widoczna była tylko pierwsza, główna
kostka

– PROCESS DOCUMENTS FROM FILES.



Dodaj

kolejną kostkę CLUSTERING (k-means) (zbiór procesów – MODELING)

o z

aznacz opcje „add cluster atribute”

zdefiniuj wartość k=10

zdefiniuj wartość max runs=10

o  measure types = BregmanDivergences
o  divergence = SquaredEuclideanDistance
o  max optimalization step = 100

Krok końcowy:



zapoznaj się z otrzymanymi wynikami – czyli wykazem wyrazów (WordList) oraz wynikiem
klasteryzacji,



stwórz raport z niniejszego ćwiczenia w dokumencie typu WORD, raport powinien zawierać
następujące informacje:

imię i nazwisko

zrzut ekranu wyników WordList przefiltrowanych od najczęściej występujących słów oraz
ko

lejny od najmniejszej liczby wystąpień (razem 2 zrzuty ekranu)

Autor: mgr inż. Jakub Siwiec

o otrzymane wyniki

klasteryzacji zamieść w formie wypunktowania klastrów razem z

zawartymi w nich artykułami – pamiętaj o poprawnym ustawieniu klastrów – opcja GRAPH
VIEW w wynikach (kolejność ma znaczenie)

następnie wypunktuj wynik klasteryzacji wraz z odpowiadającymi im tytułami

poszczególnych artykułów – do poznania poszczególnych klastrów skorzystaj z „graph

view

”, klikając na konkretny klaster po prawej stronie otrzymujemy skład danego klastra z

liczbami porządkowymi np. 1, 13, 23 – w przypadku jeśli artykuły były pomumerowane od 01
d

o 30, identyfikacja jest prosta nr 1 oznacza artykuł 01.txt itd.

Przykład tej części raportu:

Klaster 5

1.  Analysis of agrifoodstuffs product prices on the case of hypermarket data
2.  Xml and relational data mapping in business plan application
3.  The implementation of neural networks in the management of investments on the warszawska giełda

towarowa (wgt)

Klaster 0

1. Linking knowledge with action spatial data bases in operationalizing sustainable development in arid and

semi arid regions

2.  Local government administration offices in the light of information technology - survey report
3.  Development of computerization on the rural areas of poland
4.  The information flow modelling in social networks in the electronic environment

Itd.

…



tak sporządzony dokument wyślij na adres prowadzącego (

j.siwiec@utp.edu.pl

lub

cezary.graul@utp.edu.pl

)

w temacie wiadomości wpisując: IMIĘ i NAZWISKO – Dzień i godz. Zajęć

(np. Śr. 13:00)



usuń pliki z pulpitu



opróżnij kosz,



wyłącz komputer.