background image

Autor: mgr inż. Jakub Siwiec 

mgr inż. Jakub Siwiec (j.siwiec@utp.edu.pl) 
mgr inż. Cezary Graul (cezary.graul@utp.edu.pl) 
Katedra Informatyki w Zarządzaniu 
Wydział Zarządzania 

 

    

  

PODSTAWY ZARZĄDZANIA WIEDZĄ 

 

 

Ćwiczenia praktyczne nr 4 – Programowanie procesu klasteryzacji 

 

Zadanie:  

Na podstawie zdobytej na poprzednich zajęciach bazy tekstów anglojęzycznych (30 artykułów, w 30 
plikach tekstowych *.txt, w języku angielskim, o minimalnej długości 1800 znaków bez spacji) oraz 
zastosowaniu programu RapidMiner, zaprogramuj kolejny proces 

jakim jest „klasteryzacja”.

 

Środowisko pracy: 

 

stwórz „nowy folder” na pulpicie o nazwie Imie_nazwisko, 

 

przekopiuj wszystkie 30 plików tekstowych do nowoutworzonego folderu, 

 

otwórz program RapidMiner (Start  Programy  RapidMiner), 

 

stwórz  nowy  proces  -  „new  process”  i  zapisz  go  jako  klasteryzacja_imię_i_nazwisko,  bez 
polskich znaków. 
 

1.Pierwsza kostka: 

UWAGA 

– pamiętaj o wiązaniach między procesami 

 

skorzystaj z lewego drzewka procesów – rozwiń „Text Processing”, 

   

 

przeciągnij  proces  „Process  Documents  from  Files”  na  pulpit  ekranu  projektowego,  pamiętaj  o 
połączeniu wszystkich wiązań związanych z ładowaniem danych (wejściem – input) oraz wynikami 

 

klikając na każdej kostce jednokrotnie masz możliwość sformułować założeń, 

o  w  opcji  text  directories    edit  list  w

pisz  nazwę  klasy  (np.  swoje  imię),  wskaż  folder 

zawierający Twoje 30 plików tekstowych (.txt), kliknij „apply”

o  zaznacz opcje: 

  extract text only 
  use file extension as type 
  encoding 

– UTF-8 

  vector creation 

– TF-IDF 

  add meta information 
  prune method 

– none 

  datamanagement 

– double_sparse_array 

 

background image

Autor: mgr inż. Jakub Siwiec 

2.Kolejne kostki 

– podprocesy w 1 kostce::  

UWAGA 

– śledź zmiany w wynikach po każdym dodatkowym procesie aby uniknąć pomyłki!!! 

 

otwórz dodany przez siebie proces „Process Documents from Files” „(podwójne kliknięcie)  

 

dołącz proces tokenizacji, doprowadź go do punktu wynikowego 

o  mode 

– non letters 

 

dołącz proces tranform cases 

o  opcjonalnie 

– lower case (małe litery) lub upper case (wielkie litery) 

 

dołącz proces filter stopwords (English) 

 

dołącz process generate n-Grams (Terms) 

o  max length - 2 

 

dołącz process filter tokens (by length) 

o  min chars 

– 3 

o  max chars 

– 50 

 

 

 
3.Kostka klasteryzacji: 

 

powróć  do  nadrzędnego  ekranu  projektowego  -  tak  aby  widoczna  była  tylko  pierwsza,  główna 
kostka 

– PROCESS DOCUMENTS FROM FILES. 

  Dodaj 

kolejną kostkę CLUSTERING (k-means) (zbiór procesów – MODELING) 

o  z

aznacz opcje „add cluster atribute” 

zdefiniuj wartość k=10 

zdefiniuj wartość max runs=10 

o  measure types = BregmanDivergences 
o  divergence = SquaredEuclideanDistance 
o  max optimalization step = 100 

 

 

 
4.

Krok końcowy: 

 

 

zapoznaj  się  z  otrzymanymi  wynikami  –  czyli  wykazem  wyrazów  (WordList)  oraz  wynikiem 
klasteryzacji, 

 

stwórz  raport  z  niniejszego  ćwiczenia  w  dokumencie  typu  WORD,  raport  powinien  zawierać 
następujące informacje: 

imię i nazwisko 

zrzut  ekranu  wyników  WordList  przefiltrowanych  od  najczęściej  występujących  słów  oraz 
ko

lejny od najmniejszej liczby wystąpień (razem 2 zrzuty ekranu) 

background image

Autor: mgr inż. Jakub Siwiec 

o  otrzymane  wyniki 

klasteryzacji  zamieść  w  formie  wypunktowania  klastrów  razem  z 

zawartymi w nich artykułami – pamiętaj o poprawnym ustawieniu klastrów – opcja GRAPH 
VIEW w wynikach (kolejność ma znaczenie) 

następnie wypunktuj wynik klasteryzacji wraz z odpowiadającymi im tytułami 
 

poszczególnych  artykułów  –  do  poznania  poszczególnych  klastrów  skorzystaj  z  „graph 

view

, klikając na konkretny klaster po prawej stronie otrzymujemy skład danego klastra z 

liczbami porządkowymi np. 1, 13, 23 – w przypadku jeśli artykuły były pomumerowane od 01 
d

o 30, identyfikacja jest prosta nr 1 oznacza artykuł 01.txt itd. 

 
Przykład tej części raportu: 

Klaster 5 

1.  Analysis of agrifoodstuffs product prices on the case of hypermarket data 
2.  Xml and relational data mapping in business plan application 
3.  The implementation of neural networks in the management of investments on the warszawska giełda 

towarowa (wgt)  

Klaster 0 

1.  Linking knowledge with action spatial data bases in operationalizing sustainable development in arid and 

semi arid regions 

2.  Local government administration offices in the light of information technology - survey report 
3.  Development of computerization on the rural areas of poland 
4.  The information flow modelling in social networks in the electronic environment 

Itd. 

… 

 

tak  sporządzony  dokument  wyślij  na  adres  prowadzącego  (

j.siwiec@utp.edu.pl

 

lub 

cezary.graul@utp.edu.pl

w temacie wiadomości wpisując: IMIĘ i NAZWISKO – Dzień i godz. Zajęć 

(np. Śr. 13:00) 

 

usuń pliki z pulpitu 

 

opróżnij kosz, 

 

wyłącz komputer.