1
Autor: mgr inż. Jakub Siwiec
mgr inż. Jakub Siwiec (j.siwiec@utp.edu.pl)
mgr inż. Cezary Graul (cezary.graul@utp.edu.pl)
Katedra Informatyki w Zarządzaniu
Wydział Zarządzania
PODSTAWY ZARZĄDZANIA WIEDZĄ
Ćwiczenia praktyczne nr 4 – Programowanie procesu klasteryzacji
Zadanie:
Na podstawie zdobytej na poprzednich zajęciach bazy tekstów anglojęzycznych (30 artykułów, w 30
plikach tekstowych *.txt, w języku angielskim, o minimalnej długości 1800 znaków bez spacji) oraz
zastosowaniu programu RapidMiner, zaprogramuj kolejny proces
jakim jest „klasteryzacja”.
Środowisko pracy:
stwórz „nowy folder” na pulpicie o nazwie Imie_nazwisko,
przekopiuj wszystkie 30 plików tekstowych do nowoutworzonego folderu,
otwórz program RapidMiner (Start Programy RapidMiner),
stwórz nowy proces - „new process” i zapisz go jako klasteryzacja_imię_i_nazwisko, bez
polskich znaków.
1.Pierwsza kostka:
UWAGA
– pamiętaj o wiązaniach między procesami
skorzystaj z lewego drzewka procesów – rozwiń „Text Processing”,
przeciągnij proces „Process Documents from Files” na pulpit ekranu projektowego, pamiętaj o
połączeniu wszystkich wiązań związanych z ładowaniem danych (wejściem – input) oraz wynikami
o
klikając na każdej kostce jednokrotnie masz możliwość sformułować założeń,
o w opcji text directories edit list w
pisz nazwę klasy (np. swoje imię), wskaż folder
zawierający Twoje 30 plików tekstowych (.txt), kliknij „apply”,
o zaznacz opcje:
extract text only
use file extension as type
encoding
– UTF-8
vector creation
– TF-IDF
add meta information
prune method
– none
datamanagement
– double_sparse_array
2
Autor: mgr inż. Jakub Siwiec
2.Kolejne kostki
– podprocesy w 1 kostce::
UWAGA
– śledź zmiany w wynikach po każdym dodatkowym procesie aby uniknąć pomyłki!!!
otwórz dodany przez siebie proces „Process Documents from Files” „(podwójne kliknięcie)
dołącz proces tokenizacji, doprowadź go do punktu wynikowego
o mode
– non letters
dołącz proces tranform cases
o opcjonalnie
– lower case (małe litery) lub upper case (wielkie litery)
dołącz proces filter stopwords (English)
dołącz process generate n-Grams (Terms)
o max length - 2
dołącz process filter tokens (by length)
o min chars
– 3
o max chars
– 50
3.Kostka klasteryzacji:
powróć do nadrzędnego ekranu projektowego - tak aby widoczna była tylko pierwsza, główna
kostka
– PROCESS DOCUMENTS FROM FILES.
Dodaj
kolejną kostkę CLUSTERING (k-means) (zbiór procesów – MODELING)
o z
aznacz opcje „add cluster atribute”
o
zdefiniuj wartość k=10
o
zdefiniuj wartość max runs=10
o measure types = BregmanDivergences
o divergence = SquaredEuclideanDistance
o max optimalization step = 100
4.
Krok końcowy:
zapoznaj się z otrzymanymi wynikami – czyli wykazem wyrazów (WordList) oraz wynikiem
klasteryzacji,
stwórz raport z niniejszego ćwiczenia w dokumencie typu WORD, raport powinien zawierać
następujące informacje:
o
imię i nazwisko
o
zrzut ekranu wyników WordList przefiltrowanych od najczęściej występujących słów oraz
ko
lejny od najmniejszej liczby wystąpień (razem 2 zrzuty ekranu)
3
Autor: mgr inż. Jakub Siwiec
o otrzymane wyniki
klasteryzacji zamieść w formie wypunktowania klastrów razem z
zawartymi w nich artykułami – pamiętaj o poprawnym ustawieniu klastrów – opcja GRAPH
VIEW w wynikach (kolejność ma znaczenie)
o
następnie wypunktuj wynik klasteryzacji wraz z odpowiadającymi im tytułami
poszczególnych artykułów – do poznania poszczególnych klastrów skorzystaj z „graph
view
”, klikając na konkretny klaster po prawej stronie otrzymujemy skład danego klastra z
liczbami porządkowymi np. 1, 13, 23 – w przypadku jeśli artykuły były pomumerowane od 01
d
o 30, identyfikacja jest prosta nr 1 oznacza artykuł 01.txt itd.
Przykład tej części raportu:
Klaster 5
1. Analysis of agrifoodstuffs product prices on the case of hypermarket data
2. Xml and relational data mapping in business plan application
3. The implementation of neural networks in the management of investments on the warszawska giełda
towarowa (wgt)
Klaster 0
1. Linking knowledge with action spatial data bases in operationalizing sustainable development in arid and
semi arid regions
2. Local government administration offices in the light of information technology - survey report
3. Development of computerization on the rural areas of poland
4. The information flow modelling in social networks in the electronic environment
Itd.
…
tak sporządzony dokument wyślij na adres prowadzącego (
lub
w temacie wiadomości wpisując: IMIĘ i NAZWISKO – Dzień i godz. Zajęć
(np. Śr. 13:00)
usuń pliki z pulpitu
opróżnij kosz,
wyłącz komputer.