mgr inż. Jakub Siwiec (j.siwiec@utp.edu.pl)
mgr inż. Cezary Graul (cezary.graul@utp.edu.pl)
Katedra Informatyki w ZarzÄ…dzaniu
Wydział Zarządzania
PODSTAWY ZARZDZANIA WIEDZ
Ćwiczenia praktyczne nr 4 Programowanie procesu klasteryzacji
Zadanie:
Na podstawie zdobytej na poprzednich zajęciach bazy tekstów anglojęzycznych (30 artykułów, w 30
plikach tekstowych *.txt, w języku angielskim, o minimalnej długości 1800 znaków bez spacji) oraz
zastosowaniu programu RapidMiner, zaprogramuj kolejny proces jakim jest klasteryzacja .
Åšrodowisko pracy:
·ð stwórz nowy folder na pulpicie o nazwie Imie_nazwisko,
·ð przekopiuj wszystkie 30 plików tekstowych do nowoutworzonego folderu,
·ð otwórz program RapidMiner (Start Ä…ð Programy Ä…ð RapidMiner),
·ð stwórz nowy proces - new process i zapisz go jako klasteryzacja_imiÄ™_i_nazwisko, bez
polskich znaków.
1.Pierwsza kostka:
UWAGA pamiętaj o wiązaniach między procesami
·ð skorzystaj z lewego drzewka procesów rozwiÅ„ Text Processing ,
·ð
·ð przeciÄ…gnij proces Process Documents from Files na pulpit ekranu projektowego, pamiÄ™taj o
połączeniu wszystkich wiązań związanych z ładowaniem danych (wejściem input) oraz wynikami
o klikając na każdej kostce jednokrotnie masz możliwość sformułować założeń,
o w opcji text directories Ä…ð edit list wpisz nazwÄ™ klasy (np. swoje imiÄ™), wskaż folder
zawierający Twoje 30 plików tekstowych (.txt), kliknij apply ,
o zaznacz opcje:
żð extract text only
żð use file extension as type
żð encoding UTF-8
żð vector creation TF-IDF
żð add meta information
żð prune method none
żð datamanagement double_sparse_array
1
Autor: mgr inż. Jakub Siwiec
2.Kolejne kostki podprocesy w 1 kostce::
UWAGA śledz zmiany w wynikach po każdym dodatkowym procesie aby uniknąć pomyłki!!!
·ð otwórz dodany przez siebie proces Process Documents from Files (podwójne klikniÄ™cie)
·ð doÅ‚Ä…cz proces tokenizacji, doprowadz go do punktu wynikowego
o mode non letters
·ð doÅ‚Ä…cz proces tranform cases
o opcjonalnie lower case (małe litery) lub upper case (wielkie litery)
·ð doÅ‚Ä…cz proces filter stopwords (English)
·ð doÅ‚Ä…cz process generate n-Grams (Terms)
o max length - 2
·ð doÅ‚Ä…cz process filter tokens (by length)
o min chars 3
o max chars 50
3.Kostka klasteryzacji:
·ð powróć do nadrzÄ™dnego ekranu projektowego - tak aby widoczna byÅ‚a tylko pierwsza, główna
kostka PROCESS DOCUMENTS FROM FILES.
·ð Dodaj kolejnÄ… kostkÄ™ CLUSTERING (k-means) (zbiór procesów MODELING)
o zaznacz opcje add cluster atribute
o zdefiniuj wartość k=10
o zdefiniuj wartość max runs=10
o measure types = BregmanDivergences
o divergence = SquaredEuclideanDistance
o max optimalization step = 100
4.Krok końcowy:
·ð zapoznaj siÄ™ z otrzymanymi wynikami czyli wykazem wyrazów (WordList) oraz wynikiem
klasteryzacji,
·ð stwórz raport z niniejszego ćwiczenia w dokumencie typu WORD, raport powinien zawierać
następujące informacje:
o imiÄ™ i nazwisko
o zrzut ekranu wyników WordList przefiltrowanych od najczęściej występujących słów oraz
kolejny od najmniejszej liczby wystąpień (razem 2 zrzuty ekranu)
2
Autor: mgr inż. Jakub Siwiec
o otrzymane wyniki klasteryzacji zamieść w formie wypunktowania klastrów razem z
zawartymi w nich artykułami pamiętaj o poprawnym ustawieniu klastrów opcja GRAPH
VIEW w wynikach (kolejność ma znaczenie)
o następnie wypunktuj wynik klasteryzacji wraz z odpowiadającymi im tytułami
poszczególnych artykułów do poznania poszczególnych klastrów skorzystaj z graph
view , klikając na konkretny klaster po prawej stronie otrzymujemy skład danego klastra z
liczbami porządkowymi np. 1, 13, 23 w przypadku jeśli artykuły były pomumerowane od 01
do 30, identyfikacja jest prosta nr 1 oznacza artykuł 01.txt itd.
Przykład tej części raportu:
Klaster 5
1. Analysis of agrifoodstuffs product prices on the case of hypermarket data
2. Xml and relational data mapping in business plan application
3. The implementation of neural networks in the management of investments on the warszawska giełda
towarowa (wgt)
Klaster 0
1. Linking knowledge with action spatial data bases in operationalizing sustainable development in arid and
semi arid regions
2. Local government administration offices in the light of information technology - survey report
3. Development of computerization on the rural areas of poland
4. The information flow modelling in social networks in the electronic environment
Itd.
&
·ð tak sporzÄ…dzony dokument wyÅ›lij na adres prowadzÄ…cego (j.siwiec@utp.edu.pl lub
cezary.graul@utp.edu.pl) w temacie wiadomości wpisując: IMI i NAZWISKO Dzień i godz. Zajęć
(np. Åšr. 13:00)
·ð usuÅ„ pliki z pulpitu
·ð opróżnij kosz,
·ð wyÅ‚Ä…cz komputer.
3
Autor: mgr inż. Jakub Siwiec
Wyszukiwarka
Podobne podstrony:
cw 3 programowanie procesowprogramator procesorów AVR 1programator procesorów AVR 2avt 2502 Programator procesorów 89CX051 INNYProgramator procesorów 51 firmy Atmel README2Programator procesorów 51 firmy Atmel READMEavt 871 Programator procesorów AVR przez BASCOMBACSOM College, czyli Szkoła Programowania Procesorów, cz 1Adaptery do programowania procesorów ST62T?0 i ST62T?5CUDA w przykladach Wprowadzenie do ogolnego programowania procesorow GPU cudawpProgramator procesorów 51 firmy Atmel PPARTSProgramator procesorów 51 firmy Atmel PARTS DZarzadzanie procesami Programwięcej podobnych podstron