cw 4 programowanie procesu klasteryzacji


mgr inż. Jakub Siwiec (j.siwiec@utp.edu.pl)
mgr inż. Cezary Graul (cezary.graul@utp.edu.pl)
Katedra Informatyki w ZarzÄ…dzaniu
Wydział Zarządzania
PODSTAWY ZARZDZANIA WIEDZ
Ćwiczenia praktyczne nr 4  Programowanie procesu klasteryzacji
Zadanie:
Na podstawie zdobytej na poprzednich zajęciach bazy tekstów anglojęzycznych (30 artykułów, w 30
plikach tekstowych *.txt, w języku angielskim, o minimalnej długości 1800 znaków bez spacji) oraz
zastosowaniu programu RapidMiner, zaprogramuj kolejny proces jakim jest  klasteryzacja .
Åšrodowisko pracy:
·ð stwórz  nowy folder na pulpicie o nazwie Imie_nazwisko,
·ð przekopiuj wszystkie 30 plików tekstowych do nowoutworzonego folderu,
·ð otwórz program RapidMiner (Start Ä…ð Programy Ä…ð RapidMiner),
·ð stwórz nowy proces -  new process i zapisz go jako klasteryzacja_imiÄ™_i_nazwisko, bez
polskich znaków.
1.Pierwsza kostka:
UWAGA  pamiętaj o wiązaniach między procesami
·ð skorzystaj z lewego drzewka procesów  rozwiÅ„  Text Processing ,
·ð
·ð przeciÄ…gnij proces  Process Documents from Files na pulpit ekranu projektowego, pamiÄ™taj o
połączeniu wszystkich wiązań związanych z ładowaniem danych (wejściem  input) oraz wynikami
o klikając na każdej kostce jednokrotnie masz możliwość sformułować założeń,
o w opcji text directories Ä…ð edit list wpisz nazwÄ™ klasy (np. swoje imiÄ™), wskaż folder
zawierający Twoje 30 plików tekstowych (.txt), kliknij  apply ,
o zaznacz opcje:
żð extract text only
żð use file extension as type
żð encoding  UTF-8
żð vector creation  TF-IDF
żð add meta information
żð prune method  none
żð datamanagement  double_sparse_array
1
Autor: mgr inż. Jakub Siwiec
2.Kolejne kostki  podprocesy w 1 kostce::
UWAGA  śledz zmiany w wynikach po każdym dodatkowym procesie aby uniknąć pomyłki!!!
·ð otwórz dodany przez siebie proces  Process Documents from Files  (podwójne klikniÄ™cie)
·ð doÅ‚Ä…cz proces tokenizacji, doprowadz go do punktu wynikowego
o mode  non letters
·ð doÅ‚Ä…cz proces tranform cases
o opcjonalnie  lower case (małe litery) lub upper case (wielkie litery)
·ð doÅ‚Ä…cz proces filter stopwords (English)
·ð doÅ‚Ä…cz process generate n-Grams (Terms)
o max length - 2
·ð doÅ‚Ä…cz process filter tokens (by length)
o min chars  3
o max chars  50
3.Kostka klasteryzacji:
·ð powróć do nadrzÄ™dnego ekranu projektowego - tak aby widoczna byÅ‚a tylko pierwsza, główna
kostka  PROCESS DOCUMENTS FROM FILES.
·ð Dodaj kolejnÄ… kostkÄ™ CLUSTERING (k-means) (zbiór procesów  MODELING)
o zaznacz opcje  add cluster atribute
o zdefiniuj wartość k=10
o zdefiniuj wartość max runs=10
o measure types = BregmanDivergences
o divergence = SquaredEuclideanDistance
o max optimalization step = 100
4.Krok końcowy:
·ð zapoznaj siÄ™ z otrzymanymi wynikami  czyli wykazem wyrazów (WordList) oraz wynikiem
klasteryzacji,
·ð stwórz raport z niniejszego ćwiczenia w dokumencie typu WORD, raport powinien zawierać
następujące informacje:
o imiÄ™ i nazwisko
o zrzut ekranu wyników WordList przefiltrowanych od najczęściej występujących słów oraz
kolejny od najmniejszej liczby wystąpień (razem 2 zrzuty ekranu)
2
Autor: mgr inż. Jakub Siwiec
o otrzymane wyniki klasteryzacji zamieść w formie wypunktowania klastrów razem z
zawartymi w nich artykułami  pamiętaj o poprawnym ustawieniu klastrów  opcja GRAPH
VIEW w wynikach (kolejność ma znaczenie)
o następnie wypunktuj wynik klasteryzacji wraz z odpowiadającymi im tytułami
poszczególnych artykułów  do poznania poszczególnych klastrów skorzystaj z  graph
view , klikając na konkretny klaster po prawej stronie otrzymujemy skład danego klastra z
liczbami porządkowymi np. 1, 13, 23  w przypadku jeśli artykuły były pomumerowane od 01
do 30, identyfikacja jest prosta nr 1 oznacza artykuł 01.txt itd.
Przykład tej części raportu:
Klaster 5
1. Analysis of agrifoodstuffs product prices on the case of hypermarket data
2. Xml and relational data mapping in business plan application
3. The implementation of neural networks in the management of investments on the warszawska giełda
towarowa (wgt)
Klaster 0
1. Linking knowledge with action spatial data bases in operationalizing sustainable development in arid and
semi arid regions
2. Local government administration offices in the light of information technology - survey report
3. Development of computerization on the rural areas of poland
4. The information flow modelling in social networks in the electronic environment
Itd.
&
·ð tak sporzÄ…dzony dokument wyÅ›lij na adres prowadzÄ…cego (j.siwiec@utp.edu.pl lub
cezary.graul@utp.edu.pl) w temacie wiadomości wpisując: IMI i NAZWISKO  Dzień i godz. Zajęć
(np. Åšr. 13:00)
·ð usuÅ„ pliki z pulpitu
·ð opróżnij kosz,
·ð wyÅ‚Ä…cz komputer.
3
Autor: mgr inż. Jakub Siwiec


Wyszukiwarka

Podobne podstrony:
cw 3 programowanie procesow
programator procesorów AVR 1
programator procesorów AVR 2
avt 2502 Programator procesorów 89CX051 INNY
Programator procesorów 51 firmy Atmel README2
Programator procesorów 51 firmy Atmel README
avt 871 Programator procesorów AVR przez BASCOM
BACSOM College, czyli Szkoła Programowania Procesorów, cz 1
Adaptery do programowania procesorów ST62T?0 i ST62T?5
CUDA w przykladach Wprowadzenie do ogolnego programowania procesorow GPU cudawp
Programator procesorów 51 firmy Atmel PPARTS
Programator procesorów 51 firmy Atmel PARTS D
Zarzadzanie procesami Program

więcej podobnych podstron