cw 3 programowanie procesow


mgr inż. Jakub Siwiec (j.siwiec@utp.edu.pl)
mgr inż. Cezary Graul (cezary.graul@utp.edu.pl)
Katedra Informatyki w ZarzÄ…dzaniu
Wydział Zarządzania
PODSTAWY ZARZDZANIA WIEDZ
Ćwiczenia praktyczne nr 3  Programowanie procesów text-mining owych
Zadanie:
Na podstawie zdobytej na poprzednich zajęciach bazy tekstów anglojęzycznych (30 artykułów, w 30
plikach tekstowych *.txt, w języku angielskim, o minimalnej długości 1800z znaków bez spacji) oraz
zastosowaniu programu RapidMiner, zaprogramuj swój pierwszy proces text-mining owy.
Åšrodowisko pracy:
·ð stwórz  nowy folder na pulpicie o nazwie Imie_nazwisko,
·ð przekopiuj wszystkie 30 plików tekstowych do nowoutworzonego folderu,
·ð otwórz program RapidMiner (Start Ä…ð Programy Ä…ð RapidMiner) w razie potrzeby Å›ciÄ…gnij i zainstaluj
(Strona WZ  materiały dla studenta),
·ð stwórz nowy proces -  new process i zapisz go jako 30_imiÄ™_i_nazwisko, bez polskich znaków.
Pierwsza kostka:
UWAGA  pamiętaj o wiązaniach między procesami
·ð skorzystaj z lewego drzewka procesów  rozwiÅ„  Text Processing ,
·ð przeciÄ…gnij proces  Process Documents from Files na pulpit ekranu projektowego, pamiÄ™taj o
połączeniu wszystkich wiązań związanych z ładowaniem danych (wejściem  input) oraz wynikami
o klikając na każdej kostce jednokrotnie masz możliwość sformułować założeń,
o w opcji text directories Ä…ð edit list wskaz folder zawierajÄ…cy Twoje 30 plików tekstowych
(.txt),
o zaznacz opcje:
żð extract text only
żð use file extension as type
żð encoding  UTF-8
żð vector creation  TF-IDF
żð add meta information
żð prune method  none
żð datamanagement  double_sparse_array
1
Autor: mgr inż. Jakub Siwiec
Kolejne kostki:
UWAGA  śledz zmiany w wynikach po każdym dodatkowym procesie!!!
·ð otwórz dodany przez siebie proces  Process Documents from Files  (podwójne klikniÄ™cie)
·ð doÅ‚Ä…cz proces tokenizacji, doprowadz go do punktu wynikowego
o mode  non letters
·ð doÅ‚Ä…cz proces tranform cases
o opcjonalnie  lower case (małe litery) lub upper case (wielkie litery)
·ð doÅ‚Ä…cz proces filter stopwords (English)
·ð doÅ‚Ä…cz process generate n-Grams (Terms)
o max length - 2
·ð doÅ‚Ä…cz process filter tokens (by length)
o min chars  4
o max chars - 50
Krok końcowy:
·ð zapoznaj siÄ™ z otrzymanymi wynikami  czyli wykazem wyrazów wraz z ich iloÅ›ciami wystÄ…pieÅ„
(total occurences)
·ð otrzymane wyniki (WordList) przefiltruj pod wzglÄ™dem najczęściej wystÄ™pujÄ…cych - od najczęściej do
najrzadziej występujących
·ð wykonaj 2 zrzuty ekranu (Print Screen)
o filtr najczęściej występujących wyrazów
o filtr najrzadziej występujących wyrazów
·ð zrzuty ekranu wklej do dokumentu WORD i przeÅ›lij na adres prowadzÄ…cego (j.siwiec@utp.edu.pl lub
cezary.graul@utp.edu.pl)
·ð usuÅ„ pliki z pulpitu
·ð opróżnij kosz,
·ð wyÅ‚Ä…cz komputer.
2
Autor: mgr inż. Jakub Siwiec


Wyszukiwarka

Podobne podstrony:
cw 4 programowanie procesu klasteryzacji
programator procesorów AVR 1
programator procesorów AVR 2
avt 2502 Programator procesorów 89CX051 INNY
Programator procesorów 51 firmy Atmel README2
Programator procesorów 51 firmy Atmel README
avt 871 Programator procesorów AVR przez BASCOM
BACSOM College, czyli Szkoła Programowania Procesorów, cz 1
Adaptery do programowania procesorów ST62T?0 i ST62T?5
CUDA w przykladach Wprowadzenie do ogolnego programowania procesorow GPU cudawp
Programator procesorów 51 firmy Atmel PPARTS
Programator procesorów 51 firmy Atmel PARTS D
Zarzadzanie procesami Program

więcej podobnych podstron