text mining, SAS


Plan prezentacji:

  1. Przedstawienie SAS Text Miner'a: czym jest i jakie są jego fukncje.

  2. Przygotowanie i wstępna obróbka plików: źródła tekstowe, makro %tmfilter

Słowa kluczowe:

strony: 1294, 1295, 1296

ad.1.

SAS Text Miner dostarcza narzędzi do odkrywania i wydobywania informacji z szerokiej gamy dokumentów tekstowych zebranych w zestawy poprzez możliwość odnalezienia i dotarcia do każdego tematu czy konceptu jaki zawarty jest w danym zestawie. Poza tym SAS Text Miner umożliwia kombinację zmiennych liczbowych z nieustrukturyzowanymi danymi tekstowymi w procesie text mining dzięki działaniu w ramach środowiska przepływu procesów Enterprise Miner, co pozwala użytkownikowi na połączenie możliwości text mining ze wszystkimi możliwościami data minig zawartmi w Enterprise Miner.

W odróżnieniu od (natural language processing NLP) i wydobywania wiedzy (knowledge extraction), text mining obejmuje wyszukiwanie wzrorów (pattern searching) w poprzek całego zestawu dokumentów, a nie jedynie w obrębie pojedynczych dokumentów. Proces text mining wymaga tego, żeby wszystkie dokumenty (lub ich duża część) były przeglądane i poddawana temu procesowi naraz. Z drugiej strony, NLP i wydobywanie wiedzy koncentrują się na zawartości pojedynczych dokumentów. Mimo tego, że cele precesu text minig są różne od celów samych NLP i wydobywania wiedzy, te ostatnie procesy mogą stanowić ważny etap całego pocesu text mining. Z kolei, rezultaty procesu text mining mogą wspomóc procesy NLP i wydobywania wiedzy.

Organizacje w swojej codziennej działalności generują tysiące dokumetów zawierających dane tekstowe. Niestety dokumenty tekstowe, które ludzie bez problemu potrafią zrozumieć nie są tak łatwe do interpretacji w procesie text mining. Surowy dokument musi zatem zostać poddany wstępnemu procesowi obróbki (preprocessed) zanim będzie mógł zostać poddany procesowi wydobywania, analizy i obróbki dokonyanej przez komputer w poszukiwaniu wzorów/wzorców/modeli i związków. Pomimo faktu, że umysł ludzki rozumie podziały na rozdziały, akapity i zdania, komputer wymaga tej samej informacji podanej w postaci danych skwantyfikowanych. Poprzez proces text mining, dokumenty zostają pogrupowane i sklasyfikowane w z góry okreśłone kategorie (predefined categories). Ujmując rzecz bardziej ogólnie, modele prognozujące mogą być skonstruowane w celu prognozowania wyniku zmiennej opartym na danych tekstowch i związanych z nimi zmiennych ustrukturyzowanych. Poniżej przedstawiono niektóre przykłady zadań, jakie potrafi wykonać proces text mining:

SAS Text Miner prowadzi analizę nieustrukturyzowanych dokumentów w wielu językach, takich jak angielski, duński, holenderski, fiński, francuski, niemiecki, włosko, portugalski, hiszpański i szwedzki. SAS Text Miner dysponuje także wcześniej napisanym makrem %tmfilter, które wydobywa tekst z plików o różnym formacie lub poprzez przeszukiwanie sieci internetowej, a nastepnie tworzy SASowy zbiór dancych, który zawiera fragmenty tekstów oraz linki do ich pełnych wersji. The Text Miner node jest zaprojektowany do operowania na dużych zbiorach nieustrukturyzowanych danych tekstowych poprzez parsing the textual input data, tworzenie liczbowej reprezentacji zbioru dokumentów, i opcjonalnie grupowanie dokumentów. Rozszerzone możliwości text minig są następujące:

Preces text minning generalnie składa się z następujących kroków:

Działanie

Rezultat

File preprocessing

Wstępna obróbka pliku

Z zetawu wielu dokumentów tworzy pojedynczy SASowy zbiór danych, który nastepnie będzie używany jako input dla Text Miner node i może zawierać faktyczny tekst lub ścieżkę dostępu do faktycznego tekstu.

Jest to funkcja opcjonalna, jeśli tekst nie jest jeszcze w SASowym zbiorze danych albo jest w zewnętrznej bazie danych.

Text parsing

Dekomponuje dane tekstowe i generuje liczbową reprezentację odpowiednią dla procesu text mining.

Transformacja

redukcja wymiarów

Transformuje liczbową reprezentację do kompaktowego i informacyjnego formatu.

Analiza dokumentu

Polega na grupowaniu, klasyfikowaniu, prognozowaniu lub tworzeniu powiązań tematycznych w zestawie dokumentów.

Jakiekolwiek grupowanie, klasyfikowanie i prognozowanie generuje wyniki i rozwiązania, które mogą zostać użyte w nowym zestawie dokumentów.

ad.2.

File preprocessing, czyli wstępna obróbka pliku:

Źródła tekstowe

SAS Text Miner operuje wieloma źródłami danych tekstowych: lokalne pliki tekstowe, pliki SASowe lub tabele w zewnętrznych bazach danych oraz pliki dostepne w sieci internetowej.

Lokalne pliki tekstowe

Można używać dokumentów w różnych formatach takich, jak Adobe PDF, ASCII, HTML i Microsoft Word. W celu dokonania analizy wszystkich dokumentów jako całości należy je przygotować i poddać wstępnej obróbce, co oznacza stworzenie pojedynczego SASowego zbioru danych, który będzie zawierał ścieżki dostępu do reprezentacji tych plików w HTML'u.

SAS Text Miner za pomocą makra %tmfilter umożliwia konwertowanie i filtrowanie plików z ich bieżącego kodu do HTML. (...)*tu jest to samo co jest już napisane wyżej

Formaty dokumentów, które obsługuje SAS Text Miner:

Adobe Portable Docment Format PDF, Applix Asterix, Applix Spread Sheet, ASCII text, Corel Presentations, Corel Quattro Pro for Windows, Document Content Architecture (DCA) - RTF, Framemaker Interchange Format (MIF), HTML, IBM DisplayWrite, Lotus 1-2-3, Lous AMI pro, LotusWord pro, Microsoft Excel, Microsoft PowerPoint, Microsoft Rich Text Format, Microsoft Word (także dla DOS i MAC), Microsoft Works, WordPerfect dla DOS'a , MAC i Windowsa, XYWrite.

Uwaga:

SAS Text Miner może wydobywać tekst z plików w formacie PDF, ale nie obraz tekstu z pliku PDF. Jeśli plik zawiera tekst zeskanowany trzeba go przekonwertować w dokument tekstowy za pomocą softwaru OCR (Optical Chracter Recognition).

Pliki SASowe i tabele w zwnętrznych bazach danych

....

Pliki w sieci internetowej

......

Niezależnie od typu źródła....

cdn



Wyszukiwarka

Podobne podstrony:
Text mining
Text mining
(Sas Code) Data Mining Cookbook (Wiley)
(Sas Code) Data Mining Cookbook (Wiley)
Wykad 3, Dokumenty STUDIA SKANY TEXT TESTY, ADMINISTRACJA UNIWEREK WROCŁAW MAGISTER, POŚ - PRAWO OCH
Metafizyka, wykłady i tym podobne, skrypty, itp, text
SYSTEM OCHRON PRAWNEJ Wykla 17[1].10.2009, Dokumenty STUDIA SKANY TEXT TESTY, ADMINISTRACJA UNIWEREK
Referat wypis z ewidencji text
protesters TEXT
ZOZNAM RASTLÍN PRAKTICKÁ ČASŤ SKÚŠKY Z BOTANIKY II
09 pfsc sas gido3vwa6mgy2a3eiib Nieznany (2)
text, informa, metody numeryczne
Capturing Text Output from Hyperterminal
Dodatkowe Wytyczne projektu, Data mining - Grzenda
Test z ZZL-2 calosc-2, Dokumenty STUDIA SKANY TEXT TESTY, ADMINISTRACJA UNIWEREK WROCŁAW MAGISTER, Z
Pitagoras text, Politechnika Wrocławska (eit), Technologia informacyjna
SOP UE-II 19[1].12.2009, Dokumenty STUDIA SKANY TEXT TESTY, ADMINISTRACJA UNIWEREK WROCŁAW MAGISTER,

więcej podobnych podstron