Plan prezentacji:
Przedstawienie SAS Text Miner'a: czym jest i jakie są jego fukncje.
Przygotowanie i wstępna obróbka plików: źródła tekstowe, makro %tmfilter
Słowa kluczowe:
Text mining - wydobywanie, eksploatacja, analiza i obróbka danych tekstowych
NLP- natural lanuage processing
knowledge exraction - wydobywanie wiedzy
pattern searching - wyszukiwanie wzorów, wzorców, modeli
collection -ziór, zestaw
Text Miner node
strony: 1294, 1295, 1296
ad.1.
SAS Text Miner dostarcza narzędzi do odkrywania i wydobywania informacji z szerokiej gamy dokumentów tekstowych zebranych w zestawy poprzez możliwość odnalezienia i dotarcia do każdego tematu czy konceptu jaki zawarty jest w danym zestawie. Poza tym SAS Text Miner umożliwia kombinację zmiennych liczbowych z nieustrukturyzowanymi danymi tekstowymi w procesie text mining dzięki działaniu w ramach środowiska przepływu procesów Enterprise Miner, co pozwala użytkownikowi na połączenie możliwości text mining ze wszystkimi możliwościami data minig zawartmi w Enterprise Miner.
W odróżnieniu od (natural language processing NLP) i wydobywania wiedzy (knowledge extraction), text mining obejmuje wyszukiwanie wzrorów (pattern searching) w poprzek całego zestawu dokumentów, a nie jedynie w obrębie pojedynczych dokumentów. Proces text mining wymaga tego, żeby wszystkie dokumenty (lub ich duża część) były przeglądane i poddawana temu procesowi naraz. Z drugiej strony, NLP i wydobywanie wiedzy koncentrują się na zawartości pojedynczych dokumentów. Mimo tego, że cele precesu text minig są różne od celów samych NLP i wydobywania wiedzy, te ostatnie procesy mogą stanowić ważny etap całego pocesu text mining. Z kolei, rezultaty procesu text mining mogą wspomóc procesy NLP i wydobywania wiedzy.
Organizacje w swojej codziennej działalności generują tysiące dokumetów zawierających dane tekstowe. Niestety dokumenty tekstowe, które ludzie bez problemu potrafią zrozumieć nie są tak łatwe do interpretacji w procesie text mining. Surowy dokument musi zatem zostać poddany wstępnemu procesowi obróbki (preprocessed) zanim będzie mógł zostać poddany procesowi wydobywania, analizy i obróbki dokonyanej przez komputer w poszukiwaniu wzorów/wzorców/modeli i związków. Pomimo faktu, że umysł ludzki rozumie podziały na rozdziały, akapity i zdania, komputer wymaga tej samej informacji podanej w postaci danych skwantyfikowanych. Poprzez proces text mining, dokumenty zostają pogrupowane i sklasyfikowane w z góry okreśłone kategorie (predefined categories). Ujmując rzecz bardziej ogólnie, modele prognozujące mogą być skonstruowane w celu prognozowania wyniku zmiennej opartym na danych tekstowch i związanych z nimi zmiennych ustrukturyzowanych. Poniżej przedstawiono niektóre przykłady zadań, jakie potrafi wykonać proces text mining:
filtrowanie e-maili
grupowanie dokumentów według tematu w z góry określone kategorie
routing news items
analiza klastrów w dokumentach badawczych z bazy danych (clustering analysis of research papers in a database)
analiza klastrów danych ankietowych (clustering analisysis of survey data)
analiza klastrów w skargach, komentrzach i zażaleniach klientów
prognozowanie cen akcji na podstawie wiadomości, ogłoszeń biznesowych
prognozowanie satysfakcji klientów na podstawie komentarzy klientów
przewidywanie kosztów na podstawie call center logs
SAS Text Miner prowadzi analizę nieustrukturyzowanych dokumentów w wielu językach, takich jak angielski, duński, holenderski, fiński, francuski, niemiecki, włosko, portugalski, hiszpański i szwedzki. SAS Text Miner dysponuje także wcześniej napisanym makrem %tmfilter, które wydobywa tekst z plików o różnym formacie lub poprzez przeszukiwanie sieci internetowej, a nastepnie tworzy SASowy zbiór dancych, który zawiera fragmenty tekstów oraz linki do ich pełnych wersji. The Text Miner node jest zaprojektowany do operowania na dużych zbiorach nieustrukturyzowanych danych tekstowych poprzez parsing the textual input data, tworzenie liczbowej reprezentacji zbioru dokumentów, i opcjonalnie grupowanie dokumentów. Rozszerzone możliwości text minig są następujące:
stemming
automatyczne rozpoznawanie terminów wielowyrazowych
standaryzacja wielu wyrażeń, takich jak data, waluta, procent i rok
part-of-speech tagging
wydobywanie takich wyrażen jak oganizacje, prdukty, numery ubezpieczń społecznych, godzina, tytuły i inne
wsparcie dla synonimów
Preces text minning generalnie składa się z następujących kroków:
Działanie |
Rezultat |
File preprocessing Wstępna obróbka pliku |
Z zetawu wielu dokumentów tworzy pojedynczy SASowy zbiór danych, który nastepnie będzie używany jako input dla Text Miner node i może zawierać faktyczny tekst lub ścieżkę dostępu do faktycznego tekstu. Jest to funkcja opcjonalna, jeśli tekst nie jest jeszcze w SASowym zbiorze danych albo jest w zewnętrznej bazie danych. |
Text parsing |
Dekomponuje dane tekstowe i generuje liczbową reprezentację odpowiednią dla procesu text mining. |
Transformacja redukcja wymiarów |
Transformuje liczbową reprezentację do kompaktowego i informacyjnego formatu. |
Analiza dokumentu |
Polega na grupowaniu, klasyfikowaniu, prognozowaniu lub tworzeniu powiązań tematycznych w zestawie dokumentów. |
Jakiekolwiek grupowanie, klasyfikowanie i prognozowanie generuje wyniki i rozwiązania, które mogą zostać użyte w nowym zestawie dokumentów.
ad.2.
File preprocessing, czyli wstępna obróbka pliku:
Źródła tekstowe
Makro %tmfilter
Źródła tekstowe
SAS Text Miner operuje wieloma źródłami danych tekstowych: lokalne pliki tekstowe, pliki SASowe lub tabele w zewnętrznych bazach danych oraz pliki dostepne w sieci internetowej.
Lokalne pliki tekstowe
Można używać dokumentów w różnych formatach takich, jak Adobe PDF, ASCII, HTML i Microsoft Word. W celu dokonania analizy wszystkich dokumentów jako całości należy je przygotować i poddać wstępnej obróbce, co oznacza stworzenie pojedynczego SASowego zbioru danych, który będzie zawierał ścieżki dostępu do reprezentacji tych plików w HTML'u.
SAS Text Miner za pomocą makra %tmfilter umożliwia konwertowanie i filtrowanie plików z ich bieżącego kodu do HTML. (...)*tu jest to samo co jest już napisane wyżej
Formaty dokumentów, które obsługuje SAS Text Miner:
Adobe Portable Docment Format PDF, Applix Asterix, Applix Spread Sheet, ASCII text, Corel Presentations, Corel Quattro Pro for Windows, Document Content Architecture (DCA) - RTF, Framemaker Interchange Format (MIF), HTML, IBM DisplayWrite, Lotus 1-2-3, Lous AMI pro, LotusWord pro, Microsoft Excel, Microsoft PowerPoint, Microsoft Rich Text Format, Microsoft Word (także dla DOS i MAC), Microsoft Works, WordPerfect dla DOS'a , MAC i Windowsa, XYWrite.
Uwaga:
SAS Text Miner może wydobywać tekst z plików w formacie PDF, ale nie obraz tekstu z pliku PDF. Jeśli plik zawiera tekst zeskanowany trzeba go przekonwertować w dokument tekstowy za pomocą softwaru OCR (Optical Chracter Recognition).
Pliki SASowe i tabele w zwnętrznych bazach danych
....
Pliki w sieci internetowej
......
Niezależnie od typu źródła....
cdn