122122

122122



Pojęcia Text Mining

® Korzyści z drążenia tekstu są oczywiste, zwłaszcza w środowiskach bogatych tekstowo

>    Np. prawo (wyroki), badania naukowe (artykuły), finanse (raporty kwartalne), medycyna (wypisy szpitalne), biologia (interakcje molekularne), technika (pliki patentowe), marketing (komentarze klientów) itd.

<s> Zadania w komunikacji elektronicznej (np. Email)

>    Filtrowanie spamu

>    Priorytetyzacja i kategoryzacja emaili

>    Automatyczne generowanie odpowiedzi Zastosowania Text Mining

® Ekstrakcja informacji - identyfikacja kluczowych fraz w tekście za pomocą dopasowywania wzorców

<§> śledzenie tematów - w oparciu o profil użytkownika i oglądane przez niego dokumenty, przewidywanie innych dokumentów mogących go zainteresować

® Sumaryzacja - Podsumowywanie dokumentu aby oszczędzić czas użytkownika

® Kategoryzacja - identyfikacja głównych tematów dokumentu i w oparciu o nie przypisanie dokumentu do odpowiedniej kategorii

® Grupowanie - grupowanie podobnych dokumentów bez predefiniowanego zbioru kategorii

® Łączenie pojęć - łączenie powiązanych dokumentów poprzez identyfikację wspólnych pojęć

® Odpowiedzi na pytania - znajdowanie najlepszej odpowiedzi na pytanie za pomocą sterowanego wiedzą dopasowywania wzorców.

Terminologia Text Mining

® Dane nieustrukturyzowane lub pół-ustrukturyzowane

<s> Korpus - duży, ustrukturyzowany zbiór tekstów przygotowanych do odkrywania wiedzy

® Termy - pojedyncze słowa lub zdania wyekstrahowane bezpośrednio z korpusu za pomocą metod przetwarzania języka naturalnego (NLP)

® Pojęcia - wygenerowane ze zbioru dokumentów za pomocą metod manualnych, statystycznych, regułowych. Wyższy poziom abstrakcji niż termy.

® Stemming - proces redukcji słów do ich rdzenia (lematyzacja)

<s> Słowa „stop" (słowa szumy) - słowa filtrowane przed lub po przetwarzaniu tekstu, np. rodzajniki, słówka pomocnicze i inne nie mające wartości różnicującej



Wyszukiwarka

Podobne podstrony:
U Pojęcie języka poetyckiego i pojecie stylu styczna. Okazałoby się, że różne części tekstu są
( «6 ) ai. Korzyści. Korzyści tego sposobu tak są oczywiste ic żadnego wyłuszczcnia nic wymagaią.
13 świadomości ludzi (jako pojęcia) nie funkcjonują. Są, oczywiście, synonimiczne, homonimiczne,
skanuj0037 276 i język nowych mediów > operacje > modyfikacjom1. Różnice te są oczywiście dość
2.    korzystania z edytorów tekstu, programów graficznych, arkuszy kalkulacyjnych, b
(pojęcia pomocnicze (Piksek - punkt, którego parametrami są współrzędne ekranu (rysunku, wydruku;
Synteza mowy Synteza mowy - (ang. TTS - Text-To-Speech ) - zamiana tekstu w formie pisanej na sygnał
Czy możliwa jest redukcja stanów umysłu do stanów mózgu? Wzajemne wpływy materii na umysł są oczywis
78891 PB040668 136 Higiena I dobrostan zwierząt gospodarskich Przedstawione formy zachowania się są.

więcej podobnych podstron