1. Pojęcia
Tekstem w niniejszej pracy nazywam dowolny skończony, zazwyczaj stosunkowo długi, ciąg znaków, mający pewne znaczenie w języku naturalnym i stanowiący pewną całość. Tekstami są na przykład artykuły, książki, strony internetowe, treści umów itd.
Segmentem w niniejszej pracy nazywam pewien wydzielony na podstawie pewnego kryterium fragment tekstu. Mówiąc o segmencie najczęściej mam na myśli zdanie, jednak może to też być akapit, rozdział, czy część zdania albo słowo.
Segmentacją w niniejszej pracy określam proces dzielenia tekstu na segmenty, podczas którego nie są pomijane żadne znaki. Wynikiem tego procesu jest lista segmentów. Zatem jeśli T jest tekstem, a ,tn listą segmentów powstałą w procesie segmentacji tego tekstu, to
T = t1+t2+ ■■■ + tn, gdzie operator + oznacza konkatenację napisów.
Problemy segmentacji tekstu zależą od przyjętego poziomu szczegółowości segmentacji. Na przykład podział tekstu na paragrafy jest stosunkowo prosty do przeprowadzenia, wystarczy bowiem dzielić tekst po znaku końca wiersza1. Podział na wyrazy jest już zadaniem trudniejszym. Jednak w przypadku niniejszej pracy najczęściej stosowanym poziomem szczegółowości segmentacji jest zdanie.
Zadanie podziału tekstu na zdania z początku może wydawać się trywialne - wystarczy dzielić tekst po kropce, znaku zapytania lub wykrzykniku. Niestety, istnieje tak duża liczba innych zastosowań znaku kropki - na przykład w skrótach, liczbach, datach itd., że zachodzi potrzeba zastosowania bardziej wyrafinowanej metody.
10
Albo pr/cd znakiem końca wiersza, zależnie od przyjętej konwencji.