Segmentacja tekstu ma bardzo wiele zastosowań. Każde automatyczne przetwarzanie tekstu wymaga najczęściej jego podziału na mniejsze jednostki. Powodem umieszczenia w niniejszej pracy fragmentu o segmentacji tekstu jest jej zastosowanie przy urównoleglaniu tekstów dwujęzycznych. Segmentacja stanowi pierwszy krok urównoleglania. W zależności od poziomu szczegółowości urównoleglania dokonuje się odpowiedniej segmentacji tekstów wejściowych. Najczęściej stosowany jest podział na zdania. Przydatny jest także podział tekstu na wyrazy jako pomocniczy w niektórych algorytmach urównoleglania. W celu zwiększenia wydajności urównoleglania stosuje się niekiedy także podział na akapity.
Dobrze przeprowadzona segmentacja podnosi jakość urównoleglania. Segmenty są atomowymi jednostkami dla algorytmów urównoleglania. Jeśli segmentacja jest zbyt mało dokładna - powstaje zbyt mało segmentów, bo cześć z nich jest w rzeczywistości konkatenacją kilku segmentów, w efekcie czego wynik urównoleglania jest niedostatecznie dokładny. Jeśli segmentacja jest zbyt szczegółowa - powstaje zbyt dużo segmentów, ponieważ część z nich będzie w rzeczywistości fragmentami segmentów, a zadanie urównoleglenia staje się trudniejsze ze względu na zbyt dużą liczbę stopni swobody. W niektórych przypadkach ze względu na ograniczenia algorytmów poprawne urównoleglenie może być w ogóle niemożliwe. Niekiedy jednak algorytm urównoleglania potrafi poradzić sobie z błędami segmentacji.
W niniejszej pracy używam określeń „tekst źródłowy” oraz „tekst docelowy”. Można się domyślać, że oznaczają one odpowiednio tekst i jego tłumaczenie, jednak jest to czysto umowne -chodzi po prostu o pierwszy tekst i drugi tekst które mają zostać poddane urównolegleniu, niezależnie od tego, który jest tłumaczeniem którego, albo czy w ogóle są bezpośrednio wzajemnymi tłumaczeniami. Tekst źródłowy oznaczam przez S , a tekst docelowy przez T.
Analogicznie jak w przypadku tekstów źródłowego i docelowego, segmentem źródłowym nazywam segment pochodzący z tekstu źródłowego, a segmentem docelowym segment pochodzący z tekstu docelowego. Segmenty źródłowe oznaczam literą s , a segmenty docelowe literą t.
II