W niniejszej pracy zajmuję się problemem urównoleglania tekstów dwujęzycznych' na poziomie zdania. Rozwiązanie tego problemu polega na dopasowaniu do siebie odpowiadających sobie zdań w tekstach będących wzajemnymi tłumaczeniami. Dzięki opracowaniu algorytmów dokonujących tego zadania automatycznie możliwe stało się pozyskanie dużych urównoleglonych korpusów tekstów które znajdują zastosowanie w wielu aspektach związanych z lingwistyką komputerową, szczególnie zaś w tłumaczeniu automatycznym (ang. Machinę Translation) i tłumaczeniu wspomaganym komputerowo (ang. Computer Aided Translation).
Ponadto szerzej omawiam w niniejszej pracy także problem podziału tekstu na zdania, który jest jednym z istotnych elementów urównoleglania.
W pracy rysuje się pewien, co prawda nieostry, podział na część teoretyczną, którą tworzą pierwszy i drugi rozdział oraz część praktyczną - rozdziały trzeci i czwarty.
W pierwszym rozdziale zdefiniowane są podstawowe pojęcia związane z urównoleglaniem i segmentacją tekstów dwujęzycznych. Ponadto, krótko omówione są zastosowania opisywanych algorytmów.
W drugim rozdziale przedstawione są od strony teoretycznej dwa algorytmy urównoleglania tekstów dwujęzycznych: algorytm Gale'a i Churcha oraz algorytm Moore'a. Omówione jest ich podłoże matematyczne, sposób działania wraz z pseudokodem oraz pokrótce analiza złożoności obliczeniowej i skuteczność działania. Wybór omawianych algorytmów nie jest przypadkowy -algorytm Gale'a i Churcha jest szeroko rozpowszechnionym algorytmem bazującym wyłącznie na długościach segmentów. Zrozumienie mechaniki jego działania ułatwia znacznie zrozumienie bardziej złożonego algorytmu Moore'a, który w pierwszej fazie swego działania wykorzystuje algorytm podobny do algorytmu Gale'a i Churcha. Algorytm Moore'a jest jednym z najlepszych znanych obecnie algorytmów urównoleglania.
W trzecim rozdziale opisany jest program do segmentacji tekstu split. Program realizuje dwa stworzone przeze mnie algorytmy podziału tekstu, dla których dokonana jest w tym rozdziale analiza złożoności obliczeniowej. Omówiona jest również architektura programu oraz jego interfejs programistyczny.
Czwarty rozdział dotyczy programu do urównoleglania tekstów dwujęzycznych align, czyli
1 Po angielsku nazwa problemu brzmi bilingual text alignment. W języku polskim nie istnieje jednoznacznie zdefiniowany odpow iednik słowa alignment. Najczęściej stosow ane jest tłumaczenie dopasowywanie, ale moim zdaniem jest to określenie zbyt szerokie, dlatego stosuje określenie używ ane alternatywnie - urównoleglanie.