1.2.1.7. Definicja korpusu równoległego
Korpus równoległy to zbiór tekstów wybranych na podstawie określonych kryteriów, z których każdy został przetłumaczony na jeden lub więcej języków.
Teksty można urównoleglać na różnych poziomach szczegółowości, w zależności od zastosowań tworzonego korpusu równoległego. Do uzyskania określonego poziomu szczegółowości stosuje się też różne metody urównoleglania.
Omówione w tej pracy algorytmy zostały stworzone z myślą o urównoleglaniu tekstów dwujęzycznych na poziomie zdania. Mogą być także z powodzeniem stosowane do urównoleglania na poziomach bardziej ogólnych, takich jak akapity czy rozdziały, ale nie nadają się do urównoleglania na poziomach bardziej szczegółowych takich jak frazy czy słowa. Wynika to z faktu że w przedstawionych w tej pracy algorytmach dopasowane są do siebie kolejne segmenty, a nie jest obsługiwany przypadek zamiany ich kolejności. Jednak odpowiadające sobie słowa bardzo często występują w innej kolejności w zdaniu źródłowym i jego tłumaczeniu - po prostu zdania w różnych językach mają różny szyk. Jedyne, co w takim wypadku któryś z przedstawionych w niniejszej pracy algorytmów potrafi zrobić, to dopasować kilka segmentów źródłowych do kilku segmentów docelowych, ale w przypadku urównoleglania na poziomie słów jest to niezadowalające.
Wydawać by się mogło że problem urównoleglania jest łatwy. W końcu najczęściej1 tłumaczy się jedno zdanie tekstu źródłowego na jedno zdanie tekstu docelowego - wystarczy zatem zastosować trywialny algorytm dopasowujący jeden do jednego. Niestety taki algorytm nie sprawdzi się, jeśli wystąpi choć jedno dopasowanie należące do innej kategorii - wtedy bowiem wszystkie dopasowania występujące po nim będą nieprawidłowe2.
Występowanie innych dopasowań niż jeden do jednego jest spowodowane wieloma czynnikami takimi jak: swobodne tłumaczenie wynikające ze specyfiki danego języka, pominięcie segmentu wskutek pomyłki tłumacza, błąd segmentacji, różnica w tekstach źródłowym i docelowym3 itd. Konieczne jest zatem używanie algorytmów które radzą sobie w przypadku
13
Jak podają źródła, w około 90% przypadków występuje urów nolcglenic jeden do jednego.
W przybliżeniu szansa poprawnego urównoleglenia całych dokumentów prz>' zastosowaniu powyższego trywialnego algory tmu jest równa pn .gdzie p oznacza prawdopodobieństwo wystąpienia dopasowania (1 — 1)
. a n oznacza liczbę segmentów w obu tekstach.
Na przy kład tekst źródłowy mógł zostać zaktualizowany po przetłumaczeniu, a więc tekst docelowy stal się nieaktualny.