3784499243

3784499243



1.2.1.7. Definicja korpusu równoległego

Korpus równoległy to zbiór tekstów wybranych na podstawie określonych kryteriów, z których każdy został przetłumaczony na jeden lub więcej języków.

1.2.2.    Poziomy szczegółowości urównoleglania tekstów dwujęzycznych

Teksty można urównoleglać na różnych poziomach szczegółowości, w zależności od zastosowań tworzonego korpusu równoległego. Do uzyskania określonego poziomu szczegółowości stosuje się też różne metody urównoleglania.

Omówione w tej pracy algorytmy zostały stworzone z myślą o urównoleglaniu tekstów dwujęzycznych na poziomie zdania. Mogą być także z powodzeniem stosowane do urównoleglania na poziomach bardziej ogólnych, takich jak akapity czy rozdziały, ale nie nadają się do urównoleglania na poziomach bardziej szczegółowych takich jak frazy czy słowa. Wynika to z faktu że w przedstawionych w tej pracy algorytmach dopasowane są do siebie kolejne segmenty, a nie jest obsługiwany przypadek zamiany ich kolejności. Jednak odpowiadające sobie słowa bardzo często występują w innej kolejności w zdaniu źródłowym i jego tłumaczeniu - po prostu zdania w różnych językach mają różny szyk. Jedyne, co w takim wypadku któryś z przedstawionych w niniejszej pracy algorytmów potrafi zrobić, to dopasować kilka segmentów źródłowych do kilku segmentów docelowych, ale w przypadku urównoleglania na poziomie słów jest to niezadowalające.

1.2.3.    Problemy przy urównoleglaniu tekstów dwujęzycznych

Wydawać by się mogło że problem urównoleglania jest łatwy. W końcu najczęściej1 tłumaczy się jedno zdanie tekstu źródłowego na jedno zdanie tekstu docelowego - wystarczy zatem zastosować trywialny algorytm dopasowujący jeden do jednego. Niestety taki algorytm nie sprawdzi się, jeśli wystąpi choć jedno dopasowanie należące do innej kategorii - wtedy bowiem wszystkie dopasowania występujące po nim będą nieprawidłowe2.

Występowanie innych dopasowań niż jeden do jednego jest spowodowane wieloma czynnikami takimi jak: swobodne tłumaczenie wynikające ze specyfiki danego języka, pominięcie segmentu wskutek pomyłki tłumacza, błąd segmentacji, różnica w tekstach źródłowym i docelowym3 itd. Konieczne jest zatem używanie algorytmów które radzą sobie w przypadku

13

1

   Jak podają źródła, w około 90% przypadków występuje urów nolcglenic jeden do jednego.

2

   W przybliżeniu szansa poprawnego urównoleglenia całych dokumentów prz>' zastosowaniu powyższego trywialnego algory tmu jest równa pn .gdzie p oznacza prawdopodobieństwo wystąpienia dopasowania (1 — 1)

. a n oznacza liczbę segmentów w obu tekstach.

3

   Na przy kład tekst źródłowy mógł zostać zaktualizowany po przetłumaczeniu, a więc tekst docelowy stal się nieaktualny.



Wyszukiwarka

Podobne podstrony:
Slajd5 (29) Definicja systemu rozproszonego (4/5) System rozproszony to zbiór niezależnych komputeró
Podsumowując - dokument elektroniczny wg definicji legalnej to zbiór danych zapisany na nośniku, a n
2. Co każdy logik wiedzieć powinien ... 16 Definicja 10. Przeciwdziedzina relacji R jest to zbiór pr
21/10/2012 Definicja badań marketingowych Badania marketingowe to zbiór technik i zasad
Pomiar i System Pomiarowy - przypomnienie Pomiar jest to zbiór operacji mających na celu określenie
IMAG0016 ’ Wskaż adanle błędnie opisujące kolnie drobnoustrojów. A kolonia to zbiór komórek wyrastaj
Prawo cywilne - (stanowione) wg. definicji klasycznej: prawo stanowione jest to rozumne rozporządzen
44777 statystyka (15) / Teoria estymacji to zbiór metod pozwalających na: a)    okreś
-Konstytucja 3 maja to zbiór praw, które regulowały podstawowe kweStie społeczne i polityczne. - Sta
Konstytucja 3 maja to zbiór praw, które regulowały podstawowe kweśtie społeczne i polityczne. - Staś
dscf2671 Układy miar - Układ jednostek mar to uporządkowany zbiór jednostek utworzony na podstawie u

więcej podobnych podstron