3784499241

3784499241



1.1.3. Zastosowania segmentacji tekstu

Segmentacja tekstu ma bardzo wiele zastosowań. Każde automatyczne przetwarzanie tekstu wymaga najczęściej jego podziału na mniejsze jednostki. Powodem umieszczenia w niniejszej pracy fragmentu o segmentacji tekstu jest jej zastosowanie przy urównoleglaniu tekstów dwujęzycznych. Segmentacja stanowi pierwszy krok urównoleglania. W zależności od poziomu szczegółowości urównoleglania dokonuje się odpowiedniej segmentacji tekstów wejściowych. Najczęściej stosowany jest podział na zdania. Przydatny jest także podział tekstu na wyrazy jako pomocniczy w niektórych algorytmach urównoleglania. W celu zwiększenia wydajności urównoleglania stosuje się niekiedy także podział na akapity.

Dobrze przeprowadzona segmentacja podnosi jakość urównoleglania. Segmenty są atomowymi jednostkami dla algorytmów urównoleglania. Jeśli segmentacja jest zbyt mało dokładna - powstaje zbyt mało segmentów, bo cześć z nich jest w rzeczywistości konkatenacją kilku segmentów, w efekcie czego wynik urównoleglania jest niedostatecznie dokładny. Jeśli segmentacja jest zbyt szczegółowa - powstaje zbyt dużo segmentów, ponieważ część z nich będzie w rzeczywistości fragmentami segmentów, a zadanie urównoleglenia staje się trudniejsze ze względu na zbyt dużą liczbę stopni swobody. W niektórych przypadkach ze względu na ograniczenia algorytmów poprawne urównoleglenie może być w ogóle niemożliwe. Niekiedy jednak algorytm urównoleglania potrafi poradzić sobie z błędami segmentacji.

1.2. Urównoleglanie tekstów dwujęzycznych

1.2.1.    Definicje

1.2.1.1.    Definicja tekstu źródłowego i tekstu docelowego

W niniejszej pracy używam określeń „tekst źródłowy” oraz „tekst docelowy”. Można się domyślać, że oznaczają one odpowiednio tekst i jego tłumaczenie, jednak jest to czysto umowne -chodzi po prostu o pierwszy tekst i drugi tekst które mają zostać poddane urównolegleniu, niezależnie od tego, który jest tłumaczeniem którego, albo czy w ogóle są bezpośrednio wzajemnymi tłumaczeniami. Tekst źródłowy oznaczam przez S , a tekst docelowy przez T.

1.2.1.2.    Definicja segmentu źródłowego i segmentu docelowego

Analogicznie jak w przypadku tekstów źródłowego i docelowego, segmentem źródłowym nazywam segment pochodzący z tekstu źródłowego, a segmentem docelowym segment pochodzący z tekstu docelowego. Segmenty źródłowe oznaczam literą s , a segmenty docelowe literą t.

II



Wyszukiwarka

Podobne podstrony:
Określenie „rondo” ma bardzo wiele znaczeń, także w odniesieniu do rozwiązań drogowych. Jest różnie
skanuj0041 (77) ECDL Advanced - Przetwarzanie tekstu, poziom zaawansowany Na odstęp Nagłówka i stopk
KOMPUTER - CZŁOWIEK - PRAWO 501 ma bardzo szerokie zastosowanie, jest to bowiem narzędzie, które uła
DHTML0053 Rozdział 2. Wyświetlanie tekstu kursywąWyświetlanie tekstu kursywę Bardzo często mylone są
Detektor ten jest detektorem bardzo czutym. Ma jednak wiele wad. Jest destrukcyjny, wykrywa tylko zw
Cztery główne kryteria segmentacji1.    Potrzeby konsumenckie (bardzo szerokie) 2.
Segmentacja S 02/06 Segmentacja rynku S 02/06 Segmentacja rynku Kosztowne rozwiązania IT Segmentacj
21 (921) KĄCIK DLA POCZĄTKUJĄCYCH Wiele ryb ma bardzo specyficzne wymagania. Zagrzebki należą do jed
1. Segmentacja rynku finansowego: o Jest wiele kryteriów podziału: •    I kryterium
Ćwiczenia grafomotoryczne cz1 00025 Dorysuj kogutowi piękny ogon. Pokoloruj ptaka kredkami. Pamiętaj
XI PRZEDMOWA. szczegółów, innemi źródłami stwierdzać się nie dających, jest u niego bardzo wiele;
XI PRZEDMOWA. szczegółów, innemi źródłami stwierdzać się nie dających, jest u niego bardzo wiele;
0000023 (6) Dolegliwości na tle reumatycznym Bardzo wiele osób dorosłych cierpi na bóle pleców, rami
skanuj0005 (394) Przykładów adaptacji „wiernej" można podać bardzo wiele. Stały Się one szczegó
skanuj0005 (587) — 97 — ZARYS WIEDZY O TURYSTYCE (Gaworecki, 2003). Na popyt ma wpływ wiele czynnikó

więcej podobnych podstron