Parametry p i cr2 są wyznaczane przez autorów empirycznie na podstawie testowego korpusu.
Wartość oczekiwana p jest stosunkiem długości tekstu docelowego do długości tekstu źródłowego.
Wariancje wylicza się przy założeniu że a2, czyli kwadrat różnicy długości segmentów źródłowych i docelowych w dopasowaniu, rośnie proporcjonalnie do długości segmentów źródłowych. Stałą przyrostu wyznacza się na podstawie regresji liniowej.
Ostatecznie jednak w samym algorytmie nie wyznacza się parametrów dla tekstów wejściowych, przyjmując wartości uśrednione, wyliczone ręcznie z korpusu testowego, niezależne od języków. Autorzy algorytmu argumentują że i tak ich dokładne wartości nie mają wielkiego wpływu na wynik urównoleglania. Przyjmuje się zatem uśrednione wartości uzyskane z korpusu testowego to: p=l , a <j2=6,8
Aby obliczyć wartość funkcji p należy dokonać kilku przekształceń:
Gdzie t jest pewną stałą którą możemy pominąć gdyż jest identyczna dla wszystkich porównywanych dopasowań.
P((e-f)) jest pobierane z Tabeli 1, utworzonej na podstawie danych empirycznych uzyskanych z testowego korpusu.
Kategoria dopasowania (e-f) |
Prawdopodobieństwo wystąpienia kategorii dopasowania P({e-f)) |
(1-1) |
0,89 |
(1-0) albo (0-1) |
0,0099 |
(2-1) albo (1-2) |
0,089 |
(2-2) |
0,011 |
Tabela 1: Prawdopodobieństwa występowania kategorii dopasowańls Natomiast drugi człon można obliczyć jako:
18 Niniejsza tabela pochodzi z artykułu [Gale. Church. 1991],
20