2.1.2.2. Funkcja prawdopodobieństwa p16
Funkcja p(x, y ,e ,f) jest funkcją określającą prawdopodobieństwo dopasowania segmentów SX,SX+1,Sx+e_1 do segmentów ty,ty+1,... ,ty+f_1 przy założeniach że X>l,y>l,X+e-l<n,y+f-l<m,(e-f)eC. Do obliczenia jej wartości trzeba wprowadzić kilka dodatkowych oznaczeń.
Miara długości segmentu S jest oznaczona jako /(s). W algorytmie Gale'a i Church'a długość segmentu mierzona jest w znakach, ale nie jest to jedyny sposób17. Suma długości wszystkich branych pod uwagę w danym dopasowaniu segmentów źródłowych jest oznaczana jako
ls.
Analogicznie postępuję się z sumą długości segmentów docelowych która oznacza się jako
lt.
Wartość funkcji p jest wyliczana z następującego wzoru: p[x ,y ,e ,f)=PUe~f)\6)
Przy założeniach, że (e-f)EC, P((e-f)) oznacza prawdopodobieństwo wystąpienia kategorii dopasowania (e — f), natomiast <5 zależy od stosunku sumy długości segmentów źródłowych i docelowych. Zakłada się że każdy znak w tekście źródłowym generuje losową ilość znaków w tekście docelowym, że te zdarzenia są od siebie niezależne i że zmienne te mają identyczny rozkład normalny. Model probabilistyczny wyznaczają parametry: wartość oczekiwana U , określająca spodziewaną ilość znaków w tekście docelowym na jeden znak tekstu źródłowego oraz wariancja ilości znaków tekstu docelowego przypadającą na znak tekstu źródłowego er2 . Żeby rozkład <5 był standardowym rozkładem normalnym, czyli miał średnią równą 0 a wariancje równą 1, przyjmuję się poniższą definicje <5 .
16 W artykule [Gale. Church. 1991] definiowana jest miara dystansu, określona jako —log (p). gdzie p jest zdedniowaną tutaj funkcją prawdopodobieństwa.
17 Na przykład w algorytmie Browna długość segmentów liczona jest w słow ach. Patrz [Brown, 1991].
19