Czym jest proces skanowania; trudności automatycznego rozpoznawania tekstu; korzystanie z programu ABBYY FineReader 8; narzędzia programu, etapy skanowania; zaawansowane opcje programu; praca indywidualna z programem
1. Czym jest proces skanowania materiałów?
Przetwarzanie materiałów czarnodrukowych do postaci pliku graficznego. W wyniku skanowania otrzymujemy bitmapowy obraz strony.
2. Co oznacza rozpoznanie tekstu?
Rozpoznanie pisma występującego na obrazie (OCR Optical Character Recognition) w powstałym po zeskanowaniu dokumentu pliku graficznym.
3. Dlaczego to takie trudne?
W drukowanych dokumentach występuje bardzo szeroka gama krojów czcionek i ich wielkości, w druku możliwe są mniejsze lub większe defekty kształtu wydrukowanych liter, a kolejne defekty może stworzyć niezbyt dokładne ułożenie dokumentu na szybie skanera. Trudność sprawiają elementy ozdobne czcionek np. szeryfy oraz znaki diakrytyczne charakterystyczne dla danego języka lokalnego. Błędy rozpoznania powodują podobieństwa znaków i ligatury, np.
1 ~ I ~ 1
i ~t
rn ~ m ch ~ dn itp.