Rozpoznawanie tekstu stanowi niełatwe zadanie dla automatycznego systemu komputerowego. Danymi źródłowymi dla algorytmów rozpoznawczych mogą być tutaj zeskanowane teksty pisane, zapisane w formacie obrazu cyfrowego. Działanie algorytmu rozpoznającego tekst jest w uproszczeniu następujące:
1. Określenie kierunku, w którym biegnie tekst (w zależności od języka)
2. Podzielenie obrazu na obszary w których znajduje się tekst
3. Podzielenie uzyskanych obszarów na wiersze
4. Podzielenie wierszy na znaki
W powyższym etapie przydatne zdają się mechanizmy opisane w rozdziale 3. Kiedy już każdy znak zostanie wyodrębniony jako unikalny obszar następuje 2 etap - rozpoznawanie. Obszar znaku zostaje podzielony na cztery ćwiartki, a każda poddawana jest porównaniu z bazą wzorców. Jeżeli przynajmniej 3 ćwiartki zostaną sklasyfikowane jednakowo, znak zostaje uznany za zidentyfikowany. Gdy w ten sposób wydzielone zostanie całe słowo, następuje próba jego klasyfikacji za pomocą wewnętrznego słownika.
Opisany przed chwilą 2 etap, dotyczący rozpoznawania poszczególnych znaków, zahacza o tematykę rozpoznawania obrazów. Jest to odrębny od analizy dział, zajmujący się rozpoznawaniem konkretnych obiektów. Istnieje wiele metod rozpoznawania, jednakże dla OCR można podać jako przykład metodę wzorców.
W intuicyjnej definicji metoda wzorców polega na porównywaniu zbioru danych wejściowych ze zbiorem wzorcowym. Oczywistym jest fakt, że nie należy przyjmować ustalania zgodności tylko pod warunkiem 100% identyczności danych wejściowych oraz wyjściowych. Należy przyjąć pewien próg akceptowalnego poziomu zgodności, dla którego przyjmujemy identyczność obiektów.
Z definicji:
Wzór 1
C - odwzorowanie 9 Copyright © blackMasoon 2009