– 1 –
Manual de escaneo, procesamiento y OCR
Por jparra para
, 2012-08-01
1. Principios generales de escaneo y OCR
Un escáner no es más que una fotocopiadora que, en vez de realizar una copia en papel, transforma
cada página en un archivo de imagen, es decir, exactamente igual que ocurriría si sacáramos una
fotografía a la página con una cámara fotográfica. Por tanto, aunque nosotros veamos letras y palabras,
cada página está formada realmente por un conjunto de “píxeles” (negros, en gris o en color) sin ningún
significado especial.
Para convertir esta imagen en un texto (formado por letras, números y otros caracteres que se podrán
“copiar y pegar” como cualquier texto normal y corriente), es necesario realizar un proceso denominado
Reconocimiento Óptico de Caracteres, que abreviadamente se conoce por sus siglas en inglés OCR
(Optical Character Recognition).
Es muy importante dejar claro que si el texto escaneado tiene una calidad deficiente, con letras
borrosas, que les faltan trazos o incluso que se juntan unas con otras, el programa de OCR será incapaz de
reconocerlas adecuadamente. Esto producirá por ejemplo que al copiar y pegar el texto una vez realizado
el proceso de OCR, aparecerán caracteres extraños que no tendrán nada que ver con el texto original
(ejemplos típicos son “ll” que aparecen como “U”, “rr” como “m”, etc.). Por tanto, nunca me cansaré de
repetir que “LA CALIDAD FINAL DE UN TRABAJO DEPENDE DIRECTAMENTE DE LA
CALIDAD DEL ESCANEO INICIAL” y “EL TIEMPO DE PROCESAMIENTO DE UN
TRABAJO ES INVERSAMENTE PROPORCIONAL A LA CALIDAD DEL ESCANEO”. Es más
rentable volver a escanear un libro como es debido, que pasarse semanas o meses arreglándolo para que
quede medianamente decente. Claro que no siempre disponemos del libro para poder volver a
escanearlo…
Existen diversos programas capaces de realizar el proceso de OCR. Podríamos dividirlos en dos
grupos:
a. Programas que no modifican el contenido de las páginas escaneadas.
En realidad sólo añaden digamos una capa oculta que contiene las letras y caracteres que
corresponde a la imagen gráfica del texto. Esto es lo que hacen los programas que vienen con el
escáner o el propio Adobe Acrobat. Como desventaja, no permiten interaccionar con el texto
resultante del OCR (salvo copiarlo y pegarlo), es decir, no es posible corregir errores del texto o
equivocaciones en el propio proceso de reconocimiento automático del texto.
b. Programas que modifican el contenido de las páginas escaneadas.
A diferencia del caso anterior, estos programas sustituyen por completo las imágenes gráficas
escaneadas por los caracteres de texto y tipos de letra más parecidos a dichas imágenes. Es decir,
las imágenes escaneadas se sustituyen por texto real que podemos editar, corregir y modificar
como hacemos normalmente en cualquier editor o procesador de textos. Como desventaja, aun
conservando la forma y utilizando tipos de letras similares, se pierde un poco la apariencia y la
magia del libro original. Dos claros ejemplos de este tipo de programas son ABBY FineReader y
Ommipage (personalmente me quedo con el primero por goleada).
La ventaja fundamental de ambos tipos de programas es que “permiten reducir drásticamente el
tamaño de los archivos correspondientes al original escaneado”. En el primer caso el programa es capaz
de eliminar gran cantidad de información de las imágenes que forman el documento, ya que sabe
quedarse solamente con la información correspondiente a la capa de texto obtenida del resultado del
proceso de OCR, mientras que en el segundo caso en el archivo de salida permanece única y
exclusivamente el texto obtenido del proceso de OCR, es decir, exactamente un byte por cada carácter del
texto en el caso del juego de caracteres ASCII o bien dos bytes por cada carácter en el caso de texto
Unicode.
– 2 –
2. La calidad del escaneo, base de todo
Como ya comenté anteriormente, sin calidad en el escaneo original no se pueden obtener buenos
resultados ni se pueden hacer milagros. En páginas sueltas o en libros que abren perfectamente en un
ángulo de 180º esto no es problema, pero en libros que abren mal o que tienen muy poco margen interior,
es importante escanear cada página con sumo cuidado. Ahorrar unos pocos minutos de tiempo en el
proceso de escaneo sólo sirve para obtener resultados que dan ganas de tirar a la basura…
Unos sencillos consejos de escaneo que se pueden leer en muchos sitios y foros de Internet son los
siguientes:
1) Si el programa que viene con el escáner no nos convence, yo recomendaría VueScan. Aunque
seguro que hay muchos otros estupendos.
2) En las opciones de escaneo del programa, seleccionar siempre al menos 300 ppp (puntos por
pulgada, en inglés dpi="dots per inch"). Nunca menos si no queremos perder calidad del texto.
Incluso 600 ppp si disponemos de un buen escáner y no hay mucha diferencia de tiempo de
escaneo entre una opción y otra.
Por si acaso necesita aclaración, los “ppp” definen la denominada RESOLUCIÓN de las
imágenes escaneadas, exactamente de la misma forma que hablamos de resolución gráfica en una
pantalla, un televisor, una cámara fotográfica o una impresora. Así, 300 ppp indica que en una
pulgada (ya sea en vertical u horizontal) se crean 300 píxeles o puntos de la imagen, mientras que
600 ppp indicaría que en dicha pulgada se crearían 600 píxeles. Obviamente si en el mismo
espacio se crean el doble de puntos quiere decir que cada punto ha de tener la mitad de tamaño
para que quepan, o dicho de otra forma, estamos escaneando al doble de resolución.
3) Seleccionar la opción de escanear "Documento en escala de grises" para las páginas en blanco y
negro o en gris del libro, y "Documento en color" para la portada y contraportada o bien para
aquellas páginas con fotos/dibujos en color.
4) Como tipo de salida, seleccionar archivos de imagen en formato TIFF (Tagged Image File
Format), para más información
http://en.wikipedia.org/wiki/Tagged_Image_File_Format
). Pongo
el enlace en inglés porque, en este caso y como por desgracia ocurre muchas veces, el artículo de
la Wikipedia en español resulta bastante pobre…
5) Si se escanea el libro a doble página, que es lo habitual, es necesario abrirlo por completo y
aplastarlo con la mano mientras se escanea para que quede bien pegado al cristal del escáner y no
queden zonas cortadas, borrosas o curvadas.
La curvatura de líneas se puede arreglar con Scan Tailor, aunque lleva su tiempo. Los otros
defectos son prácticamente irreparables (hace falta restaurar los caracteres defectuosos uno a uno
con un programa de retoque de imágenes, un arduo trabajo que muchas personas no saben
apreciar…). Aunque parezca muy drástico, muchas veces es necesario destrozar un libro para
poder abrirlo completamente sobre el cristal del escáner si realmente queremos obtener buenos
resultados. Una vez escaneado habrá que echar mano del pegamento para arreglar el libro y
volver a dejarlo en buenas condiciones...
6) Por favor, escanead TODAS las páginas. Si se quiere conservar la estructura de páginas pares a la
izquierda e impares a la derecha de cualquier libro, no vale la pena saltarse páginas en blanco o
las páginas de créditos por ahorrar unos minutos de tiempo que no van a ningún sitio...
Con estos sencillos consejos (que no tienen por qué influir apenas en el tiempo que se tarda en
escanear un libro, y que, dependiendo de la pericia de cada uno, no suele pasar de 1 ó 2 horas por cada
100 páginas), obtendréis escaneos perfectos que luego serán sencillos de reprocesar y proporcionarán
copias de excelente calidad sin tener que perder horas, días, semanas e incluso meses limpiando puntitos
y arreglando caracteres mal escaneados. Y recordad: NO IMPORTA EL TAMAÑO DE LAS PÁGINAS
OBTENIDAS TRAS EL PROCESO DE ESCANEO, LO QUE IMPORTA ES LA CALIDAD Y LA
RESOLUCIÓN. La razón de esto se verá a continuación.
– 3 –
3. La navaja suiza del reproceso: Scan Tailor
Una vez escaneado un libro, lo normal es reprocesarlo (esto también se puede realizar a partir de un
libro en PDF cuyo aspecto final no sea demasiado bueno y queramos mejorarlo). En esta fase se cortan las
páginas dobles, se endereza el texto, se eliminan posibles rayones, puntos negros y defectos, y se obtienen
archivos de imagen TIFF para cada página que ocupan muchísimo menos que los archivos TIFF
originales.
En mi opinión la mejor herramienta que existe atendiendo a su facilidad de manejo y los resultados
obtenidos es el programa gratuito Scan Tailor (otra alternativa gratuita es ScanKromsator, pero, aunque
reconozco que no sé manejarlo, me parece que tiene un aprendizaje más lento). La página oficial de Scan
Tailor es
http://scantailor.sourceforge.net
, y en el apartado "Documentation" existe un Wikitutorial en
ruso e inglés. Lo importante es que en la parte inferior aparece un enlace en la sección en inglés con un
vídeo que permite aprender a utilizar el programa en pocos minutos. Está en inglés, pero sólo con verlo es
suficiente (si yo aprendí con él, entonces es que puede aprender cualquiera…).
A grandes rasgos, estos serían los pasos que hay que llevar a cabo para reprocesar un libro xon Scan
Tailor:
1. Si se desea reprocesar un libro en PDF, desde Adobe Acrobat (u otro programa de tratamientos de
archivos en PDF) se debe elegir "Guardar como - Imagen - TIFF" para obtener los archivos de
imagen correspondientes a cada página (es decir, como si realmente hubiéramos escaneado el
libro).
Hay que crear y seleccionar una carpeta en nuestro disco duro. Acrobat creará un archivo de
imagen TIFF por cada página. Si en automático no está seleccionada la opción de 300 ppp de
resolución (118,11 píxeles/cm) o si el resultado no es el esperado, basta con borrar todos los
archivos creados en la carpeta y volver a generarlos eligiendo la resolución manualmente en el
botón “Configuración”. Incluso a veces es mejor seleccionar 600 ppp (236,22 píxeles/cm), pero
no siempre ya que si los archivos de imagen son demasiado grandes, Scan Tailor tarda unos
segundos en procesar cada página y nuestro trabajo se ralentiza.
2. Ya en Scan Tailor, elegir "New Project", indicar la carpeta con los archivos y seleccionar todos
los archivos. A veces Scan Tailor protesta si todas las páginas no tienen la misma resolución,
siendo necesario indicarla manualmente.
Luego mientras estemos trabajando con Scan Tailor iremos guardando el proyecto con "File -
Save project" de vez en cuando. Ojo, esto no guarda ningún archivo TIFF, sino un archivo con
extensión “.scantailor” que almacena las características del proyecto y las modificaciones
realizadas en las páginas. Por tanto, este archivo se puede guardar en cualquier sitio y con el
nombre que queráis, aunque lo lógico es darle un nombre similar al título del libro y guardarlo no
muy lejos de la carpeta con los archivos TIFF originales.
Por cierto, Scan Tailor ya tiene traducción al español pero a mí me sigue gustando más la versión
en inglés…
3. Ahora viene el trabajo real de procesamiento, que se realiza mediante los 6 pasos o tareas que
aparecen arriba a la izquierda:
• Fix Orientation, para orientar las páginas en horizontal o vertical. No suele ser necesario
hacer nada manualmente con esta opción, pero siempre es recomendable darles un repaso a
las páginas por si acaso (las teclas “AvPág/RePág” permiten ir rápidamente a la
siguiente/anterior página, e “Inicio” y “Fin” a la primera y última página respectivamente).
En casi todas las tareas aparecen opciones a la izquierda. En concreto, los botones “Change”
o “Apply to” permiten por ejemplo aplicar las mismas opciones a todas las demás páginas o
las siguientes a la página actual, lo cual suele resultar muy útil.
También os recomiendo que probéis los menús contextuales (botón derecho del ratón) en
distintas zonas, por ejemplo en el panel central, en las páginas en miniatura de la parte
derecha, etc. Experimentando se aprende…
– 4 –
• Split Pages, para dividir las páginas si se escaneó el libro a doble página. Suele detectarlo
bien, aunque hay que repasar las páginas y desplazar la barra vertical de separación si fuese
necesario.
• Deskew, para girar las páginas torcidas o inclinadas. Prácticamente siempre lo hace bien.
• Select Content, para seleccionar el contenido de cada página, es decir, exclusivamente el
texto de la página. No importa dónde esté situado, ya que luego se alineará según sea
necesario. Suele funcionar bien de forma automática al 90%, pero a veces no detecta por
ejemplo bien las cabeceras o números de página, por lo que habrá que repasar las páginas
desplazando los bordes del cuadro de contenido cuando sea necesario.
• Margins, permite definir los márgenes y el tamaño de las páginas. Esta es la opción, en mi
opinión, más complicada de ajustar (suelen resultar de gran utilidad las opciones de
ordenación que aparecen en la parte inferior del panel de páginas en miniatura, que permiten
ordenar las páginas por tamaño vertical u horizontal).
Los márgenes son complicados porque la página con mayor tamaño (contando tanto su caja
de contenido como sus márgenes) determinará el tamaño de todas las demás y por tanto el
tamaño final del libro.
Lo normal es poner márgenes cero a la portada/contraportadas e indicar un cuadro de
contenido en “Select Content” que ocupe toda la portada/contraportada. De esta forma la
portada/contraportada definirá el tamaño final del libro.
Para las demás páginas deberemos jugar con los márgenes hasta dar con el adecuado.
Normalmente yo suelo definir solamente el margen superior (y todos los demás márgenes a
cero) y selecciono la opción de alinear las páginas arriba centradas horizontalmente. Probad
y experimentad hasta que le cojáis el truquillo… En cualquier caso luego hay que repasar las
páginas para comprobar el resultado (y alinear o arrastrar los márgenes por ejemplo para las
páginas de títulos, de créditos, etc.).
Si el tamaño de la portada/contraportada no se adecúa al tamaño que deseamos, basta con
editarlas en un programa de retoque de imágenes y reducir o aumentar su tamaño un cierto
porcentaje (por ejemplo reducirlas en un 90% o aumentarlas en un 110% de su tamaño).
Como comento más adelante, yo utilizo para ello Paint Shop Pro, pero cualquier programa
de retoque permite realizar estas tareas fácilmente.
• Output, permite ver el resultado de salida final de cada página y realizar diversos procesos
de limpieza.
4. En cuanto a este último paso “Output”, aquí realizaremos las tareas de limpieza que podrán
llevarnos una o dos horas, o bien toda una vida para dejar en condiciones un libro que esté muy
deteriorado. A modo de resumen podemos comentar lo siguiente:
• A la izquierda hay que seleccionar la resolución de salida, el modo (blanco y negro,
color/escala de grises o mixto) y el grosor de los caracteres. Normalmente se utiliza blanco y
negro 300 ppp, y color con menor resolución para la portada/contraportada (en la subcarpeta
"out" quedan los archivos TIFF definitivos de salida, y habrá que ir disminuyendo la
resolución de la portada/contraportada para que sus correspondientes archivos no ocupe más
de por ejemplo 1MB). La opción “Mixto” se utiliza para páginas con fotos o diagramas en
color o en escala de grises.
• A la derecha aparecen varias pestañas, donde la pestaña "Output" muestra el resultado final
de la página.
• La pestaña "Picture zones" permite señalar (o eliminar con el botón derecho) las zonas que
se consideran imágenes en caso de que indiquemos como salida que las páginas son mixtas y
no se detecten automáticamente (en el vídeo se ve cómo utilizar esta opción).
– 5 –
• La pestaña "Fill zones" permite eliminar manchas negras o añadir trozos de texto que faltan
(con el botón derecho se elige el color de las zonas de relleno, lo que permite "dibujar" letras
o líneas borrosas, un trabajo "de chinos" que desmoraliza al más optimista...).
• La pestaña "Dewarping" permite enderezar líneas de texto que han salido curvadas porque
no se abrió bien el libro al escanearlo o bien por estar fotocopiado. Hay que ir arrastrando los
puntitos de arriba y abajo (o crear nuevos puntitos sin más que hacer clic o borrarlos con la
tecla “Supr”) para ajustarlos a la línea del texto. Otro trabajito "de chinos"...
• La pestaña "Despecklin" sólo muestra qué puntos de la página estamos eliminando con los
botones de limpieza de la parte izquierda, ya que si elegimos el botón más agresivo podemos
perder cosas válidas (por ejemplo, con la opción más agresiva a veces desaparecen los
puntos suspensivos "..." del texto).
5. Una vez terminado el trabajo, se cierra Scan Tailor, se seleccionan todos los archivos de la
subcarpeta "out" y con el botón derecho se selecciona la opción "Combinar archivos en un PDF"
de Adobe Acrobat.
Si no disponéis de Adobe Acrobat, tendréis que montarlos con otro programa (por ejemplo
“i2pdf”) o bien podréis pasarle la carpeta “out” a alguien para que monte el PDF.
6. Por último, en Adobe Acrobat ya se puede realizar el proceso de OCR, seleccionar el zoom por
defecto, crear bookmarks, etc.
Finalmente cabe mencionar que a veces hay páginas que están tan defectuosas que resulta imposible
arreglarlas directamente desde Scan Tailor y es necesario editarlas previamente con algún programa de
retoque de imágenes. Yo utilizo Paint Shop Pro, pero sirve prácticamente cualquiera. Con dicho programa
coloreo o arreglo la portada y contraportada de los libros, realzo el texto si Scan Tailor no es capaz de
reconocer todos los trazos adecuadamente, copio y pego caracteres en buen estado sobre otros
defectuosos, arreglo diagramas de las partidas, etc. Esto es un trabajo “de chinos”, por lo que hay que
sopesar si realmente merece la pena llevarlo a cabo o es mejor, como ya comenté varias veces, VOLVER
A ESCANEAR BIEN EL LIBRO (claro que no siempre podemos disponer de él…).
– 6 –
4. La opción OCR ClearScan de Adobe Acrobat
La opción ClearScan de Adobe Acrobat permite, a la vez que se lleva a cabo el proceso de OCR de
un documento, modificar la representación gráfica de los caracteres del documento sustituyéndolos por un
tipo de letra vectorial con la que se elimina el conocido “efecto de dientes de sierra” que se aprecia en los
bordes de los caracteres al realizar un zoom y acercar el texto del documento. El resultado tanto al
visualizar el documento como al imprimirlo es impecable y no veo razón alguna para no llevarlo a cabo
en cualquier libro escaneado, reprocesado y convertido a PDF.
Para utilizar la opción OCR ClearScan en Adobe Acrobat, basta con:
1. Desplegar el menú "Herramientas" (arriba a la derecha).
2. Desplegar la opción "Reconocer texto".
3. Seleccionar "En este archivo".
4. Aquí es recomendable probar a convertir rangos de páginas (por ejemplo, de 50 en 50 o de 100 en
100, o incluso sólo la página actual) e ir guardando cada modificación con distinto nombre si todo
va bien (por ejemplo, muchas veces no queda bien aplicarle ClearScan a la portada o
contraportada).
5. Otro detalle: las páginas apaisadas quedarán giradas 90º, por lo que es necesario ponerlas como
estaban con la opción “Rotar página” de Adobe Acrobat.
6. En el cuadro "Configuración", hacer clic en el botón Editar".
7. Y aquí finalmente hay que desplegar "Estilo de salida PDF" y seleccionar "ClearScan" (con
idioma Español, Inglés o lo que corresponda, y normalmente con 300ppp).
Un último consejo: no utilizar la opción "Herramientas - Proceso de documentos - Optimizar PDF
digitalizado" (salvo casos excepcionales), y menos aún antes de utilizar la opción de OCR ClearScan.
Esta opción realiza una optimización automática de las imágenes que componen el documento (de nuevo
recalcamos el hecho de que una página escaneada no es más que una imagen), y en la mayoría de los
casos lo único que se consigue es una pérdida de calidad de dichas imágenes. Si a simple vista no se
aprecia, basta con hacer un zoom para comprobar que el texto original escaneado se ha deteriorado
notablemente, apareciendo multitud de puntitos y sombras alrededor de los caracteres del texto.