Manual de escaneo, procesamiento y OCR Ajedrez, Mi Pasión, 2012 08 01

background image

– 1 –

Manual de escaneo, procesamiento y OCR

Por jparra para

Ajedrez, Mi Pasión

, 2012-08-01

1. Principios generales de escaneo y OCR

Un escáner no es más que una fotocopiadora que, en vez de realizar una copia en papel, transforma

cada página en un archivo de imagen, es decir, exactamente igual que ocurriría si sacáramos una
fotografía a la página con una cámara fotográfica. Por tanto, aunque nosotros veamos letras y palabras,
cada página está formada realmente por un conjunto de “píxeles” (negros, en gris o en color) sin ningún
significado especial.

Para convertir esta imagen en un texto (formado por letras, números y otros caracteres que se podrán

“copiar y pegar” como cualquier texto normal y corriente), es necesario realizar un proceso denominado
Reconocimiento Óptico de Caracteres, que abreviadamente se conoce por sus siglas en inglés OCR
(Optical Character Recognition).

Es muy importante dejar claro que si el texto escaneado tiene una calidad deficiente, con letras

borrosas, que les faltan trazos o incluso que se juntan unas con otras, el programa de OCR será incapaz de
reconocerlas adecuadamente. Esto producirá por ejemplo que al copiar y pegar el texto una vez realizado
el proceso de OCR, aparecerán caracteres extraños que no tendrán nada que ver con el texto original
(ejemplos típicos son “ll” que aparecen como “U”, “rr” como “m”, etc.). Por tanto, nunca me cansaré de
repetir que “LA CALIDAD FINAL DE UN TRABAJO DEPENDE DIRECTAMENTE DE LA
CALIDAD DEL ESCANEO INICIAL”
y “EL TIEMPO DE PROCESAMIENTO DE UN
TRABAJO ES INVERSAMENTE PROPORCIONAL A LA CALIDAD DEL ESCANEO”
. Es más
rentable volver a escanear un libro como es debido, que pasarse semanas o meses arreglándolo para que
quede medianamente decente. Claro que no siempre disponemos del libro para poder volver a
escanearlo…

Existen diversos programas capaces de realizar el proceso de OCR. Podríamos dividirlos en dos

grupos:

a. Programas que no modifican el contenido de las páginas escaneadas.

En realidad sólo añaden digamos una capa oculta que contiene las letras y caracteres que
corresponde a la imagen gráfica del texto. Esto es lo que hacen los programas que vienen con el
escáner o el propio Adobe Acrobat. Como desventaja, no permiten interaccionar con el texto
resultante del OCR (salvo copiarlo y pegarlo), es decir, no es posible corregir errores del texto o
equivocaciones en el propio proceso de reconocimiento automático del texto.

b. Programas que modifican el contenido de las páginas escaneadas.

A diferencia del caso anterior, estos programas sustituyen por completo las imágenes gráficas
escaneadas por los caracteres de texto y tipos de letra más parecidos a dichas imágenes. Es decir,
las imágenes escaneadas se sustituyen por texto real que podemos editar, corregir y modificar
como hacemos normalmente en cualquier editor o procesador de textos. Como desventaja, aun
conservando la forma y utilizando tipos de letras similares, se pierde un poco la apariencia y la
magia del libro original. Dos claros ejemplos de este tipo de programas son ABBY FineReader y
Ommipage (personalmente me quedo con el primero por goleada).

La ventaja fundamental de ambos tipos de programas es que “permiten reducir drásticamente el

tamaño de los archivos correspondientes al original escaneado”. En el primer caso el programa es capaz
de eliminar gran cantidad de información de las imágenes que forman el documento, ya que sabe
quedarse solamente con la información correspondiente a la capa de texto obtenida del resultado del
proceso de OCR, mientras que en el segundo caso en el archivo de salida permanece única y
exclusivamente el texto obtenido del proceso de OCR, es decir, exactamente un byte por cada carácter del
texto en el caso del juego de caracteres ASCII o bien dos bytes por cada carácter en el caso de texto
Unicode.

background image

– 2 –

2. La calidad del escaneo, base de todo

Como ya comenté anteriormente, sin calidad en el escaneo original no se pueden obtener buenos

resultados ni se pueden hacer milagros. En páginas sueltas o en libros que abren perfectamente en un
ángulo de 180º esto no es problema, pero en libros que abren mal o que tienen muy poco margen interior,
es importante escanear cada página con sumo cuidado. Ahorrar unos pocos minutos de tiempo en el
proceso de escaneo sólo sirve para obtener resultados que dan ganas de tirar a la basura…

Unos sencillos consejos de escaneo que se pueden leer en muchos sitios y foros de Internet son los

siguientes:

1) Si el programa que viene con el escáner no nos convence, yo recomendaría VueScan. Aunque

seguro que hay muchos otros estupendos.

2) En las opciones de escaneo del programa, seleccionar siempre al menos 300 ppp (puntos por

pulgada, en inglés dpi="dots per inch"). Nunca menos si no queremos perder calidad del texto.
Incluso 600 ppp si disponemos de un buen escáner y no hay mucha diferencia de tiempo de
escaneo entre una opción y otra.

Por si acaso necesita aclaración, los “ppp” definen la denominada RESOLUCIÓN de las
imágenes escaneadas, exactamente de la misma forma que hablamos de resolución gráfica en una
pantalla, un televisor, una cámara fotográfica o una impresora. Así, 300 ppp indica que en una
pulgada (ya sea en vertical u horizontal) se crean 300 píxeles o puntos de la imagen, mientras que
600 ppp indicaría que en dicha pulgada se crearían 600 píxeles. Obviamente si en el mismo
espacio se crean el doble de puntos quiere decir que cada punto ha de tener la mitad de tamaño
para que quepan, o dicho de otra forma, estamos escaneando al doble de resolución.

3) Seleccionar la opción de escanear "Documento en escala de grises" para las páginas en blanco y

negro o en gris del libro, y "Documento en color" para la portada y contraportada o bien para
aquellas páginas con fotos/dibujos en color.

4) Como tipo de salida, seleccionar archivos de imagen en formato TIFF (Tagged Image File

Format), para más información

http://en.wikipedia.org/wiki/Tagged_Image_File_Format

). Pongo

el enlace en inglés porque, en este caso y como por desgracia ocurre muchas veces, el artículo de
la Wikipedia en español resulta bastante pobre…

5) Si se escanea el libro a doble página, que es lo habitual, es necesario abrirlo por completo y

aplastarlo con la mano mientras se escanea para que quede bien pegado al cristal del escáner y no
queden zonas cortadas, borrosas o curvadas.

La curvatura de líneas se puede arreglar con Scan Tailor, aunque lleva su tiempo. Los otros
defectos son prácticamente irreparables (hace falta restaurar los caracteres defectuosos uno a uno
con un programa de retoque de imágenes, un arduo trabajo que muchas personas no saben
apreciar…). Aunque parezca muy drástico, muchas veces es necesario destrozar un libro para
poder abrirlo completamente sobre el cristal del escáner si realmente queremos obtener buenos
resultados. Una vez escaneado habrá que echar mano del pegamento para arreglar el libro y
volver a dejarlo en buenas condiciones...

6) Por favor, escanead TODAS las páginas. Si se quiere conservar la estructura de páginas pares a la

izquierda e impares a la derecha de cualquier libro, no vale la pena saltarse páginas en blanco o
las páginas de créditos por ahorrar unos minutos de tiempo que no van a ningún sitio...

Con estos sencillos consejos (que no tienen por qué influir apenas en el tiempo que se tarda en

escanear un libro, y que, dependiendo de la pericia de cada uno, no suele pasar de 1 ó 2 horas por cada
100 páginas), obtendréis escaneos perfectos que luego serán sencillos de reprocesar y proporcionarán
copias de excelente calidad sin tener que perder horas, días, semanas e incluso meses limpiando puntitos
y arreglando caracteres mal escaneados. Y recordad: NO IMPORTA EL TAMAÑO DE LAS PÁGINAS
OBTENIDAS TRAS EL PROCESO DE ESCANEO, LO QUE IMPORTA ES LA CALIDAD Y LA
RESOLUCIÓN. La razón de esto se verá a continuación.

background image

– 3 –

3. La navaja suiza del reproceso: Scan Tailor

Una vez escaneado un libro, lo normal es reprocesarlo (esto también se puede realizar a partir de un

libro en PDF cuyo aspecto final no sea demasiado bueno y queramos mejorarlo). En esta fase se cortan las
páginas dobles, se endereza el texto, se eliminan posibles rayones, puntos negros y defectos, y se obtienen
archivos de imagen TIFF para cada página que ocupan muchísimo menos que los archivos TIFF
originales.

En mi opinión la mejor herramienta que existe atendiendo a su facilidad de manejo y los resultados

obtenidos es el programa gratuito Scan Tailor (otra alternativa gratuita es ScanKromsator, pero, aunque
reconozco que no sé manejarlo, me parece que tiene un aprendizaje más lento). La página oficial de Scan
Tailor es

http://scantailor.sourceforge.net

, y en el apartado "Documentation" existe un Wikitutorial en

ruso e inglés. Lo importante es que en la parte inferior aparece un enlace en la sección en inglés con un
vídeo que permite aprender a utilizar el programa en pocos minutos. Está en inglés, pero sólo con verlo es
suficiente (si yo aprendí con él, entonces es que puede aprender cualquiera…).

A grandes rasgos, estos serían los pasos que hay que llevar a cabo para reprocesar un libro xon Scan

Tailor:

1. Si se desea reprocesar un libro en PDF, desde Adobe Acrobat (u otro programa de tratamientos de

archivos en PDF) se debe elegir "Guardar como - Imagen - TIFF" para obtener los archivos de
imagen correspondientes a cada página (es decir, como si realmente hubiéramos escaneado el
libro).

Hay que crear y seleccionar una carpeta en nuestro disco duro. Acrobat creará un archivo de
imagen TIFF por cada página. Si en automático no está seleccionada la opción de 300 ppp de
resolución (118,11 píxeles/cm) o si el resultado no es el esperado, basta con borrar todos los
archivos creados en la carpeta y volver a generarlos eligiendo la resolución manualmente en el
botón “Configuración”. Incluso a veces es mejor seleccionar 600 ppp (236,22 píxeles/cm), pero
no siempre ya que si los archivos de imagen son demasiado grandes, Scan Tailor tarda unos
segundos en procesar cada página y nuestro trabajo se ralentiza.

2. Ya en Scan Tailor, elegir "New Project", indicar la carpeta con los archivos y seleccionar todos

los archivos. A veces Scan Tailor protesta si todas las páginas no tienen la misma resolución,
siendo necesario indicarla manualmente.

Luego mientras estemos trabajando con Scan Tailor iremos guardando el proyecto con "File -
Save project" de vez en cuando. Ojo, esto no guarda ningún archivo TIFF, sino un archivo con
extensión “.scantailor” que almacena las características del proyecto y las modificaciones
realizadas en las páginas. Por tanto, este archivo se puede guardar en cualquier sitio y con el
nombre que queráis, aunque lo lógico es darle un nombre similar al título del libro y guardarlo no
muy lejos de la carpeta con los archivos TIFF originales.

Por cierto, Scan Tailor ya tiene traducción al español pero a mí me sigue gustando más la versión
en inglés…

3. Ahora viene el trabajo real de procesamiento, que se realiza mediante los 6 pasos o tareas que

aparecen arriba a la izquierda:

Fix Orientation, para orientar las páginas en horizontal o vertical. No suele ser necesario

hacer nada manualmente con esta opción, pero siempre es recomendable darles un repaso a
las páginas por si acaso (las teclas “AvPág/RePág” permiten ir rápidamente a la
siguiente/anterior página, e “Inicio” y “Fin” a la primera y última página respectivamente).

En casi todas las tareas aparecen opciones a la izquierda. En concreto, los botones “Change”
o “Apply to” permiten por ejemplo aplicar las mismas opciones a todas las demás páginas o
las siguientes a la página actual, lo cual suele resultar muy útil.

También os recomiendo que probéis los menús contextuales (botón derecho del ratón) en
distintas zonas, por ejemplo en el panel central, en las páginas en miniatura de la parte
derecha, etc. Experimentando se aprende…

background image

– 4 –

Split Pages, para dividir las páginas si se escaneó el libro a doble página. Suele detectarlo

bien, aunque hay que repasar las páginas y desplazar la barra vertical de separación si fuese
necesario.

Deskew, para girar las páginas torcidas o inclinadas. Prácticamente siempre lo hace bien.
Select Content, para seleccionar el contenido de cada página, es decir, exclusivamente el

texto de la página. No importa dónde esté situado, ya que luego se alineará según sea
necesario. Suele funcionar bien de forma automática al 90%, pero a veces no detecta por
ejemplo bien las cabeceras o números de página, por lo que habrá que repasar las páginas
desplazando los bordes del cuadro de contenido cuando sea necesario.

Margins, permite definir los márgenes y el tamaño de las páginas. Esta es la opción, en mi

opinión, más complicada de ajustar (suelen resultar de gran utilidad las opciones de
ordenación que aparecen en la parte inferior del panel de páginas en miniatura, que permiten
ordenar las páginas por tamaño vertical u horizontal).

Los márgenes son complicados porque la página con mayor tamaño (contando tanto su caja
de contenido como sus márgenes) determinará el tamaño de todas las demás y por tanto el
tamaño final del libro.

Lo normal es poner márgenes cero a la portada/contraportadas e indicar un cuadro de
contenido en “Select Content” que ocupe toda la portada/contraportada. De esta forma la
portada/contraportada definirá el tamaño final del libro.

Para las demás páginas deberemos jugar con los márgenes hasta dar con el adecuado.
Normalmente yo suelo definir solamente el margen superior (y todos los demás márgenes a
cero) y selecciono la opción de alinear las páginas arriba centradas horizontalmente. Probad
y experimentad hasta que le cojáis el truquillo… En cualquier caso luego hay que repasar las
páginas para comprobar el resultado (y alinear o arrastrar los márgenes por ejemplo para las
páginas de títulos, de créditos, etc.).

Si el tamaño de la portada/contraportada no se adecúa al tamaño que deseamos, basta con
editarlas en un programa de retoque de imágenes y reducir o aumentar su tamaño un cierto
porcentaje (por ejemplo reducirlas en un 90% o aumentarlas en un 110% de su tamaño).
Como comento más adelante, yo utilizo para ello Paint Shop Pro, pero cualquier programa
de retoque permite realizar estas tareas fácilmente.

Output, permite ver el resultado de salida final de cada página y realizar diversos procesos

de limpieza.

4. En cuanto a este último paso “Output”, aquí realizaremos las tareas de limpieza que podrán

llevarnos una o dos horas, o bien toda una vida para dejar en condiciones un libro que esté muy
deteriorado. A modo de resumen podemos comentar lo siguiente:

• A la izquierda hay que seleccionar la resolución de salida, el modo (blanco y negro,

color/escala de grises o mixto) y el grosor de los caracteres. Normalmente se utiliza blanco y
negro 300 ppp, y color con menor resolución para la portada/contraportada (en la subcarpeta
"out" quedan los archivos TIFF definitivos de salida, y habrá que ir disminuyendo la
resolución de la portada/contraportada para que sus correspondientes archivos no ocupe más
de por ejemplo 1MB). La opción “Mixto” se utiliza para páginas con fotos o diagramas en
color o en escala de grises.

• A la derecha aparecen varias pestañas, donde la pestaña "Output" muestra el resultado final

de la página.

• La pestaña "Picture zones" permite señalar (o eliminar con el botón derecho) las zonas que

se consideran imágenes en caso de que indiquemos como salida que las páginas son mixtas y
no se detecten automáticamente (en el vídeo se ve cómo utilizar esta opción).

background image

– 5 –

• La pestaña "Fill zones" permite eliminar manchas negras o añadir trozos de texto que faltan

(con el botón derecho se elige el color de las zonas de relleno, lo que permite "dibujar" letras
o líneas borrosas, un trabajo "de chinos" que desmoraliza al más optimista...).

• La pestaña "Dewarping" permite enderezar líneas de texto que han salido curvadas porque

no se abrió bien el libro al escanearlo o bien por estar fotocopiado. Hay que ir arrastrando los
puntitos de arriba y abajo (o crear nuevos puntitos sin más que hacer clic o borrarlos con la
tecla “Supr”) para ajustarlos a la línea del texto. Otro trabajito "de chinos"...

• La pestaña "Despecklin" sólo muestra qué puntos de la página estamos eliminando con los

botones de limpieza de la parte izquierda, ya que si elegimos el botón más agresivo podemos
perder cosas válidas (por ejemplo, con la opción más agresiva a veces desaparecen los
puntos suspensivos "..." del texto).

5. Una vez terminado el trabajo, se cierra Scan Tailor, se seleccionan todos los archivos de la

subcarpeta "out" y con el botón derecho se selecciona la opción "Combinar archivos en un PDF"
de Adobe Acrobat.

Si no disponéis de Adobe Acrobat, tendréis que montarlos con otro programa (por ejemplo
“i2pdf”) o bien podréis pasarle la carpeta “out” a alguien para que monte el PDF.

6. Por último, en Adobe Acrobat ya se puede realizar el proceso de OCR, seleccionar el zoom por

defecto, crear bookmarks, etc.

Finalmente cabe mencionar que a veces hay páginas que están tan defectuosas que resulta imposible

arreglarlas directamente desde Scan Tailor y es necesario editarlas previamente con algún programa de
retoque de imágenes. Yo utilizo Paint Shop Pro, pero sirve prácticamente cualquiera. Con dicho programa
coloreo o arreglo la portada y contraportada de los libros, realzo el texto si Scan Tailor no es capaz de
reconocer todos los trazos adecuadamente, copio y pego caracteres en buen estado sobre otros
defectuosos, arreglo diagramas de las partidas, etc. Esto es un trabajo “de chinos”, por lo que hay que
sopesar si realmente merece la pena llevarlo a cabo o es mejor, como ya comenté varias veces, VOLVER
A ESCANEAR BIEN EL LIBRO (claro que no siempre podemos disponer de él…).

background image

– 6 –

4. La opción OCR ClearScan de Adobe Acrobat

La opción ClearScan de Adobe Acrobat permite, a la vez que se lleva a cabo el proceso de OCR de

un documento, modificar la representación gráfica de los caracteres del documento sustituyéndolos por un
tipo de letra vectorial con la que se elimina el conocido “efecto de dientes de sierra” que se aprecia en los
bordes de los caracteres al realizar un zoom y acercar el texto del documento. El resultado tanto al
visualizar el documento como al imprimirlo es impecable y no veo razón alguna para no llevarlo a cabo
en cualquier libro escaneado, reprocesado y convertido a PDF.

Para utilizar la opción OCR ClearScan en Adobe Acrobat, basta con:

1. Desplegar el menú "Herramientas" (arriba a la derecha).

2. Desplegar la opción "Reconocer texto".

3. Seleccionar "En este archivo".

4. Aquí es recomendable probar a convertir rangos de páginas (por ejemplo, de 50 en 50 o de 100 en

100, o incluso sólo la página actual) e ir guardando cada modificación con distinto nombre si todo
va bien (por ejemplo, muchas veces no queda bien aplicarle ClearScan a la portada o
contraportada).

5. Otro detalle: las páginas apaisadas quedarán giradas 90º, por lo que es necesario ponerlas como

estaban con la opción “Rotar página” de Adobe Acrobat.

6. En el cuadro "Configuración", hacer clic en el botón Editar".

7. Y aquí finalmente hay que desplegar "Estilo de salida PDF" y seleccionar "ClearScan" (con

idioma Español, Inglés o lo que corresponda, y normalmente con 300ppp).

Un último consejo: no utilizar la opción "Herramientas - Proceso de documentos - Optimizar PDF

digitalizado" (salvo casos excepcionales), y menos aún antes de utilizar la opción de OCR ClearScan.
Esta opción realiza una optimización automática de las imágenes que componen el documento (de nuevo
recalcamos el hecho de que una página escaneada no es más que una imagen), y en la mayoría de los
casos lo único que se consigue es una pérdida de calidad de dichas imágenes. Si a simple vista no se
aprecia, basta con hacer un zoom para comprobar que el texto original escaneado se ha deteriorado
notablemente, apareciendo multitud de puntitos y sombras alrededor de los caracteres del texto.


Document Outline


Wyszukiwarka

Podobne podstrony:
Cómo se dice Sugerencias y soluciones a las actividades del manual de A2
Manual de Acupuntura
Manual de Laboratorio de Química (Instituto Tecnológico de Chihuahua)
Cómo se dice Sugerencias y soluciones a las actividades del manual de A2
Manual de Subtitle Workshop
Manual de html5 en espanol
Manual de meditacion del budismo zen
24782692 Manual de Hierbas Medic in Ales
Diego, Gerardo Manual de espumas (fragmento)
Manual de la Bruja Moderna Wicca
Manual de teologia Alexandre Z Bacich
288280837 Til De No Lleva Tilde Manual de Acentuacion Grafica de La Lengua Espanola Jhon Alexander M
MZ BK 350 Manual de reparatie
37254104 Manual de Espanol Coloquial
Dana H E Manual De Eclesiologia
Manual de Contabilidade Aplicada ao Setor Público 2ª Ediç2
Borges, Jorge Luis Manual De Zoologia Fantastica
Livro Contabilidade Empresas Tecnologia Da Informação Manual De Sobrevivência Da Nova Empresa

więcej podobnych podstron