martes, 24 de julio de 2007

Trucos: Aplicar OCR a una página previamente escaneada, con un Scanner HP-Scanjet

A menudo, los resultados de OCR de mi HP Scanjet (que usa una versión light de ReadIris y por tanto no puede "aprender" de sus errores) son tan penosos que prefiero escanear las páginas como imagen. Claro que, entonces, ¿cómo reconocer el texto? Hasta ahora usaba para ello un OCR externo, por ejemplo el ReadIris (viejo pero completo) de mi viejo escáner manual. Pero es evidente que tiene que haber una manera más fácil, ¿no?

Pues bien, algunos drivers de Scanjet (creo que el HP Photo And Imaging 2.0, pero no estoy seguro porque también tengo instalada la versión 1.2) incluyen un programa llamado DestTest.Exe (buscadlo en C:\Archivos de programa\Hewlett-Packard\Digital Imaging\Bin) que se encarga de "probar" la conexión entre Scanjet y el motor de OCR Readiris. Y, lo mejor de todo, es que podéis iniciar una sesión de OCR desde ahí mismo. Sólo tenéis que seguir estos sencillos pasos:

1)Set The Category For The Destination List: dejar como está
2)View the Destinations Found: Elegir el programa de destino, por ejemplo Word.
3)View the properties for the selected destination: Mejor no tocar nada.
4)Select image source: Si queréis que haga un OCR, elegid "TEXT" o "MIXED" en lugar de "PHOTO".
5)Select the source file(s): Se abre un cuadro de diálogo para elegir los archivos de origen. Como siempre, se pueden elegir varios archivos pulsando MAYÚSCULAS (selección continua) o CONTROL (selección discontinua) mientras se seleccionan. Si tenéis un directorio de páginas escaneadas con el asistente de escáner y cámara de Microsoft, que numera los archivos según los escanea, no tendréis problema ninguno.
5b) Después de elegir los archivos, el programa realiza el reconocimiento óptico, pero todavía no lo envía a Word.
6) Close DestTest after sending to destination?: Si marcáis esta opción, aseguráos de pulsar primero Save results before exit.
7) Send the source(s) to the destination: Este paso abrirá el Word (o el programa elegido) y le enviará el archivo de reconocimiento óptico de caracteres.

2 comentarios:

Jaime dijo...

zzzzzzz zzzzzzzz

ggggnnnnnññnnggggggggññññ
zz
zzzzz
zzzzzz

:-)

josemoya dijo...

He visto que también se incluye otro programa más adecuado: C:\Archivos de programa\Hewlett-Packard\Digital Imaging\DocProc\dpe-ocr.exe (es el motor readiris).
Personalmente, creo que estos programas son mucho mejores que el OCR directo de Microsoft Office Imaging o Adobe Acrobat Professional.