lunes, 18 de mayo de 2009

Digitalización de Documentos en Formato PDF

Problemática:
La digitalización de un documento en formato jpg, tif, gif, png, pcx o cualquier otro formato de acuerdo a la calidad de la imagen puede ocupar demasiado espacio de almacenamiento. El formato jpg es el que ofrece en algunos casos un mayor grado de compresión. Sin embargo si se desea realizar uná búsqueda sobre algún texto existente en el documento no es posible realizarlo.
Objetivo:
Digitalizar Oficios, Facturas, Contratos y conservar en un medio que permita realizar búsquedas sobre algún dato contenido en el documento además de que ocupe poco espacio de almacenamiento.
Solución:
Después de evaluar varias alternativas para solucionar este problema encontré que la solución está en convertir la imagen digitalizada en un archivo pdf (Portable Document Format). Este formato es universal ya que puede ser leído en cualquier plataforma incluyendo Sistemas Windows, Linux, Unix, Mac, ya que solamente requiere de un Lector (Acrobat Reader, Foxit Reader, etc.).

Ahora bien ¿Cómo se logra que el archivo ocupe poco espacio de almacenamiento y que además permita realizar búsquedas de texto?.

Tecnología OCR.
-----------------------------------
Tomado de la Wikipedia: El software de reconocimiento óptico de caracteres, abreviado habitualmente como OCR (Optical character recognition), extrae de una imagen los caracteres que componen un texto para almacenarlos en un formato con el cual puedan interactuar programas de edición de texto.Mientras que en una imagen los caracteres se describen indicando cada uno de los píxeles que los forman, al convertirlos a un formato de texto (por ejemplo ASCII o Unicode), pasan a estar descritos por un solo número, por lo que se produce una reducción significativa del espacio en memoria que ocupan.A partir de ahí el texto es reconocido como texto, de modo que se pueden buscar en él cadenas de caracteres, exportar el texto a un editor de textos, o a otras aplicaciones, etc. Actualmente, junto con el texto, se registra también el formato con el que ha sido escrito.
Fin Wikipedia.

http://es.wikipedia.org/wiki/Reconocimiento_%C3%B3ptico_de_caracteres
-----------------------------------
Para convertir una imagen digitalizada en un archivo pdf searchable (que permite realizar búsquedas) se utiliza un Software que puede tomar archivos de imagen existentes en formatos jpg, tif, png, etc o directamente del escaner; realizar el reconocimiento ocr y generar el archivo pdf. Existen algunos escaners que tienen un alimentador automático de papel (ADF) que permiten poner en una bandeja los documentos a digitalizar y con un botón realizar el escaneado.

El software evaluado se llama Readiris Pro 9.0, este software lo encontré en el CD de un escaner HP scanjet 8250, por lo general actualmente todos los escaners traen un software OCR y no se instala por defecto.

http://www.irislink.com/


Otro software que realiza esta función es el OmniPage Pro, este software lo encontré en un CD de impresora multifuncional Canon PIXMA MP160.

http://www.nuance.com/

No hay comentarios:

Publicar un comentario