Pucha que es molesto cuando uno quiere extraer información de un pdf y te topas con que el lindo en realidad son páginas escaneadas. "Oh no!, el horror." Pero bueh, pensarás, son unas pocas líneas puedo transcribirlo. ¿Qué tal si no tienes tiempo? Supongamos que estás estudiando pedagogía y que necesitas realizar varias citas en tu trabajo de 45 páginas, supongamos también que lo debes entregar el próximo lunes y que estás en semana de exámenes. Esos minutos que perderás tipeando son valiosos. Así que lo que puedes hacer es usar un OCR.
- Don Patrón Miguel, yo uso linux y no sé si existen herramientas que ayudarme con esta tarea.
- Tranquilo mi paisano amigo, porque en linux quizás no hayan herramientas tan a-prueba-de... como las que ves en la ventana, pero tienes a un titán, a un coloso entre gigantes, y esa bestia es Tesseract.
Tesseract es un motor OCR que fue desarrollada entre 1984-1995 por HP (no hablo de Harry Potter, si no que Hewlett Packard Laboratoris), siendo portada a windows en '96 y reescrito en C++ en el '98, para luego ser adquirida por el ya poderoso Google.
Desde que Google le puso una mano encima, esta herramienta se ha estado liberando. Hoy no posee las mismas dependencias privadas que tenía antes, por lo que es un gran consuelo para los adoradores-fanáticos-esclavos de software-libre, la unica disputa que se mantiene hoy es que esta herramienta posee una licencia Apache, la que no es considerada libre por la FSF (Free software foundation) aunque los chicos de apache dicen que sí.
- Están listos?
- Sí Miguel Eduardo estamos listos.
- No los escucho!.
- Sí Miguel Eduardo estamos listos!!!
- Uhh!!
Instalación
Para los chicos de debian y derivados, RedHat y secuasez, Suse y hermanos, pueden buscarlo en repositorios. Si no lo encuentran... uhh.. tendrán que arremangarse las camisas, acicalar los dedos, porque habrá que compilar!
Como uso Slackware, me gusta la chuchoca este de andar compilando, así que así será explicado. Como para los chicos de la vieja escuela.
Adquerimos el software en el sitio oficial: http://code.google.com/p/tesseract-ocr/ Está disponible (hoy 22 de Junio del 2010) la versión 2.04 como oficial. A mí la compilación no me funcionó, así que lo bajé del svn.
svn checkout http://tesseract-ocr.googlecode.com/svn/trunk/ tesseract-ocr-read-onlyLa compilación es sencilla ("make install" se realiza como administrador):
./configure make make install
- WTF!! Miguel, no funciona!!
- Ajam! es porque no leíste el README.
En él te dicen que para que el programa funcione necesita configurar un idioma. Estos están en http://code.google.com/p/tesseract-ocr/downloads/list. Para quienes hablamos y leemos en español es un archivo llamado tesseract-2.00.spa.tar.gz (Podría copiar el url para que lo descargaras de forma directa, pero hoy me siento cruel muajajaja...muajajaja -> Trata aquí). Este motor posee más de 6 idiomas distintos y puedes entrenarlo para añadir más.
Los archivos que descomprimiste deberás guardarlo en "$Directorio_donde_instalaste"/share/tessdata (si usaste un configure a secas, estará en /usr/local/share/tessdata.
Uso
Este programa se debe usar sólo con archivos TIFF. Así que si tienes un jpg, tendrás que usar gimp o el comando "convert TuImagen.jpg -depth 8 TuImagen.tiff"
tesseract-l
Ejemplo:
tesseract hola.tiff algo -l spaY tendré un archivo llamado algo.txt con el contenido de la imagen.
Corrección, debo rectificar. HP liberó el código en el 2005 y Google lo mantiene actualmente.
0 comentarios:
Publicar un comentario