Ayer os contábamos las críticas que estaba recibiendo la calidad de los documentos PDF de ‘Google Books’, los cuales no permiten acceder a los textos, y solamente podemos ver las páginas de los libros en forma de imágenes.

Estas imágenes proceden del escaneo de las obras a través de una tecnología propia, con la cual Google accede a los libros de diversas bibliotecas (en las cuales están las obras que ya no disponen de copyright) y, mediante un software OCR (Reconocimento Óptico de Caracteres), extrae los textos para que los usuarios podamos localizar cualquier término a través de las búsquedas en ‘Google Books‘.

Ahora, según se anuncia en este post, Google ha liberado, con licencia ‘Open Source’, parte de la tecnología OCR que utilizan dentro de la compañía. Se trata de ‘Tesserat OCR‘, y son unas librerías C/C++ de desarrollo, creadas originalmente por HP entre 1985 y 1995, y que fueron abandonadas hasta que Google y la Universidad de Nevada Las Vegas han retomado el proyecto.

‘Tesserat OCR’ es utilizado por diversos organismos, y por ejemplo la Universidad japonesa de Tohoku ofrece esta página con la cual podemos enviar cualquier imagen escaneada y obtener los textos a través de este software. Nosotros lo hemos probado con con esta página obtenida de un libro de Shakespeare de ‘Google Books’ y nos ha devuelto este texto con algunos fallos de reconocimiento. .

 Noticia obtenida de google.dirson.com