26 octubre 2021

Inteligencia artificial para descifrar manuscritos antiguos

Imagen de Joanjo Puertos Muñoz en Pixabay

La biblioteca de la Abadía de St. Gallen, en Suiza, alberga alrededor de 160.000 volúmenes, tanto literarios como históricos, que datan del siglo VIII.

Todos son textos escritos a mano, muchos en idiomas que difícilmente se hablan hoy en día. Su conservación es fruto del esfuerzo de bibliotecas y monasterios de todo el mundo.

Aunque son en parte accesibles al público a través del desarrollo de imágenes digitales, nunca se ha leído una cantidad inimaginable de material. Según los expertos, sería todo un tesoro de información que se habría quedado oculto.

Gracias a la inteligencia artificial se han propuesto automatizar la transcripción de los textos de un modo que imite la percepción de la página a través de los ojos del lector experto y proporcione una lectura rápida y texto con capacidad de búsqueda.

Se trata de una combinación de métodos tradicionales de aprendizaje automático y psicofísica visual. El resultado es  una nueva forma de medir los vínculos entre los estímulos físicos y los fenómenos mentales, como el tiempo que tarda un lector experto en reconocer un carácter específico, evaluar la calidad de la escritura a mano o identificar el uso de algunas abreviaturas.

El equipo responsable estudió así manuscritos latinos digitalizados copiados por monjes del claustro de San Gall durante el siglo IX. Los lectores primero ingresaron sus transcripciones manuales en una interfaz de software especialmente diseñada, mientras que el equipo de investigadores midió los tiempos de reacción durante esta transcripción. La idea era comprender qué palabras, caracteres y pasajes fueron fáciles o difíciles de descifrar.

Según afirman sus desarrolladores, incluir este tipo de datos crea una conexión más consistente con el comportamiento humano, reduce los errores y proporciona una lectura más precisa y, por lo tanto, más realista del texto.

Es una estrategia que no se usa normalmente en el aprendizaje automático. Etiquetan los datos a través de esas medidas psicofísicas, que provienen directamente de estudios psicológicos de percepción. Luego informan a la red de las dificultades comunes para percibir estos caracteres y así pueden hacer correcciones basadas en estas mediciones.

Sin embargo, a pesar del trabajo para mejorar la precisión de las transcripciones, por ejemplo en relación con documentos dañados o incompletos, o la consideración de ilustraciones u otros aspectos de una página que podrían ser una fuente de confusión, no todo es tan sencillo.

No obstante, lo primero es preservar estas obras, hacerlas accesibles y, en algún momento, integrar las traducciones para integrarlas en los procesos culturales que aún están en curso.

Leave a Reply