Avances en la producción de audiolibros con voces sintéticas
Como señalábamos hace unas semanas, Google está poniendo todo su empeño en conseguir una web cada vez más basada en la voz.
Según su blog sobre inteligencia artificial, sus investigaciones al respecto van muy avanzadas, y señalan un rápido progreso en cuanto al desarrollo de voces sintéticas basada en redes neuronales, con lo que están consiguiendo producir un sonido que suene más natural y humano.
Este paso ayudaría a que la relación con los asistentes de voz, altavoces inteligentes, incluso con audiolibros, podcasts, lectores de noticias, sea también más natural, creíble y fluida.
Para conseguir una voz más natural, menos robótica, su sistema basado en redes neuronales ha debido aprender a modelar la prosodia y los diferentes factores expresivos del habla, como la entonación o el ritmo.
La falta de esta comprensión de tales aspectos del habla humana es lo que hace que la tecnología de síntesis de voz haga que suene tan monótona y lineal.
La inserción de la prosodia en su sistema de síntesis de voz llamado Tacotron, es decir, un codificador de prosodia que captura las características del audio que son independientes de la información fonética y de los rasgos idiosincrásicos de cada hablante.
Esto haría que los diseñadores de interacción de voz pudieran usar su propia voz para personalizar la síntesis de voz en la que trabajan. El fin de estos avances en poder lograr algún día –no muy lejano- desarrollar un modelo de discurso expresivo artificial que pueda, por ejemplo, aprender las variaciones independientes de un texto en el estilo de un hablante (tono suave, tono alto, intenso, etc.).
Es un paso muy importante para lograr que las voces sintéticas suenen reales. Todo gracias a la inteligencia artificial que lograría no sólo reproducir un texto, sino también interpretarlo y reproducirlo con la prosodia y el estilo conversacional –además, dentro de un contexto determinado- de un ser humano.
Esto lograría en un futuro poder producir audiolibros y contenidos similares con un resultado óptimo a los oídos de los oyentes.