28 noviembre 2019

DeepZen. Voces sintéticas casi humanas

DeepZen, una compañía con sede en Londres, ha desarrollado un sistema basado en el aprendizaje profundo que puede generar grabaciones de audio completas de libros y otras aplicaciones relacionadas con la voz que son prácticamente humanas, incluyendo la entonación de las diferentes emociones.

Una vez entrenada su inteligencia artificial, el sistema analiza automáticamente el texto, lo convierte en voz y agrega la emoción necesaria para cada línea y palabra. Lo que hace es enseñar a las máquinas a hablar como lo hacen los humanos según sus reglas de puntuación, pausas, emociones y otros aspectos diferentes del habla.

Es decir, a diferencia de las voces robóticas, la tecnología de DeepZen sintetiza la voz humana para replicar nuestras emociones y entonaciones.

Los editores también pueden modificar fácilmente las grabaciones generadas por la IA a través de su software patentado para transmitir más de cerca la emoción en cada línea y página específica. A su vez también pueden seleccionar varias voces que tengan en cuenta el género y los diferentes acentos para producir distintas versiones de un mismo libro.

Actualmente, el sistema de DeepZen tiene sólo cinco voces, que pueden tener diferentes acentos y hablar en diferentes idiomas, pero pronto también podrán simular voces conocidas a partir de una breve grabación que pueden imitar para obtener el tono correcto, pausas, tempo y expresiones deseadas.

Además de dar estas soluciones de voz, también producen  y coeditan  audiolibros, así como ofrecer voces para doblajes cortos para anunciantes, voces en off para la edición de vídeo y voces para los videojuegos y animación.

También han desarrollado herramientas de texto a voz que ayudan a la capacitación y educación online  al agregar funciones de voz a aplicaciones de alfabetización, plataformas de aprendizaje electrónico (e-learning), y herramientas de aprendizaje digital.

El sistema también puede ayudar a las personas que son ciegas o sufren de discapacidad visual, o que tienen discapacidades de lectura a tener mejor  acceso a los libros.

Un nuevo avance en el desarrollo de voces sintéticas.

Leave a Reply