Auriculares con IA traducen a varios hablantes a la vez y clonan sus voces en sonido 3D

Imagen de vídeo demo de la Paul G. Allen School en YouTube
Un equipo de investigadores de la Universidad de Washington ha diseñado un sistema de auriculares que traduce a varios hablantes a la vez, preservando, además, la calidad de las voces.
Dicho equipo construyó el sistema, llamado Spatial Speech Translation (traducción espacial del habla), con auriculares estándar con cancelación de ruido y micrófonos.
Los algoritmos del equipo separan a los diferentes hablantes en un espacio y los siguen mientras se mueven, traducen su discurso y lo reproducen con un retraso de 2 a 4 segundos.
El código del dispositivo de prueba está disponible para que otros lo desarrollen. Según Shyam Gollakota, profesor de la Universidad de Washington en la Escuela Paul G. Allen de Ciencias de la Computación e Ingeniería, otras tecnologías de traducción se basan en la suposición de que sólo una persona habla, pero en el mundo real, no es posible tener una sola voz robótica hablando por varias personas en una habitación.
Así, por primera vez se ha logrado preservar el sonido de la voz de cada persona, gracias a la clonación, y su ubicación. Por tanto, el sistema presenta tres innovaciones. En primer lugar, al encenderse, detecta inmediatamente cuántos hablantes hay en un espacio interior o exterior.
Después, el mismo sistema traduce el discurso y mantiene la calidad expresiva y el volumen de la voz de cada hablante mientras se ejecuta en algún dispositivo móvil (el equipo evitó usar la computación en la nube debido a las preocupaciones sobre la privacidad que genera en estos casos la clonación de voz).
Por último, cuando los hablantes mueven la cabeza, el sistema sigue rastreando la dirección del cada hablante y la calidad de sus voces a medida que cambian para después traducirla y reproducirla con un sistema 3D.
Sus creadores afirman que durante las pruebas el sistema funcionó correctamente al probarse en 10 entornos diferentes, interiores y exteriores. En una prueba con 29 participantes, los usuarios prefirieron este sistema a los modelos que no rastreaban a los hablantes en el espacio.
En otra prueba de usuario, la mayoría de los participantes prefirió un retraso de 3 a 4 segundos, ya que el sistema cometía más errores al traducir con un retraso de 1 a 2 segundos. Por tanto, el equipo está trabajando para reducir la velocidad de traducción en futuras versiones.
En la actualidad el sistema sólo funciona con lenguaje común, no con lenguaje especializado como la jerga técnica. Para este trabajo, el equipo trabajó con español, alemán y francés, pero trabajos previos con modelos de traducción han demostrado que pueden entrenarse para traducir alrededor de 100 idiomas.
Sin duda, esta tecnología supone un nuevo paso hacia la eliminación de las barreras lingüísticas. Además, las implicaciones de su implementación en eventos culturales (en el teatro, por poner un ejemplo) pueden llegar a ser muy sorprendentes, además de útiles.