Navegando por los desafíos y oportunidades de las voces sintéticas
OpenAI lleva a cabo una nueva iniciativa que es posible que genere mucho debate.
Se trata de Voice Engine, que utiliza entrada de texto y una única muestra de audio de 15 segundos para generar habla con sonido natural que se parece mucho al hablante original. Así, con apenas esos quince segundos puede crear voces emotivas y realistas.
El proyecto comenzó a desarrollarse a finales de 2022 y ya se ha utilizado para potenciar las voces preestablecidas disponibles en la API de conversión de texto a voz, así como ChatGPT Voice y Read Aloud.
Alunas de sus implementaciones han sido, por ejemplo, brindar asistencia de lectura a niños y no lectores a través de ‘voces emotivas’ que suenan naturales y que representan una gama más amplia de hablantes de lo que es posible con voces preestablecidas.
Age of Learning, una empresa de tecnología educativa dedicada al éxito académico infantil, ha estado utilizando esto para generar contenido de voz en off preguionizado. También utilizan Voice Engine y GPT-4 para crear respuestas personalizadas en tiempo real para interactuar con los estudiantes.
Otro caso es el de poder traducir contenido, como vídeos y podcasts, para que los creadores y las empresas puedan llegar a más personas en todo el mundo, con fluidez y con sus propias voces. Uno de los primeros en adoptar esta función ha sido HeyGen, una plataforma de narración visual de IA que trabaja crear avatares personalizados con apariencia humana para una variedad de contenidos, desde marketing de productos hasta demostraciones de ventas.
Cuando se utiliza para traducir, Voice Engine conserva el acento nativo del hablante original: por ejemplo, generar inglés con una muestra de audio de un hablante francés produciría un habla con acento francés. Esta funcionalidad facilitaría el hecho de llegar a comunidades globales, mejorando la prestación de servicios esenciales en entornos remotos.
También se puede usar para ayudar a personas mudas o con problemas o afecciones que afectan el habla, de modo que supongan diferentes aplicaciones terapéuticas como, por ejemplo, impulsar dispositivos de “comunicación alternativa y aumentativa” (AAC) que permitan que las personas con estas discapacidades se comuniquen, como es el caso de Livox.
Un casi similar es el de poder ayudar a los pacientes a recuperar la voz. El Instituto de Neurociencias Norman Prince de Lifespan está explorando usos de la IA en contextos clínicos de este tipo. Médicos de esta institución han podido restaurar la voz de una paciente que perdió su fluidez en el habla debido a un tumor cerebral vascular, utilizando el audio de un vídeo grabado para una escuela.
Los socios que prueban Voice Engine tienen que aceptar las políticas de uso de OpenAI, que prohíben expresamente la suplantación de otro individuo u organización sin consentimiento o derecho legal. Además, sus términos con estos socios requieren el consentimiento explícito e informado del hablante original y no permiten que los desarrolladores creen formas para que los usuarios individuales creen sus propias voces.
Los socios también deben revelar claramente a su audiencia que las voces que escuchan están generadas por IA. Asimismo, han implementado un conjunto de medidas de seguridad, que incluyen marcas de agua para rastrear el origen de cualquier audio generado por Voice Engine, así como un monitoreo proactivo de cómo se utiliza.
Como hemos podido ver, ya hay resultados beneficiosos en las mencionadas plataformas que ya están utilizando esta tecnología, pero también preocupantes. Sin duda, esta tecnología generara y generará debate. La razón es que supone una evolución tecnológica que genera muchos beneficios derivados, pero a la vez muchas alertas y polémicas.
A pesar de las precauciones y medidas de seguridad, sabemos que la tecnología no está libre de ser igualmente copiada y utilizada de formas no tan valiosas como algunos de los casos que hemos visto.
Se evidencia que va a ser muy necesario no sólo regular estas tecnologías de voz sintética, sino también saber cómo establecer medidas eficaces para controlar su uso indebido.
Ya hemos visto algunos usos similares a modo de broma en redes sociales, pero el avance tecnológico que puede lograr la clonación perfecta de una voz puede suponer una serie de de incalculables riegos de todo tipo.