12 diciembre 2023

Mejorar la propia voz con inteligencia artificial

Imagen en Freepik

Imagen en Freepik

Gracias a la inteligencia artificial, las voces humanas van a poder ser mejoradas dándole el tono, emoción, timbre, ritmo, etc., que deseemos.

Así, al igual que en las fotos, vamos a poder transformar la «imagen» (sonorabilidad) de nuestras voces  mediante el uso de voces sintéticas. Esto es a menos lo que proponen  en Elevenlabs con Speech to Speech (STS).

STS es una herramienta de conversión de voz que permite convertir la grabación de una voz en sonido como si fuera hablada por otra. Asimismo, facilita controlar las emociones, el tono y la pronunciación más allá de lo que es posible sólo con las indicaciones del habitual text-to-speech (TTS). En definitiva, lo que hace el STS es tomar el contenido y el estilo de voz contenidos en una grabación y cambiarle la voz.

Para convertir el habla de origen en voz de destino, necesitan expresar el contenido del habla de origen con las características del habla de destino. Una buena analogía serían las apps de intercambio de rostros que permiten mezclar una cara con la de otras personas para crear una imagen de ambas en una sola.

Son dos los objetivos básicos. El primero es extraer más emociones de una voz en particular. Al grabar un discurso altamente expresivo, la STS replicará las emociones y la entonación en otra voz. Dado que no todas las voces se pueden recrear para expresar emociones fuertes sólo con indicaciones del TTS, ahora puede hacer que un narrador profesional o un personaje de libro para niños sean más expresivos con la voz propia.

El otro objetivo o uso del STS es proporcionar una ‘referencia’ para la muestra de voz. Si bien los TTS generalmente clavan la entonación de inmediato, es posible que a veces se desee afinarla más. En este caso, el STS permite demostrar cómo entonar una frase en particular y luego conseguir que cualquier voz que se elija lo pronuncie de tal modo. Sus creadores señalan que esta funcionalidad se volverá más útil y optimizada con el tiempo.

Además, a esta funcionalidad le han agregado un diccionario de pronunciación, y que ha sido una de las características más solicitadas (de momento en inglés, claro). Ya han lanzado el soporte del diccionario de pronunciación a la interfaz de usuario de proyectos, lo que le permite cargar un archivo que especifica la pronunciación o sustituciones de palabras.

Un avance más que hace que todo vaya encaminado a que cada vez sea más difícil distinguir lo natural de lo artificial. Si bien también a que cualquier voz que escuchemos en cualquier contenido audio nos pueda resultar mucho más familiar gracias a este tipo de personalizaciones.

Leave a Reply