Panorámica de las principales herramientas IA utilizadas por la Industria del Audio en español
Un nuevo estudio desarrollado por Dosdoce.com, en colaboración con Proyecto451, analiza el ecosistema de las herramientas de creación y gestión de contenidos audio con voces sintéticas actualmente más utilizadas por los profesionales de la industria del audio en español (España, América Latina y mercado hispano de los Estados Unidos).
Descarga infografía este enlace (pdf)
Para llevar a cabo este análisis, hemos segmentado la muestra seleccionada de entidades de generadoras de voces sintéticas más utilizadas en los mercados en español en tres grupos:
-Modelos: Entidades que tienen su propio motor de síntesis de voz.
-Agregadores: Entidades que agregan varios modelos de terceros.
-Productoras: Entidades que usan los motores de los dos anteriores para ofrecer servicios alrededor de la producción.
Tras analizar la muestra, los datos del estudio reflejan que un 70% de entidades cuenta con motores propios de IA lo que confirma la fuerte implantación y aceleración de estos desarrollos tecnológicos. Por otro lado, el 30% restante de las entidades analizadas son productoras, es decir, entidades que usan los motores de otras empresas para ofrecer servicios de valor añadido alrededor de la generación de contenidos con voces sintéticas tales como el preprocesamiento de texto, los controles de postproducción automatizados, así como la revisión final con involucración de profesionales humanos para garantizar precisión, calidad y coherencia.
Para entender mejor esta clasificación, plataformas como Storytel o Spotify, que han firmado un acuerdo de colaboración estratégica con uno de los principales modelos como es ElevenLabs, son consideradas productoras en este análisis. Mientras que la plataforma Audible, que acaba de anunciar su fuerte apuesta por la producción de contenidos audio con voces sintéticas utilizando la tecnología propia de su empresa matriz Amazon, es consideraba como modelo en este análisis. Empresas españolas como Digitalks.ai, que han apostado por agregar varios motores para ofrecer una amplia gama de servicios de pre y post producción con el fin de ayudar a las entidades del mundo del libro a adentrarse en el mundo de las voces sintéticas, son consideradas productoras, mientras que entidades como Vocality.ai, que cuenta con más de 20 años de experiencia en la generación de contenidos sonoros con voces humanas y sintéticas y que cuenta con un motor de generación propio, es considerada como modelo en este estudio.
Dado que en los mercados en español se usan principalmente hoy en día entidades consideradas modelos y productoras, hemos descartado en este primer análisis segmentar las entidades que agregan modelos de terceros, pero prevemos que en los próximos meses la irrupción de un mayor número de entidades productoras, así como la entrada de agregadores a los mercados en español.
Por otro lado, entidades del mundo libro están utilizando herramientas como NotebookLM de Google para hacer resúmenes de manuscritos en versión audio de 5 a 7 minutos para ayudar a los estudios de producción a entender mejor de qué va el libro que van a transformar en audiolibro con el fin de seleccionar a voz más adecuada, mientras que otras utilizan herramientas como VoicePowered para transformar cualquier contenido en formato podcast con ayuda de IA generativa.
Distribución geográfica de la industria
El origen geográfico de estas herramientas muestra una notable y lógica concentración en mercados que llevan años apostando por generación de voces basadas en tecnologías IA. En este contexto, Estados Unidos lidera como sede del 58% de las herramientas analizadas, seguido por Europa con un 35% (principalmente a través de UK) y, complementariamente, con 9% procedente de Asia a través de países con India o Singapur que están trabajando en estos desarrollos de manera emergente. Esta distribución evidencia la brecha tecnológica existente entre diferentes regiones y sugiere oportunidades de crecimiento en mercados emergentes, particularmente en América Latina.
Predominio de Tecnologías TTS y personalización de la escucha
Una de las principales conclusiones del estudio es que la gran mayoría de las entidades analizadas (8 de cada 10) ofrecen servicios Text-To-Speech (TTS) a sus clientes ya sean autores, editoriales o plataformas de streaming, consolidándose como la funcionalidad más demandada entre los servicios disponibles. Las nuevas versiones TTS son cada vez más expresivas creando narraciones o conversaciones con diferentes capas de emoción, así como la posibilidad de recrear paisajes sonoros inmersivos para enriquecer la experiencia de escucha de los oyentes.
Otro de los desarrollos más singulares que hemos visto recientemente en la industria es la funcionalidad Voice Changer, que permite al oyente una escucha “a la carta”. El usuario puede seleccionar la voz que más le guste y cambiarla sobre cualquier audiolibro que ya esté grabado. Es decir, se puede escuchar la versión que esté grabada originalmente por un humano o cambiarla por una voz sintética entre una selección de ellas.
Otra de las principales conclusiones que se desprende del análisis es que el 44% de las herramientas permiten «diseñar voces a medida», ofreciendo a los usuarios la capacidad de crear perfiles de voces personalizados mediante la aplicación de diversos filtrados. Por otro lado, el 56% de las herramientas incluyen opciones para editar y modular las características de la voz seleccionada, permitiendo ajustarla según las preferencias específicas del proyecto sonoro.
Por último, en cuanto al impacto económico que suponen estas herramientas, la mayoría de los desarrollos analizados estiman que la producción de audiolibros con IA reduce el coste de producción desde un 50% al inicio del proyecto hasta un 80% en una segunda fase del mismo, en comparación con los procesos de producción con voces humanas.
Al ser una nueva industria en constante crecimiento, no tenemos ninguna duda de que no hemos detectado todas las entidades que forman parte de la misma. Os invitamos a que nos dejéis en los comentarios de este post los nombres y la URL de aquellos modelos, agregadores y productoras de generación de voces que conozcáis o en los que trabajéis que para que los podamos añadir a la siguiente edición del mapa. Gracias por adelantado.
Descarga infografía este enlace (pdf)