16 julio 2025

Inteligencia artificial para ofrecer contenidos audio locales

Imagen de Alexas_Fotos en Pixabay

Imagen de Alexas_Fotos en Pixabay

La empresa finlandesa de medios de comunicación Sanoma utiliza Azure AI Speech Service y GPT-4 de OpenAI para mejorar sus pronósticos meteorológicos.

Este nuevo método proporciona actualizaciones meteorológicas localizadas para 26 regiones, tres veces al día, mediante voces sintéticas. Esto mejora la eficiencia y reduce los costos de entrega de informes meteorológicos, mejorando a la vez la experiencia del oyente y aumentando los ingresos por publicidad local.

El coste de contar con departamentos meteorológicos independientes era demasiado elevado. Limitados a los pronósticos nacionales durante las emisiones de noticias, reconocieron el valor de las actualizaciones regionales, pero necesitaban una forma rentable y eficiente de distribuirlas en múltiples regiones.

Es así como la empresa utilizó GPT-4o de Azure OpenAI para generar informes meteorológicos locales a partir de los datos proporcionados por el Instituto Meteorológico Finlandés. Estos pronósticos son interpretados por una voz sintética realista, creada mediante Voz Neural Personalizada (CNV), parte de Azure AI Speech Service. Este sistema automatizado permite a Sanoma producir pronósticos localizados en 26 regiones.

No sólo ofrece el tiempo de una manera local más acertada, además, Sanoma utiliza voces sintéticas para leer sus artículos de noticias y resúmenes generados por IA su voz sintética. El 70% de usuarios encuestados afirmó que la encontró ideal para las noticias.

Sanoma realizó una encuesta antes del lanzamiento de la voz sintética para determinar la actitud de los oyentes ante el cambio. Descubrió que sólo el 11 % de los encuestados había escuchado noticias o artículos de audio leídos por una voz de IA. Además, tres cuartas partes afirmaron asociar los medios generados por IA con artificialidad y falsedad.

Sin embargo, cuando los encuestados escucharon las muestras de audio sintético reproducidas por Sanoma, la gran mayoría tuvo una percepción positiva. Al pedirles que adivinaran a partir de una muestra, los usuarios eran más propensos a pensar que sonaba más como un humano que como una máquina.

Para desarrollar el servicio meteorológico de IA, Sanoma tuvo que superar varios desafíos. Uno de ellos era que todos los pronósticos debían tener la misma duración para que encajaran en la transmisión nacional de noticias en directo.

Diseñaron un informe meteorológico local con sólo cinco frases, cada una definida por una estructura de indicaciones estricta. Para entrenar la voz, utilizaron un script base de Microsoft y luego añadieron algunas frases personalizadas, conocidas como «expresiones de entrenamiento», para que fuera más relevante para los  informes meteorológicos, lo que suma un total de unas 750 expresiones locales.

El equipo descubrió que cuando la voz se basaba en una personalidad conocida de la radio, los oyentes la encontraban menos convincente. Por lo tanto, entrenaron el modelo utilizando voces de presentadores locales anteriores que ya no eran conocidos.

Durante las pruebas, el equipo detectó algunos problemas de pronunciación podrían deberse a que el finés no es una lengua muy común y, en consecuencia, se realizan menos pruebas con voces finlandesas, y menos que diferencien el finés en diferentes regiones. El software de IA de Microsoft les ayudó a solucionar este problema.

Un claro ejemplo de buen uso de IA para producir contenidos audio locales en diferentes acentos, algo inasumible económicamente con voces humanas

Un ejemplo que se puede trasladar al mundo del audiolibro produciendo un mismo libro en múltiples acentos de toda Hispanoamérica, desde acento andaluz o murciano pasando por argentino, colombiano o mexicano, entre otros, personalizando así la experiencia de escucha.

Leave a Reply