24 septiembre 2020

Inteligencia artificial para recrear sonidos en el cine

Artificial intelligence brain robotic system vector, por Freepik

En las producciones cinematográficas, algunos sonidos se hacen con los llamados  efectos  sala o sonido Foley.

Por lo general es una persona la responsable de crear una serie de sonidos en posproducción que mejoraren la experiencia de la audiencia, reforzando así la intención del director para una escena determinada.

Estos responsables de sonidos deben decidir qué sonido artificial captura la esencia tanto del sonido como de la acción representada en la escena. Pueden ser sonidos como el viento, un cristal que se rompe, la lluvia, una frenada, un disparo, algo que se mueve, etc.

La mayoría de las personas que cree que estos efectos de sonido falsos son reales. Pues bien, ahora se está estudiando hacer estos particulares sonidos con inteligencia artificial: el AutoFoley.

Se trataría de una herramienta de aprendizaje profundo totalmente automatizada que se puede utilizar para sintetizar una pista de audio representativa para diferentes escenas o vídeos.

AutoFoley se puede utilizar donde no hay un archivo de audio correspondiente asociado con una escena o en casos en los que es necesario identificar escenarios críticos y proporcionar una pista de sonido reforzada y sintetizada.

Los primeros experimentos han mostrado más del 73% de las personas puestas a prueba consideraron los sonidos generados con AutoFoley como original. Para llegar a esto se crearon dos modelos diferentes que podrían usarse en un primer paso que consiste en identificar las acciones en un vídeo y determinar su sonido apropiado.

Así, el primer modelo de aprendizaje automático extrae características de la imagen (como el color y el movimiento) de los fotogramas de los clips de acción de movimiento rápido para determinar un efecto de sonido apropiado.

El segundo modelo analiza la relación temporal de un objeto en marcos separados. Al utilizar el razonamiento relacional para comparar diferentes fotogramas a lo largo del tiempo, el segundo modelo puede anticipar qué acción está ocurriendo en el vídeo.

En un paso final, el sonido se sintetiza para que coincida con la actividad o movimiento predicho por uno de los modelos. Se usó AutoFoley para crear sonidos para 1.000 clips de películas cortas que capturan una serie de acciones comunes.

En el estudio, que se publicó en junio en el artículo IEEE Transactions on Multimedia, 41 de los 53 participantes fueron engañados por los sonidos generados por esta inteligencia artificial.

Para engañar a la audiencia, los efectos de sonido no solo deben sonar reales, sino que también deben sincronizarse con la acción de un vídeo.

Es por eso que los vídeos incrustados que fueron utilizados, como el sonido de la lluvia o un fuego crepitante son convincentes, pero el de un caballo corriendo, donde el recorte de audio y el trote del animal no se alinearon hace que el sonido parezca más falso.

Esto se debe a que el programa aún no se sincroniza del todo con el vídeo cuando las escenas contienen acciones aleatorias con variación en el tiempo (como escribir o las tormentas eléctricas).

No obstante, AutoFoley aún se encuentra en las primeras etapas, por lo que estas limitaciones es posible que se logren superar en un futuro.

Leave a Reply