Mateo Cámara

FOLEY-VAE: GENERACIÓN DE EFECTOS DE AUDIO PARA CINE CON INTELIGENCIA ARTIFICIAL

Autores: Mateo Cámara and José Luis Blanco

Resumen: En esta investigación, presentamos una interfaz basada en Autocodificadores Variacionales entrenados con una amplia gama de sonidos naturales para la creación innovadora de efectos de Foley. El modelo tiene la capacidad de operar en tiempo real para transferir nuevas características sonoras a audios pregrabados o voz capturada por micrófono. Además, permite la modificación interactiva de las variables latentes, lo que facilita la realización de ajustes artísticos precisos y personalizados.

Tomando como punto de partida nuestro estudio previo sobre Autocodificadores Variacionales presentado en este mismo congreso el año pasado, profundizamos sobre una implementación existente: RAVE [1]. Este modelo se ha entrenado específicamente para la producción de efectos de audio. Se ha logrado generar con éxito una variedad de efectos de audio que abarcan desde sonidos electromagnéticos, de ciencia ficción, de agua… entre otros muchos que se publican junto a este trabajo.

Este enfoque innovador ha sido la base de la creación artística del primer cortometraje español con efectos de sonido asistidos por inteligencia artificial. Este hito ilustra de manera palpable el potencial transformador de esta tecnología en la industria cinematográfica, abriendo la puerta a nuevas posibilidades de creación de sonido y a la mejora de la calidad artística en las producciones fílmicas.

Abstract: In this research, we present an interface based on Variational Autoencoders trained with a wide range of natural sounds for the innovative creation of Foley effects. The model can transfer new sound features to prerecorded audio or microphone-captured speech in real time. In addition, it allows interactive modification of latent variables, facilitating precise and customized artistic adjustments.

Taking as a starting point our previous study on Variational Autoencoders presented at this same congress last year, we analyzed an existing implementation: RAVE [1]. This model has been specifically trained for audio effects production. Various audio effects have been successfully generated, ranging from electromagnetic, science fiction, and water sounds, among others published with this work.

This innovative approach has been the basis for the artistic creation of the first Spanish short film with sound effects assisted by artificial intelligence. This milestone illustrates palpably the transformative potential of this technology in the film industry, opening the door to new possibilities for sound creation and the improvement of artistic quality in film productions.

Vídeo utilizando Foley-VAE

IMAGE ALT TEXT HERE

Ejemplos de regeneración de audio

Material Original Reconstruído
Madera 1
Madera 2
Metal 1
Metal 2
Roca 1
Roca 2
Tela 1
Tela 2
Tierra 1
Tierra 2
Otros 1
Otros 2

Ejemplos de mezclas de audio

Mezcla Audio
Asfalto + madera
Asfalto + barro
Asfalto + madera
Alfombra + césped
Alfombra + madera
Alfombra + agua
Barro + rocas
Barro + madera
Césped + gravilla
Césped + madera
Madera + nieve
Nadera + charco
Madera + linoleo
Mármol + madera
Metal + hormigón
Metal + madera
Metal + charco
Madera + rocas