Avancées dans la génération de son d'action à partir de vidéos
Un nouveau modèle améliore la correspondance sonore avec les actions visuelles dans les vidéos.
― 14 min lire
Table des matières
Créer des sons réalistes pour des actions humaines, c'est super important dans plein de domaines, comme faire des effets sonores pour des films ou des jeux en réalité virtuelle. Beaucoup de méthodes actuelles pour générer des sons reposent sur l'idée que ce qu'on voit dans une vidéo correspond parfaitement à ce qu'on entend. Mais souvent, ce n'est pas du tout le cas. Beaucoup de sons se produisent hors écran ou ne correspondent pas à ce qui se passe visuellement. Ça fait que les sons générés ne s'alignent pas bien avec les visuels, créant de la confusion et un manque de contrôle sur les sons produits.
Pour régler ce problème, on vous présente un nouveau modèle appelé AV-LDM, qui se concentre sur la compréhension de la différence entre les sons directement liés aux actions et ceux qui font partie du bruit de fond. Notre modèle prend des vidéos silencieuses et crée un audio qui colle au contenu visuel en termes de signification et de timing. On a formé et testé notre modèle avec deux ensembles de données vidéo réels : Ego4D et EPIC-KITCHENS. Nos résultats montrent que notre modèle surpasse les autres en générant des sons qui s'alignent bien avec les actions vues dans les vidéos. En plus, il permet aux utilisateurs de contrôler les niveaux de bruit de fond dans l'audio généré, et il fonctionne aussi bien avec des clips vidéo de jeux vidéo.
Dans la vie de tous les jours, quand on interagit avec des objets, nos actions créent des sons. Par exemple, cliquer sur une souris, fermer une porte ou couper des légumes produit tous des sons distincts selon l'action, les objets impliqués et la force appliquée. Alors que la vidéo capture les actions en cours, elle donne aussi des indices sur quand ces actions se passent. Ça veut dire qu'on pourrait potentiellement créer des sons crédibles juste à partir de vidéos silencieuses. Cette capacité pourrait être utile dans plusieurs applications, y compris produire des effets sonores pour des films ou générer des sons dans des jeux vidéo et en réalité virtuelle.
Les sons du monde réel se composent généralement de deux types principaux : les sons d'action (qui viennent directement des actions visibles) et les sons d'ambiance (qui peuvent provenir de sources non visibles dans la vidéo). Les méthodes précédentes ne faisaient pas la distinction entre ces deux types de sons, ce qui a entraîné des problèmes. Notre modèle distingue les sons d'action des sons ambiants dans les vidéos d'entraînement, nous permettant de créer un meilleur audio.
On a découvert que, alors que les sons d'action se produisent dans des moments brefs, les Sons de fond ont tendance à persister. Ça nous permet de proposer une approche simple mais efficace. Pendant l'entraînement, notre modèle utilise à la fois la vidéo d'entrée et un segment audio provenant de la même vidéo longue à un moment différent. De cette façon, le modèle peut apprendre à se concentrer sur les indices d'action de la vidéo tout en minimisant l'interférence des sons de fond.
Lors des tests, on n'utilise pas de son de vérité de base. À la place, on trouve et récupère un clip audio de notre ensemble d'entraînement qui correspond de près à la vidéo en termes de similitude visuelle et sonore. Cette méthode fonctionne bien dans des scénarios où les sons ne peuvent pas être clairement liés aux visuels, par exemple, à l'extérieur où le vent souffle.
Les méthodes existantes pour générer des sons d'action reposent généralement soit sur des données propres qui couvrent un petit éventail de types d'action, soit sur des vidéos provenant de sources en ligne qui sont catégorisées d'une manière spécifique. On cherche à élargir la gamme de Génération de sons d'action à des actions plus naturelles et réelles. Pour cela, on utilise de grands ensembles de données vidéo égocentriques, qui sont des enregistrements réalisés du point de vue d'une personne. Ces vidéos offrent un aperçu plus proche des actions humaines par rapport aux vidéos filmées de loin, et elles viennent souvent avec des descriptions horodatées de ce qui se passe à chaque instant. On a soigneusement créé un ensemble de données appelé Ego4D-Sounds, qui se compose de 1,2 million de clips audio-visuels d'actions.
Dans notre travail, on voulait séparer implicitement les sons d'action des sons de fond pendant l'entraînement. On a réussi à faire ça en concevant le modèle de diffusion latente audio-visuelle (AV-LDM) qui utilise à la fois la vidéo et l'audio pour la génération de sons. On a testé notre modèle par rapport à diverses méthodes existantes et montré qu'il les surpasse significativement sur les ensembles de données Ego4D-Sounds et EPIC-KITCHENS. En plus, les évaluations humaines indiquent que notre modèle produit des sons qui correspondent bien aux vidéos.
Notre modèle génère non seulement des sons d'action réalistes, mais permet aussi aux utilisateurs de contrôler les niveaux de sons de fond. Cette capacité peut être particulièrement utile pour les jeux vidéo, où l'accent pourrait être entièrement mis sur les actions plutôt que sur le bruit environnant. Par exemple, quand un joueur coupe des légumes dans un jeu de cuisine, notre modèle peut fournir les bons sons de coupe tout en réduisant le bruit de fond indésirable.
Pour y parvenir, on devait créer une distinction claire entre les sons d'action et les bruits de fond. Le défi réside dans le fait que les sons d'action sont généralement brefs tandis que les sons de fond peuvent persister tout au long de la vidéo. Par exemple, quand quelqu'un ferme un paquet d'épices, le bruit de froissement représente l'action, tandis qu'un bruit de bourdonnement d'un réfrigérateur hors écran serait le son de fond.
Beaucoup de méthodes précédentes partaient du principe d'une correspondance un-à-un entre les visuels et les sons, mais ce n'est souvent pas vrai dans les vidéos de la vie quotidienne. Beaucoup de sons hors caméra, comme des conversations ou du trafic, ne reflètent pas ce qui se passe dans les visuels. Si un modèle est entraîné avec cette supposition, il peut générer des sons qui ne correspondent pas aux actions capturées dans une vidéo.
Pour améliorer la génération audio, on entraîne notre modèle d'une manière qui reconnaît la corrélation faible ou absente entre les visuels et les sons ambiants. On utilise nos observations sur la façon dont les sons d'action apparaissent en de courtes périodes par rapport à la façon dont les sons de fond tendent à persister tout au long de la vidéo. Cela nous amène à développer un système où on fournit au modèle un clip audio d'un moment différent dans la même vidéo pendant l'entraînement.
Au moment des tests, on récupère un segment audio pertinent basé sur la similitude visuelle. Cette méthode fonctionne particulièrement bien pour des situations où le bruit de fond n'est pas fortement lié aux actions de la vidéo, comme en extérieur.
L'objectif de notre modèle est d'élargir les possibilités de génération de sons d'action dans les vidéos prises dans des situations réelles. On s'appuie sur les avancées récentes dans les ensembles de données vidéo égocentriques pour atteindre nos objectifs. Bien que notre modèle ne soit pas spécifiquement conçu pour les vidéos égocentriques, ces ensembles de données aident à fournir une meilleure vue des actions humaines par rapport aux vidéos prises de loin. De plus, ces ensembles de données viennent avec des descriptions qui décrivent les actions en cours.
Notre modèle proposé, AV-LDM, peut générer des sons basés sur les actions dans les vidéos en utilisant à la fois les informations vidéo et audio. Les résultats indiquent que notre modèle surpasse d'autres méthodes existantes sur une variété de métriques, prouvant son efficacité dans la génération de sons.
Dans nos études, on a évalué notre modèle sur l'ensemble de données Ego4D-Sounds et on a constaté qu'il surpasse significativement les approches existantes. On a également mené une évaluation humaine pour recueillir des retours sur à quel point les sons générés étaient réalistes par rapport aux visuels. Les résultats étaient encourageants, car les participants ont préféré l'audio de notre modèle à celui des autres, confirmant ses capacités.
En plus, on a testé notre modèle sur l'ensemble de données EPIC-KITCHENS, trouvant un succès similaire. Notre modèle a produit de meilleurs résultats en termes de génération de sons par rapport à d'autres modèles, démontrant sa capacité à se généraliser à divers ensembles de données.
Une application excitante qu'on a explorée consiste à générer des effets sonores pour des jeux de réalité virtuelle. En testant notre modèle sur des vidéos d'un jeu de cuisine, on a constaté qu'il pouvait produire avec succès des sons synchronisés pour les actions, améliorant l'expérience utilisateur dans des environnements immersifs.
En conclusion, notre modèle répond au défi de générer des sons d'action qui s'alignent avec ce qui se passe dans les vidéos, surtout quand le bruit de fond peut interférer avec la clarté audio. La capacité de séparer les sons d'action des sons ambiants offre aux utilisateurs un contrôle sur ce qu'ils entendent en utilisant du contenu vidéo, que ce soit pour des films ou des jeux.
À l'avenir, on prévoit d'explorer comment on peut appliquer nos modèles de génération audio à des images synthétiques dans des applications de réalité virtuelle, renforçant encore l'expérience audio-visuelle pour les utilisateurs.
Comprendre les Sons d'Action
Dans nos expériences quotidiennes, on interagit régulièrement avec divers objets et actions qui produisent des sons. La façon dont ces sons sont perçus peut différer selon des facteurs comme le type d'action, les matériaux impliqués et l'environnement. Par exemple, le son produit en remuant une tasse de café diffère de celui de la coupe de légumes, même si les deux sont des actions courantes.
Beaucoup des tentatives de développer des systèmes d'apprentissage audio-visuels se sont concentrées sur la reconnaissance des activités humaines dans les vidéos. Ces systèmes ont tendance à être développés en utilisant des vidéos qui sont filmées d'un point de vue externe. En revanche, les vidéos égocentriques capturent des actions du point de vue de la personne effectuant l'activité, offrant une représentation plus proche des actions ainsi que des sons qui les accompagnent.
Quand on analyse la génération de sons, on doit considérer la relation entre les sons qu'on entend et les actions qu'on voit. Les sons d'action sont souvent brefs et rapides, tandis que les sons de fond peuvent durer plus longtemps et être moins pertinents par rapport à l'action principale. Cette complexité rend difficile la génération de sons qui soient à la fois significatifs et alignés avec les actions visibles dans la vidéo.
Démêler les Sons d'Action et d'Ambiance
Un obstacle clé à une génération de sons précise réside dans la séparation efficace des sons d'action des sons de fond. Les méthodes traditionnelles avaient tendance à fusionner les deux types, entraînant des problèmes où les sons générés ne reflétaient pas fidèlement l'action. En revanche, notre approche reconnaît que, tandis que les sons d'action sont éphémères, les sons ambiants peuvent persister tout au long de la vidéo, compliquant les processus d'entraînement et de génération.
Pour notre modèle, on a réalisé que l'utilisation de clips audio provenant de la même vidéo mais à des moments différents pouvait améliorer considérablement notre entraînement. Cela permet au modèle de reconnaître les sons ambiants qui pourraient être présents sans les laisser interférer avec les sons d'action.
Dans la pratique, cela signifie que lorsque nous entraînons notre modèle sur une vidéo silencieuse, nous pouvons lui fournir un audio extrait d'un clip voisin dans la même vidéo. Cette méthode permet à notre modèle d'apprendre à se concentrer sur les actions mises en évidence dans la vidéo tout en mettant de côté les sons de fond non pertinents qui n'ajoutent rien au contexte global de l'action.
Lors de la génération audio, le modèle récupère un clip sonore pertinent qui s'aligne bien avec l'entrée visuelle. En évaluant la similitude entre la vidéo silencieuse et les clips audio stockés, on peut récupérer le son le plus pertinent pour le contexte visuel donné.
Cette approche offre un chemin plus clair pour générer des sons d'action plus précis, car le modèle a maintenant la capacité d'isoler ce qui se passe visuellement de ce qui est du bruit inutile.
Applications Pratiques
Les implications de notre modèle s'étendent au-delà de la recherche. Dans les films et les jeux, le son joue un rôle vital dans la création d'expériences immersives. Avec la capacité de générer des sons d'action qui correspondent au contexte visuel, les cinéastes et les développeurs de jeux peuvent créer du contenu plus engageant.
En réalité virtuelle, où les interactions peuvent être complexes et impliquer plusieurs actions simultanées, notre modèle permet la génération dynamique de sons qui s'ajustent au fur et à mesure que les utilisateurs effectuent leurs actions. Par exemple, si un joueur dans un jeu de cuisine interagit avec divers ingrédients, les sons pourraient changer en conséquence pour correspondre à chaque action spécifique, améliorant leur expérience globale.
Notre modèle ouvre également la porte à des applications innovantes dans d'autres domaines, y compris l'éducation et les simulations d'entraînement, où des sons réalistes peuvent améliorer les environnements d'apprentissage en fournissant un retour aligné avec les actions.
Directions Futures
Pour l'avenir, on prévoit d'explorer tout le potentiel de notre système de génération de son d'action. Cela inclut de voir comment on peut appliquer notre modèle à des images et vidéos synthétiques dans des contextes de réalité virtuelle. En faisant cela, on vise à améliorer l'expérience audio-visuelle dans les environnements virtuels, rendant les interactions encore plus immersives et réactives.
De plus, on continuera à affiner notre modèle pour améliorer la qualité et la pertinence des sons générés. Ce travail continu vise à élargir la gamme de sons d'action capturés et à améliorer la performance du modèle dans divers contextes, faisant de lui un outil polyvalent pour de nombreuses applications.
En résumé, nos efforts pour créer un modèle capable de générer des sons réalistes tout en séparant les sons d'action des bruits de fond ont établi les bases d'avancées excitantes dans le film, le jeu et au-delà. En tirant parti des données de terrain et en se concentrant sur les subtilités des actions humaines et de la génération sonore, nous sommes bien positionnés pour mener la charge dans ce domaine innovant.
Titre: Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos
Résumé: Generating realistic audio for human actions is important for many applications, such as creating sound effects for films or virtual reality games. Existing approaches implicitly assume total correspondence between the video and audio during training, yet many sounds happen off-screen and have weak to no correspondence with the visuals -- resulting in uncontrolled ambient sounds or hallucinations at test time. We propose a novel ambient-aware audio generation model, AV-LDM. We devise a novel audio-conditioning mechanism to learn to disentangle foreground action sounds from the ambient background sounds in in-the-wild training videos. Given a novel silent video, our model uses retrieval-augmented generation to create audio that matches the visual content both semantically and temporally. We train and evaluate our model on two in-the-wild egocentric video datasets, Ego4D and EPIC-KITCHENS, and we introduce Ego4D-Sounds -- 1.2M curated clips with action-audio correspondence. Our model outperforms an array of existing methods, allows controllable generation of the ambient sound, and even shows promise for generalizing to computer graphics game clips. Overall, our approach is the first to focus video-to-audio generation faithfully on the observed visual content despite training from uncurated clips with natural background sounds.
Auteurs: Changan Chen, Puyuan Peng, Ami Baid, Zihui Xue, Wei-Ning Hsu, David Harwath, Kristen Grauman
Dernière mise à jour: 2024-07-25 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2406.09272
Source PDF: https://arxiv.org/pdf/2406.09272
Licence: https://creativecommons.org/publicdomain/zero/1.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.