Avancées dans la synthèse de son Foley avec l'apprentissage automatique
Un nouveau synthétiseur améliore la création d'effets sonores réalistes pour les médias.
― 7 min lire
Table des matières
- C'est Quoi le Son Foley ?
- Les Catégories de Sons
- Apprendre des Modèles Existants
- Amélioration du Modèle de Base
- Représentation Audio Améliorée
- Introduction des Embeddings Combinés
- Amélioration du Modèle VQ-VAE
- Conditionnement de Classe
- Ajustement aux Nouvelles Tailles d'Entrée
- Optimisation de PixelSNAIL
- Raffinement du Processus de Génération Audio
- Métriques d'Évaluation
- Ensemble de Développement
- Résultats Préliminaires
- Objectifs Futurs
- Conclusion
- Source originale
- Liens de référence
La synthèse sonore Foley, c'est le processus de création d'effets sonores réalistes pour les médias comme les films ou les émissions de radio. Dans ce projet, on a construit un synthétiseur neural qui peut produire des clips audio dans sept catégories différentes. Notre objectif est de rendre ces clips audio plus divers et riches en son, en améliorant la qualité des sons Foley synthétisés.
Son Foley ?
C'est Quoi leLe son Foley fait référence aux sons créés pour correspondre aux actions qui se passent à l'écran ou dans un contexte audio. Par exemple, quand un personnage marche, le son des pas est ajouté en post-production pour rendre la scène plus réaliste. Créer ces sons prend généralement beaucoup de temps et de ressources. Notre synthétiseur vise à accélérer ce processus et à le rendre moins cher en générant des sons directement grâce à l'apprentissage automatique.
Les Catégories de Sons
On s'est concentré sur sept types de sons Foley : aboiement de chien, pas, coup de feu, clavier, véhicule à moteur en mouvement, pluie, et éternuement/toux. Nos premiers tests montrent que notre modèle a mieux performé que les modèles existants dans six des sept catégories, ce qui indique que notre approche améliore efficacement la qualité et la diversité des sons.
Apprendre des Modèles Existants
On a regardé des travaux précédents dans le domaine de la synthèse sonore pour guider le développement de notre modèle. Une approche notable impliquait la combinaison de différents types de modèles d'apprentissage profond pour générer des sons pour des clips vidéo silencieux. D'autres modèles travaillant avec la génération texte-audio ont aussi été examinés. Ces modèles ont été entraînés pour comprendre l'audio et le texte simultanément, ce qui leur permet de générer des sons basés sur des prompts textuels.
Malgré leurs succès, ces modèles précédents peuvent ne pas fonctionner aussi bien pour nos besoins spécifiques, notamment pour générer des Foley spécifiques à chaque catégorie. Donc, on a dû améliorer les techniques existantes.
Amélioration du Modèle de Base
Pour démarrer notre projet, on a commencé par reproduire le modèle de base fourni par une organisation de challenge sonore. Après avoir confirmé qu'on pouvait reproduire leurs résultats, on a commencé à apporter des améliorations pour optimiser la qualité et la diversité des sons.
Notre premier ajustement a été le taux d'apprentissage du modèle, qui était initialement trop élevé. On a mis en place un planificateur de taux d'apprentissage pour aider le modèle à apprendre plus efficacement. On a également ajusté notre schéma d'entraînement pour qu'il fonctionne sur du matériel grand public, permettant un entraînement dans des délais raisonnables.
Représentation Audio Améliorée
Le modèle de base transformait l'audio en une représentation plus simple connue sous le nom de melspectrogrammes. Cependant, on pensait que cette compression pouvait faire perdre des informations précieuses. Pour y remédier, on a incorporé un modèle pré-entraîné pour améliorer notre entrée audio. Cela utilisait des caractéristiques audio plus détaillées, ce qui a permis à notre synthétiseur d'apprendre mieux et de produire des sons plus précis.
Introduction des Embeddings Combinés
Notre nouvelle représentation d'entrée audio, appelée Embeddings Combinés (CEmbed), combinait des melspectrogrammes traditionnels avec les nouvelles caractéristiques audio. Cette mise à niveau a nécessité de réentraîner nos modèles mais a finalement fourni une entrée plus riche et plus informative pour générer des sons.
Amélioration du Modèle VQ-VAE
On a adopté une technique appelée Variational Autoencoder (VQ-VAE) pour améliorer la manière dont notre modèle apprend à générer des sons. Cela impliquait de modifier la façon dont notre modèle capture différentes caractéristiques sonores. Notre modèle amélioré, nommé MVQVAE, inclut des fonctionnalités pour capturer des informations sonores plus détaillées et sépare les catégories de son plus efficacement.
Conditionnement de Classe
Un défi avec l'ancien modèle était qu'il ne tenait pas compte de la catégorie sonore spécifique pendant l'apprentissage. On a introduit le conditionnement de classe pour aider le modèle à reconnaître les différences entre les diverses classes sonores. Cela impliquait d'ajouter une couche pour prédire à quelle catégorie de son chaque entrée appartient, améliorant ainsi la capacité du modèle à générer des résultats de qualité.
Ajustement aux Nouvelles Tailles d'Entrée
Avec les nouveaux CEmbeds étant plus grands que les précédents melspectrogrammes, on a dû ajuster l'architecture de notre modèle en conséquence. Cela nous a poussés à augmenter le nombre de représentations sonores que le modèle pouvait gérer. Ajouter plus de couches a aidé le modèle à comprendre les informations plus riches dans la nouvelle entrée, ce qui a entraîné une meilleure génération de sons.
Optimisation de PixelSNAIL
Un autre composant clé de notre synthétiseur est un modèle appelé PixelSNAIL, qui génère des sons en séquence. Quand on a appliqué ce modèle à nos nouveaux CEmbeds, on a rencontré des défis en raison d'exigences computationnelles accrues. Donc, on a développé une approche appelée "Zen Mode" pour améliorer l'efficacité tout en maintenant la qualité de la génération sonore.
Raffinement du Processus de Génération Audio
On a aussi amélioré le modèle Hifi-GAN qui convertit les sorties de notre synthétiseur en ondes audio réelles. Cela a impliqué de réentraîner HiFi-GAN depuis le début pour gérer efficacement notre nouveau format d'entrée. En masquant certaines parties des entrées audio pendant l'entraînement, on s'est assuré que le modèle puisse apprendre à gérer les imperfections de nos sons générés.
Métriques d'Évaluation
Pour mesurer le succès de notre modèle, on a utilisé deux méthodes d'évaluation principales : la Distance Audio Frechet (FAD) et des tests d'écoute subjectifs. FAD fournit une mesure quantitative de la qualité audio générée, tandis que les tests subjectifs impliquent des évaluateurs humains jugeant à quel point la sortie ressemble à de vrais sons.
Ensemble de Développement
Nos données d'entraînement provenaient d'une collection de clips sonores comprenant 4,850 fichiers audio mono. Ces clips ont été catégorisés dans les types de sons mentionnés précédemment. Pour suivre les règles du challenge, on ne pouvait pas utiliser d'ensembles de données supplémentaires pour l'entraînement.
Résultats Préliminaires
On a réussi à entraîner notre modèle et on a découvert qu'il surpassait le modèle de base dans toutes les catégories sonores. À travers divers tests, on a réussi à atteindre une meilleure qualité sonore comme l'indiquent nos métriques d'évaluation.
Objectifs Futurs
Malgré notre succès, il reste encore des obstacles à surmonter. La nature complexe de notre système implique plusieurs modèles qui doivent bien fonctionner ensemble. On a rencontré des défis, notamment concernant la Stabilité de l'entraînement de nos modèles avec des tailles d'entrée plus grandes.
Il y a une opportunité d'explorer des approches alternatives à la génération sonore qui pourraient éviter certaines des limitations rencontrées avec nos modèles actuels.
Conclusion
En résumé, notre travail vise à créer un synthétiseur qui génère des sons Foley réalistes de manière efficace et efficiente. En utilisant des représentations audio avancées et en peaufinant nos modèles, on espère produire des sons qui se comparent aux méthodes traditionnelles de création de Foley. Nos travaux futurs se concentreront sur la résolution des défis rencontrés lors de l'entraînement du modèle et sur l'exploration de nouvelles méthodologies qui pourraient encore améliorer la qualité et la diversité des sons générés.
Titre: Exploring Domain-Specific Enhancements for a Neural Foley Synthesizer
Résumé: Foley sound synthesis refers to the creation of authentic, diegetic sound effects for media, such as film or radio. In this study, we construct a neural Foley synthesizer capable of generating mono-audio clips across seven predefined categories. Our approach introduces multiple enhancements to existing models in the text-to-audio domain, with the goal of enriching the diversity and acoustic characteristics of the generated foleys. Notably, we utilize a pre-trained encoder that retains acoustical and musical attributes in intermediate embeddings, implement class-conditioning to enhance differentiability among foley classes in their intermediate representations, and devise an innovative transformer-based architecture for optimizing self-attention computations on very large inputs without compromising valuable information. Subsequent to implementation, we present intermediate outcomes that surpass the baseline, discuss practical challenges encountered in achieving optimal results, and outline potential pathways for further research.
Auteurs: Ashwin Pillay, Sage Betko, Ari Liloia, Hao Chen, Ankit Shah
Dernière mise à jour: 2023-09-08 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2309.04641
Source PDF: https://arxiv.org/pdf/2309.04641
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.interspeech2023.org/call-for-papers
- https://colorbrewer2.org
- https://github.com/ankitshah009/foley-sound-synthesis_DCASE_2023
- https://huggingface.co/m-a-p/MERT-v1-330M
- https://wandb.ai/audio-idl/Foley-sound-synthesis_DCASE_2023-baseline_dcase2023_task7_baseline
- https://drive.google.com/drive/folders/10LdqxEeVerVNEqcAb3uWjjpxnlmH27Jd