Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes# Son# Traitement de l'audio et de la parole

Avancées dans la synthèse de son Foley avec l'apprentissage automatique

Un nouveau synthétiseur améliore la création d'effets sonores réalistes pour les médias.

― 7 min lire


Synthèse Sonore Foley deSynthèse Sonore Foley deNouvelle Générationautomatique.sonores grâce à l'apprentissageRévolutionner la création d'effets
Table des matières

La synthèse sonore Foley, c'est le processus de création d'effets sonores réalistes pour les médias comme les films ou les émissions de radio. Dans ce projet, on a construit un synthétiseur neural qui peut produire des clips audio dans sept catégories différentes. Notre objectif est de rendre ces clips audio plus divers et riches en son, en améliorant la qualité des sons Foley synthétisés.

C'est Quoi le Son Foley ?

Le son Foley fait référence aux sons créés pour correspondre aux actions qui se passent à l'écran ou dans un contexte audio. Par exemple, quand un personnage marche, le son des pas est ajouté en post-production pour rendre la scène plus réaliste. Créer ces sons prend généralement beaucoup de temps et de ressources. Notre synthétiseur vise à accélérer ce processus et à le rendre moins cher en générant des sons directement grâce à l'apprentissage automatique.

Les Catégories de Sons

On s'est concentré sur sept types de sons Foley : aboiement de chien, pas, coup de feu, clavier, véhicule à moteur en mouvement, pluie, et éternuement/toux. Nos premiers tests montrent que notre modèle a mieux performé que les modèles existants dans six des sept catégories, ce qui indique que notre approche améliore efficacement la qualité et la diversité des sons.

Apprendre des Modèles Existants

On a regardé des travaux précédents dans le domaine de la synthèse sonore pour guider le développement de notre modèle. Une approche notable impliquait la combinaison de différents types de modèles d'apprentissage profond pour générer des sons pour des clips vidéo silencieux. D'autres modèles travaillant avec la génération texte-audio ont aussi été examinés. Ces modèles ont été entraînés pour comprendre l'audio et le texte simultanément, ce qui leur permet de générer des sons basés sur des prompts textuels.

Malgré leurs succès, ces modèles précédents peuvent ne pas fonctionner aussi bien pour nos besoins spécifiques, notamment pour générer des Foley spécifiques à chaque catégorie. Donc, on a dû améliorer les techniques existantes.

Amélioration du Modèle de Base

Pour démarrer notre projet, on a commencé par reproduire le modèle de base fourni par une organisation de challenge sonore. Après avoir confirmé qu'on pouvait reproduire leurs résultats, on a commencé à apporter des améliorations pour optimiser la qualité et la diversité des sons.

Notre premier ajustement a été le taux d'apprentissage du modèle, qui était initialement trop élevé. On a mis en place un planificateur de taux d'apprentissage pour aider le modèle à apprendre plus efficacement. On a également ajusté notre schéma d'entraînement pour qu'il fonctionne sur du matériel grand public, permettant un entraînement dans des délais raisonnables.

Représentation Audio Améliorée

Le modèle de base transformait l'audio en une représentation plus simple connue sous le nom de melspectrogrammes. Cependant, on pensait que cette compression pouvait faire perdre des informations précieuses. Pour y remédier, on a incorporé un modèle pré-entraîné pour améliorer notre entrée audio. Cela utilisait des caractéristiques audio plus détaillées, ce qui a permis à notre synthétiseur d'apprendre mieux et de produire des sons plus précis.

Introduction des Embeddings Combinés

Notre nouvelle représentation d'entrée audio, appelée Embeddings Combinés (CEmbed), combinait des melspectrogrammes traditionnels avec les nouvelles caractéristiques audio. Cette mise à niveau a nécessité de réentraîner nos modèles mais a finalement fourni une entrée plus riche et plus informative pour générer des sons.

Amélioration du Modèle VQ-VAE

On a adopté une technique appelée Variational Autoencoder (VQ-VAE) pour améliorer la manière dont notre modèle apprend à générer des sons. Cela impliquait de modifier la façon dont notre modèle capture différentes caractéristiques sonores. Notre modèle amélioré, nommé MVQVAE, inclut des fonctionnalités pour capturer des informations sonores plus détaillées et sépare les catégories de son plus efficacement.

Conditionnement de Classe

Un défi avec l'ancien modèle était qu'il ne tenait pas compte de la catégorie sonore spécifique pendant l'apprentissage. On a introduit le conditionnement de classe pour aider le modèle à reconnaître les différences entre les diverses classes sonores. Cela impliquait d'ajouter une couche pour prédire à quelle catégorie de son chaque entrée appartient, améliorant ainsi la capacité du modèle à générer des résultats de qualité.

Ajustement aux Nouvelles Tailles d'Entrée

Avec les nouveaux CEmbeds étant plus grands que les précédents melspectrogrammes, on a dû ajuster l'architecture de notre modèle en conséquence. Cela nous a poussés à augmenter le nombre de représentations sonores que le modèle pouvait gérer. Ajouter plus de couches a aidé le modèle à comprendre les informations plus riches dans la nouvelle entrée, ce qui a entraîné une meilleure génération de sons.

Optimisation de PixelSNAIL

Un autre composant clé de notre synthétiseur est un modèle appelé PixelSNAIL, qui génère des sons en séquence. Quand on a appliqué ce modèle à nos nouveaux CEmbeds, on a rencontré des défis en raison d'exigences computationnelles accrues. Donc, on a développé une approche appelée "Zen Mode" pour améliorer l'efficacité tout en maintenant la qualité de la génération sonore.

Raffinement du Processus de Génération Audio

On a aussi amélioré le modèle Hifi-GAN qui convertit les sorties de notre synthétiseur en ondes audio réelles. Cela a impliqué de réentraîner HiFi-GAN depuis le début pour gérer efficacement notre nouveau format d'entrée. En masquant certaines parties des entrées audio pendant l'entraînement, on s'est assuré que le modèle puisse apprendre à gérer les imperfections de nos sons générés.

Métriques d'Évaluation

Pour mesurer le succès de notre modèle, on a utilisé deux méthodes d'évaluation principales : la Distance Audio Frechet (FAD) et des tests d'écoute subjectifs. FAD fournit une mesure quantitative de la qualité audio générée, tandis que les tests subjectifs impliquent des évaluateurs humains jugeant à quel point la sortie ressemble à de vrais sons.

Ensemble de Développement

Nos données d'entraînement provenaient d'une collection de clips sonores comprenant 4,850 fichiers audio mono. Ces clips ont été catégorisés dans les types de sons mentionnés précédemment. Pour suivre les règles du challenge, on ne pouvait pas utiliser d'ensembles de données supplémentaires pour l'entraînement.

Résultats Préliminaires

On a réussi à entraîner notre modèle et on a découvert qu'il surpassait le modèle de base dans toutes les catégories sonores. À travers divers tests, on a réussi à atteindre une meilleure qualité sonore comme l'indiquent nos métriques d'évaluation.

Objectifs Futurs

Malgré notre succès, il reste encore des obstacles à surmonter. La nature complexe de notre système implique plusieurs modèles qui doivent bien fonctionner ensemble. On a rencontré des défis, notamment concernant la Stabilité de l'entraînement de nos modèles avec des tailles d'entrée plus grandes.

Il y a une opportunité d'explorer des approches alternatives à la génération sonore qui pourraient éviter certaines des limitations rencontrées avec nos modèles actuels.

Conclusion

En résumé, notre travail vise à créer un synthétiseur qui génère des sons Foley réalistes de manière efficace et efficiente. En utilisant des représentations audio avancées et en peaufinant nos modèles, on espère produire des sons qui se comparent aux méthodes traditionnelles de création de Foley. Nos travaux futurs se concentreront sur la résolution des défis rencontrés lors de l'entraînement du modèle et sur l'exploration de nouvelles méthodologies qui pourraient encore améliorer la qualité et la diversité des sons générés.

Source originale

Titre: Exploring Domain-Specific Enhancements for a Neural Foley Synthesizer

Résumé: Foley sound synthesis refers to the creation of authentic, diegetic sound effects for media, such as film or radio. In this study, we construct a neural Foley synthesizer capable of generating mono-audio clips across seven predefined categories. Our approach introduces multiple enhancements to existing models in the text-to-audio domain, with the goal of enriching the diversity and acoustic characteristics of the generated foleys. Notably, we utilize a pre-trained encoder that retains acoustical and musical attributes in intermediate embeddings, implement class-conditioning to enhance differentiability among foley classes in their intermediate representations, and devise an innovative transformer-based architecture for optimizing self-attention computations on very large inputs without compromising valuable information. Subsequent to implementation, we present intermediate outcomes that surpass the baseline, discuss practical challenges encountered in achieving optimal results, and outline potential pathways for further research.

Auteurs: Ashwin Pillay, Sage Betko, Ari Liloia, Hao Chen, Ankit Shah

Dernière mise à jour: 2023-09-08 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2309.04641

Source PDF: https://arxiv.org/pdf/2309.04641

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires

Vision par ordinateur et reconnaissance des formesInnovations en matière de sécurité pour les personnes âgées : Détection de chutes et reconnaissance d'activités

Revue des techniques d'apprentissage profond pour la sécurité des personnes âgées grâce à la détection de chutes et à la reconnaissance d'activités.

― 13 min lire