Avancées dans la synthèse de son Foley avec l'apprentissage automatique

Table des matières

Source originale
Liens de référence

La synthèse sonore Foley, c'est le processus de création d'effets sonores réalistes pour les médias comme les films ou les émissions de radio. Dans ce projet, on a construit un synthétiseur neural qui peut produire des clips audio dans sept catégories différentes. Notre objectif est de rendre ces clips audio plus divers et riches en son, en améliorant la qualité des sons Foley synthétisés.

C'est Quoi le Son Foley ?

Le son Foley fait référence aux sons créés pour correspondre aux actions qui se passent à l'écran ou dans un contexte audio. Par exemple, quand un personnage marche, le son des pas est ajouté en post-production pour rendre la scène plus réaliste. Créer ces sons prend généralement beaucoup de temps et de ressources. Notre synthétiseur vise à accélérer ce processus et à le rendre moins cher en générant des sons directement grâce à l'apprentissage automatique.

Les Catégories de Sons

On s'est concentré sur sept types de sons Foley : aboiement de chien, pas, coup de feu, clavier, véhicule à moteur en mouvement, pluie, et éternuement/toux. Nos premiers tests montrent que notre modèle a mieux performé que les modèles existants dans six des sept catégories, ce qui indique que notre approche améliore efficacement la qualité et la diversité des sons.

Apprendre des Modèles Existants

On a regardé des travaux précédents dans le domaine de la synthèse sonore pour guider le développement de notre modèle. Une approche notable impliquait la combinaison de différents types de modèles d'apprentissage profond pour générer des sons pour des clips vidéo silencieux. D'autres modèles travaillant avec la génération texte-audio ont aussi été examinés. Ces modèles ont été entraînés pour comprendre l'audio et le texte simultanément, ce qui leur permet de générer des sons basés sur des prompts textuels.

Malgré leurs succès, ces modèles précédents peuvent ne pas fonctionner aussi bien pour nos besoins spécifiques, notamment pour générer des Foley spécifiques à chaque catégorie. Donc, on a dû améliorer les techniques existantes.

Amélioration du Modèle de Base

Pour démarrer notre projet, on a commencé par reproduire le modèle de base fourni par une organisation de challenge sonore. Après avoir confirmé qu'on pouvait reproduire leurs résultats, on a commencé à apporter des améliorations pour optimiser la qualité et la diversité des sons.

Notre premier ajustement a été le taux d'apprentissage du modèle, qui était initialement trop élevé. On a mis en place un planificateur de taux d'apprentissage pour aider le modèle à apprendre plus efficacement. On a également ajusté notre schéma d'entraînement pour qu'il fonctionne sur du matériel grand public, permettant un entraînement dans des délais raisonnables.

Représentation Audio Améliorée

Le modèle de base transformait l'audio en une représentation plus simple connue sous le nom de melspectrogrammes. Cependant, on pensait que cette compression pouvait faire perdre des informations précieuses. Pour y remédier, on a incorporé un modèle pré-entraîné pour améliorer notre entrée audio. Cela utilisait des caractéristiques audio plus détaillées, ce qui a permis à notre synthétiseur d'apprendre mieux et de produire des sons plus précis.

Introduction des Embeddings Combinés

Notre nouvelle représentation d'entrée audio, appelée Embeddings Combinés (CEmbed), combinait des melspectrogrammes traditionnels avec les nouvelles caractéristiques audio. Cette mise à niveau a nécessité de réentraîner nos modèles mais a finalement fourni une entrée plus riche et plus informative pour générer des sons.

Amélioration du Modèle VQ-VAE

On a adopté une technique appelée Variational Autoencoder (VQ-VAE) pour améliorer la manière dont notre modèle apprend à générer des sons. Cela impliquait de modifier la façon dont notre modèle capture différentes caractéristiques sonores. Notre modèle amélioré, nommé MVQVAE, inclut des fonctionnalités pour capturer des informations sonores plus détaillées et sépare les catégories de son plus efficacement.

Conditionnement de Classe

Un défi avec l'ancien modèle était qu'il ne tenait pas compte de la catégorie sonore spécifique pendant l'apprentissage. On a introduit le conditionnement de classe pour aider le modèle à reconnaître les différences entre les diverses classes sonores. Cela impliquait d'ajouter une couche pour prédire à quelle catégorie de son chaque entrée appartient, améliorant ainsi la capacité du modèle à générer des résultats de qualité.

Ajustement aux Nouvelles Tailles d'Entrée

Avec les nouveaux CEmbeds étant plus grands que les précédents melspectrogrammes, on a dû ajuster l'architecture de notre modèle en conséquence. Cela nous a poussés à augmenter le nombre de représentations sonores que le modèle pouvait gérer. Ajouter plus de couches a aidé le modèle à comprendre les informations plus riches dans la nouvelle entrée, ce qui a entraîné une meilleure génération de sons.

Optimisation de PixelSNAIL

Un autre composant clé de notre synthétiseur est un modèle appelé PixelSNAIL, qui génère des sons en séquence. Quand on a appliqué ce modèle à nos nouveaux CEmbeds, on a rencontré des défis en raison d'exigences computationnelles accrues. Donc, on a développé une approche appelée "Zen Mode" pour améliorer l'efficacité tout en maintenant la qualité de la génération sonore.

Raffinement du Processus de Génération Audio

On a aussi amélioré le modèle Hifi-GAN qui convertit les sorties de notre synthétiseur en ondes audio réelles. Cela a impliqué de réentraîner HiFi-GAN depuis le début pour gérer efficacement notre nouveau format d'entrée. En masquant certaines parties des entrées audio pendant l'entraînement, on s'est assuré que le modèle puisse apprendre à gérer les imperfections de nos sons générés.

Métriques d'Évaluation

Pour mesurer le succès de notre modèle, on a utilisé deux méthodes d'évaluation principales : la Distance Audio Frechet (FAD) et des tests d'écoute subjectifs. FAD fournit une mesure quantitative de la qualité audio générée, tandis que les tests subjectifs impliquent des évaluateurs humains jugeant à quel point la sortie ressemble à de vrais sons.

Ensemble de Développement

Nos données d'entraînement provenaient d'une collection de clips sonores comprenant 4,850 fichiers audio mono. Ces clips ont été catégorisés dans les types de sons mentionnés précédemment. Pour suivre les règles du challenge, on ne pouvait pas utiliser d'ensembles de données supplémentaires pour l'entraînement.

Résultats Préliminaires

On a réussi à entraîner notre modèle et on a découvert qu'il surpassait le modèle de base dans toutes les catégories sonores. À travers divers tests, on a réussi à atteindre une meilleure qualité sonore comme l'indiquent nos métriques d'évaluation.

Objectifs Futurs

Malgré notre succès, il reste encore des obstacles à surmonter. La nature complexe de notre système implique plusieurs modèles qui doivent bien fonctionner ensemble. On a rencontré des défis, notamment concernant la Stabilité de l'entraînement de nos modèles avec des tailles d'entrée plus grandes.

Il y a une opportunité d'explorer des approches alternatives à la génération sonore qui pourraient éviter certaines des limitations rencontrées avec nos modèles actuels.

Conclusion

En résumé, notre travail vise à créer un synthétiseur qui génère des sons Foley réalistes de manière efficace et efficiente. En utilisant des représentations audio avancées et en peaufinant nos modèles, on espère produire des sons qui se comparent aux méthodes traditionnelles de création de Foley. Nos travaux futurs se concentreront sur la résolution des défis rencontrés lors de l'entraînement du modèle et sur l'exploration de nouvelles méthodologies qui pourraient encore améliorer la qualité et la diversité des sons générés.

Avancées dans la synthèse de son Foley avec l'apprentissage automatique

Un nouveau synthétiseur améliore la création d'effets sonores réalistes pour les médias.

C'est Quoi le Son Foley ?

Les Catégories de Sons

Apprendre des Modèles Existants

Amélioration du Modèle de Base

Représentation Audio Améliorée

Introduction des Embeddings Combinés

Amélioration du Modèle VQ-VAE

Conditionnement de Classe

Ajustement aux Nouvelles Tailles d'Entrée

Optimisation de PixelSNAIL

Raffinement du Processus de Génération Audio

Métriques d'Évaluation

Ensemble de Développement

Résultats Préliminaires

Objectifs Futurs

Conclusion

Liens de référence

Sujets référencés

Avancées dans la synthèse de son Foley avec l'apprentissage automatique

Un nouveau synthétiseur améliore la création d'effets sonores réalistes pour les médias.

#C'est Quoi le Son Foley ?

#Les Catégories de Sons

#Apprendre des Modèles Existants

#Amélioration du Modèle de Base

#Représentation Audio Améliorée

#Introduction des Embeddings Combinés

#Amélioration du Modèle VQ-VAE

#Conditionnement de Classe

#Ajustement aux Nouvelles Tailles d'Entrée

#Optimisation de PixelSNAIL

#Raffinement du Processus de Génération Audio

#Métriques d'Évaluation

#Ensemble de Développement

#Résultats Préliminaires

#Objectifs Futurs

#Conclusion

Liens de référence

Sujets référencés

C'est Quoi le Son Foley ?

Les Catégories de Sons

Apprendre des Modèles Existants

Amélioration du Modèle de Base

Représentation Audio Améliorée

Introduction des Embeddings Combinés

Amélioration du Modèle VQ-VAE

Conditionnement de Classe

Ajustement aux Nouvelles Tailles d'Entrée

Optimisation de PixelSNAIL

Raffinement du Processus de Génération Audio

Métriques d'Évaluation

Ensemble de Développement

Résultats Préliminaires

Objectifs Futurs

Conclusion