Améliorer l'entraînement des vocodeurs avec l'apprentissage contrastif
De nouvelles méthodes améliorent la performance des vocodeurs avec des données audio limitées.
― 7 min lire
Table des matières
Des avancées récentes dans les vocodeurs ont donné des résultats impressionnants pour générer des Audio qui ressemblent beaucoup à la parole humaine. Ces systèmes deviennent de mieux en mieux pour créer des sons réalistes tout en utilisant moins de mémoire et en travaillant plus vite. Cependant, un gros défi pour ces modèles, c'est qu'ils ont souvent besoin de beaucoup de données audio pour apprendre à produire des sons de haute qualité. Dans les situations où il n'y a pas assez de données, entraîner ces modèles devient compliqué.
Pour résoudre ce problème, on propose d'utiliser une méthode appelée Apprentissage contrastif. Cette approche vise à améliorer la qualité des sons générés par le vocodeur sans changer le modèle lui-même ni avoir besoin de plus de données. On introduit une tâche qui compare différents types de représentations audio pour aider le vocodeur à mieux apprendre dans des situations avec peu de données.
Défis dans l'entraînement des vocodeurs
Les vocodeurs basés sur des réseaux antagonistes génératifs (GANs) sont devenus très populaires et efficaces pour créer des audio de haute qualité. Cependant, deux grands défis existent lors de l'entraînement de ces modèles : le manque de données et les problèmes avec le Discriminateur, qui est la partie du système qui juge si l'audio généré est réel ou faux.
Dans les cas où il n'y a qu'un seul locuteur, la quantité de données audio disponibles peut être limitée. Cette situation rend difficile l'amélioration des vocodeurs dans de telles contraintes. Pour résoudre ce problème, on peut utiliser des techniques d'apprentissage non supervisé pour extraire des signaux supplémentaires qui aident le système à apprendre. L'apprentissage non supervisé a montré de bons résultats dans diverses tâches liées à la parole, donc on pense que ça peut aussi aider dans l'entraînement des vocodeurs.
Le deuxième défi, c’est que le discriminateur peut se concentrer trop sur la distinction entre l'audio réel et faux, surtout quand il a peu de données à traiter. Quand ça arrive, le modèle ne performe pas aussi bien. Dans d'autres domaines, utiliser l'apprentissage contrastif pour le discriminateur a aidé à améliorer la performance et la résistance. Cependant, dans le cas des vocodeurs, appliquer simplement l'apprentissage contrastif aux Mel-spectrogrammes ne va pas aider parce que ça n'implique pas le discriminateur. Donc, on propose d'étendre cette tâche pour inclure à la fois les mel-spectrogrammes et les formes d'onde.
Méthode proposée
On a développé deux tâches principales pour entraîner le modèle de vocodeur. D'abord, on propose une tâche d'apprentissage contrastif axée sur les mel-spectrogrammes. Ça implique de prendre des segments audio, d'appliquer un peu de masquage et d'utiliser ces segments modifiés pour créer des échantillons positifs et négatifs. En formant le modèle à reconnaître ces échantillons, il apprend de meilleures représentations qui améliorent sa performance.
La deuxième tâche combine les mel-spectrogrammes avec les formes d'onde, permettant au générateur et au discriminateur d'apprendre ensemble. Cette double tâche encourage le modèle à comprendre les connexions entre différentes formes d'audio. En introduisant cette approche multimodale, on pense que ça va aider à empêcher le discriminateur de surajuster tout en améliorant la qualité globale de l'audio généré.
Pour combiner ces tâches contrastives avec les objectifs d'entraînement GAN traditionnels, on crée un cadre de multitâches. Ce cadre nous permet d’optimiser à la fois les tâches originales et les tâches d'apprentissage contrastif supplémentaires en même temps, ce qui mène à une meilleure performance pour le vocodeur.
Configuration expérimentale
Pour évaluer l'efficacité de nos méthodes, on a mené des expériences en utilisant un jeu de données bien connu appelé LJSpeech. Ce jeu de données consiste en de courts clips audio prononcés par un seul locuteur, ce qui en fait un choix approprié pour tester les vocodeurs. On a réalisé plusieurs sessions d'entraînement sur ce jeu de données, comparant nos méthodes proposées aux vocodeurs GAN traditionnels.
On a implémenté nos tâches d'apprentissage contrastif aux côtés de modèles établis, en se concentrant spécifiquement sur les versions HiFi-GAN reconnues pour leur qualité audio. Ce faisant, on visait à évaluer objectivement comment nos méthodes se comparent à ces modèles établis.
Résultats et analyse
Après avoir entraîné nos modèles sur l'ensemble du jeu de données, on a trouvé que, même si nos méthodes montraient une performance comparable à celle des modèles de référence, elles n'ont pas significativement surpassé ces derniers. Cependant, on était particulièrement intéressé de voir comment nos méthodes se comportaient quand il y avait moins de données disponibles.
En menant des expériences avec seulement 20 % du jeu de données d'entraînement, on a révélé une différence plus significative. Le modèle HiFi-GAN traditionnel a vu sa performance chuter lorsqu'il a été entraîné sur peu de données, tandis que les modèles utilisant nos tâches d'apprentissage contrastif ont ressenti une baisse moins importante. Spécifiquement, le modèle utilisant l'apprentissage contrastif sur les mel-spectrogrammes et les formes d'onde a été notablement moins affecté par la limitation des données, ce qui suggère que notre approche aide à maintenir une meilleure performance dans ces conditions difficiles.
Discussion
Les expériences montrent que notre approche d'apprentissage contrastif proposée peut extraire des signaux de supervision supplémentaires, aidant à améliorer l'entraînement des vocodeurs même quand les données sont limitées. C'est particulièrement important puisque beaucoup d'applications peuvent ne pas avoir accès à de grandes quantités de données audio. De plus, on a trouvé que la méthode pour combiner les mel-spectrogrammes et les formes d'onde fonctionnait le mieux, offrant un moyen efficace de soutenir le vocodeur et de limiter le surajustement.
Étonnamment, alors qu'on s'attendrait généralement à ce que les plus grands modèles aient plus de mal avec peu de données, nos résultats ont montré qu'un des vocodeurs plus grands a en fait mieux performé sous ces contraintes. Cette observation pourrait être attribuée au choix de l'architecture et à l'équilibre entre les composants générateur et discriminateur.
Conclusion
En résumé, notre travail introduit un cadre d'apprentissage contrastif conçu pour améliorer l'entraînement des vocodeurs GAN. Notre approche montre avec succès que des tâches supplémentaires peuvent améliorer la qualité de l'audio généré sans nécessiter de données supplémentaires ou changer la structure du modèle. Cela est particulièrement crucial lorsque les données d'entraînement disponibles sont limitées.
Pour l'avenir, on prévoit de tester nos méthodes à travers différentes architectures de modèles et avec différents jeux de données pour évaluer leur efficacité dans plus de contextes. Cela inclut l'exploration de jeux de données multi-locuteurs, où les problèmes de manque de données sont également répandus. De plus, on vise à explorer d'autres façons d'évaluer la performance du discriminateur, ce qui pourrait donner une vue d'ensemble plus complète de la performance de nos méthodes.
Titre: Enhancing GAN-Based Vocoders with Contrastive Learning Under Data-limited Condition
Résumé: Vocoder models have recently achieved substantial progress in generating authentic audio comparable to human quality while significantly reducing memory requirement and inference time. However, these data-hungry generative models require large-scale audio data for learning good representations. In this paper, we apply contrastive learning methods in training the vocoder to improve the perceptual quality of the vocoder without modifying its architecture or adding more data. We design an auxiliary task with mel-spectrogram contrastive learning to enhance the utterance-level quality of the vocoder model under data-limited conditions. We also extend the task to include waveforms to improve the multi-modality comprehension of the model and address the discriminator overfitting problem. We optimize the additional task simultaneously with GAN training objectives. Our results show that the tasks improve model performance substantially in data-limited settings.
Auteurs: Haoming Guo, Seth Z. Zhao, Jiachen Lian, Gopala Anumanchipalli, Gerald Friedland
Dernière mise à jour: 2023-12-18 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2309.09088
Source PDF: https://arxiv.org/pdf/2309.09088
Licence: https://creativecommons.org/licenses/by-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.