Progrès dans les systèmes de dialogue parlé
Une nouvelle méthode améliore le dialogue machine grâce à des données pseudo-stéréo.
― 8 min lire
Table des matières
- Le défi des données de dialogue stéréo
- Élargir le jeu de données
- L'importance du dialogue naturel
- Limitation des modèles actuels
- Collecte et traitement des données
- Encodage unitaire pour une meilleure reconnaissance vocale
- Création de jeux de données pseudo-stéréo
- Évaluation des systèmes de dialogue
- Directions futures
- Conclusion
- Source originale
- Liens de référence
Dans le monde de la tech, la façon dont on communique avec les machines évolue. Les systèmes de dialogue parlé, comme ceux qu'on trouve dans les assistants virtuels, visent à rendre les conversations entre humains et ordinateurs plus naturelles. Mais rendre ces dialogues réalistes peut être compliqué, surtout quand les gens parlent en même temps. La plupart des systèmes se basent sur des instructions écrites claires, ce qui leur fait manquer toute la gamme de signaux qu'on trouve dans la parole naturelle, comme le rire ou les pauses.
Le défi des données de dialogue stéréo
Quand deux personnes parlent en même temps, ça complique les choses pour les systèmes de dialogue. Pour comprendre les discours qui se chevauchent, on a besoin de données de dialogue stéréo, où chaque intervenant est enregistré séparément. Malheureusement, ce type de données est difficile à trouver. La plupart des conversations enregistrées sont mélangées dans un seul canal audio, ce qui rend difficile pour les systèmes de savoir qui a dit quoi.
Pour résoudre ce problème, on a créé une méthode pour prendre des enregistrements en mono et les transformer en données pseudo-stéréo. Ça nous permet d'entraîner nos modèles avec plus d'exemples, ce qui offre une expérience plus riche pour le processus d'apprentissage machine.
Élargir le jeu de données
En appliquant notre méthode, on a augmenté notre jeu de données d'entraînement de 2 000 heures à 17 600 heures. Ce gros coup de fouet dans la quantité de données disponibles a permis d'améliorer la façon dont les machines gèrent les dialogues parlés. Avec les bonnes données, on peut aider les machines à capter les subtilités qui se produisent dans de vraies conversations, comme quand quelqu'un rit ou quand il y a une pause avant de répondre.
Nos nouvelles données pseudo-stéréo se sont révélées efficaces pour améliorer les modèles de Génération de dialogues. On a aussi exploré différents modèles sous-jacents de la parole pour voir comment ils pouvaient encore améliorer notre système.
L'importance du dialogue naturel
Le dialogue parlé est marqué par sa spontanéité. Les gens s'interrompent souvent, font des pauses ou changent de sujet rapidement. Ces comportements naturels sont des éléments cruciaux de la communication. Cependant, de nombreux systèmes existants échouent à capturer ces éléments. Au lieu de ça, ils suivent une approche traditionnelle où ils transcrivent d'abord le dialogue, génèrent ensuite des réponses écrites, et enfin les convertissent en parole. Ce processus peut donner lieu à des interactions qui semblent rigides et peu réalistes.
Les récents développements dans les modèles d'apprentissage auto-supervisés ont rendu possible l'analyse directe de la parole sans la convertir en texte écrit. Cette méthode conserve des indices verbaux et non verbaux importants et est plus en phase avec la façon dont les gens interagissent. Notre système, appelé modèle de langage parlé génératif de dialogue (dGSLM), utilise des techniques avancées pour gérer les entrées provenant de canaux audio séparés, améliorant ainsi la synthèse de dialogue.
Limitation des modèles actuels
Bien que le dGSLM puisse créer des discours plus réalistes, il a du mal à maintenir un contenu significatif lors de conversations plus longues. Cette limitation est en partie due à un manque de données variables suffisantes. Comme on l'a noté, trouver des données de dialogue stéréo est délicat, mais le contenu en mono est abondant, comme les milliers d'heures de podcasts que nous avons rassemblés.
Pour créer des données pseudo-stéréo efficaces à partir de ces podcasts, on a suivi un processus en trois étapes : identifier les segments de discours de différents intervenants, séparer leurs voix, et vérifier qui a parlé où. Ce pipeline détaillé nous permet de générer une grande quantité de données pseudo-stéréo à partir de sources audio facilement accessibles.
Collecte et traitement des données
On a commencé par analyser des podcasts pour trouver deux intervenants en conversation. On a ensuite utilisé différentes techniques pour séparer leurs voix, en veillant à pouvoir identifier ce que chaque intervenant disait. En appliquant notre méthode, on a généré une collection conséquente de données de dialogue pseudo-stéréo.
Notre pipeline se divise en trois étapes claires :
Diarisation des intervenants : On sépare les intervenants dans un segment audio pour créer des paires intervenant-durée. Ça nous permet de savoir quand chaque intervenant parle.
Séparation des sources : Ici, on isole les segments de discours qui se chevauchent pour éclaircir quelles parties appartiennent à quel intervenant.
Vérification des intervenants : Enfin, on associe les segments de discours séparés à leurs intervenants respectifs pour garantir l'exactitude.
En séparant avec succès les intervenants, on peut créer un éventail diversifié d'enregistrements de dialogue qui peuvent aider à améliorer nos modèles de dialogue parlé.
Encodage unitaire pour une meilleure reconnaissance vocale
Pour encore améliorer nos modèles de dialogue, on a utilisé des techniques avancées d'encodage de la parole. Le système dGSLM initial utilisait un modèle spécifique pour convertir la parole en unités discrètes pour le traitement. Cependant, on a découvert qu'élargir simplement les modèles entraînait des problèmes pour générer une parole claire à partir de ces unités. Au lieu de ça, on a trouvé qu'un type particulier de modèle, ajusté par reconnaissance automatique de la parole (ASR), fonctionnait mieux.
On a testé différents modèles de base de la parole pour voir lequel répondait le mieux à nos besoins. Nos résultats ont montré qu'en utilisant la version ajustée du modèle, on améliorait significativement la performance globale de la génération de dialogue.
Création de jeux de données pseudo-stéréo
Notre travail a consisté à rassembler environ 20 000 heures de podcasts et à appliquer notre pipeline pour extraire environ 15 600 heures de données de dialogue pseudo-stéréo. Cette ressource est précieuse pour les chercheurs dans le domaine et peut aider à faire avancer les systèmes de dialogue parlé à l'avenir.
Contrairement à certains jeux de données existants qui étaient limités, notre approche a combiné des données de plusieurs sources, permettant d'obtenir un échantillon plus large de styles de conversation. Cette diversité fournit un terrain d'entraînement plus complet pour les modèles d'apprentissage machine.
Évaluation des systèmes de dialogue
Pour évaluer les performances des modèles, on a examiné des métriques clés liées à la prise de tour dans les conversations. On a comparé le dialogue généré à de vraies conversations, découvrant que nos modèles capturaient de nombreux motifs naturels qu'on voit dans la parole humaine.
On a effectué des évaluations en demandant aux gens de noter la cohérence de nos dialogues générés. Les résultats ont montré qu'utiliser des données pseudo-stéréo améliorait la compréhension générale dans le discours généré. Les conclusions ont révélé que les modèles entraînés avec ces données supplémentaires pouvaient produire des réponses plus significatives et en phase avec le flow des vraies conversations.
Directions futures
Bien que nos méthodes aient conduit à des améliorations significatives dans les modèles de dialogue parlé, des défis demeurent. Le système actuel pour convertir des unités discrètes en parole n’est pas assez robuste. Cette faiblesse affecte la qualité globale de l'audio et rend difficile d'assurer un dialogue qui sonne naturel.
En regardant vers l'avenir, on voit des opportunités pour affiner encore ces techniques. Améliorer la manière dont on synthétise la parole à partir d'unités discrètes sera crucial pour améliorer l'expérience utilisateur et garantir que les machines répondent de manière confortable et humaine.
Conclusion
En résumé, notre travail représente un pas important en avant dans le domaine des systèmes de dialogue parlé. En développant une méthode pour générer des données de dialogue pseudo-stéréo à partir d'enregistrements en mono, on peut considérablement élargir les ressources de formation disponibles. Les résultats montrent que cette approche peut améliorer significativement la cohérence et la naturalité des discours générés.
De plus, notre exploration de différents modèles de base de la parole souligne l'importance de choisir les bons outils technologiques pour construire des systèmes de dialogue efficaces. Alors qu'on continue à affiner nos méthodes et à améliorer la synthèse audio, on peut envisager de créer des interactions encore plus engageantes et réalistes entre les humains et les machines.
Titre: Investigating the Effects of Large-Scale Pseudo-Stereo Data and Different Speech Foundation Model on Dialogue Generative Spoken Language Model
Résumé: Recent efforts in Spoken Dialogue Modeling aim to synthesize spoken dialogue without the need for direct transcription, thereby preserving the wealth of non-textual information inherent in speech. However, this approach faces a challenge when speakers talk simultaneously, requiring stereo dialogue data with speakers recorded on separate channels, a notably scarce resource. To address this, we have developed an innovative pipeline capable of transforming single-channel dialogue data into pseudo-stereo data. This expanded our training dataset from a mere 2,000 to an impressive 17,600 hours, significantly enriching the diversity and quality of the training examples available. The inclusion of this pseudo-stereo data has proven to be effective in improving the performance of spoken dialogue language models. Additionally, we explored the use of discrete units of different speech foundation models for spoken dialogue generation.
Auteurs: Yu-Kuan Fu, Cheng-Kuang Lee, Hsiu-Hsuan Wang, Hung-yi Lee
Dernière mise à jour: 2024-07-01 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2407.01911
Source PDF: https://arxiv.org/pdf/2407.01911
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://speechbot.github.io/
- https://huggingface.co/datasets/YuKuanFu/Podcast_Dialogue
- https://anonymous78264.github.io/pseudo-stereo-data/?fbclid=IwAR0MGdFnQeUcnojhQGGk0HaAYgBxhnhblIpU3xnGRNfPPO_hxHOf6Ea_PGM
- https://www.apple.com/apple-podcasts/
- https://github.com/pyannote/pyannote-audio
- https://huggingface.co/speechbrain/spkrec-ecapa-voxceleb
- https://gitlab.nrp-nautilus.io/ar-noc/nemo/-/blob/master/scripts/process_fisher_data.py
- https://www.mturk.com/
- https://github.com/luferrer/ConfidenceIntervals
- https://interspeech2024.org/submission-policy/
- https://interspeech2024.org/speech-and-beyond/
- https://colorbrewer2.org