Faire avancer la technologie vocale avec des données de changement de code
Une nouvelle méthode améliore la reconnaissance vocale pour les utilisateurs qui passent d'une langue à l'autre.
― 6 min lire
Table des matières
- Le besoin de plus de données sur le code-switching
- Présentation de Speech Collage
- Comment fonctionne Speech Collage
- Le processus de fusion audio
- Amélioration de la qualité audio
- Expérimentation avec différents scénarios
- Résultats des tests en domaine
- Résultats de l'apprentissage zéro-shot
- Mesurer le code-switching dans la parole
- Analyse de la taille des données générées
- Conclusion et perspectives d'avenir
- Source originale
- Liens de référence
Dans de nombreuses communautés multilingues, il est courant que les gens passent d'une langue à l'autre en parlant. Cette pratique, connue sous le nom de code-switching, aide à exprimer les idées plus clairement et reflète les origines culturelles des locuteurs. Cependant, les systèmes de technologie vocale, comme la reconnaissance automatique de la parole (ASR), ont souvent du mal à comprendre Le code-switching car il n'y a pas assez d'exemples transcrits disponibles pour l'entraînement. Ce manque complique la tâche de ces systèmes pour traiter correctement les conversations où plusieurs langues sont parlées.
Le besoin de plus de données sur le code-switching
La plupart des données utilisées pour former les systèmes ASR sont dans une seule langue, ce qui entraîne un problème connu sous le nom de biais monolingue. Ce biais limite la capacité du système à traiter efficacement le code-switching. Étant donné l'utilisation croissante du code-switching dans les conversations quotidiennes, il est crucial de trouver comment créer plus de données qui reflètent ce style linguistique. Comme les vraies données de parole en code-switching sont rares, les chercheurs cherchent des moyens de générer des données synthétiques à partir de ressources Monolingues existantes.
Présentation de Speech Collage
Pour surmonter ce défi, une nouvelle méthode appelée Speech Collage a été développée. Cette approche permet aux chercheurs de créer des audios en code-switché en combinant des parties d'audios monolingues existants. En coupant et collant des segments de différents locuteurs et environnements d'enregistrement, le Speech Collage vise à rendre les données générées plus naturelles et diverses. Cette méthode peut fonctionner avec des audios de deux langues ou plus, ce qui la rend flexible pour gérer différents couples de langues.
Comment fonctionne Speech Collage
Le Speech Collage se concentre sur l'utilisation de segments audio obtenus à partir de jeux de données monolingues. Il prend des unités de parole, comme des mots ou des caractères, et les assemble en fonction d'un texte en code-switching qui a été soit généré, soit dérivé de conversations réelles. L'objectif est de maintenir la qualité de l'audio généré tout en s'assurant qu'il reflète fidèlement les schémas de code-switching.
Le processus de fusion audio
La fusion des segments audio se fait en sélectionnant soigneusement des unités à partir des données monolingues. Par exemple, dans le cas du mandarin et de l'anglais, des mots en anglais et des caractères en mandarin sont combinés. Cette sélection minutieuse est vitale car des unités plus petites, même si elles sont adaptables, peuvent entraîner une baisse de la qualité audio. L'audio final est souvent monté pour former un ensemble de données cohérent et utilisable.
Amélioration de la qualité audio
Pour améliorer la qualité de l'audio généré, le processus inclut des techniques comme le overlap-add, où les segments se chevauchent légèrement et sont mélangés pour éliminer les coupures visibles. Cette méthode aide à créer une transition plus fluide entre les segments. De plus, une normalisation de l'énergie est appliquée pour s'assurer que les variations de volume ne nuisent pas à la qualité sonore globale.
Expérimentation avec différents scénarios
Les chercheurs évaluent l'efficacité de Speech Collage dans deux scénarios principaux. Le premier est un cadre en domaine où un texte en code-switching existe déjà. Le deuxième scénario est l'apprentissage zéro-shot, qui se concentre sur la génération d'audio en code-switching sans aucune donnée préalable de ce type. C'est particulièrement utile pour les langues ou dialectes où peu ou pas de données de code-switching existent.
Résultats des tests en domaine
Dans les tests utilisant un texte en code-switching existant, le Speech Collage a montré des améliorations significatives par rapport aux modèles qui s'appuient uniquement sur des données monolingues. Les résultats indiquent que la méthode peut réduire considérablement les taux d'erreur en reconnaissance vocale. En améliorant la qualité audio des données générées, les améliorations peuvent être encore plus grandes.
Résultats de l'apprentissage zéro-shot
En examinant le scénario d'apprentissage zéro-shot, les chercheurs ont découvert que générer des données synthétiques en code-switching était bénéfique même en l'absence de données d'entraînement en code-switching. Les résultats ont renforcé l'idée que l'augmentation des données avec des exemples synthétiques mène à de meilleures performances. Cela souligne l'importance de pouvoir traiter le code-switching efficacement, même sans exemples directs à apprendre.
Mesurer le code-switching dans la parole
Pour avoir une idée claire de la performance du modèle avec le code-switching, une métrique appelée l'Index de Code-Mixing (CMI) est utilisée. Cet indice aide à quantifier l'ampleur du code-switching dans chaque énoncé. Un score CMI élevé indique un degré élevé de code-switching, tandis qu'un score faible suggère que la parole est principalement dans une langue.
Analyse de la taille des données générées
Un autre aspect intéressant étudié était l'impact de la taille des données de code-switching générées. Les chercheurs ont constaté qu'un petit pourcentage de données CS générées peut améliorer significativement la performance des systèmes ASR. Cependant, à mesure que plus de données générées sont ajoutées, le taux d'amélioration de la performance a tendance à se stabiliser, indiquant des rendements décroissants.
Conclusion et perspectives d'avenir
En résumé, le développement du Speech Collage représente un avancement prometteur dans la gestion du code-switching au sein des systèmes ASR. En utilisant des données monolingues existantes pour créer un audio synthétique en code-switching, les chercheurs peuvent améliorer les capacités de la technologie vocale. Les résultats indiquent que cette approche non seulement améliore la précision de reconnaissance, mais aide également à réduire le biais envers les entrées monolingues.
À mesure que les sociétés multilingues continuent de croître, la capacité des technologies vocales à reconnaître et traiter le code-switching deviendra de plus en plus essentielle. Les futures recherches pourraient explorer l'affinement de ces techniques et l'élargissement de la gamme de langues et de dialectes pouvant être pris en charge, assurant ainsi que ces systèmes peuvent répondre aux diverses façons dont les gens communiquent dans la vie réelle.
Titre: Speech collage: code-switched audio generation by collaging monolingual corpora
Résumé: Designing effective automatic speech recognition (ASR) systems for Code-Switching (CS) often depends on the availability of the transcribed CS resources. To address data scarcity, this paper introduces Speech Collage, a method that synthesizes CS data from monolingual corpora by splicing audio segments. We further improve the smoothness quality of audio generation using an overlap-add approach. We investigate the impact of generated data on speech recognition in two scenarios: using in-domain CS text and a zero-shot approach with synthesized CS text. Empirical results highlight up to 34.4% and 16.2% relative reductions in Mixed-Error Rate and Word-Error Rate for in-domain and zero-shot scenarios, respectively. Lastly, we demonstrate that CS augmentation bolsters the model's code-switching inclination and reduces its monolingual bias.
Auteurs: Amir Hussein, Dorsa Zeinali, Ondřej Klejch, Matthew Wiesner, Brian Yan, Shammur Chowdhury, Ahmed Ali, Shinji Watanabe, Sanjeev Khudanpur
Dernière mise à jour: 2023-09-27 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2309.15674
Source PDF: https://arxiv.org/pdf/2309.15674
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.