Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes# Traitement de l'audio et de la parole# Calcul et langage# Son

Avancées dans les modèles ASR bilingues et à code-switching

De nouvelles méthodes améliorent la reconnaissance vocale multilingue en utilisant des sources de données existantes.

― 9 min lire


Modèles ASR bilinguesModèles ASR bilinguessimplifiésvocale multilingue.améliorations de la reconnaissanceDe nouvelles techniques simplifient les
Table des matières

Les systèmes de reconnaissance automatique de la parole (ASR) multilingues peuvent reconnaître et transcrire la parole dans plusieurs langues en même temps. Ça veut dire qu'il n'y a pas besoin de créer des modèles séparés pour chaque langue. Ces systèmes peuvent aussi identifier la langue parlée et gérer les situations où les orateurs changent de langue pendant leur discours. Par contre, construire ces systèmes nécessite des ensembles de données spéciaux qui incluent le changement de langue, et ces ensembles ne sont pas toujours disponibles.

Dans cet article, on va voir différentes manières de former des modèles ASR Bilingues et avec changement de code en utilisant seulement des ensembles de données disponibles pour une langue. On introduit une nouvelle méthode appelée tokenizers agrégés, qui est différente des méthodes traditionnelles qui indiquent la langue au début et à la fin des échantillons de parole. Au lieu de ça, on fournit des infos sur la langue pour chaque mot prononcé, ce qui permet au modèle d'apprendre mieux.

Défi de la création de modèles linguistiques

Traditionnellement, créer des systèmes ASR voulait dire développer des modèles uniques pour chaque langue. Cette approche était limitée et ne permettait pas de gérer efficacement la parole multilingue. Les chercheurs essaient de trouver de meilleures manières de créer un seul modèle capable de gérer plusieurs langues, ce qui permet plus de flexibilité et d'efficacité.

Certaines méthodes antérieures impliquaient de créer des capacités multilingues seulement dans les parties du système qui analysent le son, tout en gardant les modèles spécifiques à la langue pour d'autres parties. Des efforts plus récents ont cherché à fusionner des données de plusieurs langues en un seul modèle, ce qui a montré des améliorations. D'autres avancées ont utilisé des données non étiquetées pour aider les systèmes à reconnaître encore plus de langues.

Gérer le changement de code

Le changement de code, qui se produit quand un orateur alterne entre deux langues ou plus, est un phénomène courant dans les communautés multilingues. Les premières tentatives de créer des systèmes qui reconnaissent le changement de code utilisaient deux systèmes ASR Monolingues séparés. Les résultats se sont améliorés en utilisant des scores d'identification de langue pour aider le système à comprendre quand un changement se produit.

Le problème avec le changement de code, c'est que des données d'entraînement de haute qualité sont rares. Ici, on veut savoir si on peut utiliser les données monolingues disponibles pour créer des systèmes ASR qui reconnaissent efficacement le changement de code.

Notre approche

Dans notre travail, on se concentre sur la construction de modèles bilingues pour la reconnaissance de la parole anglais-espagnol et anglais-hindi en utilisant des ensembles de données disponibles publiquement. On fait des tests pour voir comment la préparation des données, les méthodes d'initialisation et les tokenizers affectent la performance du modèle tout en gardant le modèle principal le même.

On introduit les tokenizers agrégés, qui permettent de réutiliser les tokenizers monolingues existants pour de nouvelles tâches multilingues. Cette méthode aide le modèle à apprendre des infos linguistiques à partir des données elles-mêmes, ce qui donne des résultats prometteurs lorsqu'on teste sur de nouveaux ensembles de données.

Ensuite, on élargit notre travail pour inclure la reconnaissance de la parole avec changement de code. On détaille comment créer un processus pour générer des données ASR Synthétiques avec changement de code, ce qui nous permet de construire un grand ensemble de données d'entraînement à partir de sources monolingues. On adapte la technique du tokenizer agrégé pour le changement de code et on montre comment ça aide le modèle à gérer la complexité de traiter plusieurs langues dans la même conversation.

Enfin, on présente les résultats de ces modèles, qui montrent qu'on peut créer des systèmes efficaces qui fonctionnent bien avec la parole bilingue et avec changement de code.

Qu'est-ce que les tokenizers agrégés ?

Dans le traitement du langage naturel moderne et l'ASR, les tokenizers sont utilisés pour convertir du texte en un format que le modèle peut utiliser. En général, il faut créer un nouveau tokenizer pour chaque langue, ce qui peut prendre du temps et coûter cher. Ça veut aussi dire qu'on perd des infos sur la langue à laquelle chaque token appartient.

Pour surmonter ce problème, on propose d'utiliser des tokenizers agrégés. Ces tokenizers nous permettent de réutiliser les tokenizers monolingues pré-entraînés pour construire un tokenizer combiné qui intègre des infos linguistiques. Le résultat est un système capable d'inférer la langue de chaque échantillon d'entraînement sans nécessiter la création d'un tout nouveau tokenizer.

Par exemple, un tokenizer agrégé pour l'anglais et l'espagnol pourrait avoir deux sections distinctes d'ID de token : un ensemble pour l'anglais et un autre pour l'espagnol. Ça veut dire que quand le modèle fait des prédictions, il peut facilement savoir si un mot appartient à l'anglais ou à l'espagnol.

Générer des données synthétiques avec changement de code

Créer des données synthétiques avec changement de code est une partie importante de notre recherche. L'objectif est d'utiliser efficacement les données d'entraînement monolingues pour générer un ensemble diversifié d'échantillons de parole avec changement de code pour entraîner le modèle. Par contre, on doit faire attention à éviter tout biais dans la génération de données, car ça pourrait affecter négativement la performance du modèle dans des situations réelles.

Pour générer ces données, on suit un algorithme détaillé qui garantit qu'on crée des échantillons de parole avec changement de code réalistes sans introduire d'incohérences. Notre méthode fournit une base solide pour entraîner des modèles capables de gérer des scénarios de changement de code dans le monde réel.

Identification de langue avec les tokenizers agrégés

L'identification de langue, ou déterminer la langue parlée dans un clip audio, est vitale pour l'ASR avec changement de code car ça aide à réutiliser des modèles monolingues pour vérifier et améliorer les prédictions avec changement de code. Les tokenizers agrégés, par nature, incluent des infos sur à quelle langue chaque token appartient, ce qui les rend adaptés pour cette tâche.

On évalue comment nos tokenizers agrégés se débrouillent pour identifier les langues parlées en utilisant plusieurs ensembles de tests. Les résultats montrent que même testés sur des données que le modèle n'a pas encore vues, les tokenizers agrégés performent bien pour prédire la langue de l'énoncé.

Configuration expérimentale

Pour nos expériences, on choisit des ensembles de données spécifiques pour l'anglais, l'espagnol et l'hindi. L'ensemble de données anglais est composé de 960 heures d'audio du dataset LibriSpeech, tandis que l'ensemble espagnol est compilé à partir de plusieurs sources et représente environ 200 heures après traitement. Pour l'hindi, on utilise un ensemble qui offre environ 2 250 heures de données après nettoyage.

On génère des ensembles de données synthétiques avec changement de code pour l'anglais-espagnol et l'anglais-hindi, créant environ 10 000 heures de données d'entraînement. De plus, on prépare des ensembles de test à partir des ensembles de données monolingues respectifs à des fins d'évaluation.

Résultats de performance

La performance de nos modèles bilingues et avec changement de code est évaluée sur différents benchmarks. On observe que les modèles bilingues atteignent des performances comparables à celles de modèles monolingues séparés. Par exemple, initialiser le modèle bilingue à partir d'un point de contrôle monolingue accélère significativement l'entraînement et améliore la précision.

Nos modèles avec changement de code montrent aussi de bonnes performances sur les ensembles d'évaluation, prouvant qu'ils peuvent gérer efficacement la complexité du changement de code dans des conversations réelles.

Particulièrement, nos résultats indiquent que bien que les tokenizers agrégés et traditionnels performent de manière similaire, le tokenizer agrégé offre des avantages supplémentaires en identification de langue et amélioration du modèle.

Conclusions

En résumé, notre recherche montre qu'on peut réussir à construire des modèles ASR bilingues et avec changement de code en utilisant uniquement des sources de données monolingues. L'introduction des tokenizers agrégés nous permet d'incorporer des informations linguistiques pour chaque token, ce qui améliore les performances tant sur les tâches bilingues que sur celles avec changement de code.

De plus, notre méthode pour générer des données synthétiques avec changement de code fournit un moyen précieux de créer des échantillons d'entraînement qui améliorent la précision du modèle. Globalement, notre approche représente une avancée significative dans le développement de systèmes de reconnaissance vocale multilingues capables de s'adapter à l'utilisation des langues dans le monde réel.

Source originale

Titre: Unified model for code-switching speech recognition and language identification based on a concatenated tokenizer

Résumé: Code-Switching (CS) multilingual Automatic Speech Recognition (ASR) models can transcribe speech containing two or more alternating languages during a conversation. This paper proposes (1) a new method for creating code-switching ASR datasets from purely monolingual data sources, and (2) a novel Concatenated Tokenizer that enables ASR models to generate language ID for each emitted text token while reusing existing monolingual tokenizers. The efficacy of these approaches for building CS ASR models is demonstrated for two language pairs, English-Hindi and English-Spanish, where we achieve new state-of-the-art results on the Miami Bangor CS evaluation corpus. In addition to competitive ASR performance, the proposed Concatenated Tokenizer models are highly effective for spoken language identification, achieving 98%+ accuracy on the out-of-distribution FLEURS dataset.

Auteurs: Kunal Dhawan, Dima Rekesh, Boris Ginsburg

Dernière mise à jour: 2023-09-16 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2306.08753

Source PDF: https://arxiv.org/pdf/2306.08753

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires