Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes# Calcul et langage# Apprentissage automatique# Son# Traitement de l'audio et de la parole

Avancées dans la traduction de la parole en code-switching

Une nouvelle méthode améliore la traduction de discours en langues mélangées en anglais.

― 6 min lire


Percée dans la traductionPercée dans la traductionavec le code-switchingde la parole multilingue en anglais.Nouveau système améliore la traduction
Table des matières

Dans plein d'endroits dans le monde comme en Inde, les gens parlent souvent plus d'une langue. Parfois, ils mélangent ces langues dans une seule phrase ; on appelle ça Le code-switching. Par exemple, quelqu'un pourrait dire une phrase surtout en hindi mais utiliser quelques mots en anglais. Cette pratique peut rendre compliqué de transformer des mots prononcés en texte écrit, surtout quand il s'agit de traduire ces langues mélangées en anglais.

Cet article se concentre sur la traduction de discours mélangés avec deux langues ou plus en anglais. Créer un programme informatique qui peut faire ça est un vrai défi parce qu'il n'y a pas beaucoup d'exemples de ce genre de discours pour entraîner les programmes. Pour résoudre ce problème, une nouvelle méthode a été développée, qui combine les systèmes de Reconnaissance vocale existants et les systèmes de traduction. L'objectif est de prendre le langage code-switché parlé et de le transformer précisément en texte anglais.

Contexte

La plupart des gens dans le monde parlent plusieurs langues, ce qui amène souvent à du code-switching dans les conversations. Des recherches récentes ont examiné comment la reconnaissance vocale et la traduction fonctionnent dans des langues mélangées, mais la traduction orale pour le code-switching n'a pas été beaucoup étudiée. Une des raisons pour ce manque de recherche est qu'il n'existe pas beaucoup de tests pour évaluer ces traductions. La plupart des systèmes actuels se concentrent juste sur une langue à la fois, ignorant les besoins des locuteurs qui mélangent les langues.

La Nouvelle Solution

Dans ce travail, une nouvelle approche est introduite pour traduire le discours qui mélange différentes langues. Cette méthode commence avec des modèles qui savent déjà comment reconnaître la parole et traduire du texte. Simplement rassembler un système de reconnaissance vocale et un système de traduction ne fonctionne pas bien parce que les erreurs dans la reconnaissance vocale peuvent aggraver la traduction.

Au lieu de ça, cette nouvelle approche utilise une technique spéciale où la parole et le texte sont correctement liés avant de passer par le système de traduction. En faisant ça, les erreurs peuvent être minimisées. Le processus commence par prendre la parole en entrée et produire une version texte en utilisant un modèle de reconnaissance vocale. Ensuite, le texte reconnu et la parole originale sont alignés et mélangés ensemble. Cette nouvelle représentation est ensuite alimentée dans un modèle de traduction qui a déjà été formé.

Nouveaux Standards de Test

L'équipe de recherche a aussi créé de nouveaux standards pour tester la traduction des langues code-switchées, spécifiquement pour le bengali-anglais, l'hindi-anglais, le marathi-anglais et le télougou-anglais. Ces tests sont importants parce qu'il n'y avait pas de cadre d'évaluation disponible pour ces types de traductions avant.

Les chercheurs ont formé leur modèle en utilisant une quantité limitée de données vocales. Ils ont créé environ 30 heures de données de traduction synthétiques en générant automatiquement des traductions à partir des bonnes versions textuelles. Ils ont ensuite testé leur modèle par rapport à d'autres systèmes qui ont été entraînés sur des ensembles de données beaucoup plus grands. Malgré la petite quantité de données d'entraînement, leur modèle a montré de meilleurs résultats que beaucoup d'autres systèmes.

Entraînement avec des Données Limitées

Former un système sur des paires de discours, de texte et de traduction est nécessaire, mais trouver assez de données parlées est souvent difficile, surtout pour les langues moins courantes. Dans ce cas, le modèle a été formé en utilisant un ensemble de données vocales qui incluait des exemples de discours en une seule langue et de discours code-switché. L'équipe a généré des traductions en utilisant un puissant modèle de traduction pour s'assurer que les données d'entraînement étaient utiles.

Évaluation du Code-Switching

Pour évaluer l'efficacité du modèle, les chercheurs ont regardé spécifiquement à quel point le modèle traduisait bien les parties anglaises trouvées dans le discours en langues mélangées. Ils ont examiné combien de mots anglais dans les traductions de référence correspondaient aux traductions prédites.

Cela incluait de voir à quel point le modèle pouvait garder avec précision les mots anglais du discours dans les traductions finales. Ils ont découvert que leur méthode était particulièrement efficace pour maintenir ces mots anglais et qu'elle performait bien avec différentes quantités de code-switching durant les tests.

Comparaison de Différentes Approches

L'équipe a comparé plusieurs méthodes de combinaison des embeddings de la parole et du texte. Ils ont testé différentes stratégies pour voir laquelle fonctionnait le mieux. Finalement, leur méthode d'alignement et d'entrelacement de la parole et du texte a produit les meilleurs résultats, montrant des améliorations claires par rapport à d'autres méthodes où les représentations étaient simplement combinées sans un bon alignement.

Résultats et Découvertes

Lors des tests, les chercheurs ont comparé leur nouveau modèle aux systèmes traditionnels en cascade et aux systèmes de traduction modernes de bout en bout. Ils ont constaté que leur approche surpassait constamment les autres sur divers couples de langues. Les résultats ont montré que le modèle de bout en bout était particulièrement fort, dépassant même des systèmes plus établis malgré un entraînement avec moins de données.

Ils ont également créé des ensembles d'évaluation qui contenaient des exemples plus complexes de code-switching, comme des conversations de podcasts. Ces nouvelles données ont encore testé la capacité du modèle à gérer des situations de langage parlé difficiles.

Conclusion

Ce travail introduit une nouvelle façon de traduire le discours qui inclut plusieurs langues en texte anglais. En alignant la parole et son texte reconnu avant la traduction, les chercheurs ont créé un système qui améliore significativement la précision de la traduction. Ils ont aussi fourni de nouveaux repères d'évaluation pour la traduction de discours en langues mélangées, comblant un vide dans le paysage de recherche actuel.

Bien que des défis restent - comme le besoin de plus de données d'entraînement et des problèmes potentiels de latence élevée durant la traduction - les découvertes représentent une étape importante vers une meilleure gestion des complexités de la communication multilingue. Les travaux futurs se concentreront sur l'amélioration des capacités du modèle et l'élargissement de son applicabilité à d'autres paires de langues et contextes.

Maintenant, plus de gens peuvent potentiellement accéder à des outils de traduction qui prennent en compte la réalité de parler plusieurs langues dans la vie quotidienne. La tâche continue est de perfectionner ces systèmes, en s'assurant qu'ils peuvent capturer avec précision la richesse et les nuances des conversations multilingues.

Source originale

Titre: CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving

Résumé: Code-switching is a widely prevalent linguistic phenomenon in multilingual societies like India. Building speech-to-text models for code-switched speech is challenging due to limited availability of datasets. In this work, we focus on the problem of spoken translation (ST) of code-switched speech in Indian languages to English text. We present a new end-to-end model architecture COSTA that scaffolds on pretrained automatic speech recognition (ASR) and machine translation (MT) modules (that are more widely available for many languages). Speech and ASR text representations are fused using an aligned interleaving scheme and are fed further as input to a pretrained MT module; the whole pipeline is then trained end-to-end for spoken translation using synthetically created ST data. We also release a new evaluation benchmark for code-switched Bengali-English, Hindi-English, Marathi-English and Telugu- English speech to English text. COSTA significantly outperforms many competitive cascaded and end-to-end multimodal baselines by up to 3.5 BLEU points.

Auteurs: Bhavani Shankar, Preethi Jyothi, Pushpak Bhattacharyya

Dernière mise à jour: 2024-06-16 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2406.10993

Source PDF: https://arxiv.org/pdf/2406.10993

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires