Avancées dans les systèmes de traduction vocale en temps réel
Un nouveau système pour une traduction rapide et précise de la parole dans plusieurs langues.
― 7 min lire
Table des matières
Cet article parle d'un nouveau système pour traduire des langues parlées en temps réel. Le focus est sur LA traduction de l'anglais vers l'allemand, le japonais et le chinois, ainsi que la traduction de l'anglais parlé directement en japonais parlé. Le système combine différentes technologies pour améliorer la qualité de la traduction tout en réduisant les délais, ce qui est super important pour la communication en temps réel.
Traduction simultanée
La traduction simultanée signifie que la traduction se fait pendant que le locuteur parle. Les traducteurs doivent écouter et traduire vite pour éviter les retards. Ça nécessite un système capable de traiter la parole avec précision et de produire des traductions qui sonnent naturelles. Les méthodes traditionnelles impliquaient souvent des étapes séparées pour reconnaître la parole puis la traduire, ce qui causait des retards et des erreurs.
Les récentes avancées ont conduit au développement de systèmes qui peuvent traiter la parole plus efficacement. Ces systèmes peuvent prendre des entrées parlées et donner des traductions presque instantanément en utilisant un seul modèle plutôt que plusieurs étapes.
Développement de Modèle
Pour ce projet, on a construit un nouveau modèle de traduction qui utilise deux modèles pré-entraînés : un pour comprendre la langue parlée (HuBERT) et un autre pour convertir du texte en parole (mBART). En fusionnant ces deux modèles, on vise à créer un système de traduction plus efficace.
On a entraîné notre modèle en utilisant deux approches de décodage. La première s'appelle Accord Local (LA), qui se concentre sur la recherche de traductions stables. La seconde est AlignAtt, qui utilise des mécanismes d'attention pour aligner les mots parlés avec leurs traductions.
Politiques de Décodage
Accord Local (LA)
La méthode LA recherche les plus longs segments communs de la traduction pendant que l'entrée est parlée. Elle vérifie si la traduction reste cohérente en traitant des morceaux de discours. Si la traduction est d'accord sur plusieurs étapes, elle est jugée plus fiable.
AlignAtt
AlignAtt utilise l'attention pour trouver des liens entre les mots source et cible. Si un mot dans la traduction s'aligne avec des morceaux de l'entrée parlée, il produit cette traduction. Si ce n'est pas le cas, il attend que plus de paroles soient traitées. Cette méthode peut aider à réduire la latence, c'est-à-dire le délai entre l'entrée parlée et la traduction produite.
Traduction Parole-à-Texte
Notre système de parole-à-texte fonctionne en traduisant la langue parlée en texte écrit. On a utilisé une combinaison de modèles pré-entraînés développés grâce à des recherches précédentes. Ces modèles nécessitent beaucoup de données d'entraînement, qu'on a récupérées dans des ensembles de données de traduction de discours bilingues existants.
Les modèles sont conçus pour gérer plusieurs langues, rendant le système polyvalent. On a aussi mis en place une méthode appelée Inter-connexion qui permet aux parties de reconnaissance de la parole et de traduction de texte du modèle de partager des informations efficacement.
Traduction Parole-à-Parole
La Traduction de la parole à la parole se fait en deux étapes principales : d'abord, on convertit l'entrée parlée en texte, puis on utilise un système de synthèse vocale (TTS) pour produire une sortie parlée dans la langue cible.
Le système TTS est composé de plusieurs modules. D'abord, il prédit les sons des mots (phonèmes) et les symboles qui indiquent des caractéristiques de la parole comme le ton et le rythme. Ensuite, il génère les sons de parole nécessaires en fonction de ces prédictions.
Améliorations du TTS
Dans notre travail précédent, la sortie TTS ne sonnait pas si naturelle à cause de problèmes de qualité dans la parole synthétisée et des erreurs faites pendant la phase de reconnaissance de la parole. On a amélioré notre système TTS en intégrant une nouvelle architecture qui améliore la manière dont les phonèmes et les caractéristiques de la parole sont prédites.
Le système TTS mis à jour utilise une méthode appelée l'architecture Transformer, qui a montré de meilleures performances dans la génération de discours naturel.
Configuration Expérimentale
Sources de Données
On a entraîné nos modèles de traduction en utilisant divers ensembles de données. Pour la parole-à-texte, les données comprenaient de nombreux exemples de personnes parlant en anglais, allemand, japonais et chinois. Cet entraînement aide le modèle à apprendre à capturer précisément différentes langues et leurs nuances.
Pour le système TTS, on a utilisé un ensemble de données de discours japonais qui fournit suffisamment de matériel pour que le modèle puisse apprendre les sons et les rythmes spécifiques à la langue japonaise.
Processus d'Entraînement
Le processus d'entraînement implique de fournir au modèle beaucoup d'exemples afin qu'il puisse apprendre à répondre de manière appropriée. On a adopté diverses stratégies pour s'assurer que le modèle pouvait gérer différents scénarios efficacement.
Pendant l'entraînement, on a fait des ajustements aux paramètres du modèle pour trouver le meilleur équilibre entre qualité (à quel point les traductions sont bonnes) et latence (à quelle vitesse les traductions se produisent).
Résultats
Après l'entraînement, on a évalué les systèmes de traduction pour voir comment ils performaient. On a regardé plusieurs critères, y compris l'exactitude de la traduction et le temps qu'il fallait pour produire les traductions.
Performance Parole-à-Texte
Dans nos tests, les modèles utilisant l'approche LA ont généralement produit une meilleure qualité de traduction par rapport à ceux utilisant AlignAtt. Cependant, le modèle AlignAtt a montré de meilleurs résultats dans des situations où une faible latence était cruciale.
Performance Traduction Parole-à-Parole
Pour la traduction parole-à-parole, nos mises à jour ont conduit à des améliorations dans le son de la parole synthétisée. Le nouveau système TTS a produit des résultats plus naturels, contribuant positivement à la qualité globale de la traduction.
Qualité vs. Latence
Une considération importante dans la traduction simultanée est le compromis entre la qualité et la latence. Des traductions de meilleure qualité nécessitent souvent plus de temps de traitement, ce qui peut entraîner des retards.
Dans nos résultats, on a noté que la politique LA, bien que plus précise, pouvait provoquer des temps d'attente plus longs dans certaines conditions. En revanche, AlignAtt pouvait réduire les délais mais produisait parfois des traductions moins fiables.
Nos résultats ont mis en évidence la nécessité d'une amélioration continue de la qualité et de la rapidité dans différents modes de traduction.
Travaux Futurs
Pour l'avenir, on prévoit d'explorer des méthodes et des améliorations supplémentaires pour peaufiner nos systèmes de traduction. Cela inclura le raffinement de notre approche pour produire des préfixes plus stables pour le TTS et tester différentes architectures de modèle.
On vise aussi à étendre les capacités du système pour inclure plus de langues et de dialectes afin d'atteindre un public plus large.
Conclusion
En résumé, cet article présente un aperçu d'un nouveau système conçu pour la traduction de discours en temps réel. Grâce aux avancées dans les technologies de parole-à-texte et de texte-à-parole, on peut fournir des traductions qui sont non seulement plus rapides mais aussi plus précises. Les conclusions suggèrent qu'en équilibrant qualité et latence, on peut créer des systèmes plus efficaces qui répondent aux besoins des utilisateurs dans des scénarios en temps réel.
Alors qu'on continue de peaufiner notre technologie, il y a de la promesse pour des améliorations encore plus grandes à l'avenir, améliorant la manière dont les gens communiquent à travers les barrières linguistiques.
Titre: NAIST Simultaneous Speech Translation System for IWSLT 2024
Résumé: This paper describes NAIST's submission to the simultaneous track of the IWSLT 2024 Evaluation Campaign: English-to-{German, Japanese, Chinese} speech-to-text translation and English-to-Japanese speech-to-speech translation. We develop a multilingual end-to-end speech-to-text translation model combining two pre-trained language models, HuBERT and mBART. We trained this model with two decoding policies, Local Agreement (LA) and AlignAtt. The submitted models employ the LA policy because it outperformed the AlignAtt policy in previous models. Our speech-to-speech translation method is a cascade of the above speech-to-text model and an incremental text-to-speech (TTS) module that incorporates a phoneme estimation model, a parallel acoustic model, and a parallel WaveGAN vocoder. We improved our incremental TTS by applying the Transformer architecture with the AlignAtt policy for the estimation model. The results show that our upgraded TTS module contributed to improving the system performance.
Auteurs: Yuka Ko, Ryo Fukuda, Yuta Nishikawa, Yasumasa Kano, Tomoya Yanagita, Kosuke Doi, Mana Makinae, Haotian Tan, Makoto Sakai, Sakriani Sakti, Katsuhito Sudoh, Satoshi Nakamura
Dernière mise à jour: 2024-06-30 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2407.00826
Source PDF: https://arxiv.org/pdf/2407.00826
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.