Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes# Calcul et langage# Son# Traitement de l'audio et de la parole

Progrès dans la technologie de traitement de la parole en temps réel

Un nouveau système combine transcription et traduction pour une meilleure communication.

― 6 min lire


Avancée révolutionnaireAvancée révolutionnairedans la tech de la paroleen temps réelinstantanées.transcription et une traductionNouveau système qui offre une
Table des matières

Dans le monde d'aujourd'hui, les gens ont souvent besoin à la fois de traductions écrites et de Transcriptions de la langue parlée. C'est surtout le cas dans des situations comme des cours ou des conversations où comprendre les mots prononcés est super important. Parfois, une personne peut comprendre la langue qui est parlée mais avoir du mal à la traduire dans sa propre langue. Avoir les deux formes écrites peut aider à clarifier le sens et à mieux comprendre.

Besoin de Transcriptions et Traductions

Quand quelqu'un écoute un discours ou une conversation, il peut capter certains mots mais avoir du mal à comprendre. Dans ces cas-là, avoir une transcription précise (la forme écrite de ce qui a été dit) avec une traduction (le même contenu dans une autre langue) peut vraiment aider. Avoir accès aux deux rend plus facile le suivi et la compréhension du message.

De plus, il est souhaitable que la transcription et la traduction soient étroitement alignées. Cette correspondance est utile dans des applications qui visent à la transparence des Systèmes d'IA. Cependant, développer une technologie capable de fournir à la fois des transcriptions et des traductions tout en traitant la parole en temps réel a été un défi.

Solutions Actuelles et Défis

Certains chercheurs ont bossé sur des systèmes capables de créer à la fois des transcriptions et des traductions en simultané. Pourtant, la plupart des efforts ne se sont pas concentrés sur des scénarios en temps réel où une nouvelle parole arrive en continu. Un effort notable dans ce domaine a utilisé un modèle complexe qui n'est pas vraiment adapté au traitement de la parole en cours et a eu des problèmes de ce qu'on appelle le "clignotement", où les résultats sont incohérents.

Récemment, une nouvelle méthode a été introduite qui permet la reconnaissance vocale et la traduction en temps réel en utilisant une approche plus simple. Cette méthode pourrait générer les deux Sorties, mais elle s'appuyait sur des unités de décodeur séparées, ce qui rend le système plus complexe.

Nouvelle Approche : Streaming Transformer-Transducer

Cet article présente un système novateur appelé le Streaming Transformer-Transducer. Ce système peut générer à la fois des transcriptions et des traductions en n'utilisant qu'un seul décodeur, ce qui simplifie le processus. Il est conçu pour produire efficacement les deux sorties tout en gardant les délais au minimum.

Pour entraîner ce système, les chercheurs ont développé une méthode appelée entraînement de sortie sérialisée à niveau de jeton joint. Cette technique utilise un outil pour aligner la transcription source et les textes de traduction correspondants. En utilisant cet alignement, ils peuvent former le modèle à produire à la fois des transcriptions et des traductions sans accroc.

Résultats Expérimentaux

Les chercheurs ont testé leur nouvelle méthode dans des situations monolingues et multilingues. Dans ces tests, le nouveau système a démontré un équilibre notable entre qualité et rapidité. En moyenne, le processus de transcription prenait environ une seconde, tandis que la traduction prenait environ 1,3 seconde. Ça se défend par rapport aux systèmes qui fonctionnent séparément pour la transcription et la traduction.

L'étude a révélé que cette méthode améliorait la qualité de sortie comparée aux systèmes traditionnels séparés. En moyenne, la nouvelle approche a réduit les taux d'erreur de mots (WER) de 1,1 et a augmenté le score BLEU (une mesure de la qualité de traduction) de 0,4 lors des tests multilingues.

Importance de la Faible Latence

La latence est un facteur critique quand il s'agit d'applications de discours en direct. Plus le délai est court, plus le système est efficace pour la communication en temps réel. Cette nouvelle méthode réussit à obtenir une faible latence, ce qui la rend adaptée aux scénarios de streaming. La vitesse à laquelle les transcriptions et les traductions peuvent être fournies peut vraiment impacter l'expérience utilisateur, surtout pendant des événements importants où la compréhension immédiate est cruciale.

Compréhension des Sorties

Dans ce nouveau système, la relation entre les transcriptions et les traductions peut aider à mettre en évidence les erreurs de compréhension. En générant les deux sorties ensemble, il est plus facile d'identifier les erreurs et les zones de malentendu. Par exemple, si un terme est mal reconnu dans la transcription, cela se reflète souvent dans la traduction. Analyser ces relations peut encore améliorer la clarté et la précision de la technologie.

Considérations Environnementales

L'approche conjointe aborde aussi les préoccupations environnementales en réduisant le nombre de systèmes séparés nécessaires pour la transcription et la traduction. Au lieu de nécessiter plusieurs systèmes pour différentes langues et tâches, le nouveau modèle regroupe tout dans un seul système. Ce changement contribue à une application plus durable de la technologie IA.

Conclusion

Le Streaming Transformer-Transducer représente un pas en avant significatif dans le domaine du traitement de la parole en temps réel. En fournissant à la fois des transcriptions et des traductions simultanément via un seul décodeur, le système est plus efficace et convivial. Les résultats des expériences montrent qu'il répond non seulement aux normes de qualité mais performe aussi bien en termes de rapidité.

Cette nouvelle approche pourrait changer la façon dont les gens accèdent et comprennent le contenu parlé. Elle offre une solution fiable pour ceux qui ont besoin de traduction et transcription en temps réel, en faisant un outil précieux dans diverses applications comme l'éducation, le voyage et les affaires. Le potentiel de cette technologie à évoluer et améliorer l'accessibilité pour les locuteurs de différentes langues est prometteur et pourrait avoir de larges impacts dans un monde globalisé.

Source originale

Titre: Token-Level Serialized Output Training for Joint Streaming ASR and ST Leveraging Textual Alignments

Résumé: In real-world applications, users often require both translations and transcriptions of speech to enhance their comprehension, particularly in streaming scenarios where incremental generation is necessary. This paper introduces a streaming Transformer-Transducer that jointly generates automatic speech recognition (ASR) and speech translation (ST) outputs using a single decoder. To produce ASR and ST content effectively with minimal latency, we propose a joint token-level serialized output training method that interleaves source and target words by leveraging an off-the-shelf textual aligner. Experiments in monolingual (it-en) and multilingual (\{de,es,it\}-en) settings demonstrate that our approach achieves the best quality-latency balance. With an average ASR latency of 1s and ST latency of 1.3s, our model shows no degradation or even improves output quality compared to separate ASR and ST models, yielding an average improvement of 1.1 WER and 0.4 BLEU in the multilingual case.

Auteurs: Sara Papi, Peidong Wang, Junkun Chen, Jian Xue, Jinyu Li, Yashesh Gaur

Dernière mise à jour: 2023-10-02 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2307.03354

Source PDF: https://arxiv.org/pdf/2307.03354

Licence: https://creativecommons.org/licenses/by-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires