Avancées dans l'évaluation de la traduction automatique des discours
Nouveau cadre améliore l'évaluation des systèmes de traduction de la parole.
― 7 min lire
Table des matières
- Le Besoin d'une Meilleure Évaluation dans la Traduction de la Parole
- Comprendre l'Alignement Source-Cible
- Présentation du Cadre SpeechAlign
- Le Processus de Création de l'Ensemble de Données
- Évaluation de la Qualité de l'Audio Synthétique
- Méthodologie d'Évaluation Proposée
- Évaluation de Différents Modèles
- Conclusion
- Source originale
- Liens de référence
La traduction de la parole est un domaine qui se concentre sur le fait de convertir la langue parlée en texte écrit ou de la traduire en une autre langue parlée. Ça devient de plus en plus populaire pour diverses utilisations, comme ajouter des sous-titres à des vidéos dans différentes langues ou aider les gens à communiquer quand ils parlent des langues différentes.
Le Besoin d'une Meilleure Évaluation dans la Traduction de la Parole
Traditionnellement, les systèmes de traduction de la parole fonctionnaient en connectant différents modèles ensemble. Par exemple, un modèle prenait la langue parlée et la transformait en texte écrit (on appelle ça la Reconnaissance Automatique de la Parole, ou RAPI). Ensuite, un autre modèle prenait ce texte écrit et le traduisait dans une autre langue (connu sous le nom de Traduction automatique, ou TA). Si l'objectif était de traduire directement la parole dans une autre langue parlée, un modèle supplémentaire était nécessaire pour transformer le texte écrit en parole.
Récemment, il y a eu de nouveaux systèmes appelés modèles "end-to-end". Ces modèles peuvent traduire directement de la langue parlée à une autre langue parlée sans avoir besoin de la convertir d'abord en texte. Bien que ces nouveaux modèles aient fait des progrès, ils ne fonctionnent toujours pas aussi bien que les systèmes qui traduisent du texte écrit. Donc, il y a encore beaucoup de recherches pour améliorer la traduction de la parole.
Comprendre l'Alignement Source-Cible
Une partie cruciale de la traduction de la parole est de comprendre comment la langue source (les mots parlés) s'aligne avec la langue cible (les mots traduits). Ça veut dire qu'il faut déterminer comment le modèle décide quelles parties de la langue parlée correspondent à quelles parties de la langue traduite.
Dans la traduction de texte, les chercheurs ont développé différentes manières d'évaluer cet alignement, comme mesurer à quelle fréquence un modèle fait des erreurs en essayant de faire correspondre des mots de la langue source à la langue cible. Cependant, il n'y a pas eu beaucoup de travail fait dans le domaine de la traduction de la parole pour comprendre ces alignements, ce qui est un sujet de recherche nouvelle.
Présentation du Cadre SpeechAlign
Pour remédier au manque d'outils fiables pour évaluer les alignements dans la traduction de la parole, un nouveau cadre appelé SpeechAlign a été développé. Ce cadre se compose de deux parties principales : un nouvel ensemble de données pour évaluer la traduction de la parole et de nouvelles métriques pour mesurer la qualité de l'alignement.
Ensemble de Données Speech Gold Alignment
Le nouvel ensemble de données, appelé ensemble de données Speech Gold Alignment, est conçu spécifiquement pour évaluer à quel point les systèmes de traduction de la parole alignent la langue source avec la langue cible. Il s'appuie sur un ensemble de données existant qui avait des alignements de mots entre les traductions textuelles en anglais et en allemand et ajoute des versions de discours synthétisé de ces textes.
Pour créer cet ensemble de données, un modèle de Synthèse Vocale (TTS) a été utilisé pour générer des versions parlées des phrases avec des marqueurs de temps pour chaque mot. Cette approche permet aux chercheurs d'avoir une multitude de données audio pour évaluer l'alignement de la parole sans avoir besoin d'une annotation manuelle extensive.
Nouvelles Métriques pour Mesurer l'Alignement
En plus de l'ensemble de données, deux nouvelles métriques ont été introduites pour évaluer la qualité de l'alignement dans les modèles de parole :
Taux d'Erreur d'Alignement de la Parole (SAER) : Cette métrique examine à quel point le système associe bien les mots parlés à leurs traductions, en traitant chaque mot de manière égale.
Taux d'Erreur d'Alignement de la Parole Pondéré par le Temps (TW-SAER) : Cette métrique améliore le SAER en tenant compte de la durée de chaque mot prononcé, donnant plus de poids aux mots plus longs lors de la mesure des alignements.
Ces deux métriques fournissent aux chercheurs de meilleurs outils pour évaluer dans quelle mesure les systèmes de traduction de la parole réussissent à créer des alignements précis.
Le Processus de Création de l'Ensemble de Données
Créer l'ensemble de données Speech Gold Alignment implique deux étapes importantes. La première étape consiste à générer de la parole synthétique pour toutes les phrases de l'ensemble de données original. La deuxième étape est d'établir des intervalles de temps pour chaque mot basé sur la parole synthétisée.
Génération de Parole Synthétique
Un système TTS a été utilisé pour produire des versions parlées des phrases. Le système génère des représentations phonétiques des entrées et assigne des durées aux sons. Cela permet de créer une parole naturelle, résultant en différentes variations pour la même phrase.
Jumelage des Mots avec l'Audio
Une fois que la parole est générée, il est crucial de connecter les mots parlés à leurs formes écrites. Cela se fait en mappant soigneusement l'audio produit aux mots de l'ensemble de données original. Les chercheurs rencontrent des défis pendant ce processus, comme la fusion phonémique (où deux mots ou plus se mélangent lorsqu'ils sont prononcés) et la fragmentation phonémique (où un mot unique est divisé en plusieurs parties).
Évaluation de la Qualité de l'Audio Synthétique
Pour déterminer la qualité de l'audio synthétique, les chercheurs l'ont comparé à des ensembles de données existants – spécifiquement, le jeu de test de traduction de la parole EuroParl. En évaluant à quel point un modèle de reconnaissance vocale réussissait à comprendre à la fois l'audio synthétisé et les enregistrements originaux, ils pouvaient mesurer l'efficacité de leur nouvel ensemble de données.
Méthodologie d'Évaluation Proposée
Pour évaluer comment différents systèmes de traduction de la parole créent des alignements source-cible, les chercheurs utilisent des cartes de contribution des modèles. Ces cartes montrent combien chaque token source (mot) influence les tokens cibles (mots traduits).
En adaptant des métriques d'évaluation traditionnelles au contexte de la parole, les chercheurs ont créé un moyen de mesurer à quel point les modèles alignent correctement les mots parlés avec leurs traductions.
Évaluation de Différents Modèles
En utilisant le cadre SpeechAlign, les chercheurs ont testé divers modèles de traduction de la parole pour voir à quel point ils ont bien performé dans la tâche d'alignement. Ils se sont concentrés sur des modèles connus sous le nom de Whisper, qui est populaire dans le domaine.
L'analyse a révélé un lien entre les métriques de performance des modèles et leurs scores d'alignement, indiquant qu'un meilleur alignement entraîne souvent une meilleure qualité de traduction.
Conclusion
En résumé, le cadre SpeechAlign fournit de nouveaux outils pour évaluer à quel point les systèmes de traduction de la parole alignent la langue parlée avec le texte traduit. L'introduction de l'ensemble de données Speech Gold Alignment et le développement de métriques comme le SAER et le TW-SAER aident les chercheurs à évaluer et à améliorer l'efficacité des modèles de traduction de la parole.
Ce travail se concentre principalement sur les langues à ressources élevées, comme l'anglais et l'allemand. Bien que l'ensemble de données repose sur des discours du Parlement Européen, il sert de ressource précieuse pour les recherches en cours dans le domaine de la traduction de la parole. En comblant les lacunes dans l'évaluation, ce cadre vise à faire progresser le domaine et à contribuer à une meilleure communication entre les langues.
Titre: SpeechAlign: a Framework for Speech Translation Alignment Evaluation
Résumé: Speech-to-Speech and Speech-to-Text translation are currently dynamic areas of research. In our commitment to advance these fields, we present SpeechAlign, a framework designed to evaluate the underexplored field of source-target alignment in speech models. The SpeechAlign framework has two core components. First, to tackle the absence of suitable evaluation datasets, we introduce the Speech Gold Alignment dataset, built upon a English-German text translation gold alignment dataset. Secondly, we introduce two novel metrics, Speech Alignment Error Rate (SAER) and Time-weighted Speech Alignment Error Rate (TW-SAER), which enable the evaluation of alignment quality within speech models. While the former gives equal importance to each word, the latter assigns weights based on the length of the words in the speech signal. By publishing SpeechAlign we provide an accessible evaluation framework for model assessment, and we employ it to benchmark open-source Speech Translation models. In doing so, we contribute to the ongoing research progress within the fields of Speech-to-Speech and Speech-to-Text translation.
Auteurs: Belen Alastruey, Aleix Sant, Gerard I. Gállego, David Dale, Marta R. Costa-jussà
Dernière mise à jour: 2024-04-25 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2309.11585
Source PDF: https://arxiv.org/pdf/2309.11585
Licence: https://creativecommons.org/licenses/by-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.