Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes# Calcul et langage# Intelligence artificielle# Son# Traitement de l'audio et de la parole

Avancées dans l'apprentissage joint parole-texte

Un nouveau modèle améliore l'alignement de la parole et du texte pour une meilleure reconnaissance automatique.

― 7 min lire


Percée dansPercée dansl'apprentissage conjointde la parole et du textetextuelle.de la reconnaissance vocale etNouveau modèle améliore la performance
Table des matières

Les récentes avancées technologiques ont rendu possible la génération d'images à partir de prompts textuels d'une manière qui combine à la fois des infos textuelles et visuelles. Cette idée a été appliquée à la reconnaissance vocale automatique (ASR), où les systèmes peuvent maintenant utiliser ensemble les données vocales et textuelles. Ces systèmes montrent du potentiel, mais ils rencontrent des difficultés quand la longueur des séquences vocales et textuelles ne correspond pas. Ce décalage peut être résolu de deux manières, soit en modifiant la façon dont les séquences sont traitées, soit en utilisant une méthode qui les aligne explicitement.

Dans ce travail, on présente des preuves que les systèmes combinés voix-texte peuvent bien fonctionner sans avoir besoin de se soucier strictement des longueurs des séquences. En se concentrant sur la cohérence entre les représentations de la voix et du texte, ces systèmes peuvent mieux performer même avec des différences de longueurs. On montre aussi que notre méthode d'utilisation de la cohérence peut améliorer les taux d'erreur de mots dans les systèmes qui fonctionnent avec une seule langue ainsi que ceux qui gèrent plusieurs langues.

Le succès des grands modèles entraînés sur d'énormes quantités de données est devenu évident. Cela se voit dans les systèmes basés sur le texte qui peuvent effectuer des tâches sans exemples préalables et dans les systèmes audio qui s'adaptent à divers défis sonores. Ce succès appelle à des solutions qui gèrent efficacement à la fois le texte et l'audio sans s'appuyer sur des données parfaitement appariées.

Une manière efficace de traiter le problème est de former un grand modèle qui peut travailler avec à la fois la voix et le texte, permettant d'utiliser des exemples de manière interchangeable. Dans le cas des images et du texte, cette approche a donné des performances élevées dans diverses tâches. La combinaison de l'audio et du texte dans l'ASR a également été explorée, menant à la création de modèles conjoints capables d'apprendre à partir de données non appariées de texte et de voix.

Cependant, l'ASR fait face à un défi unique, car la voix implique généralement des séquences plus longues que le texte. Cette différence complique la façon de représenter les deux types de données dans le même espace, rendant les comparaisons directes difficiles. Pour résoudre cela, les approches passées ont soit modifié les séquences de texte soit utilisé un modèle séparé pour atteindre l'alignement.

Une option a été de surélever le texte pendant le processus, ce qui a été appliqué avec succès aux tâches ASR. Cette méthode montre qu'un alignement approximatif peut suffire pour que le modèle apprenne efficacement. Une autre approche utilise un modèle entraîné séparément pour garantir un alignement précis, permettant au système de comparer directement les sorties de la voix et du texte.

La Régularisation de la cohérence est un concept tiré des modèles génératifs, où les systèmes travaillent à aligner des exemples appariés. Cela peut se faire de manière explicite ou implicite. La question se pose de savoir si l'on peut atteindre la cohérence sans connaître l'alignement exact entre la voix et le texte.

Dans notre travail, on examine si on peut appliquer une régularisation de la cohérence en utilisant des Alignements implicites, similaires à ceux appris dans d'autres systèmes, pour obtenir les mêmes bénéfices que ceux vus avec des méthodes explicites. Pour y parvenir, on développe un algorithme qui identifie le meilleur alignement possible entre les exemples de voix et de texte. On constate que cet alignement s'apprend durant l'entraînement et s'améliore à mesure que le modèle devient plus profond.

En ajustant les critères pour la régularisation de la cohérence, on peut encourager un meilleur alignement, entraînant des améliorations significatives dans les taux d'erreur de mots sans avoir besoin d'un modèle d'alignement séparé. Nos résultats indiquent que maintenir la cohérence dans les représentations multimodales peut être atteint en permettant un certain décalage.

Méthodologie Proposée

Notre méthodologie consiste à créer un système ASR semi-supervisé basé sur une modélisation conjointe de la voix et du texte. On propose un algorithme de meilleur alignement et une perte de cohérence associée, inspirés par des travaux précédents dans le domaine.

L'architecture du modèle comprend un encodeur audio qui traite les entrées audio et un encodeur de texte qui traite les entrées textuelles. L'architecture inclut également un composant partagé qui combine les informations des deux modalités. Cela permet une représentation conjointe de la voix et du texte.

Le processus d'entraînement implique deux tâches principales : l'ASR et la reconstruction de texte masqué. Pour l'ASR, on alimente l'audio dans l'encodeur audio et on compare la sortie avec le texte réel. Pour la reconstruction de texte masqué, on masque des portions de texte et on entraîne le modèle à prédire les parties manquantes.

Pour définir notre perte de cohérence, on regarde des exemples appariés de voix et de texte. On a besoin d'un moyen d'aligner ces exemples car ils diffèrent en longueur. On définit un alignement comme une liste d'index qui nous aide à associer les cadres audio avec les cadres de texte associés, s'assurant que les cadres audio correspondent correctement à la séquence de texte.

La perte de cohérence mesure à quel point les représentations partagées de l'audio et du texte sont similaires, en utilisant une mesure de similarité pour évaluer cela. Au lieu de s'appuyer sur un modèle d'alignement appris, on vise à calculer le meilleur alignement possible basé sur les données existantes.

Meilleur Alignement et Résultats

On utilise le "dynamic time warping" pour identifier le meilleur alignement entre les séquences de voix et de texte. On décrit une méthode pour calculer le coût associé à la comparaison de deux séquences basées sur des alignements. Cela nous aide à établir un algorithme récursif pour trouver la meilleure façon d'apparier l'audio au texte.

Dans notre analyse, on évalue à quel point le modèle de base apprend à aligner les exemples appariés de voix et de texte même sans aucune régularisation supplémentaire. On utilise un petit ensemble d'exemples aléatoires pour comparer différents alignements, en se concentrant sur la nature du meilleur alignement par rapport aux hypothèses naïves.

Nos visualisations révèlent qu'il existe un alignement clair entre la voix et le texte à travers l'encodeur partagé, et la qualité de cet alignement s'améliore à mesure qu'on va plus profondément dans le modèle. Les résultats suggèrent qu'il y a effectivement une façon dont les deux modalités peuvent être représentées de manière similaire dans l'espace d'embedding.

Dans nos évaluations, on examine les résultats de l'application de la perte de meilleur alignement dans divers contextes. Les résultats montrent des améliorations modestes dans les taux d'erreur de mots en utilisant la perte de meilleur alignement dans un scénario en anglais à haute ressource. Dans un contexte multilingue, cependant, on observe des gains plus substantiels alors que les défis augmentent, laissant place à des améliorations.

Conclusion

On a montré qu'un modèle semi-supervisé conçu pour la voix et le texte conjoints peut apprendre à représenter efficacement les deux modalités. En se concentrant sur le meilleur alignement entre la voix et le texte et en optimisant cela avec une perte de cohérence, on obtient des améliorations par rapport aux modèles basiques dans plusieurs scénarios. Notre approche améliore les performances du modèle sans augmenter sa complexité, offrant une voie prometteuse pour de futures avancées dans la représentation conjointe voix-texte.

Source originale

Titre: Improving Joint Speech-Text Representations Without Alignment

Résumé: The last year has seen astonishing progress in text-prompted image generation premised on the idea of a cross-modal representation space in which the text and image domains are represented jointly. In ASR, this idea has found application as joint speech-text encoders that can scale to the capacities of very large parameter models by being trained on both unpaired speech and text. While these methods show promise, they have required special treatment of the sequence-length mismatch inherent in speech and text, either by up-sampling heuristics or an explicit alignment model. In this work, we offer evidence that joint speech-text encoders naturally achieve consistent representations across modalities by disregarding sequence length, and argue that consistency losses could forgive length differences and simply assume the best alignment. We show that such a loss improves downstream WER in both a large-parameter monolingual and multilingual system.

Auteurs: Cal Peyser, Zhong Meng, Ke Hu, Rohit Prabhavalkar, Andrew Rosenberg, Tara N. Sainath, Michael Picheny, Kyunghyun Cho

Dernière mise à jour: 2023-08-11 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2308.06125

Source PDF: https://arxiv.org/pdf/2308.06125

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires