Améliorer la reconnaissance automatique de la parole avec injection de texte
Une nouvelle méthode améliore la performance de la reconnaissance vocale grâce à l'intégration de données textuelles.
― 7 min lire
Table des matières
La Reconnaissance Automatique de la Parole (ASR) est une technologie qui permet aux ordinateurs de comprendre et de répondre à la parole humaine. Elle est largement utilisée dans des applications comme la dictée vocale, les assistants numériques et les sous-titres vidéo. Bien que les systèmes ASR soient souvent jugés sur leur taux d'erreur de mots (WER), il y a des tâches supplémentaires qui doivent être abordées pour améliorer les performances globales. Ces tâches incluent des choses comme mettre en majuscule la première lettre des phrases, détecter quand quelqu'un arrête de parler et comprendre le flux naturel de la conversation.
Cet article va parler d'une nouvelle approche pour améliorer ces tâches supplémentaires, appelées Tâches auxiliaires, dans les modèles ASR. En utilisant une méthode appelée Injection de texte, on peut rendre le système ASR meilleur pour gérer à la fois la tâche principale de reconnaissance de la parole et ces tâches supplémentaires.
Le besoin de tâches auxiliaires
Les systèmes ASR font plus que simplement convertir des mots parlés en texte. Ils doivent souvent gérer d'autres tâches qui améliorent l'expérience utilisateur. Par exemple, quand une personne parle à un assistant numérique, il est important que le système sache quand la personne a fini de parler. Ça aide l'assistant à répondre au bon moment. De même, le texte produit par l'ASR doit être facile à lire, d'où l'importance des tâches comme la Capitalisation et la ponctuation.
Les systèmes ASR traditionnels utilisent souvent des modèles séparés pour ces tâches auxiliaires, mais des développements récents permettent une approche plus intégrée où toutes les tâches peuvent être gérées par un seul modèle. Cette méthode a le potentiel d'améliorer significativement la performance de la tâche ASR et des tâches auxiliaires.
Cependant, il y a un défi : des tâches simples comme la capitalisation, qui reposent beaucoup sur la langue écrite, manquent souvent de données d'entraînement suffisantes. Alors que les données audio ont tendance à être limitées, les données textuelles sont plus disponibles. Cela crée un écart où les modèles peuvent avoir du mal avec certaines tâches.
Qu'est-ce que l'injection de texte ?
L'injection de texte est une technique qui aide les modèles ASR à tirer parti des données textuelles abondantes disponibles. Dans cette approche, un modèle apprend à la fois à partir de l'audio parlé et de textes écrits supplémentaires. L'idée principale est de permettre au modèle ASR de puiser dans ces informations supplémentaires pour améliorer sa performance dans diverses tâches.
Lors de l'entraînement d'un modèle ASR, le modèle de langue interne (ILM) est un composant clé. Il prédit quel mot vient ensuite en se basant sur les mots déjà prononcés. En incluant des données textuelles, on peut affiner cette partie du modèle, l'aidant à mieux comprendre le contexte et à prédire les mots plus précisément.
Améliorer les tâches auxiliaires
Dans le contexte de l'ASR, les deux tâches auxiliaires sur lesquelles nous allons nous concentrer sont la capitalisation et la prédiction des tours de parole. La capitalisation consiste à s'assurer que les mots sont écrits correctement, avec des lettres majuscules au début des phrases et pour les noms propres. La prédiction des tours de parole consiste à déterminer quand un locuteur a fait une pause, ce qui indique s'il a terminé de parler ou s'il prend juste une courte pause avant de continuer.
Pour former le modèle pour ces tâches, on peut utiliser une combinaison de données audio et textuelles appariées, ainsi que des données textuelles non appariées. Les données non appariées sont particulièrement utiles pour élargir la gamme de mots et de phrases que le modèle peut gérer, surtout ceux qui pourraient ne pas être présents dans l'ensemble de données d'entraînement audio.
L'architecture du modèle
L'approche consiste à utiliser une architecture de modèle spécialisée pour entraîner ensemble les diverses tâches liées à l'ASR et aux tâches auxiliaires. La structure comprend à la fois un encodeur et un décodeur. L'encodeur traite l'entrée audio, tandis que le décodeur génère du texte, appliquant les connaissances acquises à partir de l'audio et du texte.
Dans cette architecture, le modèle peut efficacement gérer la tâche principale d'ASR tout en apprenant simultanément à gérer les tâches auxiliaires de capitalisation et de tour de parole. Il accomplit cela en tirant parti des motifs observés dans la langue parlée et le texte écrit.
Préparation des données
Pour les tâches de capitalisation et de tour de parole, la préparation des données est cruciale. L'ensemble de données audio-texte appariées comprendra des conversations et des dictées qui ont été annotées avec la capitalisation correcte et les marqueurs de pause. D'autre part, les données textuelles uniquement seront collectées à partir de diverses sources, comme des recherches sur le web et d'autres requêtes courtes.
Dans les cas où les données audio pourraient ne pas avoir de marqueurs de capitalisation ou de pause clairs, on peut utiliser des règles ou des motifs prédéfinis pour insérer ces annotations de manière appropriée. Pour les données uniquement textuelles, il est essentiel de s'assurer que ces transcriptions reflètent toujours la façon dont les gens parlent naturellement.
Processus de formation
Lors de la formation du modèle, deux types d'ensembles de données sont utilisés : les données appariées (qui incluent à la fois de l'audio et du texte) et les données non appariées (qui se composent uniquement de texte). Le modèle apprendra à partir des données appariées de manière classique, tout en étant également formé sur les données uniquement textuelles pour améliorer sa performance ILM. Cette approche double permet au modèle d'apprendre dans une variété de contextes.
L'entraînement combine les pertes des deux tâches auxiliaires et de la tâche principale d'ASR, permettant un apprentissage équilibré à travers tous les composants du modèle. L'objectif est de créer un système capable de bien performer dans tous les domaines, en reconnaissant avec précision les mots prononcés tout en gérant efficacement la capitalisation et les pauses.
Résultats expérimentaux
Des tests ont montré que l'intégration de l'injection de texte dans les modèles ASR peut conduire à une amélioration des performances dans les tâches auxiliaires. Par exemple, le taux d'erreur de capitalisation a été considérablement réduit, surtout dans les cas impliquant des mots rares ou moins courants. De même, la capacité du modèle à prédire quand quelqu'un a terminé de parler a également montré une amélioration notable.
Ces résultats indiquent que l'utilisation de données textuelles non appariées aide non seulement à améliorer la performance du modèle, mais aussi à améliorer l'expérience utilisateur globale en rendant la sortie ASR plus précise et plus facile à lire.
Conclusion
L'intégration de l'injection de texte dans les modèles ASR représente un avancement précieux dans la technologie de reconnaissance vocale. En permettant aux modèles d'apprendre à partir de données audio et textuelles, on peut améliorer non seulement la précision de la reconnaissance vocale, mais aussi la gestion des tâches connexes telles que la capitalisation et la prédiction des tours de parole.
Alors que la demande pour des interactions vocales plus sophistiquées continue de croître, des méthodes comme l'injection de texte joueront un rôle vital dans l'amélioration des performances et de l'utilisabilité des systèmes ASR. Les recherches futures pourraient encore élargir ces techniques, explorant leurs applications dans un éventail plus large de tâches et de contextes.
Titre: Text Injection for Capitalization and Turn-Taking Prediction in Speech Models
Résumé: Text injection for automatic speech recognition (ASR), wherein unpaired text-only data is used to supplement paired audio-text data, has shown promising improvements for word error rate. This study examines the use of text injection for auxiliary tasks, which are the non-ASR tasks often performed by an E2E model. In this work, we use joint end-to-end and internal language model training (JEIT) as our text injection algorithm to train an ASR model which performs two auxiliary tasks. The first is capitalization, which is a de-normalization task. The second is turn-taking prediction, which attempts to identify whether a user has completed their conversation turn in a digital assistant interaction. We show results demonstrating that our text injection method boosts capitalization performance for long-tail data, and improves turn-taking detection recall.
Auteurs: Shaan Bijwadia, Shuo-yiin Chang, Weiran Wang, Zhong Meng, Hao Zhang, Tara N. Sainath
Dernière mise à jour: 2023-08-14 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2308.07395
Source PDF: https://arxiv.org/pdf/2308.07395
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.