Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes# Traitement de l'audio et de la parole# Son

Seed-ASR : Faire avancer la technologie de reconnaissance vocale

Un nouveau modèle améliore la précision des capacités de reconnaissance vocale en texte dans plusieurs langues.

― 6 min lire


Modèle de reconnaissanceModèle de reconnaissancevocale Seed-ASRvocale.et la polyvalence de la reconnaissanceDes avancées de ouf dans la précision
Table des matières

Dernièrement, la technologie de reconnaissance vocale a beaucoup fait parler d'elle grâce à sa capacité à transcrire des mots parlés en texte. L'objectif est de créer des systèmes capables de comprendre avec précision des signaux vocaux divers, comme différentes langues, accents et contextes. Les modèles traditionnels ont fait des progrès, mais ils galèrent souvent avec des scénarios complexes. Cet article parle d'un nouveau modèle de reconnaissance vocale appelé Seed-ASR, qui vise à améliorer les performances de manière significative.

Qu'est-ce que Seed-ASR ?

Seed-ASR est un modèle développé pour améliorer la reconnaissance vocale en utilisant un mélange de techniques avancées. Il utilise un grand modèle de langage (LLM) pour traiter des signaux vocaux continus. En alimentant le modèle non seulement avec l'entrée vocale mais aussi avec des infos contextuelles pertinentes, Seed-ASR peut comprendre et transcrire les mots parlés plus efficacement.

Caractéristiques clés de Seed-ASR

  1. Haute précision de reconnaissance : Seed-ASR a été entraîné sur une énorme quantité de données vocales, ce qui lui permet d'atteindre une précision remarquable pour transcrire le mandarin et divers dialectes chinois, ainsi que d'autres langues.

  2. Grande capacité du modèle : Le modèle a une structure complexe avec un nombre important de paramètres, ce qui lui permet de gérer efficacement une variété d'entrées vocales.

  3. Support multilingue : Seed-ASR peut transcrire non seulement le mandarin, mais aussi 13 dialectes chinois et plusieurs autres langues. Le modèle est conçu pour s'élargir et accueillir plus de langues avec le temps.

  4. Capacité de prise en compte du contexte : En utilisant des informations contextuelles, Seed-ASR peut améliorer la reconnaissance des mots-clés. Ça lui permet de mieux performer dans des conversations où le contexte est crucial pour comprendre.

  5. Approche d'entraînement par étapes : Le modèle est entraîné en différentes étapes, chacune avec un focus spécifique. Cette méthode structurée aide à améliorer progressivement ses capacités.

Comment fonctionne Seed-ASR

Le modèle Seed-ASR utilise un cadre qui combine le traitement audio et la compréhension linguistique. Il inclut un encodeur audio spécialisé qui apprend de grandes quantités de données vocales et conditionne le modèle sur des tâches spécifiques en utilisant des contextes pertinents.

Processus d'entraînement

L'entraînement de Seed-ASR se déroule en plusieurs étapes :

  1. Apprentissage auto-supervisé (SSL) : Cette première étape se concentre sur l'entraînement de l'encodeur audio en utilisant un volume large de données vocales sans aucune supervision. L'idée est de l'aider à capturer les caractéristiques essentielles de la langue parlée.

  2. Affinage supervisé (SFT) : À cette étape, le modèle est entraîné avec des données étiquetées où la parole est associée au texte correct. Cela aide à aligner l'entrée vocale avec la sortie désirée.

  3. Context SFT : Cela implique d'entraîner le modèle pour utiliser efficacement le contexte. En fournissant un dialogue historique pertinent ou d'autres indices contextuels, le modèle apprend à améliorer sa précision de transcription.

  4. Apprentissage par renforcement (RL) : Enfin, le modèle passe par un apprentissage par renforcement, où il apprend à prendre de meilleures décisions de transcription en fonction des retours. Cette étape se concentre sur l'amélioration des métriques de performance comme les taux d'erreur de mots.

Avantages par rapport aux modèles traditionnels

Seed-ASR se démarque des modèles traditionnels de reconnaissance vocale pour plusieurs raisons :

  • Précision améliorée : Les tests ont montré que Seed-ASR peut atteindre des taux d'erreur inférieurs par rapport aux anciens modèles. Avec une réduction de 10 % à 40 % des erreurs, il montre des avancées considérables.

  • Compréhension contextuelle : Beaucoup de modèles existants manquent la capacité de considérer le contexte, ce qui est crucial pour comprendre les nuances de la parole. Seed-ASR intègre cet aspect, ce qui fait une grande différence pour la transcription de conversation.

  • Support pour plusieurs langues : Contrairement à de nombreux modèles qui ne se concentrent que sur une langue, Seed-ASR peut gérer plusieurs langues et dialectes, ce qui le rend polyvalent dans son utilisation.

Évaluation de la performance

Pour évaluer les capacités de Seed-ASR, une série de tests a été réalisée. Ceux-ci ont couvert divers scénarios, y compris différents domaines, accents et combinaisons de langues.

Ensembles de données publics

Seed-ASR a été testé par rapport à des benchmarks en utilisant des ensembles de données disponibles publiquement. Le modèle a montré une amélioration substantielle de sa performance sur plusieurs ensembles de test, dépassant souvent ses concurrents.

Évaluation multidomaine

Le modèle a également été évalué sur des ensembles multidomaines comprenant des entrées vocales diverses provenant de sources variées comme des vidéos, des settings en direct et des réunions. Les résultats ont confirmé sa forte performance dans ces situations difficiles.

Discours long

Une autre zone de test a concerné le discours long, où le modèle a été évalué sur sa capacité à traiter des entrées audio plus longues. Seed-ASR a démontré qu'il peut traiter et transcrire efficacement de longs discours sans perdre des infos essentielles aux frontières.

Robustesse dans divers environnements

Une des caractéristiques marquantes de Seed-ASR est sa capacité à bien performer dans divers environnements acoustiques :

  • Gestion des accents et dialectes : Le modèle a été spécifiquement conçu pour reconnaître différents dialectes et accents chinois. Les tests ont révélé qu'il maintient une excellente compréhension même en présence de prononciations variées.

  • Reconnaissance des mots-clés dans les conversations : Dans des contextes conversationnels, où certains mots ou phrases sont critiques pour la compréhension, Seed-ASR a montré une meilleure mémoire des mots-clés par rapport aux systèmes traditionnels.

Évaluation subjective

Au-delà des évaluations numériques, Seed-ASR a également été soumis à un jugement humain. Des transcripteurs ont écouté des échantillons audio et ont donné leur avis sur l'intelligibilité des transcriptions. Les résultats ont indiqué que le modèle performait souvent aussi bien, voire mieux que des transcripteurs humains dans des conditions difficiles.

Conclusion

Seed-ASR représente une avancée significative dans le domaine de la reconnaissance vocale automatique. Sa capacité à transcrire avec précision la parole à travers plusieurs langues et contextes, combinée à ses performances robustes dans divers environnements, en fait un choix de premier plan pour les applications nécessitant des capacités de transcription vocale. Avec les développements en cours, le potentiel de Seed-ASR à gérer encore plus de langues et de tâches à l'avenir est prometteur.

Source originale

Titre: Seed-ASR: Understanding Diverse Speech and Contexts with LLM-based Speech Recognition

Résumé: Modern automatic speech recognition (ASR) model is required to accurately transcribe diverse speech signals (from different domains, languages, accents, etc) given the specific contextual information in various application scenarios. Classic end-to-end models fused with extra language models perform well, but mainly in data matching scenarios and are gradually approaching a bottleneck. In this work, we introduce Seed-ASR, a large language model (LLM) based speech recognition model. Seed-ASR is developed based on the framework of audio conditioned LLM (AcLLM), leveraging the capabilities of LLMs by inputting continuous speech representations together with contextual information into the LLM. Through stage-wise large-scale training and the elicitation of context-aware capabilities in LLM, Seed-ASR demonstrates significant improvement over end-to-end models on comprehensive evaluation sets, including multiple domains, accents/dialects and languages. Additionally, Seed-ASR can be further deployed to support specific needs in various scenarios without requiring extra language models. Compared to recently released large ASR models, Seed-ASR achieves 10%-40% reduction in word (or character, for Chinese) error rates on Chinese and English public test sets, further demonstrating its powerful performance.

Auteurs: Ye Bai, Jingping Chen, Jitong Chen, Wei Chen, Zhuo Chen, Chuang Ding, Linhao Dong, Qianqian Dong, Yujiao Du, Kepan Gao, Lu Gao, Yi Guo, Minglun Han, Ting Han, Wenchao Hu, Xinying Hu, Yuxiang Hu, Deyu Hua, Lu Huang, Mingkun Huang, Youjia Huang, Jishuo Jin, Fanliu Kong, Zongwei Lan, Tianyu Li, Xiaoyang Li, Zeyang Li, Zehua Lin, Rui Liu, Shouda Liu, Lu Lu, Yizhou Lu, Jingting Ma, Shengtao Ma, Yulin Pei, Chen Shen, Tian Tan, Xiaogang Tian, Ming Tu, Bo Wang, Hao Wang, Yuping Wang, Yuxuan Wang, Hanzhang Xia, Rui Xia, Shuangyi Xie, Hongmin Xu, Meng Yang, Bihong Zhang, Jun Zhang, Wanyi Zhang, Yang Zhang, Yawei Zhang, Yijie Zheng, Ming Zou

Dernière mise à jour: 2024-07-10 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2407.04675

Source PDF: https://arxiv.org/pdf/2407.04675

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires