Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes# Traitement de l'audio et de la parole# Calcul et langage# Son

GigaSpeech 2 : Un nouveau dataset pour la reconnaissance vocale

GigaSpeech 2 propose un énorme jeu de données pour les langues peu répandues afin d'améliorer la reconnaissance vocale.

― 6 min lire


Lancement du DatasetLancement du DatasetGigaSpeech 2sous-représentées.reconnaissance vocale pour les languesNouveau jeu de données améliore la
Table des matières

Ces dernières années, la demande pour une technologie de Reconnaissance vocale efficace a explosé. Cette tech est super importante pour plein d'applications, des assistants vocaux aux services de transcription. Mais, beaucoup de langues, surtout celles qui sont moins courantes, manquent de données nécessaires pour former des systèmes de reconnaissance vocale fiables. GigaSpeech 2 vise à régler ce problème en fournissant un dataset de grande envergure spécialement pour ces langues à faibles ressources.

C'est quoi GigaSpeech 2 ?

GigaSpeech 2 est un dataset de reconnaissance vocale conçu pour les langues qui n'ont pas beaucoup de données d'entraînement labellisées. Il comprend une énorme quantité de discours transcrits automatiquement tirés de vidéos non labellisées, principalement de YouTube. Ce dataset propose environ 30 000 heures de discours dans des langues comme le thaï, l'indonésien et le vietnamien. L'objectif est de créer une ressource que les chercheurs peuvent utiliser pour améliorer les systèmes de reconnaissance vocale pour ces langues.

Le besoin de nouveaux datasets

La plupart des systèmes de reconnaissance vocale dépendent de grandes quantités de données labellisées. Pourtant, pour beaucoup de langues, ces données sont difficiles à trouver. Les méthodes traditionnelles de création de datasets de reconnaissance vocale nécessitent beaucoup d'efforts humains pour créer des étiquettes précises. Ce processus est long et limite souvent le développement de la technologie vocale pour les langues à faibles ressources.

Les datasets existants sont principalement disponibles pour des langues à fortes ressources comme l'anglais et le mandarin. Cet équilibre défavorable freine les avancées dans le développement d'une reconnaissance vocale efficace pour les langues qui ont moins de ressources.

Comment GigaSpeech 2 a été créé

La création de GigaSpeech 2 a impliqué plusieurs étapes. Un système automatisé a été développé pour rassembler, transcrire et affiner les données. Ce pipeline permet une génération de datasets vocaux à grande échelle sans avoir besoin de données labellisées.

Le processus a commencé par la collecte de l'audio à partir de vidéos YouTube. L'équipe a sélectionné des vidéos basées sur des sujets spécifiques pour assurer une diversité de contenu. Après avoir collecté les fichiers audio, ils les ont convertis dans un format adapté à la transcription.

Ensuite, un modèle de transcription automatique appelé Whisper a été utilisé pour transcrire l'audio. Bien que Whisper ait généré des Transcriptions initiales, des étapes supplémentaires étaient nécessaires pour améliorer la précision. Pour cela, des techniques d'alignement forcé ont été appliquées pour s'assurer que les transcriptions correspondaient précisément à l'audio.

Affiner les données

Même après la transcription initiale, certaines Erreurs sont restées en raison d'inexactitudes dans les processus automatiques. Pour régler ces inexactitudes, une méthode de formation modifiée appelée Noisy Student Training (NST) a été introduite. Ce processus consiste à affiner les étiquettes de manière itérative et à filtrer les erreurs pour améliorer la qualité du dataset.

Grâce à cette méthode, les modèles formés avec GigaSpeech 2 ont amélioré leur capacité à reconnaître les mots avec précision dans les langues ciblées. La méthode NST a aidé le système à apprendre de ses erreurs, affinant progressivement sa performance.

L'impact de GigaSpeech 2

Une des découvertes les plus marquantes est que les systèmes de reconnaissance vocale formés avec GigaSpeech 2 ont considérablement réduit les taux d'erreur lors du traitement de la parole en thaï, en indonésien et en vietnamien. Cette amélioration a été atteinte même en comparaison avec des modèles de pointe existants.

Par exemple, les modèles formés sur GigaSpeech 2 ont montré une réduction des taux d'erreur de mots allant jusqu'à 40 % par rapport à d'autres modèles leaders. Cela indique que GigaSpeech 2 a le potentiel de permettre des solutions de reconnaissance vocale plus précises pour les langues à faibles ressources.

Comment GigaSpeech 2 se compare à d'autres datasets

GigaSpeech 2 se démarque par rapport aux datasets précédents axés sur les langues à faibles ressources. Bien que certains datasets comme BABEL et Common Voice aient fait des progrès en matière de soutien multilingue, ils servent encore principalement des langues à fortes ressources.

GigaSpeech 2 comble ce vide en offrant un dataset riche spécifiquement pour les langues avec moins de ressources. Les méthodes automatisées de collecte et de transcription de données utilisées dans GigaSpeech 2 réduisent également le besoin d'un travail humain extensif habituellement associé à la création de datasets.

Applications de GigaSpeech 2

Les implications de GigaSpeech 2 vont au-delà de la recherche académique. Avec son accent sur les langues à faibles ressources, il a un potentiel énorme pour des applications pratiques aussi. Ces applications incluent :

  1. Assistants vocaux : Améliorer les capacités de reconnaissance vocale dans des applications pour les locuteurs thaïs, indonésiens et vietnamiens.

  2. Services de transcription : Offrir de meilleurs services de transcription pour les établissements d'enseignement, les entreprises et les médias dans ces langues.

  3. Outils d'apprentissage des langues : Soutenir le développement de plateformes d'apprentissage des langues qui utilisent la technologie de reconnaissance vocale.

  4. Technologie d'accessibilité : Améliorer les outils pour les personnes qui dépendent de la reconnaissance vocale pour communiquer en raison de handicaps.

Défis et orientations futures

Bien que GigaSpeech 2 représente une avancée significative, plusieurs défis demeurent. Pour commencer, même avec les systèmes automatisés en place, créer des données de haute qualité reste une tâche complexe. Des problèmes comme le bruit de fond, la qualité audio variable et les dialectes peuvent compliquer les efforts de transcription.

Les travaux futurs se concentreront sur l'expansion de GigaSpeech 2 pour inclure plus de langues et améliorer encore les données existantes. Les chercheurs envisagent d'autres méthodes de collecte de données et d'affiner le processus de transcription pour améliorer encore la précision et la fiabilité.

Conclusion

GigaSpeech 2 est une avancée prometteuse dans le domaine de la reconnaissance vocale pour les langues à faibles ressources. En fournissant un dataset à grande échelle et un pipeline automatisé innovant, il est appelé à avoir un impact significatif tant sur la recherche que sur les applications pratiques. Alors que la technologie vocale continue à évoluer, GigaSpeech 2 ouvre la voie à une plus grande accessibilité et à une meilleure communication dans des langues qui ont historiquement été sous-servies.

Source originale

Titre: GigaSpeech 2: An Evolving, Large-Scale and Multi-domain ASR Corpus for Low-Resource Languages with Automated Crawling, Transcription and Refinement

Résumé: The evolution of speech technology has been spurred by the rapid increase in dataset sizes. Traditional speech models generally depend on a large amount of labeled training data, which is scarce for low-resource languages. This paper presents GigaSpeech 2, a large-scale, multi-domain, multilingual speech recognition corpus. It is designed for low-resource languages and does not rely on paired speech and text data. GigaSpeech 2 comprises about 30,000 hours of automatically transcribed speech, including Thai, Indonesian, and Vietnamese, gathered from unlabeled YouTube videos. We also introduce an automated pipeline for data crawling, transcription, and label refinement. Specifically, this pipeline uses Whisper for initial transcription and TorchAudio for forced alignment, combined with multi-dimensional filtering for data quality assurance. A modified Noisy Student Training is developed to further refine flawed pseudo labels iteratively, thus enhancing model performance. Experimental results on our manually transcribed evaluation set and two public test sets from Common Voice and FLEURS confirm our corpus's high quality and broad applicability. Notably, ASR models trained on GigaSpeech 2 can reduce the word error rate for Thai, Indonesian, and Vietnamese on our challenging and realistic YouTube test set by 25% to 40% compared to the Whisper large-v3 model, with merely 10% model parameters. Furthermore, our ASR models trained on Gigaspeech 2 yield superior performance compared to commercial services. We believe that our newly introduced corpus and pipeline will open a new avenue for low-resource speech recognition and significantly facilitate research in this area.

Auteurs: Yifan Yang, Zheshu Song, Jianheng Zhuo, Mingyu Cui, Jinpeng Li, Bo Yang, Yexing Du, Ziyang Ma, Xunying Liu, Ziyuan Wang, Ke Li, Shuai Fan, Kai Yu, Wei-Qiang Zhang, Guoguo Chen, Xie Chen

Dernière mise à jour: 2024-06-17 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2406.11546

Source PDF: https://arxiv.org/pdf/2406.11546

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires