Construire une reconnaissance vocale pour les langues indiennes
Un projet pour améliorer la reconnaissance vocale dans plusieurs langues indiennes.
― 6 min lire
Table des matières
- L'ensemble de données
- Stratégie de Collecte de données
- Modèle de reconnaissance vocale
- Défis actuels dans la reconnaissance des langues
- Processus de collecte de données
- Phase de préparation
- Collecte de données sur le terrain
- Contrôle de qualité
- Processus de transcription
- Potentiel de l'ensemble de données
- Conclusion
- Source originale
- Liens de référence
Créer une technologie qui peut comprendre la parole dans plusieurs langues est super important, surtout dans un pays divers comme l'Inde. Ce projet se concentre sur la collecte d'un ensemble de données de parole qui représente différentes langues et dialectes indiens. Le but est de construire des systèmes qui peuvent reconnaître et traiter la langue parlée dans différentes régions.
L'ensemble de données
On a collecté une quantité énorme de données de parole, totalisant plus de 7348 heures. Ces données incluent différents types de parole, comme la parole lue (9 %), la parole extemporanée (spontanée) (74 %) et la parole conversationnelle (17 %). Les enregistrements ont été réalisés par 16237 intervenants provenant de 145 districts et incluaient 22 langues de l'Inde.
Collecte de données
Stratégie dePour créer cet ensemble de données, on a suivi une approche structurée qui impliquait :
Diversité des intervenants : On voulait inclure des intervenants de différents âges, sexes, niveaux d'éducation et régions. Cette diversité aide à s'assurer que l'ensemble de données est représentatif de l'ensemble de la population.
Variété de contenu : On a veillé à ce que le contenu parlé couvre plusieurs domaines et sujets. Cela empêche la répétition et permet un vocabulaire plus riche.
Conditions d'enregistrement : On a collecté des données dans divers environnements, y compris des endroits bruyants, pour imiter les scénarios d'usage réel pour les systèmes de Reconnaissance vocale.
Planification structurée : On a développé un cadre clair pour la collecte de données, qui incluait des applications mobiles et une base de données de questions et d'invites pour engager efficacement les intervenants.
Modèle de reconnaissance vocale
En utilisant les données collectées, on a créé un modèle de Reconnaissance Automatique de la Parole (ASR) nommé IndicASR. Ce modèle peut travailler avec les 22 langues sur lesquelles on s'est concentré, permettant une meilleure reconnaissance de la parole venant de différentes parties de l'Inde.
Défis actuels dans la reconnaissance des langues
Bien qu'il y ait eu des progrès dans la reconnaissance vocale pour des langues comme l'anglais, ce n'est pas le cas pour beaucoup de langues indiennes. Une des raisons principales est le manque de données étiquetées pour ces langues. Donc, notre projet s'attaque directement à ce problème en collectant et en organisant un ensemble de données de parole important spécifiquement pour les langues indiennes.
Processus de collecte de données
Phase de préparation
Avant de collecter des données, on a pris plusieurs étapes préparatoires :
Création de questions et de scénarios : On a conçu une variété de questions et de scénarios engageants pour faire émerger la parole naturelle des participants. Cela incluait des sujets liés à la vie quotidienne, aux coutumes locales et aux conversations générales.
Recrutement d'influenceurs régionaux : On a recruté des partenaires locaux et des influenceurs pour nous aider à connecter avec des intervenants potentiels dans leurs communautés.
Collecte de données sur le terrain
La collecte sur le terrain impliquait plusieurs étapes :
Recrutement des participants : On a engagé des mobilisateurs locaux pour trouver des participants qui répondaient à nos critères de diversité. Les participants étaient informés du projet et de son but.
Utilisation d'une application mobile : On a développé une application mobile pour faciliter le processus d'enregistrement. Cette application a permis aux participants de réaliser de petites tâches, comme lire des phrases ou répondre à des questions.
Directives d'enregistrement : Des coordinateurs étaient présents pendant la collecte de données pour aider les participants, veillant à ce que les enregistrements soient de bonne qualité.
Contrôle de qualité
Pour maintenir la qualité des données collectées, on a mis en place un processus de contrôle de qualité solide :
Contrôles initiaux : Après les enregistrements, les coordinateurs effectuaient des contrôles initiaux pour confirmer la clarté et la pertinence des réponses.
Équipe de contrôle de qualité centralisée : Une équipe dédiée passait en revue les enregistrements pour détecter tout problème, comme du bruit de fond ou des réponses incorrectes, veillant à ce que seules des données de haute qualité soient utilisées pour le traitement ultérieur.
Processus de transcription
Transcrire les données audio était une étape cruciale. On a utilisé un système de transcription à deux niveaux :
Niveau 1 : Ce niveau impliquait de transcrire exactement ce qui était dit, capturant le flux naturel de la parole.
Niveau 2 : Le deuxième niveau se concentrait sur la standardisation du texte pour le faire correspondre aux règles de langue appropriées tout en conservant l'essence de la parole.
La transcription est complexe, surtout pour les langues avec des variations de prononciation, donc des directives précises ont été développées pour guider les transcripteurs.
Potentiel de l'ensemble de données
Avec cet ensemble de données étendu, il y a plein d'applications potentielles. Il peut être utilisé pour :
Reconnaissance vocale : Former des modèles pour mieux comprendre et transcrire la langue parlée dans diverses langues indiennes.
Vérification des intervenants : Identifier différents intervenants dans des enregistrements audio.
Identification de la langue : Reconnaître quelle langue est parlée dans un extrait audio donné.
La riche diversité de l'ensemble de données permet une amélioration continue de la technologie vocale et sert de ressource précieuse pour la recherche et les applications futures.
Conclusion
Notre projet de collecte de données de parole pour les langues indiennes est une étape significative vers la création de systèmes de reconnaissance vocale plus inclusifs et efficaces. En se concentrant sur des intervenants et des situations diverses, on vise à améliorer une technologie qui peut reconnaître et comprendre la multitude de langues parlées en Inde.
Cet ensemble de données ouvrira la voie à une meilleure technologie de communication et aidera finalement à combler le fossé entre les gens et la technologie à travers leurs langues maternelles. À mesure qu'on continue à affiner nos méthodes et à rassembler plus de données, on espère voir des avancées qui pourront bénéficier non seulement à l'Inde, mais aussi à d'autres régions multilingues à travers le monde.
Titre: IndicVoices: Towards building an Inclusive Multilingual Speech Dataset for Indian Languages
Résumé: We present INDICVOICES, a dataset of natural and spontaneous speech containing a total of 7348 hours of read (9%), extempore (74%) and conversational (17%) audio from 16237 speakers covering 145 Indian districts and 22 languages. Of these 7348 hours, 1639 hours have already been transcribed, with a median of 73 hours per language. Through this paper, we share our journey of capturing the cultural, linguistic and demographic diversity of India to create a one-of-its-kind inclusive and representative dataset. More specifically, we share an open-source blueprint for data collection at scale comprising of standardised protocols, centralised tools, a repository of engaging questions, prompts and conversation scenarios spanning multiple domains and topics of interest, quality control mechanisms, comprehensive transcription guidelines and transcription tools. We hope that this open source blueprint will serve as a comprehensive starter kit for data collection efforts in other multilingual regions of the world. Using INDICVOICES, we build IndicASR, the first ASR model to support all the 22 languages listed in the 8th schedule of the Constitution of India. All the data, tools, guidelines, models and other materials developed as a part of this work will be made publicly available
Auteurs: Tahir Javed, Janki Atul Nawale, Eldho Ittan George, Sakshi Joshi, Kaushal Santosh Bhogale, Deovrat Mehendale, Ishvinder Virender Sethi, Aparna Ananthanarayanan, Hafsah Faquih, Pratiti Palit, Sneha Ravishankar, Saranya Sukumaran, Tripura Panchagnula, Sunjay Murali, Kunal Sharad Gandhi, Ambujavalli R, Manickam K M, C Venkata Vaijayanthi, Krishnan Srinivasa Raghavan Karunganni, Pratyush Kumar, Mitesh M Khapra
Dernière mise à jour: 2024-03-04 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2403.01926
Source PDF: https://arxiv.org/pdf/2403.01926
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://tex.stackexchange.com/a/274342
- https://ai4bharat.iitm.ac.in/indicvoices
- https://sites.google.com/view/gramvaaniasrchallenge/home/
- https://openslr.org/122/
- https://blog.smc.org.in/malayalam-speech-corpus/
- https://sites.google.com/view/indian-language-asrchallenge/home
- https://opensource.org/licenses/MIT
- https://creativecommons.org/licenses/by/4.0/