Spracherkennung für indische Sprachen aufbauen
Ein Projekt zur Verbesserung der Spracherkennung in verschiedenen indischen Sprachen.
― 5 min Lesedauer
Inhaltsverzeichnis
Technologie zu entwickeln, die Sprache in mehreren Sprachen verstehen kann, ist wichtig, vor allem in einem vielfältigen Land wie Indien. Dieses Projekt konzentriert sich darauf, einen Sprachdatensatz zu sammeln, der verschiedene indische Sprachen und Dialekte repräsentiert. Das Ziel ist es, Systeme zu bauen, die die gesprochene Sprache in verschiedenen Regionen erkennen und damit arbeiten können.
Der Datensatz
Wir haben eine beträchtliche Menge an Sprachdaten gesammelt, insgesamt über 7348 Stunden. Diese Daten umfassen verschiedene Arten von Sprache, wie vorgelesene Sprache (9%), Extemporale (spontane) Sprache (74%) und gesprochene Sprache (17%). Die Aufnahmen wurden von 16237 Sprechern aus 145 Bezirken gemacht und umfassten 22 Sprachen aus Indien.
Datensammlung
Strategie zurUm diesen Datensatz zu erstellen, haben wir einen strukturierten Ansatz verfolgt, der Folgendes beinhaltete:
Vielfalt der Sprecher: Wir wollten Sprecher unterschiedlichen Alters, Geschlechts, Bildungsniveaus und aus verschiedenen Regionen einbeziehen. Diese Vielfalt hilft sicherzustellen, dass der Datensatz die gesamte Bevölkerung repräsentiert.
Inhaltsvielfalt: Wir haben darauf geachtet, dass der gesprochene Inhalt verschiedene Bereiche und Themen abdeckt. Das verhindert Wiederholungen und ermöglicht einen reicheren Wortschatz.
Aufnahmebedingungen: Wir haben Daten in verschiedenen Umgebungen gesammelt, einschliesslich lauter Orte, um reale Nutzungsszenarien für Sprachenerkennungssysteme nachzuahmen.
Strukturierte Planung: Wir haben einen klaren Rahmen für die Datensammlung entwickelt, der mobile Anwendungen und ein Repository von Fragen und Aufforderungen beinhaltete, um die Sprecher effektiv einzubeziehen.
Sprachenerkennungsmodell
Mit den gesammelten Daten haben wir ein automatisches Sprachenerkennungsmodell (ASR) namens IndicASR erstellt. Dieses Modell kann mit allen 22 Sprachen arbeiten, auf die wir uns konzentriert haben, sodass die Sprache aus verschiedenen Teilen Indiens besser erkannt werden kann.
Spracherkennung
Aktuelle Herausforderungen in derObwohl es Fortschritte in der Sprachenerkennung für Sprachen wie Englisch gegeben hat, kann dasselbe nicht für viele indische Sprachen gesagt werden. Ein wichtiger Grund dafür ist der Mangel an gekennzeichneten Daten für diese Sprachen. Daher spricht unser Projekt diese Lücke direkt an, indem es einen grossen Sprachdatensatz speziell für indische Sprachen sammelt und organisiert.
Prozess der Datensammlung
Vorbereitungsphase
Vor der Datensammlung haben wir mehrere vorbereitende Schritte unternommen:
Fragen und Szenarien erstellen: Wir haben eine Vielzahl von ansprechenden Fragen und Szenarien entwickelt, um natürliche Sprache von den Teilnehmern hervorzubringen. Das beinhaltete Themen, die sich auf das tägliche Leben, lokale Bräuche und allgemeine Gespräche bezogen.
Rekrutierung regionaler Influencer: Wir haben lokale Partner und Influencer rekrutiert, um uns zu helfen, potenzielle Sprecher in ihren Gemeinschaften zu erreichen.
Datenaufnahme vor Ort
Die Datensammlung vor Ort umfasste mehrere Schritte:
Rekrutierung von Teilnehmern: Lokale Mobilisierer wurden eingestellt, um Teilnehmer zu finden, die unseren Diversitätskriterien entsprachen. Die Teilnehmer wurden über das Projekt und dessen Ziel informiert.
Verwendung einer mobilen Anwendung: Wir haben eine mobile App entwickelt, um den Aufnahmeprozess zu erleichtern. Diese App erlaubte es den Teilnehmern, kleine Aufgaben zu erledigen, wie Sätze zu lesen oder Fragen zu beantworten.
Aufnahme-Richtlinien: Koordinatoren waren während der Datensammlung anwesend, um Teilnehmer zu unterstützen und sicherzustellen, dass die Aufnahmen von guter Qualität waren.
Qualitätskontrolle
Um die Qualität der gesammelten Daten zu gewährleisten, haben wir einen robusten Qualitätskontrollprozess implementiert:
Erstprüfungen: Nach den Aufnahmen führten die Koordinatoren Erstprüfungen durch, um die Klarheit und Relevanz der Antworten zu bestätigen.
Zentralisiertes Qualitätsteam: Ein engagiertes Team prüfte die Aufnahmen auf Probleme wie Hintergrundgeräusche oder falsche Antworten und stellte sicher, dass nur hochwertige Daten für die weitere Verarbeitung verwendet wurden.
Transkriptionsprozess
Das Transkribieren der Audiodaten war ein entscheidender Schritt. Wir haben ein zweistufiges Transkriptionssystem verwendet:
Stufe 1: Diese Stufe beinhaltete das genaue Transkribieren dessen, was gesagt wurde, um den natürlichen Fluss der Sprache zu erfassen.
Stufe 2: Die zweite Stufe konzentrierte sich darauf, den Text zu standardisieren, um ihn an die richtigen Sprachregeln anzupassen und gleichzeitig den Charakter der gesprochene Sprache zu bewahren.
Transkription ist komplex, insbesondere für Sprachen mit Variationen in der Aussprache, daher wurden sorgfältige Richtlinien entwickelt, um die Transkripteure zu leiten.
Potenzial des Datensatzes
Mit diesem umfangreichen Datensatz gibt es viele potenzielle Anwendungen. Er kann verwendet werden für:
Sprachenerkennung: Training von Modellen, um gesprochene Sprache in verschiedenen indischen Sprachen besser zu verstehen und zu transkribieren.
Sprecherverifizierung: Identifikation verschiedener Sprecher in Audioaufnahmen.
Sprachidentifikation: Erkennen, welche Sprache in einem bestimmten Audioclip gesprochen wird.
Die reiche Vielfalt im Datensatz ermöglicht kontinuierliche Verbesserungen in der Sprachtechnologie und dient als wertvolle Ressource für zukünftige Forschung und Anwendungen.
Fazit
Unser Projekt zur Sammlung von Sprachdaten für indische Sprachen ist ein wichtiger Schritt hin zu inklusiveren und effektiveren Sprachenerkennungssystemen. Indem wir uns auf diverse Sprecher und Situationen konzentrieren, wollen wir die Technologie verbessern, die die Vielzahl von Sprachen, die in Indien gesprochen werden, erkennen und verstehen kann.
Dieser Datensatz wird den Weg für bessere Kommunikationstechnologie ebnen und letztendlich helfen, die Kluft zwischen Menschen und Technologie durch ihre Muttersprachen zu überbrücken. Während wir weiterhin unsere Methoden verfeinern und mehr Daten sammeln, hoffen wir auf Fortschritte, die nicht nur Indien, sondern auch andere mehrsprachige Regionen auf der ganzen Welt zugutekommen können.
Titel: IndicVoices: Towards building an Inclusive Multilingual Speech Dataset for Indian Languages
Zusammenfassung: We present INDICVOICES, a dataset of natural and spontaneous speech containing a total of 7348 hours of read (9%), extempore (74%) and conversational (17%) audio from 16237 speakers covering 145 Indian districts and 22 languages. Of these 7348 hours, 1639 hours have already been transcribed, with a median of 73 hours per language. Through this paper, we share our journey of capturing the cultural, linguistic and demographic diversity of India to create a one-of-its-kind inclusive and representative dataset. More specifically, we share an open-source blueprint for data collection at scale comprising of standardised protocols, centralised tools, a repository of engaging questions, prompts and conversation scenarios spanning multiple domains and topics of interest, quality control mechanisms, comprehensive transcription guidelines and transcription tools. We hope that this open source blueprint will serve as a comprehensive starter kit for data collection efforts in other multilingual regions of the world. Using INDICVOICES, we build IndicASR, the first ASR model to support all the 22 languages listed in the 8th schedule of the Constitution of India. All the data, tools, guidelines, models and other materials developed as a part of this work will be made publicly available
Autoren: Tahir Javed, Janki Atul Nawale, Eldho Ittan George, Sakshi Joshi, Kaushal Santosh Bhogale, Deovrat Mehendale, Ishvinder Virender Sethi, Aparna Ananthanarayanan, Hafsah Faquih, Pratiti Palit, Sneha Ravishankar, Saranya Sukumaran, Tripura Panchagnula, Sunjay Murali, Kunal Sharad Gandhi, Ambujavalli R, Manickam K M, C Venkata Vaijayanthi, Krishnan Srinivasa Raghavan Karunganni, Pratyush Kumar, Mitesh M Khapra
Letzte Aktualisierung: 2024-03-04 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2403.01926
Quell-PDF: https://arxiv.org/pdf/2403.01926
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://tex.stackexchange.com/a/274342
- https://ai4bharat.iitm.ac.in/indicvoices
- https://sites.google.com/view/gramvaaniasrchallenge/home/
- https://openslr.org/122/
- https://blog.smc.org.in/malayalam-speech-corpus/
- https://sites.google.com/view/indian-language-asrchallenge/home
- https://opensource.org/licenses/MIT
- https://creativecommons.org/licenses/by/4.0/