Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Calcolo e linguaggio

Costruire un riconoscimento vocale per le lingue indiane

Un progetto per migliorare il riconoscimento vocale in diverse lingue indiane.

― 5 leggere min


Avanzando nellaAvanzando nellatecnologia del parlatoindianodelle diverse lingue indiane.Puntando a una migliore riconoscenza
Indice

Creare tecnologia che possa comprendere il parlato in più lingue è importante, specialmente in un paese vario come l'India. Questo progetto si concentra sulla raccolta di un dataset di parlato che rappresenti le varie lingue e dialetti indiani. L'obiettivo è costruire sistemi che possano riconoscere e lavorare con il linguaggio parlato in diverse regioni.

Il Dataset

Abbiamo raccolto una notevole quantità di dati sul parlato, per un totale di oltre 7348 ore. Questi dati includono diversi tipi di parlato, come il parlato letto (9%), il parlato estemporaneo (spontaneo) (74%) e il parlato conversazionale (17%). Le registrazioni sono state effettuate da 16237 parlanti di 145 distretti e includono 22 lingue dell'India.

Strategia di Raccolta Dati

Per creare questo dataset, abbiamo seguito un approccio strutturato che ha coinvolto:

  1. Diversità dei Parlanti: Abbiamo cercato di includere parlanti di diverse età, generi, background educativi e regioni. Questa diversità aiuta a garantire che il dataset rappresenti l'intera popolazione.

  2. Varietà di Contenuti: Abbiamo assicurato che il contenuto parlato coprisse più domini e argomenti. Questo previene ripetizioni e consente un vocabolario più ricco.

  3. Condizioni di Registrazione: Abbiamo raccolto dati in vari ambienti, incluso luoghi rumorosi, per imitare scenari d'uso reali per i sistemi di Riconoscimento Vocale.

  4. Pianificazione Strutturata: Abbiamo sviluppato un chiaro framework per la raccolta dei dati, che include applicazioni mobili e un repository di domande e stimoli per coinvolgere efficacemente i parlanti.

Modello di Riconoscimento Vocale

Usando i dati raccolti, abbiamo creato un modello di Riconoscimento Vocale Automatico (ASR) chiamato IndicASR. Questo modello può lavorare con tutte le 22 lingue su cui ci siamo concentrati, permettendo un miglior riconoscimento del parlato da diverse parti dell'India.

Sfide Attuali nel Riconoscimento Linguistico

Anche se ci sono stati progressi nel riconoscimento vocale per lingue come l'inglese, non si può dire lo stesso per molte lingue indiane. Una ragione principale è la mancanza di dati etichettati per queste lingue. Pertanto, il nostro progetto affronta questo divario direttamente raccogliendo e organizzando un ampio dataset di parlato specificamente per le lingue indiane.

Processo di Raccolta Dati

Fase di Preparazione

Prima di raccogliere dati, abbiamo fatto diversi passi preparatori:

  • Creazione di Domande e Scenari: Abbiamo progettato una varietà di domande coinvolgenti e scenari per suscitare un parlato naturale dai partecipanti. Questo includeva argomenti legati alla vita quotidiana, usi locali e conversazioni generali.

  • Reclutamento di Influencer Regionali: Abbiamo reclutato partner locali e influencer per aiutarci a connetterci con potenziali parlanti nelle loro comunità.

Raccolta Dati sul Campo

La raccolta sul campo ha coinvolto diversi passaggi:

  • Reclutamento dei Partecipanti: Sono stati assunti mobilizzatori locali per trovare partecipanti che soddisfacessero i nostri criteri di diversità. I partecipanti sono stati informati sul progetto e sui suoi scopi.

  • Utilizzo di un'Applicazione Mobile: Abbiamo sviluppato un'app mobile per facilitare il processo di registrazione. Questa app ha permesso ai partecipanti di completare piccoli compiti, come leggere frasi o rispondere a domande.

  • Linee Guida per la Registrazione: I coordinatori erano presenti durante la raccolta dei dati per assistere i partecipanti, assicurandosi che le registrazioni fossero di buona qualità.

Controllo Qualità

Per mantenere la qualità dei dati raccolti, abbiamo implementato un robusto processo di controllo qualità:

  1. Controlli Iniziali: Dopo le registrazioni, i coordinatori effettuavano controlli iniziali per confermare la chiarezza e la rilevanza delle risposte.

  2. Team di Controllo Qualità Centralizzato: Un team dedicato esaminava le registrazioni per eventuali problemi, come rumore di fondo o risposte errate, assicurandosi che solo dati di alta qualità fossero utilizzati per ulteriori elaborazioni.

Processo di Trascrizione

Trascrivere i dati audio è stato un passaggio cruciale. Abbiamo utilizzato un sistema di trascrizione a due livelli:

  • Livello 1: Questo livello consisteva nel trascrivere esattamente ciò che è stato detto, catturando il flusso naturale del parlato.

  • Livello 2: Il secondo livello si concentrava sulla standardizzazione del testo per allinearsi con le regole appropriate della lingua mantenendo l'essenza del linguaggio parlato.

La trascrizione è complessa, soprattutto per lingue con variazioni nella pronuncia, quindi sono state sviluppate linee guida dettagliate per guidare i trascrittori.

Potenziale del Dataset

Con questo ampio dataset, ci sono molte applicazioni potenziali. Può essere utilizzato per:

  • Riconoscimento Vocale: Formare modelli per comprendere e trascrivere meglio il linguaggio parlato in varie lingue indiane.

  • Verifica dei Parlanti: Identificare diversi parlanti nelle registrazioni audio.

  • Identificazione della Lingua: Riconoscere quale lingua viene parlata in un determinato clip audio.

La ricca diversità nel dataset consente un miglioramento continuo nella tecnologia del parlato e serve come una risorsa preziosa per la ricerca e le applicazioni future.

Conclusione

Il nostro progetto di raccolta dati sul parlato per le lingue indiane è un passo significativo verso la creazione di sistemi di riconoscimento vocale più inclusivi ed efficaci. Concentrandoci su parlanti e situazioni diverse, vogliamo migliorare la tecnologia che può riconoscere e comprendere la moltitudine di lingue parlate in India.

Questo dataset aprirà la strada a una tecnologia di comunicazione migliore e, in definitiva, aiuterà a colmare il divario tra le persone e la tecnologia attraverso le loro lingue native. Man mano che continuiamo a perfezionare i nostri metodi e raccogliere più dati, speriamo di vedere avanzamenti che possano beneficiare non solo l'India ma anche altre regioni multilingue nel mondo.

Fonte originale

Titolo: IndicVoices: Towards building an Inclusive Multilingual Speech Dataset for Indian Languages

Estratto: We present INDICVOICES, a dataset of natural and spontaneous speech containing a total of 7348 hours of read (9%), extempore (74%) and conversational (17%) audio from 16237 speakers covering 145 Indian districts and 22 languages. Of these 7348 hours, 1639 hours have already been transcribed, with a median of 73 hours per language. Through this paper, we share our journey of capturing the cultural, linguistic and demographic diversity of India to create a one-of-its-kind inclusive and representative dataset. More specifically, we share an open-source blueprint for data collection at scale comprising of standardised protocols, centralised tools, a repository of engaging questions, prompts and conversation scenarios spanning multiple domains and topics of interest, quality control mechanisms, comprehensive transcription guidelines and transcription tools. We hope that this open source blueprint will serve as a comprehensive starter kit for data collection efforts in other multilingual regions of the world. Using INDICVOICES, we build IndicASR, the first ASR model to support all the 22 languages listed in the 8th schedule of the Constitution of India. All the data, tools, guidelines, models and other materials developed as a part of this work will be made publicly available

Autori: Tahir Javed, Janki Atul Nawale, Eldho Ittan George, Sakshi Joshi, Kaushal Santosh Bhogale, Deovrat Mehendale, Ishvinder Virender Sethi, Aparna Ananthanarayanan, Hafsah Faquih, Pratiti Palit, Sneha Ravishankar, Saranya Sukumaran, Tripura Panchagnula, Sunjay Murali, Kunal Sharad Gandhi, Ambujavalli R, Manickam K M, C Venkata Vaijayanthi, Krishnan Srinivasa Raghavan Karunganni, Pratyush Kumar, Mitesh M Khapra

Ultimo aggiornamento: 2024-03-04 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2403.01926

Fonte PDF: https://arxiv.org/pdf/2403.01926

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili