Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Computación y lenguaje

Construyendo reconocimiento de voz para lenguas indias

Un proyecto para mejorar el reconocimiento de voz en diferentes idiomas indios.

― 5 minilectura


Avanzando la tecnologíaAvanzando la tecnologíade voz indialas diversas lenguas indias.Apuntando a un mejor reconocimiento de
Tabla de contenidos

Crear tecnología que pueda entender el habla en varios idiomas es importante, sobre todo en un país diverso como India. Este proyecto se centra en reunir un conjunto de datos de habla que represente varios idiomas y dialectos indios. La meta es construir sistemas que puedan reconocer y trabajar con el lenguaje hablado en diferentes regiones.

El Conjunto de Datos

Hemos recopilado una cantidad considerable de datos de habla, sumando más de 7348 horas. Estos datos incluyen diferentes tipos de habla, como habla leída (9%), habla extemporánea (espontánea) (74%) y habla conversacional (17%). Las grabaciones fueron hechas por 16237 hablantes de 145 distritos e incluyeron 22 idiomas de India.

Estrategia de Recolección de datos

Para crear este conjunto de datos, seguimos un enfoque estructurado que incluyó:

  1. Diversidad de Hablantes: Buscamos incluir hablantes de diferentes edades, géneros, niveles educativos y regiones. Esta diversidad ayuda a asegurar que el conjunto de datos represente a toda la población.

  2. Variedad de Contenido: Nos aseguramos de que el contenido hablado cubriera múltiples dominios y temas. Esto evita la repetición y permite un vocabulario más rico.

  3. Condiciones de Grabación: Recopilamos datos en varios entornos, incluidos lugares ruidosos, para imitar escenarios de uso real para sistemas de Reconocimiento de voz.

  4. Planificación Estructurada: Desarrollamos un marco claro para la recolección de datos, que incluyó aplicaciones móviles y un repositorio de preguntas y temas para involucrar a los hablantes de manera efectiva.

Modelo de Reconocimiento de Voz

Usando los datos recopilados, creamos un modelo de Reconocimiento Automático de Voz (ASR) llamado IndicASR. Este modelo puede trabajar con los 22 idiomas en los que nos enfocamos, permitiendo un mejor reconocimiento de la voz de diferentes partes de India.

Desafíos Actuales en el Reconocimiento de Idiomas

Aunque ha habido avances en el reconocimiento de voz para idiomas como el inglés, no se puede decir lo mismo de muchos idiomas indios. Una razón clave es la falta de datos etiquetados para estos idiomas. Por lo tanto, nuestro proyecto aborda esta brecha directamente al recopilar y organizar un gran conjunto de datos de habla específicamente para idiomas indios.

Proceso de Recolección de Datos

Fase de Preparación

Antes de recopilar datos, tomamos varios pasos preparatorios:

  • Creación de Preguntas y Escenarios: Diseñamos una variedad de preguntas y escenarios atractivos para obtener un habla natural de los participantes. Esto incluyó temas relacionados con la vida diaria, costumbres locales y conversaciones generales.

  • Reclutamiento de Influencers Regionales: Reclutamos socios e influencers locales para ayudarnos a conectar con posibles hablantes en sus comunidades.

Recolección de Datos en Campo

La recolección en el campo implicó varios pasos:

  • Reclutamiento de Participantes: Se contrataron movilizadores locales para encontrar participantes que cumplieran con nuestros criterios de diversidad. Se informó a los participantes sobre el proyecto y su propósito.

  • Uso de una Aplicación Móvil: Desarrollamos una app móvil para facilitar el proceso de grabación. Esta app permitió a los participantes realizar pequeñas tareas, como leer oraciones o responder preguntas.

  • Directrices de Grabación: Los coordinadores estuvieron presentes durante la recolección de datos para ayudar a los participantes, asegurando que las grabaciones fueran de buena calidad.

Control de Calidad

Para mantener la calidad de los datos recopilados, implementamos un robusto proceso de control de calidad:

  1. Verificaciones Iniciales: Después de las grabaciones, los coordinadores realizaron verificaciones iniciales para confirmar la claridad y relevancia de las respuestas.

  2. Equipo Centralizado de Control de Calidad: Un equipo dedicado revisó las grabaciones en busca de problemas, como ruido de fondo o respuestas incorrectas, asegurando que solo se usaran datos de alta calidad para el procesamiento posterior.

Proceso de Transcripción

Transcribir los datos de audio fue un paso crucial. Usamos un sistema de transcripción de dos niveles:

  • Nivel 1: Este nivel implicó transcribir exactamente lo que se dijo, capturando el flujo natural del habla.

  • Nivel 2: El segundo nivel se centró en estandarizar el texto para alinearlo con las reglas del idioma adecuado, manteniendo la esencia del lenguaje hablado.

La transcripción es compleja, particularmente para idiomas con variaciones en la pronunciación, por lo que se desarrollaron directrices cuidadosas para guiar a los transcriptores.

Potencial del Conjunto de Datos

Con este extenso conjunto de datos, hay muchas aplicaciones potenciales. Se puede usar para:

  • Reconocimiento de Voz: Entrenar modelos para entender y transcribir mejor el lenguaje hablado en varios idiomas indios.

  • Verificación de Hablantes: Identificar a diferentes hablantes en grabaciones de audio.

  • Identificación de Idiomas: Reconocer qué idioma se está hablando en un clip de audio dado.

La rica diversidad en el conjunto de datos permite una mejora continua en la tecnología de voz y sirve como un recurso valioso para futuras investigaciones y aplicaciones.

Conclusión

Nuestro proyecto de recopilación de datos de habla para idiomas indios es un paso significativo hacia la creación de sistemas de reconocimiento de voz más inclusivos y efectivos. Al centrarnos en hablantes y situaciones diversas, buscamos mejorar la tecnología que puede reconocer y entender la multitud de idiomas hablados en India.

Este conjunto de datos abrirá el camino para una mejor tecnología de comunicación y, en última instancia, ayudará a cerrar la brecha entre las personas y la tecnología a través de sus lenguas nativas. A medida que continuamos refinando nuestros métodos y recopilando más datos, esperamos ver avances que puedan beneficiar no solo a India, sino también a otras regiones multilingües en todo el mundo.

Fuente original

Título: IndicVoices: Towards building an Inclusive Multilingual Speech Dataset for Indian Languages

Resumen: We present INDICVOICES, a dataset of natural and spontaneous speech containing a total of 7348 hours of read (9%), extempore (74%) and conversational (17%) audio from 16237 speakers covering 145 Indian districts and 22 languages. Of these 7348 hours, 1639 hours have already been transcribed, with a median of 73 hours per language. Through this paper, we share our journey of capturing the cultural, linguistic and demographic diversity of India to create a one-of-its-kind inclusive and representative dataset. More specifically, we share an open-source blueprint for data collection at scale comprising of standardised protocols, centralised tools, a repository of engaging questions, prompts and conversation scenarios spanning multiple domains and topics of interest, quality control mechanisms, comprehensive transcription guidelines and transcription tools. We hope that this open source blueprint will serve as a comprehensive starter kit for data collection efforts in other multilingual regions of the world. Using INDICVOICES, we build IndicASR, the first ASR model to support all the 22 languages listed in the 8th schedule of the Constitution of India. All the data, tools, guidelines, models and other materials developed as a part of this work will be made publicly available

Autores: Tahir Javed, Janki Atul Nawale, Eldho Ittan George, Sakshi Joshi, Kaushal Santosh Bhogale, Deovrat Mehendale, Ishvinder Virender Sethi, Aparna Ananthanarayanan, Hafsah Faquih, Pratiti Palit, Sneha Ravishankar, Saranya Sukumaran, Tripura Panchagnula, Sunjay Murali, Kunal Sharad Gandhi, Ambujavalli R, Manickam K M, C Venkata Vaijayanthi, Krishnan Srinivasa Raghavan Karunganni, Pratyush Kumar, Mitesh M Khapra

Última actualización: 2024-03-04 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2403.01926

Fuente PDF: https://arxiv.org/pdf/2403.01926

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares