Avanzando en el Reconocimiento de Voz Bilingüe con Unidades de Grafemas
Mejorando sistemas ASR híbridos para habla bilingüe usando unidades de grafemas.
― 7 minilectura
Tabla de contenidos
- ASR Bilingüe con Unidades de Grafema
- Encoders Compartidos y Paralelos
- Mejorando el Aprendizaje con Pérdidas Auxiliares
- Datos de Entrenamiento y Prueba
- Rendimiento de Modelos Bilingües y Monolingües
- El Papel de las Pérdidas Auxiliares en Encoders Paralelos
- Resultados de Experimentos
- Conclusión
- Fuente original
Muchas personas alrededor del mundo hablan más de un idioma. Esto hace que sea importante apoyar las situaciones donde se usan dos idiomas juntos, conocido como mezcla de códigos. El inglés es un idioma común, así que nos estamos enfocando en ayudar a las personas que hablan principalmente otros idiomas, como el español y el italiano, a mezclar palabras en inglés cuando hablan.
Recientemente, ha habido un impulso por usar modelos de extremo a extremo (E2E) en el reconocimiento automático de voz (ASR). Estos modelos son más simples ya que no necesitan diccionarios separados o entrenamiento complicado. Sin embargo, los modelos E2E a menudo requieren muchos datos para funcionar bien. Por otro lado, los modelos Híbridos, que incluyen componentes separados para tareas como el reconocimiento de sonido y el procesamiento del lenguaje, pueden ser más flexibles y desempeñarse mejor en situaciones con datos limitados.
Este trabajo se centra en mejorar los sistemas ASR híbridos para apoyar el habla bilingüe. Nuestro objetivo es cambiar la forma en que representamos los sonidos en estos sistemas usando unidades de grafemas (las letras del alfabeto) en lugar de unidades fonéticas (sonidos representados por combinaciones de letras). Este enfoque ayudará a que los idiomas compartan información más efectivamente, especialmente en situaciones Bilingües.
ASR Bilingüe con Unidades de Grafema
En los sistemas ASR híbridos tradicionales, se utilizan unidades fonéticas para describir cómo suenan las palabras. Estas unidades son creadas por expertos y varían entre idiomas. Esto puede dificultar el aprendizaje de cómo mezclar idiomas, ya que sonidos que son similares pero no idénticos pueden llevar a confusiones. Por ejemplo, el sonido de "e" en italiano puede representarse de manera diferente en inglés y español, lo que dificulta enseñar a un sistema cómo interpretar correctamente estos sonidos en diferentes idiomas.
Para abordar esto, estamos desarrollando una nueva forma de representar palabras en nuestro modelo ASR usando letras en lugar de sonidos. Al hacer esto, podemos crear una estructura que funcione bien para ambos idiomas y permita una mezcla más fácil de palabras en inglés en el habla española e italiana. Este nuevo enfoque ayuda a crear un sistema ASR bilingüe más efectivo.
Encoders Compartidos y Paralelos
En nuestro sistema ASR híbrido, hemos diseñado etapas específicas de entrenamiento. Primero, usamos herramientas existentes para entrenar un modelo bilingüe que reconozca sonidos basados en unidades de grafema. Luego, entrenamos una Red Neuronal de Tiempo Retardado (TDNN) para alinear los sonidos con las palabras escritas. Finalmente, creamos un modelo Transformer de streaming completamente bilingüe para desempeñarse bien a gran escala.
El modelo bilingüe que estamos desarrollando combina capas compartidas (que funcionan para ambos idiomas) con capas paralelas (que pueden especializarse para cada idioma). Esta combinación permite que el modelo aprenda características comunes necesarias en los dos idiomas mientras también capta características únicas de cada uno.
Mejorando el Aprendizaje con Pérdidas Auxiliares
Para mejorar el proceso de aprendizaje, introducimos pérdidas auxiliares para ayudar al modelo a enfocarse en idiomas específicos. Estas pérdidas guían al sistema a aprender características específicas de cada idioma entrenando cada encoder para identificar sonidos únicos en español e italiano, mientras todavía trabajan juntos en un contexto bilingüe.
Las pérdidas auxiliares se utilizan durante el entrenamiento para proyectar representaciones específicas de cada idioma en sus propios espacios. Esto ayuda a que cada encoder de idioma se especialice y mejore los resultados de aprendizaje al tratar con tareas combinadas de inglés y otros idiomas.
Datos de Entrenamiento y Prueba
Los datos de entrenamiento que utilizamos provienen de varios escenarios de Microsoft, incluyendo conversaciones, búsquedas por voz y tareas de centros de llamadas. Para hacer que nuestro modelo sea robusto, aplicamos técnicas como la adición de ruido y el ajuste de velocidad para aumentar nuestros datos de entrenamiento. Reportamos resultados basados en las palabras reconocidas correctamente en diferentes tareas, enfocándonos en cómo se desempeñan los sistemas bilingües en comparación con sus contrapartes monolingües.
Rendimiento de Modelos Bilingües y Monolingües
En nuestros experimentos, comparamos nuestros modelos bilingües contra modelos monolingües. Encontramos que el modelo bilingüe se desempeñó mejor de lo esperado al manejar tareas de lenguaje mezclado. Por ejemplo, en nuestras pruebas con el italiano, el modelo bilingüe mejoró la tasa de error del 46.5% al 13.8% al mezclar palabras en inglés.
Además, vimos que nuestros modelos bilingües lograron resultados comparables a los modelos monolingües, indicando que nuestro enfoque funciona bien tanto para escenarios independientes como mezclados. Los resultados muestran que la transición a unidades de grafema y el uso de encoders paralelos ayudan significativamente a compartir conocimiento entre idiomas, que es esencial para un aprendizaje bilingüe efectivo.
El Papel de las Pérdidas Auxiliares en Encoders Paralelos
En nuestra estructura con encoders paralelos, hemos visto que el uso de pérdidas auxiliares mejora los resultados de aprendizaje. Mientras que el método estándar de LID (identificación de idioma) no proporcionó beneficios significativos, la inclusión de pérdidas auxiliares ayudó al modelo a mantener su enfoque en los aspectos únicos de cada idioma.
Cuando entrenamos el sistema con pérdidas auxiliares, observamos una clara mejora en el reconocimiento de palabras tomadas del inglés en ambos idiomas. Esto muestra que nuestro método no solo mejora las capacidades bilingües, sino que también asegura que el modelo siga siendo eficiente y especializado.
Resultados de Experimentos
En nuestros experimentos detallados, rastreamos las tasas de error de palabras (WER) de nuestros modelos mientras procesaban varias tareas. Nos enfocamos en qué tan bien se desempeñó el modelo bilingüe en comparación con sus contrapartes monolingües, especialmente en situaciones donde los idiomas estaban mezclados.
Por ejemplo, durante las pruebas, encontramos que el modelo bilingüe superó a las versiones monolingües, logrando una reducción significativa en errores para las tareas de mezcla de códigos. Las tasas de error estaban muy cerca de los mejores resultados de los sistemas monolingües, indicando que nuestro enfoque bilingüe satisface efectivamente las necesidades de los usuarios que mezclan inglés con español e italiano.
Conclusión
Hemos hecho avances significativos en el desarrollo de una solución bilingüe para sistemas híbridos de reconocimiento automático de voz. Al pasar de representaciones fonéticas tradicionales a unidades de grafema, nuestro modelo puede manejar mejor las situaciones de mezcla de códigos. La introducción de encoders paralelos y pérdidas auxiliares juega un papel crucial en la mejora del proceso de aprendizaje bilingüe.
Nuestros experimentos muestran que este enfoque lleva a un mejor rendimiento, especialmente en el reconocimiento de palabras en inglés usadas en contextos españoles e italianos. Nuestro modelo se desempeña bien en tareas bilingües y mantiene resultados competitivos en escenarios monolingües. Esta investigación abre nuevas posibilidades para mejorar los sistemas de reconocimiento de voz bilingües, particularmente para idiomas con fuertes lazos con el inglés.
Título: Bilingual Streaming ASR with Grapheme units and Auxiliary Monolingual Loss
Resumen: We introduce a bilingual solution to support English as secondary locale for most primary locales in hybrid automatic speech recognition (ASR) settings. Our key developments constitute: (a) pronunciation lexicon with grapheme units instead of phone units, (b) a fully bilingual alignment model and subsequently bilingual streaming transformer model, (c) a parallel encoder structure with language identification (LID) loss, (d) parallel encoder with an auxiliary loss for monolingual projections. We conclude that in comparison to LID loss, our proposed auxiliary loss is superior in specializing the parallel encoders to respective monolingual locales, and that contributes to stronger bilingual learning. We evaluate our work on large-scale training and test tasks for bilingual Spanish (ES) and bilingual Italian (IT) applications. Our bilingual models demonstrate strong English code-mixing capability. In particular, the bilingual IT model improves the word error rate (WER) for a code-mix IT task from 46.5% to 13.8%, while also achieving a close parity (9.6%) with the monolingual IT model (9.5%) over IT tests.
Autores: Mohammad Soleymanpour, Mahmoud Al Ismail, Fahimeh Bahmaninezhad, Kshitiz Kumar, Jian Wu
Última actualización: 2023-08-11 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2308.06327
Fuente PDF: https://arxiv.org/pdf/2308.06327
Licencia: https://creativecommons.org/licenses/by-nc-sa/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.