Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Ingeniería Eléctrica y Ciencia de Sistemas# Computación y lenguaje# Sonido# Procesado de Audio y Voz

Mejorando el Reconocimiento de Voz Chino a Través de la Regularización de Pinyin

Este estudio presenta un conjunto de datos y un método para mejorar la precisión del reconocimiento de voz en chino usando Pinyin.

― 8 minilectura


Pinyin para un mejor ASRPinyin para un mejor ASRchinoreconocimiento de voz en chino.errores en los sistemas deUsar Pinyin mejora la corrección de
Tabla de contenidos

Los sistemas de reconocimiento automático de voz (ASR) se utilizan mucho en aplicaciones como búsqueda por voz, comandos y servicios de transcripción. Sin embargo, estos sistemas pueden tener problemas con varios factores que afectan su rendimiento, como el ruido de fondo, los diferentes acentos de los hablantes y la calidad del audio. Cuando las salidas de ASR son incorrectas, especialmente en situaciones difíciles, puede afectar negativamente a las aplicaciones que dependen de ellas. Para mejorar la precisión de las salidas de ASR, implementar métodos de corrección de errores es muy importante.

Recientemente, los modelos de lenguaje grandes (LLMs) han mostrado potencial para ayudar con la corrección de errores en el reconocimiento de voz. Mucha de la investigación en este área se ha centrado en el idioma inglés, así que este artículo cambia la atención al reconocimiento de voz en chino. Se ha creado un nuevo conjunto de datos especializado específicamente para la corrección de errores en ASR en chino. Este conjunto de datos contiene 724,000 pares de transcripciones de audio e hipótesis, llamado el conjunto de datos Chinese Hypotheses Paradise (ChineseHP). Cubre una amplia variedad de escenarios, lo que lo hace un gran desafío para los esfuerzos de corrección de errores.

Este conjunto de datos se hizo a partir de las salidas de ASR de una versión modificada de Whisper, un modelo bien conocido en este campo. El conjunto de datos ChineseHP incluye diferentes tipos de contenido hablado, como discursos leídos, noticias transmitidas, reuniones y conversaciones telefónicas, así como varios acentos y dialectos. La idea es asegurar que el conjunto de datos sea representativo de situaciones del mundo real.

Un desafío clave en el reconocimiento del habla china es que es un idioma logográfico. Esto significa que la pronunciación de los caracteres no se relaciona directamente con cómo se escriben. El Pinyin es un sistema que usa letras romanas para representar los sonidos de los caracteres chinos. Se utiliza frecuentemente en China para enseñar el idioma y también es un método común para escribir caracteres chinos en dispositivos. El Pinyin es beneficioso para los LLMs porque puede ayudar a entender las pronunciaciones chinas.

El idioma chino contiene muchos homófonos, lo que significa que diferentes caracteres pueden sonar igual. Por ejemplo, los caracteres para "escritorio" y "atrapar" se pronuncian "zhuo". Esto puede confundir a los sistemas de ASR, llevando a errores. Sin embargo, una transcripción en Pinyin de la hipótesis textual a menudo muestra una tasa de error más baja que el texto mismo, lo que la hace útil para corregir errores.

Para aprovechar esto, se propone un método llamado regularización de Pinyin. Esto implica incluir transcripciones en Pinyin directamente de las hipótesis textuales tanto en los prompts para los LLMs como durante su Ajuste fino. Los resultados de los experimentos muestran que el uso de la regularización de Pinyin puede mejorar significativamente la capacidad de los LLMs para corregir errores en el habla china.

El artículo se divide en varias secciones. La primera sección presenta el conjunto de datos Chinese Hypotheses Paradise. La siguiente sección explica el método de regularización de Pinyin. La parte siguiente describe la configuración experimental y los hallazgos, llevando a una conclusión al final.

Conjunto de Datos Chinese Hypotheses Paradise

El conjunto de datos ChineseHP incluye una gran cantidad de muestras de audio tomadas de contenido hablado reconocido. Se creó utilizando las salidas de una versión centrada en China de Whisper, llamada Belle-distilwhisper-large-v2-zh. Se utilizaron varias fuentes para compilar el conjunto de datos, incluyendo Aishell-1, Wenetspeech, Aishell-4 y Kespeech. Esta diversidad asegura que el conjunto de datos sea representativo de diferentes situaciones de habla.

Aishell-1 consiste en discursos leídos estándar, mientras que Wenetspeech aporta contenido de diferentes áreas de internet. Incluye secciones de prueba para noticias y reuniones. Aishell-4 se enfoca en conversaciones telefónicas, y Kespeech destaca los dialectos. Dado que Wenetspeech y Kespeech contienen mucho más datos que Aishell-1 y Aishell-4, las muestras del conjunto de datos se equilibraron tomando 200,000 enunciados de cada uno.

Para generar las muestras de audio, se utilizó una técnica llamada decodificación ASR de búsqueda en haz. Este proceso ayudó a crear las 10 mejores hipótesis para cada muestra de audio, que luego se emparejaron con las transcripciones correctas. Los detalles estadísticos del conjunto de datos revelan su diversidad, mostrando discursos regulares, noticias transmitidas, reuniones y acentos variados.

Regularización de Pinyin

El Pinyin, o Hanyu Pinyin, es un sistema de romanización popular para el chino mandarín. Utiliza 23 iniciales, 24 finales y 5 tonos, incluyendo el tono neutro, para representar los sonidos del habla. Algunas iniciales y finales pueden variar ligeramente entre diferentes sistemas, pero las reglas básicas siguen siendo las mismas. En este estudio, se emplea una versión específica de Pinyin que usa "ü" en lugar de "v" y "en" en lugar de "n" para algunas finales, ya que estas formas son más comunes en China.

Los sonidos de los caracteres chinos se crean combinando iniciales y finales. Por ejemplo, el carácter "你" se pronuncia como "ni3", siendo "n" la inicial y "i" la final, mientras que "3" indica su tono. También hay homófonos, donde diferentes caracteres suenan igual, así como heterónimos, donde el mismo carácter tiene diferentes pronunciaciones dependiendo del contexto.

Estos factores pueden confundir a los sistemas de ASR, especialmente en entornos ruidosos donde los acentos o dialectos pueden alterar la salida esperada. Mientras que un carácter puede ser mal reconocido, el correspondiente Pinyin de la hipótesis textual a menudo es preciso, lo que lleva a menores errores en esta representación. Esto hace que el Pinyin sea valioso para la corrección de errores.

Prompts Regularizados en Pinyin

Para los experimentos, se han desarrollado dos tipos de prompts: uno para interactuar directamente con LLMs preentrenados y otro para afinar estos modelos. El primer tipo de prompt está estructurado para incluir tanto hipótesis textuales como el correspondiente Pinyin. Para ayudar a gestionar mejor la salida, se instruye al modelo a responder en formato JSON.

Los prompts de ajuste fino están diseñados específicamente para modelos como ChatGLM, que es muy adecuado para el idioma chino. Los datos de entrenamiento combinan pares de hipótesis y transcripciones del conjunto de datos ChineseHP, permitiendo una mejor actuación en tareas de corrección de errores.

Marco Experimental y Hallazgos

Para evaluar la efectividad de diferentes estilos de prom, se realizaron experimentos usando muestras seleccionadas del conjunto de datos ChineseHP. Los experimentos se enfocaron en cómo varios prompts afectaron el rendimiento de ChatGPT en la corrección de errores.

Se elaboraron diferentes prompts y se midió su efectividad usando una métrica llamada reducción de tasa de error de caracteres (CERR). Los resultados indicaron que incluir Pinyin en los prompts condujo a mejoras significativas en el rendimiento de corrección de errores. La precisión de las respuestas del modelo estaba directamente relacionada con la precisión del Pinyin proporcionado.

En un intento por ver si usar la mejor hipótesis textual daría beneficios similares, se realizó una comparación. Sin embargo, los resultados mostraron que depender únicamente del texto sin Pinyin produjo resultados menos efectivos, resaltando las ventajas de integrar Pinyin para un mejor rendimiento.

El ajuste fino con ChatGLM también mostró resultados prometedores, particularmente cuando se incluyó Pinyin en el proceso de entrenamiento. Los experimentos destacaron los desafíos que se enfrentaron con tareas más complejas, pero hubo mejoras notables en el rendimiento del modelo con el uso de Pinyin. Los hallazgos sugieren que integrar Pinyin no solo ayuda con la corrección de errores, sino que también apoya una mejor comprensión por parte de los LLMs.

Análisis de Casos

Se examinaron dos casos para analizar cómo diferentes prompts se desempeñaron en la corrección de errores. El primer caso, utilizando contenido de muestras de lectura estándar, demostró una corrección efectiva con la regularización de Pinyin incluso al depender de la mejor hipótesis. El segundo caso, que involucró un habla más compleja con varios errores, mostró que aunque el rendimiento bajó debido a los desafíos, la regularización de Pinyin aún ayudó a reducir errores.

Conclusión

Este estudio introduce un nuevo y significativo conjunto de datos para la corrección de errores en ASR en chino, llamado el conjunto de datos Chinese Hypotheses Paradise (ChineseHP). Resalta la importancia de una variedad diversa de escenarios de habla y presenta un método para mejorar la precisión de los LLMs a través de la regularización de Pinyin. En adelante, el enfoque estará en desarrollar métodos de ajuste fino más avanzados, crear mejores prompts y utilizar recursos de entrenamiento adicionales para refinar aún más las capacidades de los LLMs para la corrección de errores en ASR en chino.

Fuente original

Título: Pinyin Regularization in Error Correction for Chinese Speech Recognition with Large Language Models

Resumen: Recent studies have demonstrated the efficacy of large language models (LLMs) in error correction for automatic speech recognition (ASR). However, much of the research focuses on the English language. This paper redirects the attention to Chinese. Firstly, we construct a specialized benchmark dataset aimed at error correction for Chinese ASR with 724K hypotheses-transcription pairs, named the Chinese Hypotheses Paradise dataset (ChineseHP), which contains a wide range of scenarios and presents significant challenges. Subsequently, we conduct a preliminary evaluation using the dataset for both direct-prompting and fine-tuning pre-trained LLMs. Furthermore, we propose a straightforward method of Pinyin regularization for prompts, which involves the transcription of Pinyin directly from text hypotheses. The experimental results reveal that Pinyin regularization consistently enhances the error-correcting ability of LLMs when compared with those without regularization. The dataset is available on the website.

Autores: Zhiyuan Tang, Dong Wang, Shen Huang, Shidong Shang

Última actualización: 2024-07-01 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2407.01909

Fuente PDF: https://arxiv.org/pdf/2407.01909

Licencia: https://creativecommons.org/licenses/by-nc-sa/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares