Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Ingeniería Eléctrica y Ciencia de Sistemas# Aprendizaje automático# Computación y lenguaje# Sonido# Procesado de Audio y Voz

Avances en el Reconocimiento Automático de Voz con Modelos de Lenguaje de Desruido

Los modelos de lenguaje de eliminación de ruido mejoran la corrección de errores en los sistemas de reconocimiento de voz usando datos sintéticos.

― 9 minilectura


Los modelos deLos modelos deeliminación de ruidotransforman elel reconocimiento automático de voz.Nuevos modelos mejoran la precisión en
Tabla de contenidos

Los sistemas de reconocimiento automático de voz (ASR) ayudan a convertir el lenguaje hablado en texto escrito. Mientras que los modelos de lenguaje (LM) se utilizan para mejorar el rendimiento del ASR, a menudo no manejan los errores que cometen los sistemas ASR. Para solucionar esto, los investigadores han desarrollado modelos de Corrección de errores para arreglar esos fallos. Sin embargo, estos modelos no han mostrado mucha mejoría en comparación con los LMs tradicionales, principalmente porque no hay suficientes datos de entrenamiento supervisado disponibles.

En investigaciones recientes, ha surgido un nuevo enfoque llamado Modelo de Lenguaje de Denoising (DLM). Este modelo utiliza una gran cantidad de datos sintéticos para entrenar mecanismos de corrección de errores de manera más efectiva. Al hacerlo, ha alcanzado nuevos niveles de rendimiento en los sistemas ASR.

¿Qué es Denoising LM?

Denoising LM es un tipo de modelo de corrección de errores que se entrena con muchos datos generados a partir de sistemas de texto a voz (TTS). El modelo comienza creando audio a partir de texto escrito, que luego es procesado por un sistema ASR para generar salidas de texto "ruidosas". Estas salidas ruidosas se emparejan con el texto original para crear un gran conjunto de datos para entrenar el DLM.

Características Clave de Denoising LM

DLM tiene varias características importantes que lo diferencian de modelos anteriores:

  1. Tamaño Grande de Modelo y Datos: DLM utiliza un modelo significativamente más grande que los esfuerzos anteriores, junto con una enorme cantidad de datos de entrenamiento sintético.

  2. Sistemas TTS Multi-Hablante: Al usar varios sistemas TTS con múltiples hablantes, DLM puede crear muestras de audio más diversas, lo que ayuda a mejorar su efectividad.

  3. Aumento de Ruido: El modelo incorpora múltiples estrategias para añadir ruido a los datos de entrenamiento, haciéndolo más robusto contra errores del mundo real.

  4. Técnicas de Decodificación Avanzadas: Nuevos algoritmos de decodificación dentro del modelo permiten generar mejores predicciones a partir de entradas ruidosas.

Efectos de Denoising LM en el Rendimiento ASR

Cuando se probó en el conjunto de datos Librispeech, que es un benchmark estándar para ASR, Denoising LM logró resultados impresionantes. Alcanzó una Tasa de Error de Palabra (WER) de 1.5% en el conjunto de prueba limpio y 3.3% en otro conjunto de prueba sin usar ningún dato de audio externo. Estos números representan el mejor rendimiento reportado en configuraciones donde no se utilizó audio adicional, lo que incluso iguala algunos métodos auto-supervisados que sí usaron datos externos.

El DLM mostró una mejora significativa sobre los LMs tradicionales que se usaban anteriormente para re-evaluar - un proceso donde la salida del ASR se refina con modelado de lenguaje adicional. Denoising LM eliminó la necesidad de integraciones complejas de LM y demostró un enfoque más poderoso para la corrección de errores.

La Necesidad de Modelos de Corrección de Errores

Los sistemas ASR tradicionales combinan puntuaciones acústicas con puntuaciones de lenguaje para elegir el texto de salida más probable. Sin embargo, los modelos de lenguaje se entrenan con textos escritos, por lo que a menudo no son conscientes de los tipos de errores que cometen los sistemas ASR. Esta brecha resultó en esfuerzos para desarrollar técnicas que permitan a los sistemas ASR trabajar mejor con los modelos de lenguaje existentes.

Los modelos de corrección de errores se diseñaron específicamente para corregir los errores producidos por el ASR. Estos modelos convierten las salidas ruidosas del ASR en texto más limpio y tienen el potencial de funcionar bien, especialmente cuando el modelo ASR no puede producir salidas estructuradas.

Desafíos de los Modelos de Corrección de Errores

Uno de los principales desafíos en el desarrollo de modelos de corrección de errores efectivos es la necesidad de una gran cantidad de datos de entrenamiento supervisado. Sin embargo, los conjuntos de datos típicos de ASR contienen un número limitado de enunciados, lo que dificulta entrenar modelos robustos.

Para abordar esto, el Denoising LM utiliza sistemas TTS para sintetizar audio a partir de extensas colecciones de texto escrito. Al generar audio a partir de un corpus de modelo de lenguaje, el modelo crea un conjunto de datos sustancial que ayuda en el entrenamiento del modelo de corrección de errores.

Contribuciones Clave de Denoising LM

La introducción de Denoising LM ha llevado a varias contribuciones importantes:

  • Mejoras en Tiempo Real: Denoising LM ha demostrado que los modelos de corrección de errores pueden convertirse en el nuevo estándar, superando a los modelos de lenguaje neural tradicionales en rendimiento.

  • Universalidad: Un solo Denoising LM puede aplicarse a varios sistemas ASR, mostrando la flexibilidad de su enfoque a través de diferentes arquitecturas.

  • Escalabilidad: A medida que el modelo y el corpus de texto de entrenamiento se expanden, el rendimiento de Denoising LM también mejora.

  • Eficiencia: Denoising LM puede igualar los resultados de los modelos de lenguaje neural tradicionales sin recurrir a algoritmos pesados que requieren búsquedas complejas para mejores salidas.

Estos avances sugieren que un modelo de corrección de errores bien diseñado tiene el potencial de mejorar significativamente la precisión de los sistemas ASR.

Antecedentes sobre Modelos Relacionados

Los investigadores han estado tratando de mejorar la forma en que los modelos de lenguaje trabajan con modelos acústicos neuronales durante mucho tiempo. Los métodos anteriores intentaron integrar características del modelo de lenguaje en el sistema ASR a través de modelos superficiales o profundos. Recientemente, los modelos de corrección de errores han hecho avances en el post-procesamiento de las salidas del ASR para corregir errores.

A pesar de que hubo algunas mejoras con estos nuevos enfoques, muchos han tenido dificultades debido a la falta de salidas ASR emparejadas y transcripciones correctas. La mayoría de estos modelos comenzaron con modelos de lenguaje preentrenados, que se ajustaron utilizando datos ruidosos de ASR limitados. Otros experimentaron con diferentes técnicas de aumento de datos para mejorar el rendimiento.

Reconocimiento de Voz Denoising: Un Nuevo Modelo

Para motivar el avance de los modelos de corrección de errores, los investigadores propusieron un modelo probabilístico que conecta el ASR y la corrección de errores. Este modelo consta de dos partes: el sistema ASR que produce secuencias de tokens a partir de la entrada de audio y el modelo de corrección de errores que transforma secuencias de entrada ruidosas en secuencias de salida más limpias.

La mayoría de los intentos anteriores se centraron en optimizar salidas basadas en modelos aproximados. Sin embargo, al utilizar muestras de la posterior del modelo, Denoising LM busca una distribución más precisa durante el entrenamiento.

Proceso de Generación de Datos

Para mejorar Denoising LM, los investigadores optimizaron la generación de datos para mejorar la calidad del entrenamiento. El proceso incluyó los siguientes pasos:

  1. Salida del Sistema TTS: El texto de un corpus de modelo de lenguaje se transforma en audio usando sistemas TTS.

  2. Procesamiento del Sistema ASR: El audio de salida se alimenta a un sistema ASR para derivar hipótesis de texto ruidosas.

  3. Creación del Conjunto de Datos: Los pares de texto original con salidas ruidosas se combinan para formar el conjunto de datos de entrenamiento.

Este método permitió a los investigadores crear un conjunto de datos que captura las características de ruido de los sistemas ASR.

Técnicas de Decodificación para Mejorar la Salida

Después de entrenar tanto el ASR como los modelos de corrección de errores, se aplican técnicas de decodificación novedosas para optimizar las salidas generadas a partir de señales de audio. El proceso implica usar decodificación codiciosa, donde el ASR genera una hipótesis simple, que luego es procesada por el modelo de corrección de errores para crear una mejor predicción.

Una variante avanzada del proceso de decodificación permite una mejora adicional de las predicciones al integrar puntuaciones acústicas generadas por el sistema ASR. Este método implica generar candidatos y volver a puntuarlos en función de las puntuaciones combinadas de ambos modelos.

Detalles de Entrenamiento y Configuraciones de Modelo

Para entrenar Denoising LM, los investigadores utilizaron los datos de texto del corpus de modelo de lenguaje LibriSpeech. Emplearon múltiples sistemas TTS para sintetizar audio y entrenaron el sistema ASR para producir hipótesis válidas para crear pares de entrenamiento.

El modelo Denoising utiliza una arquitectura basada en Transformer y se entrena con un enfoque en hiperpámetros específicos para un mejor rendimiento. Los resultados muestran una clara mejora, logrando tasas de error de palabra más bajas en comparación con los modelos tradicionales.

Superando los Límites del Rendimiento

El Denoising LM ha superado los límites de lo que es posible con el ASR. Los resultados obtenidos en los conjuntos de prueba de Librispeech establecen nuevos estándares, mostrando la capacidad del modelo para superar significativamente los enfoques tradicionales.

La flexibilidad de Denoising LM permite que se aplique en diferentes arquitecturas ASR manteniendo un alto rendimiento, incluso en conjuntos de datos variados. Esta escalabilidad es vital para el futuro desarrollo de tecnologías ASR.

Conclusión

La introducción de Modelos de Lenguaje Denoising marca un avance significativo en el campo del reconocimiento de voz. Al aprovechar audio sintético generado a partir de sistemas de texto a voz, DLM ha abordado con éxito los desafíos que enfrentaban los modelos de corrección de errores tradicionales. La capacidad de superar modelos existentes destaca el potencial del modelo y abre nuevas avenidas para más investigación y desarrollo en tecnología de reconocimiento automático de voz.

Con experimentos extensos respaldando su efectividad, Denoising LM muestra promesa en mejorar la precisión de los sistemas ASR a través de diversas arquitecturas y conjuntos de datos. A medida que se realicen más trabajos en esta área, las implicaciones para una mejor experiencia de usuario con tecnologías de reconocimiento de voz son sustanciales.

Fuente original

Título: Denoising LM: Pushing the Limits of Error Correction Models for Speech Recognition

Resumen: Language models (LMs) have long been used to improve results of automatic speech recognition (ASR) systems, but they are unaware of the errors that ASR systems make. Error correction models are designed to fix ASR errors, however, they showed little improvement over traditional LMs mainly due to the lack of supervised training data. In this paper, we present Denoising LM (DLM), which is a $\textit{scaled}$ error correction model trained with vast amounts of synthetic data, significantly exceeding prior attempts meanwhile achieving new state-of-the-art ASR performance. We use text-to-speech (TTS) systems to synthesize audio, which is fed into an ASR system to produce noisy hypotheses, which are then paired with the original texts to train the DLM. DLM has several $\textit{key ingredients}$: (i) up-scaled model and data; (ii) usage of multi-speaker TTS systems; (iii) combination of multiple noise augmentation strategies; and (iv) new decoding techniques. With a Transformer-CTC ASR, DLM achieves 1.5% word error rate (WER) on $\textit{test-clean}$ and 3.3% WER on $\textit{test-other}$ on Librispeech, which to our knowledge are the best reported numbers in the setting where no external audio data are used and even match self-supervised methods which use external audio data. Furthermore, a single DLM is applicable to different ASRs, and greatly surpassing the performance of conventional LM based beam-search rescoring. These results indicate that properly investigated error correction models have the potential to replace conventional LMs, holding the key to a new level of accuracy in ASR systems.

Autores: Zijin Gu, Tatiana Likhomanenko, He Bai, Erik McDermott, Ronan Collobert, Navdeep Jaitly

Última actualización: 2024-05-24 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2405.15216

Fuente PDF: https://arxiv.org/pdf/2405.15216

Licencia: https://creativecommons.org/licenses/by-nc-sa/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares