Mejorando el Reconocimiento Automático de Voz con Inyección de Texto
Un nuevo método mejora el rendimiento del ASR a través de la integración de datos de texto.
― 7 minilectura
Tabla de contenidos
El Reconocimiento Automático de Voz (ASR) es una tecnología que permite a las computadoras entender y responder al habla humana. Se usa mucho en aplicaciones como la dictación por voz, asistentes digitales y subtitulación de videos. Aunque los sistemas ASR suelen ser evaluados por su tasa de error de palabras (WER), hay tareas adicionales que deben abordarse para mejorar su rendimiento general. Estas tareas incluyen cosas como poner mayúsculas al inicio de las oraciones, detectar cuando alguien deja de hablar y entender el flujo natural de la conversación.
Este artículo va a hablar de un nuevo enfoque para mejorar estas tareas adicionales, conocidas como Tareas auxiliares, en los modelos de ASR. Usando un método llamado Inyección de texto, podemos hacer que el sistema ASR sea mejor en manejar tanto la tarea principal de reconocer el habla como estas tareas adicionales.
La necesidad de tareas auxiliares
Los sistemas ASR hacen más que solo convertir palabras habladas en texto. También necesitan manejar otras tareas que mejoran la experiencia del usuario. Por ejemplo, cuando una persona habla con un asistente digital, es importante que el sistema sepa cuándo la persona ha terminado de hablar. Esto ayuda al asistente a responder en el momento adecuado. De manera similar, el texto producido por ASR debe ser fácil de leer, y aquí es donde entran en juego tareas como la Capitalización y la puntuación.
Los sistemas ASR tradicionales a menudo usan modelos separados para estas tareas auxiliares, pero los desarrollos recientes permiten un enfoque más integrado donde todas las tareas pueden ser manejadas por un solo modelo. Este método tiene el potencial de mejorar significativamente el rendimiento tanto de la tarea ASR como de las tareas auxiliares.
Sin embargo, hay un desafío: tareas simples como la capitalización, que dependen en gran medida del lenguaje escrito, a menudo carecen de datos de entrenamiento suficientes. Mientras que los datos de audio tienden a ser limitados, los datos de texto son más abundantes. Esto crea una brecha donde los modelos pueden tener problemas con ciertas tareas.
¿Qué es la inyección de texto?
La inyección de texto es una técnica que ayuda a los modelos ASR a aprovechar los abundantes datos solo de texto disponibles. En este enfoque, un modelo aprende tanto de audio hablado como de texto escrito adicional. La idea principal es permitir que el modelo ASR acceda a esta información adicional para mejorar su rendimiento en diversas tareas.
Al entrenar un modelo ASR, el modelo de lenguaje interno (ILM) es un componente clave. Predice qué palabra viene a continuación basado en las palabras que ya se han dicho. Al incluir datos de texto, podemos mejorar esta parte del modelo, ayudándolo a entender mejor el contexto y predecir palabras con más precisión.
Mejorando las tareas auxiliares
En el contexto de ASR, las dos tareas auxiliares en las que nos vamos a centrar son la capitalización y la predicción de turnos de habla. La capitalización se refiere a asegurarse de que las palabras estén escritas correctamente, con letras mayúsculas al inicio de las oraciones y para nombres propios. La predicción de turnos se ocupa de determinar cuándo un hablante ha hecho una pausa, indicando si ha terminado de hablar o solo está tomando un breve descanso antes de continuar.
Para entrenar el modelo para estas tareas, podemos usar una combinación de datos de audio y texto emparejados junto con datos solo de texto no emparejados. Los datos no emparejados son particularmente útiles para ampliar el rango de palabras y frases que el modelo puede manejar, especialmente aquellas que pueden no estar presentes en el conjunto de entrenamiento de audio.
La arquitectura del modelo
El enfoque consiste en utilizar una arquitectura de modelo especializada para entrenar conjuntamente las diversas tareas relacionadas con ASR y las tareas auxiliares. La estructura incluye tanto un codificador como un decodificador. El codificador procesa la entrada de audio, mientras que el decodificador genera texto, aplicando el conocimiento aprendido de ambos, audio y texto.
En esta arquitectura, el modelo puede gestionar eficazmente la tarea principal de ASR mientras aprende a manejar simultáneamente las tareas auxiliares de capitalización y turnos de habla. Lo logra aprovechando los patrones observados en el lenguaje hablado y el texto escrito.
Preparación de datos
Para las tareas de capitalización y turnos de habla, la preparación de datos es crucial. El conjunto de datos emparejados de audio-texto incluirá conversaciones y dictados que han sido anotados con la capitalización correcta y marcadores de pausa. Por otro lado, los datos solo de texto se reunirán de diversas fuentes, como búsquedas en la web y otras consultas cortas.
En los casos en que los datos de audio puedan no tener una capitalización o marcadores de pausa claros, podemos usar reglas o patrones predefinidos para insertar estas anotaciones de manera apropiada. Para los datos solo de texto, es esencial que estas transcripciones sigan reflejando la manera en que las personas hablan de forma natural.
Proceso de entrenamiento
Al entrenar el modelo, se utilizan dos tipos de conjuntos de datos: datos emparejados (que incluyen tanto audio como texto) y datos no emparejados (que consisten solo en texto). El modelo aprenderá de los datos emparejados de manera típica, mientras que también se entrenará en los datos solo de texto para mejorar su rendimiento en el ILM. Este enfoque dual asegura que el modelo pueda aprender de una variedad de contextos.
El entrenamiento combina las pérdidas de ambas tareas auxiliares y la tarea principal de ASR, permitiendo un aprendizaje equilibrado en todos los componentes del modelo. El objetivo es crear un sistema que pueda desempeñarse bien en todas las áreas, reconociendo palabras habladas con precisión mientras maneja la capitalización y las pausas de manera efectiva.
Resultados experimentales
Las pruebas han demostrado que integrar la inyección de texto en los modelos ASR puede llevar a un mejor rendimiento en las tareas auxiliares. Por ejemplo, la tasa de error de capitalización se ha reducido significativamente, especialmente en casos que involucran palabras raras o menos comunes. De manera similar, la capacidad del modelo para predecir cuándo alguien ha terminado de hablar también ha mostrado una mejora notable.
Estos resultados indican que utilizar datos de texto no emparejados no solo ayuda a mejorar el rendimiento del modelo, sino que también mejora la experiencia general del usuario al hacer que la salida de ASR sea más precisa y fácil de leer.
Conclusión
La integración de la inyección de texto en los modelos ASR representa un avance valioso en la tecnología de reconocimiento de voz. Al permitir que los modelos aprendan de datos de audio y texto, podemos mejorar no solo la precisión del reconocimiento de voz, sino también el manejo de tareas relacionadas como la capitalización y la predicción de turnos.
A medida que la demanda de interacciones por voz más sofisticadas sigue creciendo, métodos como la inyección de texto jugarán un papel vital en mejorar el rendimiento y la usabilidad de los sistemas ASR. La investigación futura podría ampliar aún más estas técnicas, explorando sus aplicaciones en una gama más amplia de tareas y entornos.
Título: Text Injection for Capitalization and Turn-Taking Prediction in Speech Models
Resumen: Text injection for automatic speech recognition (ASR), wherein unpaired text-only data is used to supplement paired audio-text data, has shown promising improvements for word error rate. This study examines the use of text injection for auxiliary tasks, which are the non-ASR tasks often performed by an E2E model. In this work, we use joint end-to-end and internal language model training (JEIT) as our text injection algorithm to train an ASR model which performs two auxiliary tasks. The first is capitalization, which is a de-normalization task. The second is turn-taking prediction, which attempts to identify whether a user has completed their conversation turn in a digital assistant interaction. We show results demonstrating that our text injection method boosts capitalization performance for long-tail data, and improves turn-taking detection recall.
Autores: Shaan Bijwadia, Shuo-yiin Chang, Weiran Wang, Zhong Meng, Hao Zhang, Tara N. Sainath
Última actualización: 2023-08-14 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2308.07395
Fuente PDF: https://arxiv.org/pdf/2308.07395
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.