Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Ingeniería Eléctrica y Ciencia de Sistemas# Procesado de Audio y Voz# Computación y lenguaje

Mejorando el reconocimiento de voz con modelos de lenguaje grandes

Esta investigación resalta cómo los LLMs mejoran la comprensión del habla en videos largos.

― 5 minilectura


Los LLMs Mejoran laLos LLMs Mejoran laPrecisión delReconocimiento de Vozen formato largo.mejoran mucho la comprensión del hablaLa investigación muestra que los LLMs
Tabla de contenidos

En los últimos años, el uso de Modelos de Lenguaje Grandes (LLMs) ha crecido en muchas áreas, incluyendo el Reconocimiento de voz. Este artículo analiza cómo los LLMs pueden mejorar la comprensión del habla en videos de plataformas como YouTube, especialmente cuando se trata de contenido hablado largo. Nos enfocamos en dos tipos de inglés: el inglés americano y el inglés indio, que a menudo mezcla hindi y otros idiomas.

Contexto

Los sistemas de reconocimiento de voz convierten las palabras habladas en texto. Estos sistemas a menudo tienen problemas con la precisión, particularmente en discursos o conversaciones largas. Los modelos tradicionales tienen limitaciones, pero al usar LLMs, podemos lograr mejores resultados. Este estudio muestra que al integrar LLMs en el reconocimiento del habla, podemos reducir significativamente los errores.

¿Qué son los Modelos de Lenguaje Grandes?

Los modelos de lenguaje grandes son sistemas de IA avanzados que pueden entender y generar lenguaje humano. Están entrenados con grandes cantidades de texto de internet y otras fuentes. Modelos conocidos incluyen T5 y PaLM, que pueden realizar tareas como resumir textos o responder preguntas. Estos modelos han tenido mucho éxito en varias tareas lingüísticas, pero han tenido poco uso en reconocimiento de voz hasta ahora.

El Desafío del Reconocimiento de Habla Largo

Cuando se trata de reconocer contenido hablado largo, los modelos tradicionales a menudo se quedan cortos. Pueden perder palabras importantes, lo que lleva a una alta tasa de error. Una medida común de estos errores se llama Tasa de Error de Palabras (WER), que muestra cuántos errores se cometen al transcribir el habla.

Este estudio se centra en mejorar el WER utilizando LLMs. Encontramos que nuestro método podría reducir el WER hasta en un 8% y disminuir la tasa de error en la comprensión de términos importantes en un 30%.

Mejorando el Proceso con Calidad de Lattice

Un factor crucial para mejorar el reconocimiento de voz es algo llamado calidad de lattice. Un lattice es un marco que ayuda a organizar y evaluar las posibles interpretaciones de las palabras habladas. Al refinar este lattice mediante un mejor procesamiento y añadir contexto de segmentos anteriores del habla, logramos un mejor rendimiento de nuestros modelos.

Trabajos Previos e Innovaciones

Si bien investigaciones anteriores han analizado el uso de LLMs para el reconocimiento de voz, este estudio lo lleva más lejos. Al examinar la combinación de grandes modelos entrenados en datos textuales diversos y modelos de lenguaje tradicionales, buscamos crear un enfoque más efectivo.

Nuestros hallazgos muestran que diferentes modelos pueden trabajar juntos de manera complementaria, mejorando así el rendimiento general. Esto es importante porque tener los datos de entrenamiento y el tamaño del modelo adecuados juega un papel significativo en la efectividad de los sistemas de reconocimiento de voz.

Enfoques de Prueba

Probamos nuestro enfoque usando un conjunto de datos que incluía inglés de EE. UU. y un inglés indio alternado. Este último tiene desafíos únicos debido a la mezcla de idiomas. Nuestra investigación reveló que las mejoras de rendimiento al usar LLMs fueron sustanciales, particularmente para contenido largo.

Cómo Trabajan Juntos los Modelos

En nuestro enfoque, usamos dos LLMs: T5 y PaLM, que varían en tamaño y capacidad. T5 está construido sobre una estructura de codificador-decodificador, mientras que PaLM sigue un diseño diferente llamado solo-decodificador. Ambos modelos fueron cruciales en refinar la salida del reconocimiento de voz.

Al evaluar qué tan bien estos modelos funcionan en comparación con los modelos de lenguaje tradicionales, demostramos que los modelos más grandes llevan a tasas de error más bajas. También mostraron beneficios complementarios cuando se usaron juntos, lo que significa que combinar sus fortalezas puede generar resultados aún mejores.

Abordando el Code-switching

Un obstáculo importante en la comprensión del habla en el contexto indio es el code-switching, que es cuando los hablantes alternan entre idiomas. Nuestra investigación abordó esto ajustando los modelos para manejar hindi e inglés de manera más efectiva. Este ajuste ayudó a mejorar la precisión del modelo al reconocer el habla que cambia entre estos dos idiomas.

Aplicaciones Prácticas

Las implicaciones de este trabajo son significativas, especialmente para aplicaciones que crean servicios de transcripción más precisos para videos en línea y otras fuentes de medios. Un mejor reconocimiento de contenido largo puede aumentar la accesibilidad para las audiencias y mejorar la experiencia general del usuario.

Conclusión

Esta investigación muestra el potencial de los modelos de lenguaje grandes para mejorar el reconocimiento de voz largo. Al reducir errores en la transcripción y mejorar la comprensión de contextos de lenguaje mixto, podemos expandir los límites de lo que la tecnología de reconocimiento de voz puede lograr. La integración de estos modelos avanzados marca un importante avance en la búsqueda de sistemas de reconocimiento de voz más precisos y confiables.

En resumen, nuestros hallazgos apuntan a la efectividad de los LLMs en procesar lenguaje hablado complejo y sugieren una mayor exploración en esta área para lograr mejoras aún mayores en precisión y rendimiento.

Fuente original

Título: Large-scale Language Model Rescoring on Long-form Data

Resumen: In this work, we study the impact of Large-scale Language Models (LLM) on Automated Speech Recognition (ASR) of YouTube videos, which we use as a source for long-form ASR. We demonstrate up to 8\% relative reduction in Word Error Eate (WER) on US English (en-us) and code-switched Indian English (en-in) long-form ASR test sets and a reduction of up to 30\% relative on Salient Term Error Rate (STER) over a strong first-pass baseline that uses a maximum-entropy based language model. Improved lattice processing that results in a lattice with a proper (non-tree) digraph topology and carrying context from the 1-best hypothesis of the previous segment(s) results in significant wins in rescoring with LLMs. We also find that the gains in performance from the combination of LLMs trained on vast quantities of available data (such as C4) and conventional neural LMs is additive and significantly outperforms a strong first-pass baseline with a maximum entropy LM. Copyright 2023 IEEE. Personal use of this material is permitted. Permission from IEEE must be obtained for all other uses, in any current or future media, including reprinting/republishing this material for advertising or promotional purposes, creating new collective works, for resale or redistribution to servers or lists, or reuse of any copyrighted component of this work in other works.

Autores: Tongzhou Chen, Cyril Allauzen, Yinghui Huang, Daniel Park, David Rybach, W. Ronny Huang, Rodrigo Cabrera, Kartik Audhkhasi, Bhuvana Ramabhadran, Pedro J. Moreno, Michael Riley

Última actualización: 2023-09-05 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2306.08133

Fuente PDF: https://arxiv.org/pdf/2306.08133

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares