Avances en la Detección de Palabras Clave y Etiquetado de Audio
Nuevos modelos mejoran la eficiencia de los asistentes de voz móviles.
― 7 minilectura
Tabla de contenidos
- La Importancia de la Detección de Palabras Clave y el Etiquetado de Audio
- Trabajos Anteriores en el Campo
- Presentando Transformadores Unificados
- Transformadores de Visión
- Estructura del Modelo Propuesto
- Reducción de Parches y Mecanismos de Atención
- Entrenamiento y Evaluación
- Resultados y Comparaciones
- Velocidad de Inferencia en Dispositivos Móviles
- Hallazgos Importantes de los Estudios
- Conclusión
- Fuente original
- Enlaces de referencia
La Detección de palabras clave (KWS) y la Etiquetado de audio (AT) son tareas importantes para los asistentes de voz inteligentes, que responden a frases específicas o entienden sonidos en el entorno. En desarrollos recientes, se ha introducido un sistema que combina KWS y AT. Este sistema, llamado UniKW-AT, permite a los dispositivos reconocer palabras clave mientras categoriza varios sonidos.
Aunque este sistema muestra potencial, el uso real de tales modelos necesita tener en cuenta algunos factores prácticos. Estos incluyen el tamaño del modelo, qué tan rápido puede procesar información y la eficiencia general, especialmente para su uso en dispositivos móviles. Para satisfacer estas necesidades, se ha desarrollado un nuevo conjunto de modelos llamados Transformadores Unificados (UiT).
El mejor de estos nuevos modelos ha sido probado con buenos resultados, logrando una precisión media promedio (mAP) de 34.09 en el conjunto de datos Audioset, y una exactitud de 97.76% en el conjunto de datos Google Speech Commands V1. Además, estos modelos han sido evaluados en diferentes plataformas móviles, mostrando que pueden procesar información de 2 a 6 veces más rápido que un modelo competitivo conocido como MobileNetV2.
La Importancia de la Detección de Palabras Clave y el Etiquetado de Audio
La detección de palabras clave es esencial para los asistentes de voz inteligentes. Cuando un usuario dice una palabra o frase específica, el asistente se activa y está listo para responder. El etiquetado de audio, por otro lado, implica identificar y etiquetar sonidos en grabaciones. Por ejemplo, puede reconocer el sonido de un bebé llorando o un perro ladrando.
Combinar KWS y AT en un solo modelo puede mejorar el rendimiento. Este enfoque hace que el sistema sea más capaz de manejar el ruido sin perder precisión en el reconocimiento de palabras clave. Sin embargo, para que tal modelo funcione efectivamente en la vida real, debe ser lo suficientemente pequeño para ejecutarse en un dispositivo móvil y responder rápidamente a los comandos.
Trabajos Anteriores en el Campo
Investigaciones anteriores se han centrado en mejorar los modelos de KWS haciéndolos más pequeños, rápidos y precisos. Muchos de estos sistemas utilizan redes neuronales convolucionales (CNN) para el procesamiento. Más recientemente, se han estudiado modelos de transformadores por su potencial en aplicaciones tanto de KWS como de AT.
La mayoría del trabajo en AT ha buscado llevar el rendimiento de las pruebas de referencia establecidas como Audioset a nuevos niveles, pero a menudo pasa por alto los aspectos prácticos de implementar estos modelos en situaciones del mundo real.
Presentando Transformadores Unificados
Este nuevo trabajo presenta una variedad de modelos, conocidos como transformadores unificados (UiT), diseñados para proporcionar velocidades de procesamiento rápidas mientras mantienen el rendimiento en tareas tanto de KWS como de AT. Los modelos UiT buscan reducir el tamaño y la complejidad del sistema, haciéndolos más adecuados para su implementación en dispositivos móviles.
El marco combina dos tipos de conjuntos de datos, uno para KWS y otro para AT, para crear un proceso de entrenamiento fluido. Los modelos se entrenan utilizando un método que les ayuda a aprender de manera eficiente y robusta, aprovechando las fortalezas de ambas tareas.
Transformadores de Visión
Los transformadores se utilizaron por primera vez para tareas como la traducción de lenguaje, pero desde entonces se han adaptado para su uso en procesamiento de imágenes y, más recientemente, en análisis de audio. El Transformador de Visión (ViT) introdujo una nueva forma de ver imágenes al dividirlas en piezas más pequeñas llamadas parches. Esto también facilita el análisis y procesamiento de espectrogramas de audio.
En el marco propuesto de UiT, la entrada de audio también se divide en parches, que luego son analizados por modelos de transformadores. Este enfoque permite un procesamiento eficiente mientras mantiene el tamaño del modelo manejable.
Estructura del Modelo Propuesto
El proceso de entrenamiento involucra muestras de conjuntos de datos tanto de AT como de KWS. Estos se recortan para ajustarse a una longitud específica, y el modelo aprende a reconocer los sonidos y palabras clave juntos. Al usar un modelo preentrenado como referencia, el sistema unificado puede mejorar su precisión.
Reducir el número de parches utilizados para el análisis es una parte clave del diseño del modelo. Si bien mantener una alta calidad para AT es importante, el modelo también se enfoca en reducir los costos computacionales y el uso de memoria en general.
Reducción de Parches y Mecanismos de Atención
Trabajar con datos de audio puede ser intensivo en recursos. Por lo tanto, los modelos están diseñados para limitar el número de parches que analizan en un momento dado. Esto es crucial para mantener velocidades de procesamiento rápidas y minimizar el uso de memoria.
Para mejorar aún más la eficiencia, se emplea una técnica llamada atención de cuello de botella (BN-A). Esto ayuda a enfocar la atención del modelo en la información más importante dentro de los parches de audio, optimizando el proceso de análisis y acelerando el rendimiento general.
Entrenamiento y Evaluación
Los modelos han sido probados utilizando conjuntos de datos de audio populares, incluidos Google Speech Commands V1 y Audioset. La configuración implica entrenar los modelos con clips de audio de distintas longitudes y complejidades, asegurando que puedan manejar condiciones de audio del mundo real.
Durante la evaluación, los modelos han mostrado resultados sólidos en tareas tanto de KWS como de AT, lo que indica su efectividad. Las métricas de rendimiento incluyen medidas de precisión y qué tan bien los modelos pueden identificar diferentes eventos de audio.
Resultados y Comparaciones
Al comparar los nuevos modelos UiT con enfoques anteriores, los resultados indican una clara mejora en rendimiento y eficiencia. Por ejemplo, el modelo tradicional TC-ResNet8 funcionó bien para KWS pero tuvo problemas con AT. En contraste, los modelos UiT lograron resultados competitivos en ambas tareas y además fueron más eficientes.
El modelo UiT-XS destaca con una exactitud de 97.76% en el conjunto de datos de comandos de voz y una fuerte puntuación de mAP para el etiquetado de audio. Esto refleja sus capacidades duales y efectividad en el uso del mundo real.
Velocidad de Inferencia en Dispositivos Móviles
La velocidad es un factor crítico para aplicaciones móviles. Los modelos UiT han sido probados en varias plataformas móviles, incluidos dispositivos de gama alta y media. Los resultados mostraron que los nuevos modelos pueden procesar información de manera significativamente más rápida que los sistemas anteriores, haciéndolos más adecuados para uso móvil.
Por ejemplo, mientras que modelos anteriores tenían retrasos de hasta 320 ms, los modelos UiT reaccionaron en 160 ms, reflejando una mejora notable en la capacidad de respuesta.
Hallazgos Importantes de los Estudios
Estudios adicionales examinaron los efectos de diferentes mecanismos de atención y funciones de activación dentro del modelo. El uso del enfoque BN-A resultó en al menos un 20% de aumento en la velocidad de inferencia sin comprometer el rendimiento.
En resumen, aunque los modelos propuestos pueden no superar siempre a los métodos tradicionales en todos los aspectos, su velocidad y complejidad reducida los hacen más aplicables a entornos móviles.
Conclusión
Este trabajo presenta un paso innovador en los sistemas de detección de palabras clave y etiquetado de audio optimizados para dispositivos móviles. Los modelos de transformadores unificados (UiT) ofrecen un balance efectivo entre rendimiento y eficiencia, convirtiéndolos en una herramienta valiosa para futuros desarrollos en asistentes de voz inteligentes.
Con su capacidad para manejar ambas tareas simultáneamente y con mayor velocidad, estos modelos representan un avance práctico y prometedor en el campo de la tecnología de análisis de audio. A medida que la demanda de dispositivos inteligentes continúa creciendo, la necesidad de sistemas eficientes y responsivos se vuelve cada vez más importante, posicionando a los modelos UiT como una solución líder.
Título: Unified Keyword Spotting and Audio Tagging on Mobile Devices with Transformers
Resumen: Keyword spotting (KWS) is a core human-machine-interaction front-end task for most modern intelligent assistants. Recently, a unified (UniKW-AT) framework has been proposed that adds additional capabilities in the form of audio tagging (AT) to a KWS model. However, previous work did not consider the real-world deployment of a UniKW-AT model, where factors such as model size and inference speed are more important than performance alone. This work introduces three mobile-device deployable models named Unified Transformers (UiT). Our best model achieves an mAP of 34.09 on Audioset, and an accuracy of 97.76 on the public Google Speech Commands V1 dataset. Further, we benchmark our proposed approaches on four mobile platforms, revealing that the proposed UiT models can achieve a speedup of 2 - 6 times against a competitive MobileNetV2.
Autores: Heinrich Dinkel, Yongqing Wang, Zhiyong Yan, Junbo Zhang, Yujun Wang
Última actualización: 2023-03-03 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2303.01812
Fuente PDF: https://arxiv.org/pdf/2303.01812
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.