Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Ingeniería Eléctrica y Ciencia de Sistemas# Procesado de Audio y Voz

Avances en la localización y detección de eventos sonoros

Un nuevo sistema mejora la detección de sonido y la estimación de distancias.

― 5 minilectura


Nuevo sistema paraNuevo sistema paradetección de sonidode sonidos y estimación de distancias.Métodos mejorados para la localización
Tabla de contenidos

La Localización y detección de eventos sonoros (SELD) es una tarea clave en el análisis de audio. Se trata de identificar de dónde vienen los sonidos y reconocer qué son esos sonidos. Con la llegada de la estimación de distancia de sonido (SDE) a esta tarea, los sistemas no solo tienen que encontrar e identificar sonidos, sino también estimar qué tan lejos está la fuente de sonido. Esto hace que la tarea sea más desafiante. Aunque ha habido investigaciones sobre SELD y SDE por separado, hay menos trabajo en combinar ambas en una sola tarea.

El Reto

El DCASE 2024 Challenge se centra en SELD con SDE. Los participantes deben crear sistemas que puedan detectar sonidos, determinar su dirección y estimar su distancia desde el dispositivo de grabación. Este desafío añade complejidad, lo que hace esencial que los desarrolladores exploren nuevos métodos y tecnologías para mejorar sus sistemas.

Enfoque Propuesto

Para mejorar el rendimiento en esta tarea, se propuso un nuevo sistema para mejorar modelos existentes conocidos como ResNet-Conformers. Este sistema incluye características llamadas bloques Squeeze-and-Excitation (SE), que permiten al modelo concentrarse en los aspectos sonoros importantes. Estos bloques introducen mecanismos de atención que ayudan al modelo a entender qué partes de los datos de sonido son más relevantes.

El sistema también usa características avanzadas llamadas Log-Spectrograma Aumentado por Pista Espacial (SALSA). Estas características están diseñadas para representar mejor los datos de sonido que los métodos tradicionales, permitiendo que el sistema maneje múltiples sonidos que ocurren al mismo tiempo de manera más efectiva.

Preparación y Aumento de Datos

Los datos utilizados para el entrenamiento provienen de un conjunto de datos que incluye diferentes grabaciones de audio de varios entornos. Para mejorar aún más el rendimiento, se sintetizan datos adicionales usando un método que genera nuevas grabaciones de sonido basadas en las existentes. Esto ayuda a crear un conjunto de datos más diverso para el entrenamiento.

También se aplican técnicas de aumento de datos para reducir el riesgo de sobreajuste, que ocurre cuando un modelo aprende demasiado de los datos de entrenamiento y presenta un mal rendimiento en datos nuevos y no vistos. Al aplicar varias modificaciones a las grabaciones de audio durante el entrenamiento, el modelo puede aprender a generalizar mejor y mejorar su rendimiento en diferentes situaciones.

Arquitectura del Sistema

El sistema propuesto emplea una combinación de arquitecturas ResNet-Conformer, que son populares en tareas de detección de eventos sonoros. Estas arquitecturas consisten en diferentes módulos que trabajan juntos para procesar datos de sonido. La adición de bloques SE mejora la capacidad del modelo para aprender de los datos de audio.

En particular, el sistema utiliza una estructura ResNet más profunda antes de los bloques Conformer, permitiendo que el modelo capture mejor información sonora importante. Se aplican diferentes tipos de operaciones de agrupamiento, que ayudan al modelo a mantener detalles clave sobre los sonidos que se están analizando.

Bloques Squeeze-and-Excitation

Los bloques Squeeze-and-Excitation juegan un papel importante en la mejora del rendimiento del modelo. Funcionan analizando la importancia de diferentes características del sonido, ayudando al modelo a concentrarse en la información más relevante. Hay variaciones de estos bloques, como bloques SE a nivel de canal y a nivel espacial, que juntos ayudan al sistema a comprender mejor las relaciones entre las características sonoras tanto en el tiempo como en la frecuencia.

Proceso de Entrenamiento

Entrenar el modelo implica descomponer las grabaciones de audio en segmentos más pequeños y convertirlos en características SALSA. El sistema se entrena durante varias épocas, durante las cuales se hacen ajustes a varios parámetros para optimizar el rendimiento. La capacidad del modelo para estimar distancias con precisión también se mejora a través de una técnica de escalado que ayuda a mantener el equilibrio durante el entrenamiento.

Experimentación y Resultados

Al evaluar el sistema propuesto, se prueban varias configuraciones para evaluar las mejoras en el rendimiento. Los resultados muestran que la adición de bloques SE conduce a mejoras significativas en la capacidad del modelo para detectar sonidos y estimar distancias. Diferentes configuraciones del sistema revelan que la colocación cuidadosa de estos bloques puede influir en el rendimiento general.

Conclusión

Este trabajo demuestra el potencial de combinar arquitecturas avanzadas con mecanismos de atención para enfrentar los desafíos de la localización y detección de eventos sonoros con estimación de distancia. El sistema propuesto representa un avance en esta área, mostrando una precisión y rendimiento mejorados en comparación con modelos de referencia. Estudios futuros buscarán refinar aún más estos enfoques y explorar características adicionales que puedan mejorar el rendimiento en tareas de SELD con SDE.

Fuente original

Título: Squeeze-and-Excite ResNet-Conformers for Sound Event Localization, Detection, and Distance Estimation for DCASE 2024 Challenge

Resumen: This technical report details our systems submitted for Task 3 of the DCASE 2024 Challenge: Audio and Audiovisual Sound Event Localization and Detection (SELD) with Source Distance Estimation (SDE). We address only the audio-only SELD with SDE (SELDDE) task in this report. We propose to improve the existing ResNet-Conformer architectures with Squeeze-and-Excitation blocks in order to introduce additional forms of channel- and spatial-wise attention. In order to improve SELD performance, we also utilize the Spatial Cue-Augmented Log-Spectrogram (SALSA) features over the commonly used log-mel spectra features for polyphonic SELD. We complement the existing Sony-TAu Realistic Spatial Soundscapes 2023 (STARSS23) dataset with the audio channel swapping technique and synthesize additional data using the SpatialScaper generator. We also perform distance scaling in order to prevent large distance errors from contributing more towards the loss function. Finally, we evaluate our approach on the evaluation subset of the STARSS23 dataset.

Autores: Jun Wei Yeow, Ee-Leng Tan, Jisheng Bai, Santi Peksi, Woon-Seng Gan

Última actualización: 2024-07-12 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2407.09021

Fuente PDF: https://arxiv.org/pdf/2407.09021

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares