Avancées dans la localisation et la détection des événements sonores
Un nouveau système améliore la détection du son et l'estimation de la distance.
― 5 min lire
Table des matières
La Localisation et détection d'événements sonores (SELD) est une tâche super importante dans l'analyse audio. Ça implique de savoir d'où viennent les sons et de reconnaître ce que ces sons sont. Avec l'arrivée de l'estimation de distance sonore (SDE) dans ce domaine, les systèmes doivent non seulement identifier et localiser les sons, mais aussi estimer à quelle distance se trouve la source sonore. Ça rend la tâche encore plus compliquée. Même s'il y a eu des recherches sur SELD et SDE séparément, il y a moins de travail sur la combinaison des deux en une seule tâche.
Le Défi
Le DCASE 2024 Challenge se concentre sur SELD avec SDE. Les participants doivent créer des systèmes capables de détecter les sons, de déterminer leur direction et d'estimer leur distance par rapport à l'appareil d'enregistrement. Ce défi ajoute de la complexité, rendant crucial pour les développeurs d'explorer de nouvelles méthodes et technologies pour améliorer leurs systèmes.
Approche Proposée
Pour améliorer les performances dans cette tâche, un nouveau système a été proposé pour renforcer les modèles existants connus sous le nom de ResNet-Conformers. Ce système inclut des fonctionnalités appelées blocs Squeeze-and-Excitation (SE), qui permettent au modèle de se concentrer sur les caractéristiques sonores importantes. Ces blocs introduisent des mécanismes d'attention qui aident le modèle à comprendre quelles parties des données sonores sont plus essentielles.
Le système utilise aussi des fonctionnalités avancées appelées Log-Spectrogramme Augmenté par Indices Spatiaux (SALSA). Ces fonctionnalités sont conçues pour mieux représenter les données sonores que les méthodes traditionnelles, permettant au système de gérer plus efficacement plusieurs sons se produisant en même temps.
Préparation et Augmentation des Données
Les données utilisées pour l'entraînement proviennent d'un ensemble de données qui comprend différentes enregistrements audio de divers environnements. Pour améliorer encore les performances, des données supplémentaires sont synthétisées en utilisant une méthode qui génère de nouveaux enregistrements sonores basés sur les existants. Ça aide à créer un ensemble de données plus diversifié pour l'entraînement.
Des techniques d'augmentation de données sont également appliquées pour réduire le risque de surapprentissage, qui survient quand un modèle apprend trop des données d'entraînement et performe mal sur des nouvelles données non vues. En appliquant diverses modifications aux enregistrements audio pendant l'entraînement, le modèle peut mieux généraliser et améliorer ses performances dans différentes situations.
Architecture du Système
Le système proposé utilise une combinaison d'architectures ResNet-Conformer, qui sont populaires dans les tâches de détection d'événements sonores. Ces architectures se composent de différents modules qui travaillent ensemble pour traiter les données sonores. L'ajout de blocs SE renforce la capacité du modèle à apprendre à partir des données audio.
En particulier, le système utilise une structure ResNet plus profonde avant les blocs Conformer, permettant au modèle de mieux capturer les informations sonores importantes. Différents types d'opérations de pooling sont appliqués, ce qui aide le modèle à maintenir les détails clés sur les sons en cours d'analyse.
Blocs Squeeze-and-Excitation
Les blocs Squeeze-and-Excitation jouent un rôle important dans l'amélioration des performances du modèle. Ils fonctionnent en analysant l'importance des différentes caractéristiques sonores, aidant le modèle à se concentrer sur les informations les plus pertinentes. Il existe des variations de ces blocs, comme les blocs SE à canal et à espace, qui ensemble aident le système à mieux comprendre les relations entre les caractéristiques sonores à la fois dans le temps et la fréquence.
Processus d'Entraînement
L'entraînement du modèle implique de diviser les enregistrements audio en segments plus petits et de les convertir en fonctionnalités SALSA. Le système est entraîné pendant plusieurs époques, durant lesquelles des ajustements sont faits sur divers paramètres pour optimiser les performances. La capacité du modèle à estimer correctement les distances est également renforcée grâce à une technique d'échelle qui aide à maintenir l'équilibre pendant l'entraînement.
Expérimentation et Résultats
Pour évaluer le système proposé, diverses configurations sont testées pour évaluer les améliorations de performances. Les résultats montrent que l'ajout de blocs SE entraîne des améliorations significatives dans la capacité du modèle à détecter les sons et à estimer les distances. Différentes configurations du système révèlent que le placement soigneux de ces blocs peut influencer la performance globale.
Conclusion
Ce travail démontre le potentiel de la combinaison d'architectures avancées avec des mécanismes d'attention pour relever les défis de la localisation et détection d'événements sonores avec estimation de distance. Le système proposé représente un pas en avant dans ce domaine, montrant une meilleure précision et performance par rapport aux modèles de base. Les études futures viseront à affiner encore ces approches et à explorer d'autres fonctionnalités qui peuvent booster les performances pour les tâches de SELD avec SDE.
Titre: Squeeze-and-Excite ResNet-Conformers for Sound Event Localization, Detection, and Distance Estimation for DCASE 2024 Challenge
Résumé: This technical report details our systems submitted for Task 3 of the DCASE 2024 Challenge: Audio and Audiovisual Sound Event Localization and Detection (SELD) with Source Distance Estimation (SDE). We address only the audio-only SELD with SDE (SELDDE) task in this report. We propose to improve the existing ResNet-Conformer architectures with Squeeze-and-Excitation blocks in order to introduce additional forms of channel- and spatial-wise attention. In order to improve SELD performance, we also utilize the Spatial Cue-Augmented Log-Spectrogram (SALSA) features over the commonly used log-mel spectra features for polyphonic SELD. We complement the existing Sony-TAu Realistic Spatial Soundscapes 2023 (STARSS23) dataset with the audio channel swapping technique and synthesize additional data using the SpatialScaper generator. We also perform distance scaling in order to prevent large distance errors from contributing more towards the loss function. Finally, we evaluate our approach on the evaluation subset of the STARSS23 dataset.
Auteurs: Jun Wei Yeow, Ee-Leng Tan, Jisheng Bai, Santi Peksi, Woon-Seng Gan
Dernière mise à jour: 2024-07-12 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2407.09021
Source PDF: https://arxiv.org/pdf/2407.09021
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.