Avancées dans la détection des événements sonores pour 2024
De nouvelles méthodes améliorent la précision dans la reconnaissance des sons qui se chevauchent à partir de diverses sources audio.
― 8 min lire
Table des matières
La détection d'événements sonores, c'est le processus d'identification de sons spécifiques dans des enregistrements et de marquer quand ils se produisent. Ce truc peut être compliqué parce que plein de sons peuvent arriver en même temps, et ils peuvent aussi venir de sources différentes, comme des maisons, des voitures ou la nature. Le défi récent DCASE 2024 Task 4 se concentre sur la détection de ces sons qui se chevauchent en utilisant divers enregistrements audio qui n'ont pas forcément toutes les étiquettes pour tous les événements. Ce challenge pousse les équipes à trouver de nouvelles méthodes qui peuvent gérer ces complexités.
Aperçu de la Tâche
Le but principal de DCASE 2024 Task 4 est de construire un modèle capable de reconnaître différents événements sonores et leur timing, même quand ils se chevauchent. Le défi de cette année est unique parce qu'il utilise un dataset qui vient de deux sources différentes, ce qui signifie que les clips audio peuvent varier en style et en qualité. Les participants doivent créer un système qui peut bien se généraliser, gérant différentes sources de données sans avoir besoin de savoir d'où vient chaque clip.
Approche
Pour relever le défi, on a proposé une méthode qui utilise la généralisation de domaine. Ça signifie créer un modèle qui peut apprendre de différents types d'enregistrements audio et bien performer sur des données qu'il n'a jamais vues. Notre approche combine deux types de modèles : un qui traite les caractéristiques audio avec une méthode sophistiquée appelée transformateur et un autre qui organise ces caractéristiques de manière efficace en utilisant un réseau de neurones récurrent.
Stratégies Clés
On s'est concentré sur trois stratégies principales pour améliorer notre système :
MixStyle : On a utilisé une technique appelée MixStyle pendant l'extraction des caractéristiques. Cette méthode mélange les caractéristiques de différents échantillons audio, aidant le modèle à s'adapter à divers styles et conditions.
Cadre d'Apprentissage Indépendant : On a ajusté le processus d'entraînement pour gérer chaque jeu de données séparément, permettant au modèle d'apprendre efficacement des caractéristiques spécifiques de chaque type de clip audio.
Boîtes Englobantes pour les Événements Sonores : Après la détection initiale, on a utilisé une méthode pour affiner les résultats. En utilisant des boîtes englobantes pour encadrer les événements sonores, on pouvait améliorer l'exactitude de notre système pour reconnaître les heures de début et de fin des événements.
Datasets Utilisés
Dataset DESED
Le dataset DESED contient des clips audio qui sont soit enregistrés dans des maisons, soit créés pour imiter des sons domestiques. Ces clips incluent dix événements sonores différents, comme des alarmes, des mixeurs et des chiens qui aboient. Le dataset a diverses étiquettes : certains clips sont étiquetés faiblement sans horaires exacts, tandis que d'autres ont des annotations précises.
Dataset MAESTRO Réel
Le dataset MAESTRO Réel se compose de longs enregistrements d'environnements réels. Il présente plusieurs événements sonores qui ont des étiquettes faibles, donnant un éventail de confiance pour la présence de certains sons. Ce dataset inclut des événements comme des oiseaux chantant et des gens parlant, mais tous les sons ne sont pas étiquetés avec une haute confiance.
Méthode Proposée
Notre modèle de base a été construit sur des méthodes précédentes utilisées dans les défis DCASE, spécifiquement un réseau de neurones récurrent convolutionnel (CRNN). Ce modèle utilise des caractéristiques audio pré-entraînées pour aider à identifier les événements sonores. On a fait plusieurs améliorations à ce cadre de base :
- On a combiné les caractéristiques du modèle pré-entraîné avec notre réseau pour améliorer la reconnaissance.
- On a ajusté comment le modèle apprend des données en se concentrant sur les caractéristiques uniques de chaque jeu de données.
- On a aussi affiné nos prédictions avec la méthode des boîtes englobantes pour s'assurer que les sons détectés sont correctement chronométrés et classés.
Généralisation de Domaine
Un des principaux défis auxquels on a été confrontés était de savoir comment combiner des données provenant de différentes sources. Les datasets DESED et MAESTRO varient considérablement, et les modèles typiques ont du mal à se généraliser à travers des types audio divers. Pour y remédier, on a appliqué des techniques de généralisation de domaine. Notre but était de créer un modèle qui pourrait apprendre des caractéristiques robustes qui fonctionneraient bien sur tous les types de datasets.
Technique MixStyle
MixStyle est une méthode qui mélange les caractéristiques des clips audio pour émuler différents styles. Contrairement à d'autres techniques audio, on s'est concentré sur le domaine de la fréquence pour s'assurer que le modèle utilise efficacement les caractéristiques les plus pertinentes des signaux audio. En appliquant cette technique, on espérait améliorer les performances de notre modèle sur des datasets mixtes.
Fonction de Perte
On a utilisé deux types principaux de fonctions de perte pour entraîner notre modèle. La perte d'entropie croisée binaire est utilisée, ce qui aide à mesurer à quel point le modèle performe par rapport aux étiquettes d'événements sonores. On a aussi incorporé un composant d'erreur quadratique moyenne qui guide le modèle lorsqu'il traite des données non étiquetées, s'assurant qu'il apprend efficacement même avec moins d'informations.
Modèle Pré-entraîné
Pour améliorer encore nos résultats, on a utilisé le modèle BEATs, qui a déjà montré de super performances sur d'autres tâches audio. Ce modèle aide à extraire des caractéristiques significatives des enregistrements audio, que notre système utilise ensuite pour identifier les événements sonores plus précisément.
Augmentation de Données
Pour rendre notre modèle plus robuste, on a utilisé deux techniques d'augmentation de données pendant l'entraînement. La première méthode consiste à masquer des sections audio, ce qui remet au défi le modèle. La deuxième méthode, appelée Mixup, combine des caractéristiques de différents clips audio pour créer des variations, aidant le système à devenir plus flexible.
Post-traitement avec Boîtes Englobantes pour les Événements Sonores
Après la détection initiale des événements sonores, on a appliqué une étape de post-traitement en utilisant des boîtes englobantes pour les événements sonores. Cette méthode améliore la façon dont le système détermine le timing et la présence des sons détectés. En organisant les prédictions en boîtes définies qui indiquent quand les sons commencent et s'arrêtent, on a pu améliorer significativement la précision de détection.
Évaluation et Résultats
On a évalué notre modèle par rapport aux datasets publics et aux ensembles de validation. Le but était de mesurer à quel point notre système performait dans la détection des événements sonores. On a observé les performances du modèle en utilisant deux métriques principales :
- PSDS : Cela mesure la précision de notre système sur le dataset DESED, où il a atteint un score solide en intégrant diverses techniques.
- mPAUC : Cela mesure la performance sur le dataset MAESTRO, indiquant à quel point le modèle pouvait se généraliser à travers différents événements sonores.
Nos résultats ont montré que les systèmes utilisant nos méthodes proposées ont largement dépassé la base de référence. Par exemple, l'un de nos modèles a obtenu le score le plus élevé en combinant efficacement MixStyle avec l'approche dépendante de la fréquence.
Système d'Ensemble
Pour encore améliorer les performances, on a créé un système d'ensemble qui combinait les forces de plusieurs modèles. En moyennant les prédictions de différents systèmes, on a obtenu des résultats encore meilleurs sur les datasets d'évaluation. Le modèle d'ensemble final a montré des améliorations sur les deux métriques, soulignant son efficacité.
Conclusion
Notre participation au DCASE 2024 Task 4 visait à s'attaquer aux complexités de la reconnaissance des sons qui se chevauchent en utilisant une méthode innovante intégrant différentes techniques de traitement audio. En appliquant des stratégies comme MixStyle, l'apprentissage indépendant et les boîtes englobantes pour les événements sonores, on a réalisé des améliorations significatives dans la détection des sons de manière précise et rapide. Notre système d'ensemble le plus performant a démontré la robustesse et l'adaptabilité nécessaires pour gérer des sources audio diverses, suggérant que les travaux futurs peuvent s'appuyer sur ces résultats pour améliorer encore les capacités de détection d'événements sonores.
Titre: FMSG-JLESS Submission for DCASE 2024 Task4 on Sound Event Detection with Heterogeneous Training Dataset and Potentially Missing Labels
Résumé: This report presents the systems developed and submitted by Fortemedia Singapore (FMSG) and Joint Laboratory of Environmental Sound Sensing (JLESS) for DCASE 2024 Task 4. The task focuses on recognizing event classes and their time boundaries, given that multiple events can be present and may overlap in an audio recording. The novelty this year is a dataset with two sources, making it challenging to achieve good performance without knowing the source of the audio clips during evaluation. To address this, we propose a sound event detection method using domain generalization. Our approach integrates features from bidirectional encoder representations from audio transformers and a convolutional recurrent neural network. We focus on three main strategies to improve our method. First, we apply mixstyle to the frequency dimension to adapt the mel-spectrograms from different domains. Second, we consider training loss of our model specific to each datasets for their corresponding classes. This independent learning framework helps the model extract domain-specific features effectively. Lastly, we use the sound event bounding boxes method for post-processing. Our proposed method shows superior macro-average pAUC and polyphonic SED score performance on the DCASE 2024 Challenge Task 4 validation dataset and public evaluation dataset.
Auteurs: Yang Xiao, Han Yin, Jisheng Bai, Rohan Kumar Das
Dernière mise à jour: 2024-06-28 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2407.00291
Source PDF: https://arxiv.org/pdf/2407.00291
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.