Avancées dans la classification audio avec DCLS
DCLS améliore la performance de classification audio en apprenant les positions des noyaux pendant l'entraînement.
― 6 min lire
Table des matières
- C'est quoi DCLS ?
- Classification Audio
- L'impact de DCLS sur la classification audio
- Comment DCLS a été testé
- Adaptation des modèles
- Résultats de l'expérience
- Comparaison des performances
- Dataset et ses défis
- Métriques d'évaluation
- Gestion du déséquilibre des données
- Traitement des spectrogrammes
- Entraînement et configuration des modèles
- Aperçu des résultats
- Conclusion
- Source originale
- Liens de référence
Des études récentes ont montré qu'une nouvelle méthode appelée Convolution Dilatée avec Espacements Apprenables (DCLS) peut améliorer certains types de tâches en vision par ordinateur et en Classification audio. Cette méthode modifie la manière dont les éléments d'un noyau de convolution sont positionnés, et elle apprend les meilleures positions pendant l'entraînement. Cet article va se concentrer sur la manière dont cette méthode peut être appliquée à la classification audio.
C'est quoi DCLS ?
DCLS est une méthode de convolution où les positions des éléments du noyau ne sont pas fixes mais apprises durant le processus d'entraînement. En gros, au lieu d'avoir le même modèle pour traiter les données, le modèle découvre la meilleure façon d'organiser ses éléments de traitement, améliorant ainsi ses performances dans des tâches comme le tagging audio.
Classification Audio
La classification audio consiste à identifier et étiqueter différents sons. Cela peut aller de distinguer la musique de la parole à comprendre divers sons environnementaux. Le dataset AudioSet est l'une des sources les plus populaires pour entraîner des modèles dans ce domaine, contenant des millions de clips audio issus de vidéos sur des plateformes comme YouTube.
L'impact de DCLS sur la classification audio
En testant DCLS par rapport aux méthodes traditionnelles, on a constaté que l'utilisation de DCLS améliorait les performances sans ajouter de complexité au modèle. La Précision Moyenne (mAP) est un moyen courant de mesurer l'efficacité d'un modèle dans ces tâches. Les modèles utilisant DCLS montrent souvent de meilleurs scores de mAP que ceux utilisant des méthodes traditionnelles.
Comment DCLS a été testé
Pour voir à quel point DCLS est efficace pour la classification audio, cette étude a utilisé trois modèles de réseaux de neurones différents qui sont généralement appliqués aux données visuelles. Ces modèles ont été adaptés pour travailler avec des Spectrogrammes audio, qui sont des représentations visuelles du son. Les modèles étaient à l'origine conçus pour des images, donc quelques ajustements étaient nécessaires pour traiter correctement les informations audio.
Adaptation des modèles
Chaque modèle devait changer sa configuration d'entrée pour travailler avec des spectrogrammes audio. Cela impliquait d'utiliser un type de couche spécifique pour traiter les données sonores au lieu du traitement d'images habituel. En utilisant une méthode uniforme à travers tous les modèles, les comparaisons étaient justes et significatives.
Résultats de l'expérience
L'expérience a consisté à remplacer les couches de convolution traditionnelles par des couches DCLS dans différents modèles. Les nouvelles configurations ont été testées sur le dataset AudioSet. Les résultats ont montré que les couches DCLS pouvaient mener à des améliorations de performance sans augmenter le nombre de paramètres dans le modèle, ce qui en fait une solution légère.
Comparaison des performances
Quand on compare les modèles utilisant des convolutions séparables standard (DSC) à ceux utilisant DCLS, ces derniers surpassent souvent les premiers. C'est une révélation importante car elle suggère qu'il est possible d'améliorer la capacité du modèle à classer les types audio sans augmenter la complexité.
Dataset et ses défis
Le dataset AudioSet présente un mélange de clips audio de longueurs variées, la plupart d'environ 10 secondes. Cela signifie que pour les clips plus longs, il faut les tronquer, et les clips plus courts doivent être complétés avec des zéros pour répondre aux exigences du modèle. Il y a aussi un déséquilibre dans le dataset, où certaines classes sont beaucoup plus fréquentes que d'autres, créant des défis pour entraîner des modèles qui doivent reconnaître des sons moins fréquents efficacement.
Métriques d'évaluation
Pour mesurer la performance, l'étude s'est appuyée sur la précision moyenne (mAP), qui est une métrique standard dans le tagging audio. Cette métrique aide à évaluer comment un modèle peut classifier l'audio en plusieurs catégories, puisque de nombreux clips appartiennent à plus d'une classe.
Gestion du déséquilibre des données
Une approche typique pour gérer le déséquilibre dans les datasets est d'utiliser une méthode d'échantillonnage pondéré, où les classes moins communes sont mises en avant pendant l'entraînement. Cependant, cette étude a choisi de ne pas utiliser l'échantillonnage pondéré pour rendre la comparaison plus claire, même si cela a entraîné une légère diminution des scores de mAP.
Traitement des spectrogrammes
Pour la classification audio, beaucoup de modèles utilisent des spectrogrammes plutôt que de l'audio brut. C'est parce que les spectrogrammes peuvent donner une image plus claire des caractéristiques du signal audio au fil du temps. Cette étude a utilisé des spectrogrammes en fréquence mélodique, qui sont particulièrement utiles pour identifier les caractéristiques audio.
Entraînement et configuration des modèles
Lors de l'entraînement des modèles, plusieurs hyperparamètres ont été soigneusement sélectionnés. Des taux de drop élevés ont été utilisés pour éviter le surapprentissage, et de grandes tailles de batch ont été appliquées pour accélérer le processus d'entraînement. L'entraînement a montré quelques instabilités, qui ont été résolues par des optimisateurs spécifiques choisis pour chaque modèle.
Aperçu des résultats
Les modèles qui ont utilisé des couches DCLS ont montré des résultats prometteurs, avec des scores de mAP augmentés par rapport aux modèles n'utilisant que des méthodes conventionnelles. Cela démontre que DCLS peut améliorer considérablement les capacités de classification audio.
Conclusion
La recherche montre que DCLS est une méthode bénéfique qui peut mener à de meilleurs résultats dans les tâches de classification audio. Bien qu'il faille explorer davantage pour établir des repères absolus, les résultats pointent vers un fort potentiel d'applications DCLS dans divers domaines au-delà de l'audio, indiquant sa polyvalence et son efficacité dans l'amélioration des performances des modèles. Alors que l'apprentissage machine continue de croître, des méthodes comme DCLS pourraient jouer un rôle crucial dans l'amélioration des différents classificateurs.
Titre: Audio classification with Dilated Convolution with Learnable Spacings
Résumé: Dilated convolution with learnable spacings (DCLS) is a recent convolution method in which the positions of the kernel elements are learned throughout training by backpropagation. Its interest has recently been demonstrated in computer vision (ImageNet classification and downstream tasks). Here we show that DCLS is also useful for audio tagging using the AudioSet classification benchmark. We took two state-of-the-art convolutional architectures using depthwise separable convolutions (DSC), ConvNeXt and ConvFormer, and a hybrid one using attention in addition, FastViT, and drop-in replaced all the DSC layers by DCLS ones. This significantly improved the mean average precision (mAP) with the three architectures without increasing the number of parameters and with only a low cost on the throughput. The method code is based on PyTorch and is available at https://github.com/K-H-Ismail/DCLS-Audio
Auteurs: Ismail Khalfaoui-Hassani, Timothée Masquelier, Thomas Pellegrini
Dernière mise à jour: 2023-11-22 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2309.13972
Source PDF: https://arxiv.org/pdf/2309.13972
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://github.com/K-H-Ismail/DCLS-Audio
- https://arxiv.org/pdf/1711.02209v1.pdf
- https://arxiv.org/pdf/1705.08168v2.pdf
- https://arxiv.org/pdf/1912.10211v5.pdf
- https://arxiv.org/pdf/2104.01778v3.pdf
- https://arxiv.org/pdf/2110.05069v3.pdf
- https://arxiv.org/pdf/2211.04772v3.pdf
- https://arxiv.org/pdf/2212.08071.pdf