Sci Simple

New Science Research Articles Everyday

# Statistiques # Son # Traitement de l'audio et de la parole # Applications

Utiliser l'IA pour classifier les sons des oiseaux au milieu du bruit

L'IA générative aide à identifier les chants d'oiseaux dans des environnements bruyants pour une meilleure conservation.

Anthony Gibbons, Emma King, Ian Donohue, Andrew Parnell

― 7 min lire


L'IA classe les chants L'IA classe les chants d'oiseaux dans le bruit. dans des environnements bruyants. l'identification des sons d'oiseaux L'IA générative améliore
Table des matières

Dans le monde d'aujourd'hui, la technologie a un don pour nous aider à mieux comprendre la nature. Une innovation sympa, c'est l'utilisation de l'IA générative pour classer les sons des oiseaux. Pense à ça comme une version high-tech pour essayer de reconnaître le cri d'un geai bleu à partir d'un extrait audio. Le twist ? Parfois, les sons viennent d'endroits bruyants, comme des parcs éoliens, où les turbines tournent et font bruisser les feuilles.

Le Défi d'Identifier les Sons des Oiseaux

La surveillance des oiseaux est super importante pour voir comment nos écosystèmes s'en sortent. La variété d'espèces d'oiseaux nous donne des indices sur la santé de l'environnement. Les oiseaux aident à gérer les nuisibles, à disperser les graines, et même à polliniser les plantes. Mais comment distinguer un oiseau d'un autre quand ils sonnent si pareil ? Voici l'audio monitoring !

Traditionnellement, les chercheurs faisaient appel à des gens avec des oreilles aiguisées pour écouter des heures d'enregistrements et identifier les cris d'oiseaux. Ce méthode est pas seulement chronophage mais aussi coûteuse, car ça demande un savoir-faire pointu. De nos jours, beaucoup de chercheurs se tournent vers des programmes informatiques qui peuvent écouter et classer les cris des oiseaux pour eux. Mais il y a un hic. La précision de ces programmes peut parfois être instable, surtout quand il y a beaucoup de bruit de fond.

Qu'est-ce que l'Augmentation de données ?

C'est là que l'augmentation de données entre en jeu, comme un acolyte amical. Imagine que tu veux entraîner un programme à reconnaître les sons des oiseaux. Tu as besoin de plein d'exemples, ou de données. Comme obtenir des données annotées par des experts peut être compliqué, l'augmentation de données aide en augmentant artificiellement la variété des sons disponibles. C'est un peu comme faire un smoothie, où tu mélanges des fruits pour créer quelque chose de délicieusement différent.

Mais voilà le problème : les techniques qui fonctionnent super pour les photos, comme retourner ou pivoter, ne se traduisent pas toujours bien pour le son. Après tout, peux-tu vraiment retourner le cri d'un oiseau ?

Les Modèles d'IA Générative

Pour régler ce souci, les scientifiques ont commencé à utiliser des modèles d'IA générative. Ces modèles peuvent créer de nouveaux sons qui imitent les vrais. Deux méthodes populaires incluent les Réseaux Antagonistes Génératifs Classificateurs (ACGAN) et les Modèles de Diffusion de Bruit Dénoyé (DDPM).

Réseaux Antagonistes Génératifs Classificateurs (ACGAN)

Pense aux ACGAN comme à un duo de rivaux dans un jeu. Une partie, le générateur, essaie de créer des sons d'oiseaux convaincants, tandis que l'autre partie, le discriminateur, essaie de distinguer les sons réels des faux. Ils s'améliorent grâce à la compétition. En ajoutant des informations de classe, ou quel type de son d'oiseau c'est, les ACGAN peuvent produire des exemples plus réalistes.

Modèles de Diffusion de Bruit Dénoyé (DDPM)

D'un autre côté, les DDPM adoptent une approche différente. Ils commencent avec du bruit aléatoire et le raffinent progressivement. Imagine ça comme partir d'un croquis brut et ajouter lentement des détails jusqu'à ce que ça ressemble à la pièce finale. À travers une série d'étapes, ils créent des images de haute qualité qui ressemblent à des spectrogrammes, représentant visuellement le son.

Le Dilemme de la Collecte de Données

Pour leur recherche, les scientifiques ont collecté des audio de cinq sites de parc éolien en Irlande. Comme ces endroits peuvent être bruyants, séparer les sons des oiseaux de tout ce bruit de fond, c'est comme essayer de repérer une chanson dans un bus bondé. L'équipe a enregistré environ 640 heures d'audio. Ça fait beaucoup d'écoute !

Ils ont ensuite alimenté l'audio dans BirdNET, un programme de classification astucieux, pour identifier les sons. Après avoir fait leur analyse, ils se sont retrouvés avec plus de 67,000 détections ! Mais le hic, c'est qu'ils se sont seulement concentrés sur les oiseaux identifiés avec un haut niveau de confiance.

Création d'un Dataset de Sons d'Oiseaux

En utilisant les sons identifiés, l'équipe a filtré les données pour ne garder que les cris d'oiseaux avec suffisamment d'exemples. Au final, ils avaient environ 8,248 extraits audio de 27 espèces différentes d'oiseaux. Ces extraits ont ensuite été utilisés pour entraîner les Modèles de classification, certains étiquetés comme données d'entraînement et d'autres comme données de validation.

Création de Spectrogrammes

Pour transformer ces extraits audio en quelque chose que les modèles génératifs pourraient gérer, l'équipe a converti les sons en spectrogrammes mel. Cette représentation visuelle montre comment l'énergie du son est répartie dans le temps et la fréquence. C'est un peu comme transformer de la musique en une peinture de vagues colorées.

Génération de Sons Artificiels

Une fois les vraies données prêtes, l'équipe s'est lancée dans la génération de plus d'échantillons en utilisant les ACGAN et les DDPM. Au départ, ils ont découvert que même si les ACGAN généraient des échantillons avec certaines caractéristiques reconnaissables, ils se concentraient souvent trop sur le bruit de fond. Pendant ce temps, les sons créés par les DDPM étaient plus variés et clairs.

Évaluation des Sons Synthétiques

Pour déterminer la performance de chaque méthode, les scientifiques ont utilisé différentes mesures, à savoir le Score d'Inception (IS) et la Distance d'Inception de Fréchet (FID). Un IS plus élevé signifie que le son généré est plus clair et diversifié, tandis qu'un FID plus bas suggère qu'il ressemble davantage à la réalité.

Entraînement des Classificateurs

Après avoir déterminé la qualité des sons générés, l'équipe a ensuite entraîné divers modèles de classification avec les données réelles et synthétiques. Ils ont utilisé des modèles reconnus comme MobileNetV2 et ResNet18. Le but était de voir comment l'ajout de sons synthétiques influençait la performance des modèles.

Les résultats étaient prometteurs ! Lorsqu'ils ont ajouté des échantillons synthétiques DDPM aux données d'entraînement, la performance s'est améliorée. Les classificateurs avaient une précision de 92,6 % sur le jeu de validation. C'était un bond significatif par rapport à la performance en utilisant seulement les données réelles.

Impacts Potentiels de Cette Recherche

Les implications de cette recherche sont excitantes. En améliorant la classification des sons des oiseaux avec des données synthétiques, les chercheurs peuvent renforcer les efforts de conservation. Une meilleure identification mène à une surveillance plus efficace des espèces d'oiseaux, aidant ainsi à la préservation de la biodiversité.

Directions Futures

Bien que l'étude montre un grand potentiel, les scientifiques ont reconnu certaines limites. Ils ont noté la nécessité d'un épuration automatique des données pour filtrer les échantillons synthétiques moins convaincants. De plus, ils souhaitaient une génération plus contrôlable pour créer des types de sons spécifiques basés sur différents paramètres.

Conclusion

En résumé, cette étude démontre que l'IA générative peut aider de manière significative à la classification des sons des oiseaux, particulièrement dans des environnements difficiles. En améliorant les méthodes de collecte de données avec des sons synthétiques, les chercheurs peuvent mieux comprendre et protéger les espèces d'oiseaux.

Et pour ramener tout ça chez soi — si les ordinateurs peuvent nous aider à trier les symphonies de la nature, peut-être que la prochaine fois que tu entends un cri d'oiseau dans ton jardin, tu pourras être un peu moins distrait et un peu plus avisé !

Source originale

Titre: Generative AI-based data augmentation for improved bioacoustic classification in noisy environments

Résumé: 1. Obtaining data to train robust artificial intelligence (AI)-based models for species classification can be challenging, particularly for rare species. Data augmentation can boost classification accuracy by increasing the diversity of training data and is cheaper to obtain than expert-labelled data. However, many classic image-based augmentation techniques are not suitable for audio spectrograms. 2. We investigate two generative AI models as data augmentation tools to synthesise spectrograms and supplement audio data: Auxiliary Classifier Generative Adversarial Networks (ACGAN) and Denoising Diffusion Probabilistic Models (DDPMs). The latter performed particularly well in terms of both realism of generated spectrograms and accuracy in a resulting classification task. 3. Alongside these new approaches, we present a new audio data set of 640 hours of bird calls from wind farm sites in Ireland, approximately 800 samples of which have been labelled by experts. Wind farm data are particularly challenging for classification models given the background wind and turbine noise. 4. Training an ensemble of classification models on real and synthetic data combined gave 92.6% accuracy (and 90.5% with just the real data) when compared with highly confident BirdNET predictions. 5. Our approach can be used to augment acoustic signals for more species and other land-use types, and has the potential to bring about a step-change in our capacity to develop reliable AI-based detection of rare species. Our code is available at https://github.com/gibbona1/ SpectrogramGenAI.

Auteurs: Anthony Gibbons, Emma King, Ian Donohue, Andrew Parnell

Dernière mise à jour: 2024-12-02 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2412.01530

Source PDF: https://arxiv.org/pdf/2412.01530

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Articles similaires