Usando IA para clasificar sonidos de aves en medio del ruido
La IA generativa ayuda a identificar los cantos de los pájaros en entornos ruidosos para mejorar la conservación.
Anthony Gibbons, Emma King, Ian Donohue, Andrew Parnell
― 7 minilectura
Tabla de contenidos
- El Desafío de Identificar Sonidos de Aves
- ¿Qué es la Aumentación de Datos?
- Modelos de IA Generativa
- El Dilema de la Recolección de Datos
- Construyendo un Conjunto de Datos de Sonidos de Aves
- Creando Espectrogramas
- Generando Sonidos Artificiales
- Evaluando los Sonidos Sintéticos
- Entrenando a los Clasificadores
- Impactos Potenciales de Esta Investigación
- Direcciones Futuras
- Conclusión
- Fuente original
- Enlaces de referencia
En el mundo de hoy, la tecnología tiene un talento para ayudarnos a entender mejor la naturaleza. Una innovación chida es usar IA generativa para ayudar a clasificar los sonidos de las aves. Piensa en esto como una versión de alta tecnología de intentar reconocer el canto de un arrendajo azul a partir de un clip de audio. ¿La sorpresa? A veces, los sonidos vienen de lugares ruidosos, como parques eólicos, donde las turbinas giran y mueven las hojas.
El Desafío de Identificar Sonidos de Aves
Monitorear aves es crucial para checar cómo van nuestros ecosistemas. La diversidad de especies de aves nos da pistas sobre la salud ambiental. Las aves ayudan a controlar plagas, dispersar semillas e incluso polinizar plantas. Pero, ¿cómo diferenciamos a una ave de otra cuando suenan tan parecidas? ¡Aquí entra el monitoreo de audio!
Tradicionalmente, los investigadores usaban personas con oídos agudos para escuchar horas de grabaciones e identificar cantos de aves. Este método no solo lleva tiempo, sino que también cuesta una lana, ya que requiere conocimientos especializados. Hoy en día, muchos investigadores han recurrido a programas de computadora que pueden escuchar y clasificar los cantos de aves por ellos. Pero hay un detalle. La precisión de estos programas puede ser un poco inestable, especialmente cuando hay mucho ruido de fondo.
¿Qué es la Aumentación de Datos?
Aquí es donde entra la aumentación de datos, como un compañero amistoso. Imagina que quieres entrenar un programa de computadora para reconocer sonidos de aves. Necesitas un montón de ejemplos, o datos. Como obtener datos anotados por expertos puede ser complicado, la aumentación de datos ayuda aumentando artificialmente la variedad de sonidos disponibles. Es como hacer un batido, donde mezclas frutas para crear algo deliciosamente diferente.
Pero aquí está el detalle: las técnicas que funcionan genial para fotos, como girar o voltear, no siempre se traducen bien en sonido. Después de todo, ¿realmente puedes voltear un canto de ave?
Modelos de IA Generativa
Para resolver este problema, los científicos empezaron a usar modelos de IA generativa. Estos modelos pueden crear nuevos sonidos que imitan los reales. Dos métodos populares son las Redes Adversariales Generativas con Clasificador Auxiliar (ACGAN) y los Modelos Probabilísticos de Difusión con Denoising (DDPM).
Redes Adversariales Generativas con Clasificador Auxiliar (ACGAN)
Piensa en los ACGAN como un par de rivales en un juego. Una parte, el generador, intenta crear sonidos de aves convincentes, mientras que la otra parte, el discriminador, intenta distinguir los sonidos reales de los falsos. Mejoran a través de la competencia. Al agregar información de clase, o qué tipo de sonido de ave es, los ACGAN pueden hacer ejemplos más realistas.
Modelos Probabilísticos de Difusión con Denoising (DDPM)
Por otro lado, los DDPM toman un enfoque diferente. Comienzan con ruido aleatorio y lo refinan gradualmente. Imagina que comienzas con un borrador de un dibujo y poco a poco agregas detalles hasta que se asemeje a la obra maestra final. A través de una serie de pasos, crean imágenes de alta calidad que se asemejan a espectrogramas, que representan visualmente el sonido.
El Dilema de la Recolección de Datos
Para su investigación, los científicos recolectaron audio de cinco ubicaciones de parques eólicos en Irlanda. Dado que estos lugares pueden ser ruidosos, separar los sonidos de las aves de todo ese barullo de fondo es como intentar distinguir una canción en un autobús lleno. El equipo grabó alrededor de 640 horas de audio. ¡Eso es un montón de escuchar!
Luego alimentaron el audio en BirdNET, un programa de clasificación inteligente, para identificar los sonidos. Después de ejecutar su análisis, ¡terminaron con más de 67,000 detecciones! Pero el detalle es que solo se centraron en aves identificadas con un alto nivel de confianza.
Construyendo un Conjunto de Datos de Sonidos de Aves
Usando los sonidos identificados, el equipo filtró los datos para incluir solo esos cantos de aves con suficientes ejemplos. Al final, tenían alrededor de 8,248 clips de audio de 27 especies de aves diferentes. Esos clips se usaron para entrenar los Modelos de Clasificación, con algunos etiquetados como datos de entrenamiento y otros como datos de validación.
Creando Espectrogramas
Para convertir estos clips de audio en algo que los modelos generativos pudieran manejar, el equipo convirtió los sonidos en espectrogramas mel. Esta representación visual muestra cómo se distribuye la energía del sonido a lo largo del tiempo y la frecuencia. Es como convertir música en una colorida pintura de olas.
Generando Sonidos Artificiales
Una vez que los datos reales estaban listos, el equipo se propuso generar más muestras usando ACGAN y DDPM. Inicialmente, encontraron que aunque ACGAN generaba muestras con algunas características reconocibles, a menudo se enfocaban demasiado en el ruido de fondo. Mientras tanto, los sonidos creados por los DDPM eran más variados y claros.
Evaluando los Sonidos Sintéticos
Para determinar qué tan bien funcionó cada método, los científicos utilizaron diferentes métricas, a saber, el Inception Score (IS) y la Fréchet Inception Distance (FID). Un IS más alto significa que el sonido generado es más claro y diverso, mientras que un FID más bajo sugiere que se asemeja más a lo real.
Entrenando a los Clasificadores
Después de determinar la calidad de los sonidos generados, el equipo entrenó varios modelos de clasificación con los datos reales y sintéticos. Usaron modelos reconocidos como MobileNetV2 y ResNet18. El objetivo era ver cómo la adición de sonidos sintéticos influía en el rendimiento de los modelos.
¡Los resultados fueron prometedores! Cuando agregaron muestras sintéticas de DDPM a los datos de entrenamiento, el rendimiento mejoró. Los clasificadores tuvieron una precisión del 92.6% en el conjunto de validación. Esto fue un gran salto en comparación con el rendimiento cuando solo utilizaron los datos reales.
Impactos Potenciales de Esta Investigación
Las implicaciones de esta investigación son emocionantes. Al mejorar la clasificación de sonidos de aves con datos sintéticos, los investigadores pueden mejorar los esfuerzos de conservación. Una mejor identificación lleva a un monitoreo más efectivo de las especies de aves, ayudando en la preservación de la biodiversidad.
Direcciones Futuras
Aunque el estudio mostró gran promesa, los científicos reconocieron algunas limitaciones. Notaron la necesidad de poda automática de datos para filtrar muestras sintéticas menos convincentes. Además, querían una generación más controlable para crear tipos específicos de sonidos basados en diferentes parámetros.
Conclusión
En resumen, este estudio demuestra que la IA generativa puede ayudar significativamente en la clasificación de sonidos de aves, particularmente en entornos desafiantes. Al mejorar los métodos de recolección de datos con sonidos sintéticos, los investigadores pueden entender mejor y proteger las especies de aves.
Y para volver al punto, si las computadoras pueden ayudarnos a clasificar las sinfonías de la naturaleza, ¡quizás la próxima vez que oigas el canto de un ave en tu patio, puedas ser un poco menos despistado y un poco más sabio sobre las aves!
Fuente original
Título: Generative AI-based data augmentation for improved bioacoustic classification in noisy environments
Resumen: 1. Obtaining data to train robust artificial intelligence (AI)-based models for species classification can be challenging, particularly for rare species. Data augmentation can boost classification accuracy by increasing the diversity of training data and is cheaper to obtain than expert-labelled data. However, many classic image-based augmentation techniques are not suitable for audio spectrograms. 2. We investigate two generative AI models as data augmentation tools to synthesise spectrograms and supplement audio data: Auxiliary Classifier Generative Adversarial Networks (ACGAN) and Denoising Diffusion Probabilistic Models (DDPMs). The latter performed particularly well in terms of both realism of generated spectrograms and accuracy in a resulting classification task. 3. Alongside these new approaches, we present a new audio data set of 640 hours of bird calls from wind farm sites in Ireland, approximately 800 samples of which have been labelled by experts. Wind farm data are particularly challenging for classification models given the background wind and turbine noise. 4. Training an ensemble of classification models on real and synthetic data combined gave 92.6% accuracy (and 90.5% with just the real data) when compared with highly confident BirdNET predictions. 5. Our approach can be used to augment acoustic signals for more species and other land-use types, and has the potential to bring about a step-change in our capacity to develop reliable AI-based detection of rare species. Our code is available at https://github.com/gibbona1/ SpectrogramGenAI.
Autores: Anthony Gibbons, Emma King, Ian Donohue, Andrew Parnell
Última actualización: 2024-12-02 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2412.01530
Fuente PDF: https://arxiv.org/pdf/2412.01530
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://github.com/gibbona1/SpectrogramGenAI
- https://doi.org/10.1111/j.1365-2664.2011.02094.x
- https://doi.org/10.1002/ecs2.2673
- https://doi.org/10.1111/2041-210X.12060
- https://doi.org/10.1111/2041-210X.13101
- https://doi.org/10.1007/s11284-017-1509-5
- https://doi.org/10.1111/2041-210X.14003
- https://doi.org/10.1111/2041-210X.13436
- https://doi.org/10.1111/2041-210X.14239
- https://doi.org/10.1016/j.ecoinf.2023.102321
- https://doi.org/10.1016/j.ifacol.2019.12.406
- https://doi.org/10.1016/j.neunet.2020.09.016
- https://doi.org/10.3390/biology12060854
- https://doi.org/10.1111/2041-210X.13334
- https://doi.org/10.1111/2041-210X.14125
- https://arxiv.org/abs/2006.11239
- https://doi.org/10.48550/arXiv.2210.04133
- https://doi.org/10.1016/j.imu.2024.101575
- https://arxiv.org/abs/1711.00937