Usando IA pra Classificar Sons de Pássaros em Meio ao Barulho
A IA generativa ajuda a identificar os chamados dos pássaros em ambientes barulhentos pra uma conservação melhor.
Anthony Gibbons, Emma King, Ian Donohue, Andrew Parnell
― 7 min ler
Índice
- O Desafio de Identificar Sons de Pássaros
- O Que É Aumento de Dados?
- Entrando os Modelos de IA Generativa
- O Dilema da Coleta de Dados
- Construindo um Conjunto de Dados de Sons de Pássaros
- Criando Espectrogramas
- Gerando Sons Artificiais
- Avaliando os Sons Sintéticos
- Treinando os Classificadores
- Impactos Potenciais Dessa Pesquisa
- Direções Futuras
- Conclusão
- Fonte original
- Ligações de referência
No mundo de hoje, a tecnologia tá sempre ajudando a gente a entender melhor a natureza. Uma inovação massa é usar inteligência artificial generativa pra classificar sons de pássaros. Imagina isso como uma versão high-tech de tentar reconhecer o canto de um pega-rapaz num clipe de áudio. A sacada? Às vezes, os sons vêm de lugares barulhentos, tipo parques eólicos, onde as turbinas giram e as folhas farfalham.
O Desafio de Identificar Sons de Pássaros
Monitorar pássaros é super importante pra ver como nossos ecossistemas estão indo. A variedade de espécies de pássaros dá pistas sobre a saúde ambiental. Eles ajudam a controlar pragas, espalhar sementes e até polinizar plantas. Mas como a gente diferencia um pássaro do outro quando eles soam tão parecidos? Aí entra a monitorização de áudio!
Antigamente, os pesquisadores usavam pessoas com o ouvido afiado pra ouvir horas de gravações e identificar os cantos dos pássaros. Esse método não só leva tempo, mas também é caro, porque precisa de conhecimento especializado. Hoje em dia, muitos pesquisadores estão usando programas de computador que conseguem ouvir e classificar os cantos dos pássaros. Mas tem um porém. A precisão desses programas pode ser meio instável, especialmente quando tem muito barulho de fundo.
Aumento de Dados?
O Que ÉÉ aí que o aumento de dados entra como um parceiro amigo. Imagina que você quer treinar um programa de computador pra reconhecer sons de pássaros. Você precisa de muitos exemplos, ou dados. Como pegar dados anotados por especialistas pode ser difícil, o aumento de dados ajuda aumentando artificialmente a variedade de sons disponíveis. É meio que fazer um smoothie, misturando frutas pra criar algo gostosamente diferente.
Mas aí tá a pegadinha: as técnicas que funcionam bem pra fotos, como virar ou rotacionar, nem sempre se aplicam bem ao som. Afinal, dá pra realmente virar um canto de pássaro?
Entrando os Modelos de IA Generativa
Pra resolver essa parada, os cientistas começaram a usar modelos de IA generativa. Esses modelos podem criar novos sons que imitam os reais. Dois métodos populares são as Redes Adversariais Generativas com Classificador Auxiliar (ACGAN) e os Modelos Probabilísticos de Difusão com Denoising (DDPM).
Redes Adversariais Generativas com Classificador Auxiliar (ACGAN)
Pensa nos ACGANs como um par de rivais num jogo. Uma parte, o gerador, tenta criar sons de pássaros convincentes, enquanto a outra parte, o discriminador, tenta diferenciar os sons reais dos falsos. Eles vão melhorando na competição. Ao adicionar informações de classe, ou que tipo de canto de pássaro é, os ACGANs conseguem fazer exemplos mais realistas.
Modelos Probabilísticos de Difusão com Denoising (DDPM)
Por outro lado, os DDPMs têm uma abordagem diferente. Eles começam com barulho aleatório e refinam aos poucos. Imagina isso como começar com um rascunho de um desenho e ir adicionando detalhes até parecer a obra-prima final. Através de uma série de passos, eles criam imagens de alta qualidade que se parecem com espectrogramas, que representam visualmente o som.
O Dilema da Coleta de Dados
Pra pesquisa deles, os cientistas coletaram áudio de cinco locais de parques eólicos na Irlanda. Como esses lugares podem ser barulhentos, separar os sons dos pássaros de todo aquele barulho de fundo é como tentar encontrar uma música num ônibus lotado. A equipe gravou cerca de 640 horas de áudio. Isso é muita coisa pra ouvir!
Depois, eles alimentaram o áudio no BirdNET, um programa de classificação esperto, pra identificar os sons. Após rodar a análise, eles acabaram com mais de 67.000 detecções! Mas o detalhe é que eles focaram apenas nos pássaros identificados com um alto nível de confiança.
Construindo um Conjunto de Dados de Sons de Pássaros
Usando os sons identificados, a equipe filtrou os dados pra incluir apenas aqueles cantos de pássaros com exemplos suficientes. No final, eles tiveram cerca de 8.248 clipes de áudio de 27 espécies diferentes de pássaros. Esses clipes foram usados pra treinar os Modelos de Classificação, com alguns etiquetados como dados de treinamento e outros como dados de validação.
Criando Espectrogramas
Pra transformar esses clipes de áudio em algo que os modelos generativos pudessem lidar, a equipe converteu os sons em espectrogramas mel. Essa representação visual mostra como a energia do som é distribuída ao longo do tempo e da frequência. É como transformar música em uma pintura de ondas coloridas.
Gerando Sons Artificiais
Uma vez que os dados reais estavam prontos, a equipe começou a gerar mais amostras usando ACGANs e DDPMs. No começo, eles perceberam que, enquanto os ACGAN geravam amostras com algumas características reconhecíveis, muitas vezes se concentravam demais no barulho de fundo. Já os sons criados pelos DDPMs eram mais variados e claros.
Avaliando os Sons Sintéticos
Pra saber como cada método se saiu, os cientistas usaram diferentes métricas, como a Pontuação Inception (IS) e a Distância Fréchet Inception (FID). Um IS mais alto significa que o som gerado é mais claro e mais diverso, enquanto um FID mais baixo sugere que se parece mais com o real.
Treinando os Classificadores
Depois de determinar a qualidade dos sons gerados, a equipe treinou vários modelos de classificação com os dados reais e sintéticos. Eles usaram modelos reconhecidos como MobileNetV2 e ResNet18. O objetivo era ver como a adição de sons sintéticos influenciava o desempenho dos modelos.
Os resultados foram animadores! Quando eles adicionaram amostras sintéticas de DDPM ao conjunto de treinamento, o desempenho melhorou. Os classificadores tiveram uma precisão de 92,6% no conjunto de validação. Isso foi um salto significativo em relação ao desempenho apenas com os dados reais.
Impactos Potenciais Dessa Pesquisa
As implicações dessa pesquisa são empolgantes. Ao melhorar a classificação de sons de pássaros com dados sintéticos, os pesquisadores podem aprimorar os esforços de conservação. Uma melhor identificação leva a um monitoramento mais eficaz das espécies de pássaros, ajudando na preservação da biodiversidade.
Direções Futuras
Embora o estudo tenha mostrado grande potencial, os cientistas reconheceram algumas limitações. Eles notaram a necessidade de uma poda automática de dados pra filtrar amostras sintéticas menos convincentes. Além disso, eles queriam uma geração mais controlável pra criar tipos específicos de sons com base em diferentes parâmetros.
Conclusão
Em resumo, este estudo demonstra que a IA generativa pode ajudar significativamente na classificação de sons de pássaros, especialmente em ambientes desafiadores. Ao melhorar os métodos de coleta de dados com sons sintéticos, os pesquisadores podem entender e proteger melhor as espécies de pássaros.
E pra trazer tudo de volta pra casa—se os computadores podem ajudar a gente a organizar as sinfonias da natureza, talvez da próxima vez que você ouvir um canto de pássaro no seu quintal, você possa ser um pouco menos cabeça-dura e um pouco mais esperto com os pássaros!
Fonte original
Título: Generative AI-based data augmentation for improved bioacoustic classification in noisy environments
Resumo: 1. Obtaining data to train robust artificial intelligence (AI)-based models for species classification can be challenging, particularly for rare species. Data augmentation can boost classification accuracy by increasing the diversity of training data and is cheaper to obtain than expert-labelled data. However, many classic image-based augmentation techniques are not suitable for audio spectrograms. 2. We investigate two generative AI models as data augmentation tools to synthesise spectrograms and supplement audio data: Auxiliary Classifier Generative Adversarial Networks (ACGAN) and Denoising Diffusion Probabilistic Models (DDPMs). The latter performed particularly well in terms of both realism of generated spectrograms and accuracy in a resulting classification task. 3. Alongside these new approaches, we present a new audio data set of 640 hours of bird calls from wind farm sites in Ireland, approximately 800 samples of which have been labelled by experts. Wind farm data are particularly challenging for classification models given the background wind and turbine noise. 4. Training an ensemble of classification models on real and synthetic data combined gave 92.6% accuracy (and 90.5% with just the real data) when compared with highly confident BirdNET predictions. 5. Our approach can be used to augment acoustic signals for more species and other land-use types, and has the potential to bring about a step-change in our capacity to develop reliable AI-based detection of rare species. Our code is available at https://github.com/gibbona1/ SpectrogramGenAI.
Autores: Anthony Gibbons, Emma King, Ian Donohue, Andrew Parnell
Última atualização: 2024-12-02 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2412.01530
Fonte PDF: https://arxiv.org/pdf/2412.01530
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://github.com/gibbona1/SpectrogramGenAI
- https://doi.org/10.1111/j.1365-2664.2011.02094.x
- https://doi.org/10.1002/ecs2.2673
- https://doi.org/10.1111/2041-210X.12060
- https://doi.org/10.1111/2041-210X.13101
- https://doi.org/10.1007/s11284-017-1509-5
- https://doi.org/10.1111/2041-210X.14003
- https://doi.org/10.1111/2041-210X.13436
- https://doi.org/10.1111/2041-210X.14239
- https://doi.org/10.1016/j.ecoinf.2023.102321
- https://doi.org/10.1016/j.ifacol.2019.12.406
- https://doi.org/10.1016/j.neunet.2020.09.016
- https://doi.org/10.3390/biology12060854
- https://doi.org/10.1111/2041-210X.13334
- https://doi.org/10.1111/2041-210X.14125
- https://arxiv.org/abs/2006.11239
- https://doi.org/10.48550/arXiv.2210.04133
- https://doi.org/10.1016/j.imu.2024.101575
- https://arxiv.org/abs/1711.00937