Simple Science

Ciência de ponta explicada de forma simples

# Engenharia Eletrotécnica e Ciência dos Sistemas# Som# Aprendizagem de máquinas# Processamento de Áudio e Fala

Avançando na Classificação de Cena Acústica no Desafio DCASE 2024

Novos modelos enfrentam a classificação de som com dados de treinamento limitados.

Jin Jie Sean Yeo, Ee-Leng Tan, Jisheng Bai, Santi Peksi, Woon-Seng Gan

― 6 min ler


Classificadores de SomClassificadores de SomDCASE 2024sons usando dados mínimos.Modelos avançam na classificação de
Índice

Classificação de Cena Acústica (ASC) é um campo de estudo que se concentra em identificar sons de diferentes ambientes. Por exemplo, sons de um parque, rua ou estação de transporte público podem ser identificados e categorizados com base em suas características únicas. O objetivo é criar sistemas que possam reconhecer e classificar automaticamente esses sons usando gravações de áudio.

No recente desafio DCASE 2024, os participantes tinham a tarefa de desenvolver modelos que pudessem classificar essas cenas acústicas de forma eficiente. O desafio envolveu o uso de uma quantidade limitada de dados de treinamento para garantir que os modelos permanecessem eficazes e precisos sem se tornar muito complexos.

Visão Geral do Desafio

O desafio DCASE 2024 envolveu classificar sons de 10 cenas diferentes gravadas em 12 cidades, usando clipes de áudio curtos de um segundo cada. Foram oferecidas diferentes opções de treinamento, que variavam de usar apenas uma pequena porcentagem de dados (como 5% ou 10%) a usar praticamente todos os dados disponíveis (até 100%). Além disso, o desafio exigia que os modelos fossem mantidos simples para limitar o uso de memória e demandas computacionais.

Dadas essas limitações, os participantes precisavam criar sistemas que não apenas se saíssem bem nos dados nos quais foram treinados, mas que também pudessem generalizar para novas gravações de áudio não vistas. O objetivo era alcançar alta precisão na identificação de vários sons enquanto usavam a menor quantidade de dados possível.

Métodos e Técnicas

Para enfrentar o desafio, a equipe desenvolveu três sistemas diferentes voltados para tamanhos diferentes de dados de treinamento. O primeiro sistema era uma versão simplificada de um modelo existente, otimizada para conjuntos de dados menores. Isso envolveu reduzir a complexidade do modelo original para melhorar seu desempenho ao trabalhar com informações limitadas.

Para o segundo modelo, a equipe usou uma técnica chamada Destilação de Conhecimento. Essa abordagem envolve treinar um modelo menor (o estudante) para aprender com um modelo maior e mais complexo (o professor). Fazendo isso, o modelo menor pode adotar algumas das forças do modelo maior, levando a um desempenho melhor mesmo com menos dados de treinamento.

O terceiro sistema se baseou no segundo modelo, fazendo com que o modelo estudante atuasse como professor para aprimorar ainda mais seu aprendizado. Essa abordagem focou em ajudar o modelo a prestar mais atenção às classes que costumavam se confundir.

Etapas de Processamento de Dados

Para preparar os dados de áudio para classificação, várias etapas foram realizadas:

  1. Espectrogramas Log Mel: As gravações de áudio foram convertidas em uma representação visual conhecida como espectrogramas log mel. Isso envolveu analisar o áudio para criar um mapa que reflete as frequências presentes ao longo do tempo.

  2. Transformada de Fourier de Curto Prazo (STFT): Essa técnica matemática foi usada para dividir o áudio em segmentos menores e gerenciáveis, permitindo uma análise mais detalhada de cada som.

  3. Técnicas de Aumento: Várias técnicas foram empregadas para aumentar artificialmente a quantidade de dados de treinamento disponíveis. Isso incluiu misturar amostras de áudio (mixup), aplicar distorções ao áudio (masking de frequência) e usar gravações de som adicionais para fornecer mais contexto.

Usando essas abordagens, a equipe pretendia criar um conjunto de dados robusto que permitisse que seus modelos aprendessem de forma eficaz, mesmo com exemplos limitados.

Desenvolvimento de Modelos

Modelo Base N-Base Channel

O primeiro sistema foi chamado de modelo N-Base Channel Baseline (N-BCBL). Este modelo foi simplificado ao reduzir o número de canais usados no processamento de áudio, o que diretamente diminuiu o número de parâmetros no modelo. Um modelo mais simples tende a generalizar melhor quando fornecido com um pequeno conjunto de dados de treinamento.

Modelo de Conjunto de Destilação de Conhecimento

O segundo sistema foi baseado na ideia de destilação de conhecimento. Aqui, múltiplos modelos professores foram criados para compartilhar seu conhecimento com um único modelo estudante. Essa abordagem de conjunto envolveu usar tanto o modelo original quanto novas versões treinadas com técnicas adicionais de dados. Ao combinar insights de vários modelos, o modelo estudante se tornou mais capaz de fazer previsões precisas.

Modelo Estudante Focado no Professor

O terceiro sistema, conhecido como modelo Estudante Focado no Professor (TFS), usou a saída do segundo sistema e a utilizou para identificar quais classes de sons costumavam se confundir. O modelo então ajustou seu foco de aprendizado para prestar mais atenção a essas classes confusas, com o objetivo de melhorar a precisão na classificação de sons difíceis.

Resultados

O desempenho dos modelos foi avaliado usando várias divisões de treinamento. O modelo TFS alcançou a maior precisão ao usar a divisão completa de 100% dos dados, enquanto o modelo KD-Ensemble se destacou com divisões de dados menores. Além disso, embora o modelo N-BCBL simplificado tenha superado os modelos base, tanto os modelos KD-Ensemble quanto TFS se saíram melhor na classificação em todos os tamanhos de treinamento.

Os resultados indicaram que os modelos se beneficiaram da orientação de modelos professores mais complexos, especialmente em cenários onde havia dados de treinamento limitados. Isso mostra que mesmo modelos sofisticados podem lucrar com as lições aprendidas com outros modelos.

Desafios na Classificação

Apesar dos avanços, algumas classes de som continuaram sendo desafiadoras para classificar com precisão. Por exemplo, sons de um "pedestre na rua" ou "praça pública" costumavam se confundir devido a compartilhar traços acústicos semelhantes. O modelo TFS buscou resolver esse problema ao enfatizar classes difíceis em seu processo de aprendizado.

Ao se concentrar nessas dificuldades, os modelos puderam se adaptar e, em última análise, alcançar melhores resultados, mostrando um enorme potencial para futuras tarefas de classificação de cena acústica.

Conclusão

A classificação de cena acústica é uma tarefa complexa que requer um manuseio cuidadoso dos dados de áudio e do design dos modelos. A abordagem adotada durante o desafio DCASE 2024 mostrou estratégias eficazes para gerenciar dados limitados enquanto mantinha um alto desempenho.

A pesquisa ilustrou como simplificar modelos, usar destilação de conhecimento e focar em classes desafiadoras pode levar a melhorias gerais na precisão da classificação. Esses desenvolvimentos pavimentam o caminho para novos avanços no campo, com um claro potencial para melhorar o desempenho com novos métodos propostos em futuras pesquisas.

Ao continuar refinando essas técnicas e explorando novas avenidas em aprendizado de máquina, podemos construir sistemas ainda mais capazes que possam reconhecer e classificar sons de forma inteligente do mundo ao nosso redor.

Fonte original

Título: Data Efficient Acoustic Scene Classification using Teacher-Informed Confusing Class Instruction

Resumo: In this technical report, we describe the SNTL-NTU team's submission for Task 1 Data-Efficient Low-Complexity Acoustic Scene Classification of the detection and classification of acoustic scenes and events (DCASE) 2024 challenge. Three systems are introduced to tackle training splits of different sizes. For small training splits, we explored reducing the complexity of the provided baseline model by reducing the number of base channels. We introduce data augmentation in the form of mixup to increase the diversity of training samples. For the larger training splits, we use FocusNet to provide confusing class information to an ensemble of multiple Patchout faSt Spectrogram Transformer (PaSST) models and baseline models trained on the original sampling rate of 44.1 kHz. We use Knowledge Distillation to distill the ensemble model to the baseline student model. Training the systems on the TAU Urban Acoustic Scene 2022 Mobile development dataset yielded the highest average testing accuracy of (62.21, 59.82, 56.81, 53.03, 47.97)% on split (100, 50, 25, 10, 5)% respectively over the three systems.

Autores: Jin Jie Sean Yeo, Ee-Leng Tan, Jisheng Bai, Santi Peksi, Woon-Seng Gan

Última atualização: 2024-09-18 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2409.11964

Fonte PDF: https://arxiv.org/pdf/2409.11964

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes