Avanços na Marcação de Áudio em Tempo Real
Transformadores de áudio em streaming melhoram a velocidade e a eficiência nos sistemas de tagueamento de áudio.
― 7 min ler
Índice
A Tagueamento de Áudio é um processo que envolve atribuir rótulos específicos a clipes de áudio com base no que eles contêm. Isso pode incluir sons como um cachorro latindo ou uma pessoa falando. Esses sistemas podem ser bem úteis em várias situações, tipo ajudando pessoas com dificuldades auditivas, melhorando tecnologias de casas inteligentes e monitorando sons em diferentes ambientes. Recentemente, o tagueamento de áudio também se tornou relevante em dispositivos como smartphones e alto-falantes inteligentes.
Pra ter resultados legais no tagueamento de áudio, modelos avançados chamados transformers viraram populares. Originalmente feitos pra processamento de linguagem, os transformers se adaptaram pra trabalhar com dados de áudio, especificamente usando um método conhecido como Vision Transformer (ViT). O ViT pega sinais de áudio e processa de uma forma que facilita o modelo entender o conteúdo. Mas, usar transformers pra tagueamento de áudio tem desafios, incluindo alto uso de memória e tempos de resposta lentos, tornando-os menos práticos pra aplicações em tempo real.
O Desafio do Retardo
Um grande problema com sistemas tradicionais de tagueamento de áudio é o retardo. Muitos sistemas processam áudio em pedaços de 10 segundos ou mais, o que resulta em um tempo de resposta de pelo menos isso. Isso não é adequado pra aplicações do mundo real onde respostas rápidas são necessárias. Idealmente, pra um tagueamento de áudio eficaz em cenários em tempo real, o sistema deve ter um retardo de apenas 1 a 2 segundos.
O retardo se refere à quantidade de dados de áudio que um modelo precisa processar antes de poder gerar uma saída. Em muitos casos, isso significa que o modelo tem que esperar todo o pedaço de áudio antes de começar a trabalhar na identificação dos sons, o que é ineficiente.
Apresentando os Transformers de Áudio em Streaming
Pra lidar com esses desafios, uma nova abordagem chamada transformers de áudio em streaming (SAT) foi proposta. Os modelos SAT misturam a arquitetura ViT com técnicas que permitem processar dados de áudio em pedaços menores. Assim, esses modelos conseguem lidar com sinais de áudio mais longos sem o extenso retardo associado a métodos tradicionais.
Os modelos SAT são projetados especificamente pra ter retardos curtos, permitindo que eles forneçam resultados mais rápidos enquanto consomem menos memória. Comparados a outros modelos de transformer de ponta, esses novos variantes SAT mostram melhorias significativas em termos de desempenho e eficiência.
A Importância da Memória e Velocidade
Pra um modelo de tagueamento de áudio funcionar bem em cenários em tempo real, ele precisa atender a certos requisitos. Deve ter um retardo mínimo ao produzir resultados, manter uma pequena utilização de memória pra operar de forma eficiente e garantir um desempenho confiável ao longo do tempo. Muitos modelos anteriores focaram apenas em um ou dois desses aspectos, mas os SATs buscam abordar todos os três simultaneamente.
As arquiteturas tradicionais de transformers tendem a ter dificuldades com requisitos de memória porque precisam processar grandes quantidades de dados de uma vez. Isso leva a um alto uso de memória, que pode ser um grande problema em aplicações em tempo real. Um modelo SAT, porém, pode aproveitar resultados anteriores e acessar uma quantidade menor de dados de cada vez, o que reduz as exigências de processamento e otimiza o desempenho geral.
Treinando os Modelos
O treinamento de modelos SAT segue uma série de etapas chave. Inicialmente, os modelos são pré-treinados usando um método chamado autoencoders mascarados, que ajuda a estabelecer uma base sólida para suas capacidades. Após essa fase de pré-treinamento, os modelos passam por um ajuste fino onde aprendem a taguear clipes de áudio em um contexto de áudio completo (tipo 10 segundos). Por fim, eles são ajustados pra prever rótulos com base em períodos de tempo mais curtos, alinhando-se aos tempos de resposta rápidos desejados.
Durante esse processo de treinamento, o modelo aprende a partir de um grande conjunto de dados que inclui milhões de amostras de vários clipes de áudio. O treinamento enfatiza equilibrar velocidade e uso de memória ao invés de focar puramente em alcançar as melhores métricas de desempenho possíveis.
Comparando Desempenho
Em cenários práticos, o desempenho dos modelos SAT pode ser avaliado em comparação com modelos tradicionais que operam com retardos mais longos. Quando testados, os modelos SAT mostraram um desempenho melhor na identificação de eventos sonoros dentro de um período de tempo mais curto enquanto usam significativamente menos memória. Isso é evidente ao comparar as velocidades e requisitos de memória dos modelos SAT, que são consideravelmente mais baixos do que os seus equivalentes de contexto completo.
Por exemplo, enquanto modelos tradicionais como AST e BEATs têm bom desempenho com clipes de áudio mais longos, eles falham quando o período de avaliação é encurtado. Em contraste, os modelos SAT conseguem manter um desempenho relativamente alto mesmo quando precisam responder em apenas 2 segundos.
Avaliação em Nível de Segmento
Pra apoiar ainda mais a eficácia dos modelos SAT, foram realizadas avaliações usando segmentos de áudio rotulados. Essas avaliações ajudam a determinar quão bem os modelos podem prever categorias de som com base em pedaços de áudio mais curtos, o que é crucial pra aplicações em tempo real. A abordagem SAT consistentemente superou outros modelos de transformer nesses testes, provando sua capacidade de funcionar efetivamente em configurações do mundo real.
Os resultados indicam que quando os modelos SAT foram testados com segmentos de áudio de apenas 2 segundos ou até 1 segundo, eles ainda identificaram eventos sonoros de forma precisa e eficiente. Em contraste, muitos modelos tradicionais tiveram dificuldades com segmentos tão curtos, enfatizando a importância de projetar modelos que possam se adaptar a requisitos em tempo real.
Detecção Contínua de Sons
Uma aplicação útil para os modelos SAT é na detecção contínua de eventos sonoros prolongados. Enquanto muitos modelos tradicionais de tagueamento de áudio são feitos pra janelas de tempo específicas, os modelos SAT conseguem monitorar streams de áudio em andamento. Essa habilidade de reconhecer sons ao longo de períodos mais longos é crítica pra várias aplicações, como monitorar alarmes ou identificar atividades incomuns em ambientes.
Apesar dos desafios em encontrar conjuntos de dados que imitem streams de áudio do mundo real, pesquisadores fizeram comparações usando amostras de áudio coletadas. Essas avaliações confirmaram que os modelos SAT podiam identificar sons de longa duração, como água correndo, com significativa confiança e precisão.
Conclusão
Em conclusão, os transformers de áudio em streaming (SAT) representam um grande avanço na tecnologia de tagueamento de áudio. Esses modelos podem funcionar de forma eficaz em cenários em tempo real, enfrentando os desafios críticos de velocidade e uso de memória que historicamente afetaram os sistemas de tagueamento de áudio. Ao melhorar a compatibilidade com várias tarefas relacionadas a áudio enquanto garantem um desempenho confiável, os modelos SAT abrem caminho pra aplicações mais práticas no dia a dia.
À medida que os avanços no tagueamento de áudio continuam, a incorporação dos SAT em configurações do mundo real promete aprimorar a comunicação, fornecer assistência a quem precisa e monitorar ambientes de forma mais eficaz. O desenvolvimento e a otimização contínuos de modelos como o SAT desempenharão um papel fundamental na formação dos futuros sistemas de tagueamento de áudio.
Título: Streaming Audio Transformers for Online Audio Tagging
Resumo: Transformers have emerged as a prominent model framework for audio tagging (AT), boasting state-of-the-art (SOTA) performance on the widely-used Audioset dataset. However, their impressive performance often comes at the cost of high memory usage, slow inference speed, and considerable model delay, rendering them impractical for real-world AT applications. In this study, we introduce streaming audio transformers (SAT) that combine the vision transformer (ViT) architecture with Transformer-Xl-like chunk processing, enabling efficient processing of long-range audio signals. Our proposed SAT is benchmarked against other transformer-based SOTA methods, achieving significant improvements in terms of mean average precision (mAP) at a delay of 2s and 1s, while also exhibiting significantly lower memory usage and computational overhead. Checkpoints are publicly available https://github.com/RicherMans/SAT.
Autores: Heinrich Dinkel, Zhiyong Yan, Yongqing Wang, Junbo Zhang, Yujun Wang, Bin Wang
Última atualização: 2024-06-10 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2305.17834
Fonte PDF: https://arxiv.org/pdf/2305.17834
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://github.com/RicherMans/SAT
- https://msranlcmtteamdrive.blob.core.windows.net/share/BEATs/BEATs_iter1_finetuned_on_AS2M_cpt2.pt?sv=2020-08-04&st=2022-12-18T10%3A37%3A23Z&se=3022-12-19T10%3A37%3A00Z&sr=b&sp=r&sig=8EXUc69cBaUFCe1LhUIVbf6P0w%2Bcew%2FqePV6kM4wBkY%3D
- https://drive.google.com/drive/folders/1cZhMO7qLXTeifXVPP7PdM1NRYCG5cx28
- https://www.dropbox.com/s/cv4knew8mvbrnvq/audioset_0.4593.pth?dl=1