Simple Science

Ciência de ponta explicada de forma simples

# Engenharia Eletrotécnica e Ciência dos Sistemas# Som# Recuperação de informação# Aprendizagem de máquinas# Processamento de Áudio e Fala

Avançando a Recuperação Musical com Aprendizado Auto-supervisionado

Uma nova abordagem usa aprendizado auto-supervisionado pra conectar áudio e partituras.

― 6 min ler


Recuperação de MúsicaRecuperação de MúsicaReimaginadapartituras.transformam as conexões entre áudio eMétodos inovadores auto-supervisionados
Índice

Ligar Partituras a arquivos de Áudio é importante pra montar sistemas de busca de música eficazes. Um desafio é criar sistemas que consigam conectar clipes de áudio curtos com imagens de partituras. Mas, tem uma falta de dados anotados que pode travar a performance desses sistemas.

Esse artigo fala sobre um método que usa aprendizado contrastivo auto-supervisionado pra lidar com o problema da escassez de dados rotulados. Preparando o modelo com um monte de arquivos de música não rotulados, a gente pode melhorar a capacidade dele de conectar clipes de áudio com a partitura correspondente.

O Problema

Encontrar a partitura certa pra uma música é um desafio real. Músicos muitas vezes têm um trecho de áudio, mas não sabem o nome da peça ou a partitura correspondente. A tarefa parece simples, mas pode ficar complicada quando não tem mais informações disponíveis.

Nesse contexto, o trabalho foca em duas formas de dados: áudio e a representação escrita dessa música, que é conhecida como partitura. Um desafio comum é recuperar a partitura correta quando se tem um clipe de áudio curto.

Abordagens Tradicionais e Limitações

Métodos anteriores que conectam gravações de áudio com suas partituras dependem de dados rotulados. Isso significa que cada peça de áudio tinha que ser combinada com a partitura correta de uma forma bem detalhada. Infelizmente, conseguir esses dados anotados é caro e demorado. Especialistas precisam ouvir o áudio e combinar com as notas corretas na partitura.

Por causa desse problema, muitos sistemas dependem de dados musicais simulados. Essa solução pode levar a um Desempenho ruim quando os sistemas são usados em dados musicais reais, já que os dados gerados muitas vezes não refletem as complexidades das performances musicais da vida real.

Nosso Método

A gente propõe um método que usa Aprendizado Auto-Supervisionado. Essa abordagem permite que o sistema aprenda a partir dos próprios dados sem precisar de muitas etiquetas. A ideia é expor o modelo a uma grande quantidade de dados musicais, pra que ele possa aprender as relações entre áudio e partitura sem precisar de anotações explícitas.

Aprendizado Contrastivo Auto-Supervisionado

O processo de aprendizado contrastivo auto-supervisionado consiste em treinar o modelo com várias versões dos mesmos trechos de áudio e partitura. Ao aplicar mudanças aleatórias ou "Aumentações" nos dados, a gente cria diferentes visões da mesma peça. Isso ensina o modelo a reconhecer semelhanças entre as diferentes representações dos mesmos dados.

Por exemplo, se a gente tem um trecho de áudio, pode fazer pequenas mudanças nele e ainda esperar que o modelo entenda que essas versões estão conectadas. Assim, o modelo aprende suas características sem precisar de rótulos.

Técnicas de Aumento para Partituras

Nosso método depende de várias técnicas de aumento para imagens de partituras. Algumas operações incluem:

  1. Mover a partitura horizontal e verticalmente.
  2. Redimensionar as imagens pra tamanhos ligeiramente diferentes.
  3. Rotacionar a partitura.
  4. Adicionar ruído ou borrar as imagens pra simular qualidade inferior.

Essas técnicas ajudam o modelo a aprender a reconhecer a música independente das alterações.

Técnicas de Aumento para Áudio

Assim como as partituras, trechos de áudio também passam por uma variedade de aumentações, como:

  1. Mover o som ao longo do tempo.
  2. Alterar o volume ou adicionar ruído aos arquivos de áudio.
  3. Alterar o tempo mantendo o tom o mesmo.

Essas operações ajudam a preparar o modelo pra entender dados de áudio que podem não estar sempre perfeitamente claros.

Experimentos e Resultados

Preparação dos Dados

Para os experimentos, preparamos tanto trechos de áudio quanto partituras. As imagens das partituras foram corretamente escaladas e selecionadas pra conter conteúdo musical relevante. Para o áudio, calculamos os espectrogramas necessários pra que os trechos de áudio pudessem ser processados corretamente.

Configuração dos Experimentos

Fizemos nossas avaliações em vários conjuntos de dados, alguns dos quais continham dados totalmente sintéticos enquanto outros usaram dados de música real. Essa variedade permitiu que a gente avaliasse como nossa abordagem poderia generalizar de um cenário pra outro.

Nosso sistema foi testado de várias maneiras, como recuperar trechos com base em consultas de áudio ou usando partituras como entrada.

Visão Geral dos Resultados

Nos experimentos, descobrimos que modelos treinados com aprendizado auto-supervisionado tiveram um desempenho melhor, especialmente quando dados de música real estavam em uso. As melhorias notadas foram substanciais ao comparar as métricas dos nossos modelos propostos com os de modelos tradicionais supervisionados.

  1. Nos casos onde apenas dados sintéticos foram usados, o desempenho dos modelos tradicionais caiu significativamente ao serem testados com dados de música real.
  2. Os modelos auto-supervisionados mantiveram relações mais próximas entre trechos de áudio e partituras mesmo quando passamos de dados sintéticos pra reais.
  3. Os modelos que foram pré-treinados usando métodos auto-supervisionados superaram consistentemente os métodos de linha de base tradicionais em todas as configurações.

Identificação de Peças Cruzadas

A gente também examinou uma tarefa de nível mais alto chamada identificação de peças cruzadas. Nessa tarefa, o objetivo é encontrar a peça certa de música quando se tem uma gravação de áudio ou sua partitura. Os experimentos mostraram que nossos modelos auto-supervisionados foram eficazes em melhorar os resultados de identificação de peças.

Ao agregar embeddings de trechos de múltiplos snippets, os modelos conseguiram recuperar as melhores correspondências muito melhor do que os métodos de linha de base.

Conclusão

Em conclusão, a gente desenhou uma estrutura de aprendizado que ajuda a resolver o problema da falta de dados rotulados ao treinar sistemas pra recuperação de áudio e partituras. A abordagem de aprendizado contrastivo auto-supervisionado permitiu eficazmente que o modelo aprendesse com dados não rotulados enquanto usava técnicas de aumento pra construir representações robustas da música.

Nossos experimentos mostram que esse método melhora significativamente o desempenho de recuperação, especialmente pra tarefas envolvendo dados de música reais. Como resultado, acreditamos que essa estrutura pode ajudar a construir sistemas mais confiáveis de busca e recuperação de música no futuro.

Fonte original

Título: Self-Supervised Contrastive Learning for Robust Audio-Sheet Music Retrieval Systems

Resumo: Linking sheet music images to audio recordings remains a key problem for the development of efficient cross-modal music retrieval systems. One of the fundamental approaches toward this task is to learn a cross-modal embedding space via deep neural networks that is able to connect short snippets of audio and sheet music. However, the scarcity of annotated data from real musical content affects the capability of such methods to generalize to real retrieval scenarios. In this work, we investigate whether we can mitigate this limitation with self-supervised contrastive learning, by exposing a network to a large amount of real music data as a pre-training step, by contrasting randomly augmented views of snippets of both modalities, namely audio and sheet images. Through a number of experiments on synthetic and real piano data, we show that pre-trained models are able to retrieve snippets with better precision in all scenarios and pre-training configurations. Encouraged by these results, we employ the snippet embeddings in the higher-level task of cross-modal piece identification and conduct more experiments on several retrieval configurations. In this task, we observe that the retrieval quality improves from 30% up to 100% when real music data is present. We then conclude by arguing for the potential of self-supervised contrastive learning for alleviating the annotated data scarcity in multi-modal music retrieval models.

Autores: Luis Carvalho, Tobias Washüttl, Gerhard Widmer

Última atualização: 2023-09-21 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2309.12134

Fonte PDF: https://arxiv.org/pdf/2309.12134

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes