Simple Science

Ciência de ponta explicada de forma simples

# Engenharia Eletrotécnica e Ciência dos Sistemas# Som# Aprendizagem de máquinas# Processamento de Áudio e Fala

Avanços na Transcrição de Música Multitrack com Perceiver TF

Um novo modelo melhora a precisão da transcrição musical para vários instrumentos.

― 6 min ler


Modelo TF PerceiverModelo TF PerceiverMelhora TranscriçãoMusicalanálise de música multitrack.Novo modelo melhora drasticamente a
Índice

A transcrição de música multicanal é um processo que converte música em Áudio em notas musicais escritas para vários Instrumentos ao mesmo tempo. Essa tarefa é complicada, especialmente porque muitas vezes precisa de tecnologia avançada pra ter bons resultados. A maioria das pesquisas existentes foca em instrumentos tradicionais, mas muitas vezes esquecem das vocais, que geralmente são essenciais em muitas músicas. Este artigo apresenta uma nova abordagem chamada Perceiver TF, que usa um modelo especial pra entender melhor o áudio na transcrição musical.

O Objetivo da Transcrição Automática de Música

A transcrição automática de música (AMT) tem como objetivo traduzir uma peça musical em áudio em uma sequência de notas. Cada nota tem detalhes sobre quando começa, seu tom, quanto tempo dura e quão alta é. O resultado geralmente é dado em formato MIDI, que é comumente usado na programação musical. Se a música tem várias faixas, um sistema AMT precisa identificar cada instrumento e as notas que tocam. Idealmente, quando a saída MIDI é convertida de volta em áudio, deveria soar parecido com a gravação original.

Apesar de ter havido melhorias usando métodos de aprendizado profundo, dois problemas principais continuam sem solução: a capacidade de escalar o modelo e diferenciar entre diferentes instrumentos.

Desafios na Transcrição de Música Multicanal

A transcrição musical para múltiplos instrumentos é bem desafiadora. Pode haver até 100 instrumentos diferentes, e até comuns como guitarra e violino podem ser difíceis de analisar devido à sua ampla gama de sons e estilos de tocar. Além disso, as vocais, que geralmente se destacam em uma música, podem mudar seu som e tom pra expressar emoções e letras. Pra gerenciar todos esses sons diferentes ao mesmo tempo, um modelo escalável é necessário.

Muitos sistemas atuais têm dificuldade em capturar corretamente as notas de instrumentos populares como piano e guitarra. Por exemplo, um sistema pode confundir notas tocadas por cordas com aquelas de um piano. Essa confusão pode ser devido à falta de características claras que consigam distinguir os sons dos diferentes instrumentos. Um sistema melhor deveria ser capaz de reconhecer cada som de instrumento na mistura.

Apresentando o Perceiver TF

Pra resolver a questão da escalabilidade na transcrição musical, foi proposto o modelo Perceiver TF. Esse novo modelo se baseia na estrutura Perceiver existente, que é conhecida por lidar efetivamente com dados complexos. O Perceiver TF utiliza uma representação especial do áudio que inclui informações tanto de tempo quanto de frequência. Esse design permite que o modelo gerencie os sons de muitos instrumentos ao mesmo tempo.

O modelo Perceiver TF é estruturado de uma forma que pode analisar os detalhes das características sonoras de cada instrumento. Ele usa uma forma de atenção que ajuda o modelo a focar em características importantes dentro do áudio. Fazendo isso, o modelo consegue processar os dados de forma eficiente, facilitando o manuseio de mais instrumentos ao mesmo tempo.

Detalhes Técnicos do Perceiver TF

O modelo Perceiver TF consiste em vários componentes projetados pra trabalhar juntos e produzir uma transcrição musical precisa. Primeiro, ele usa um módulo convolucional pra coletar características locais do áudio de entrada. Esse módulo ajuda a reduzir a complexidade dos dados de áudio antes de serem passados pro módulo principal do Perceiver TF.

Em seguida, o módulo Perceiver TF processa os dados de áudio através de vários blocos, cada um projetado pra extrair diferentes características do som. O áudio é analisado tanto em suas características espectrais quanto em sua informação de tempo. O importante aqui é que, conforme os dados sonoros fluem pelo modelo, ele mantém conexões que permitem que aprenda com entradas anteriores, melhorando sua capacidade de distinguir entre diferentes instrumentos.

Por último, o módulo de saída converte os dados processados no formato final necessário pra transcrição. Ele organiza as informações sonoras em um formato utilizável que reflete as notas tocadas por cada instrumento na faixa musical.

Melhorando os Dados com Mistura Aleatória

Pra enfrentar o desafio do reconhecimento de instrumentos, o modelo Perceiver TF usa uma técnica chamada mistura aleatória. Esse método melhora o processo de treinamento permitindo que o modelo aprenda com várias combinações de sons de instrumentos. Misturando sons de diferentes conjuntos de dados, o modelo fica exposto a uma gama mais ampla de cenários musicais, melhorando seu desempenho.

Durante o treinamento, o modelo aprende a reconhecer padrões e características de amostras sonoras que são combinadas de diferentes maneiras. Essa experiência ajuda a tornar o modelo mais robusto e eficaz pra identificar diferentes instrumentos em um cenário multicanal.

Treinamento e Avaliação

Treinar o modelo Perceiver TF envolve usar uma coleção de diferentes conjuntos de dados musicais. Esse processo requer um manuseio cuidadoso dos dados de áudio pra garantir que o modelo receba uma variedade diversificada de exemplos. O treinamento envolve o uso de técnicas como mudança de tom, que altera ligeiramente o som, e mistura aleatória, que fornece fundos variados pros instrumentos.

Após o treinamento, o modelo é avaliado em conjuntos de dados comuns pra avaliar seu desempenho. Ele analisa várias métricas, incluindo a precisão das notas que transcreve. O processo de avaliação compara seus resultados com outros modelos de ponta pra destacar suas melhorias.

Resultados e Descobertas

Os resultados mostram que o modelo Perceiver TF se sai excepcionalmente bem em comparação com outros modelos existentes. Ele consegue alcançar uma precisão maior no reconhecimento de notas de diferentes instrumentos. Particularmente, se destaca em situações com instrumentos menos comuns, indicando que a técnica de mistura aleatória melhora sua habilidade de reconhecer uma diversidade de sons.

Além disso, combinar a transcrição de múltiplos instrumentos com partes vocais leva a melhorias na precisão. Essa abordagem permite que o modelo aprenda com um conjunto de dados mais extenso e variado, tornando-o mais eficaz no geral.

Conclusão

Resumindo, o modelo Perceiver TF apresenta uma nova e eficaz maneira de abordar o desafio da transcrição de música multicanal. Ao lidar com as questões de escalabilidade do modelo e discriminação de instrumentos, ele mostrou melhorias significativas em relação aos métodos existentes. Seu uso inovador de mistura aleatória oferece flexibilidade valiosa de treinamento, permitindo que produza transcrições de maior qualidade em uma variedade de contextos musicais.

Esse trabalho destaca o potencial para mais avanços na tecnologia de transcrição musical e abre portas para aplicações em áreas relacionadas. A abordagem usada pelo Perceiver TF pode servir como base pra desenvolver modelos mais sofisticados no futuro.

Fonte original

Título: Multitrack Music Transcription with a Time-Frequency Perceiver

Resumo: Multitrack music transcription aims to transcribe a music audio input into the musical notes of multiple instruments simultaneously. It is a very challenging task that typically requires a more complex model to achieve satisfactory result. In addition, prior works mostly focus on transcriptions of regular instruments, however, neglecting vocals, which are usually the most important signal source if present in a piece of music. In this paper, we propose a novel deep neural network architecture, Perceiver TF, to model the time-frequency representation of audio input for multitrack transcription. Perceiver TF augments the Perceiver architecture by introducing a hierarchical expansion with an additional Transformer layer to model temporal coherence. Accordingly, our model inherits the benefits of Perceiver that posses better scalability, allowing it to well handle transcriptions of many instruments in a single model. In experiments, we train a Perceiver TF to model 12 instrument classes as well as vocal in a multi-task learning manner. Our result demonstrates that the proposed system outperforms the state-of-the-art counterparts (e.g., MT3 and SpecTNT) on various public datasets.

Autores: Wei-Tsung Lu, Ju-Chiang Wang, Yun-Ning Hung

Última atualização: 2023-06-19 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2306.10785

Fonte PDF: https://arxiv.org/pdf/2306.10785

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes