Apresentando o MARBLE: Um Referencial para IA Musical
MARBLE estabelece um padrão para avaliar modelos de IA musical em várias tarefas.
― 8 min ler
Índice
Nos últimos tempos, a arte e a Inteligência Artificial (IA) têm se cruzado de maneira significativa, especialmente em áreas como criação de imagens e histórias. No entanto, o uso de IA na música, especialmente para entender música, ainda está se desenvolvendo. Tem pouca pesquisa sobre como representar música de forma profunda, poucas coleções de dados grandes e úteis, e falta um padrão comum para avaliar os sistemas de IA musical. Para preencher essa lacuna, apresentamos o MARBLE-Benchmark de Representação de Áudio Musical para Avaliação Universal. O MARBLE ajuda a avaliar diferentes tarefas de Recuperação de Informação Musical (MIR) organizando-as em uma estrutura clara.
O que é o MARBLE?
O MARBLE tem como objetivo fornecer uma maneira padrão de avaliar várias tarefas de MIR por meio de um sistema detalhado que organiza as tarefas em quatro níveis: acústico, desempenho, partitura e descrições de alto nível da música. O benchmark é criado com base em 18 tarefas de 12 conjuntos de dados de acesso aberto. Isso oferece um procedimento padrão para avaliar modelos musicais, facilitando para os pesquisadores compararem resultados e encontrarem áreas para melhorar.
O MARBLE é projetado para ser amigável e permite que os pesquisadores construam facilmente sobre ele. Ele respeita direitos autorais e fornece diretrizes claras sobre o uso dos conjuntos de dados. As primeiras descobertas indicam que os modelos de linguagem musical desenvolvidos recentemente estão se saindo bem em várias tarefas, mas ainda há espaço para melhorias. O site do benchmark e a caixa de ferramentas estão disponíveis para fomentar estudos futuros em IA musical.
A Necessidade de Entender Música
Enquanto a IA avançou em muitas formas de arte, seu progresso em entender música está atrasado. Os pesquisadores estão focando em MIR, que envolve extrair informações de áudio bruto. Tarefas como classificação de música, reconhecimento de sentimentos, estimativa de altura e análise de elementos musicais estão no cerne do MIR. No entanto, devido a desafios como direitos autorais e alto custo de rotulagem, muitas vezes há conjuntos de dados rotulados insuficientes, limitando a eficácia dos modelos que dependem de aprendizado supervisionado.
O aprendizado auto-supervisionado (SSL) está ganhando força em várias áreas como Processamento de Linguagem Natural (NLP) e Visão Computacional (CV) porque funciona bem mesmo com dados anotados limitados. Alguns pesquisadores começaram a experimentar com SSL para aprendizado de representação de áudio e modelos pré-treinados específicos para música.
Benchmarks Existentes em Outras Áreas
Em NLP, benchmarks como GLUE e SuperGLUE ajudaram a avaliar e promover pesquisas. Da mesma forma, em CV, conjuntos de dados como VTAB e VISSL oferecem padrões. No entanto, na música, as avaliações dos modelos existentes são desconexas e oferecem pouca orientação para comparações. Isso torna difícil tirar insights ou conclusões significativas entre diferentes técnicas de entendimento musical.
Atualmente, os modelos musicais são testados principalmente em tarefas downstream como classificação de gênero e emoção, identificação de instrumentos, etiquetagem musical, detecção de tonalidade e mais. Muitos estudos seguem vários designs experimentais, e apenas alguns se concentram em tarefas sequenciais, como rastreamento de batidas e separação de diferentes fontes de áudio. Enquanto outros benchmarks como SUPERB e HEAR fornecem avaliações unificadas para tarefas de fala e som, o áudio musical apresenta desafios únicos.
Há uma necessidade urgente de benchmarks abrangentes, extensos e acessíveis para estimular o desenvolvimento do SSL musical. Portanto, apresentamos o MARBLE para atender a essa necessidade.
A Estrutura do MARBLE
O MARBLE examina as capacidades dos modelos musicais em um amplo espectro, propondo uma nova organização para as tarefas de MIR. Os quatro níveis na hierarquia se alinham com o entendimento profissional, oferecendo uma estrutura que ajuda a organizar conjuntos de dados e identificar uma variedade diversificada de tarefas downstream.
Tarefas populares do agora extinto MIREX Challenge foram selecionadas, utilizando conjuntos de dados correspondentes que possuem rótulos limitados. Atualmente, o MARBLE abrange 18 tarefas em 13 categorias com base em 12 conjuntos de dados disponíveis publicamente ou comercialmente.
Além das tradicionais tarefas de classificação, o MARBLE inclui tarefas de rotulagem de sequência, como Separação de Fontes e rastreamento de batidas. Os conjuntos de dados são facilmente acessíveis, permitindo que os usuários os baixem de fontes oficiais ou sites externos diretamente.
Um protocolo unificado foi estabelecido, juntamente com caixas de ferramentas para avaliar o desempenho do modelo em várias tarefas. Nesse protocolo, os modelos servem como fundamentos para fornecer representações gerais para todas as tarefas, enquanto componentes preditivos específicos de tarefas são adicionados e treinados sob várias restrições.
Tarefas Chave no MARBLE
O MARBLE abrange várias categorias de tarefas que cobrem aspectos essenciais do processamento musical. As tarefas são divididas principalmente em duas categorias: discriminativas e generativas. Esta primeira versão do MARBLE foca em tarefas discriminativas, enquanto tarefas generativas, como criação musical, serão consideradas em futuras atualizações.
Tarefas de Descrição de Alto Nível
As tarefas de descrição de alto nível medem características gerais da música, como gênero, humor e tonalidade. Alguns exemplos incluem:
Detecção de Tonalidade: Predizer a tonalidade de uma música usando conjuntos de dados como Giantsteps.
Etiquetagem Musical: Atribuir rótulos apropriados às músicas, usando conjuntos como MagnaTagATune.
Classificação de Gênero: Categorizar canções em gêneros com base em conjuntos existentes como GTZAN e MTG-Genre.
Reconhecimento de Emoção: Determinar o conteúdo emocional da música. Dois conjuntos de dados são usados para isso: Emomusic e MTG-MoodTheme.
Tarefas de Nível de Partitura
Este nível foca na identificação de elementos musicais a partir de uma partitura. Algumas tarefas envolvem:
Classificação de Altura: Atribuir alturas a amostras de áudio, usando conjuntos como Nsynth.
Rastreamento de Batidas: Detectar batidas em cada quadro da música.
Estimativa de Acordes: Identificar acordes em clipes de áudio, utilizando o conjunto GuitarSet.
Extração de Melodia: Extrair melodias de áudio, usando o conjunto MedleyDB.
Tarefas de Nível de Desempenho
Esta categoria analisa as técnicas empregadas durante uma performance. Por exemplo:
- Detecção de Técnica Vocal: Identificar técnicas de canto a partir de clipes de áudio usando o conjunto VocalSet.
Tarefas de Nível Acústico
Aqui, várias qualidades de áudio são focadas, incluindo:
Classificação de Instrumentos: Identificar instrumentos em áudio usando conjuntos como Nsynth.
Identificação de Cantores: Reconhecer cantores a partir de gravações.
Separação de Fonte: Separar faixas de áudio em componentes individuais, usando o conjunto MUSDB18.
Estrutura de Avaliação
O MARBLE estabeleceu uma estrutura de avaliação padronizada para garantir avaliações justas. Essa estrutura utiliza modelos pré-treinados para examinar previsões específicas de tarefas de forma eficiente.
As trilhas de avaliação incluem:
Trilha Não Constrangida: Participantes podem enviar qualquer configuração, incentivando flexibilidade.
Trilha Semi-Constrangida: As submissões devem usar modelos pré-treinados fixos, restringindo parâmetros.
Trilha Constrangida: Uma abordagem padronizada onde as submissões devem seguir diretrizes específicas, aplicando limites em buscas de hiperparâmetros.
Dados e Questões de Licenciamento
Muitos conjuntos de dados usados no benchmark MARBLE enfrentam desafios com direitos autorais e licenciamento. Isso restringe a quantidade de dados rotulados disponíveis para treinamento, levando a possíveis vieses nas avaliações dos modelos.
Além disso, o MARBLE pretende incluir mais conjuntos de dados comercialmente disponíveis no futuro.
Limitações e Direções Futuras
Enquanto o MARBLE visa melhorar a compreensão musical, alguns desafios permanecem. Por exemplo, muitas tarefas envolvem múltiplas métricas, mas o benchmark atualmente inclui apenas uma ou duas métricas devido a questões de direitos autorais e acesso a conjuntos de dados. Conjuntos de dados mais abrangentes são necessários para certas tarefas, e versões futuras incluirão tarefas adicionais, como detecção de músicas cover.
Há também espaço para desenvolver benchmarks que avaliem geração e composição musical, além de modelos para misturar áudio musical com representações simbólicas e linguagem.
Conclusão
Em conclusão, o MARBLE serve como um benchmark abrangente para avaliar recursos musicais, contendo uma estrutura bem definida para várias tarefas de MIR. A padronização dos processos permite avaliações justas e repetíveis entre diferentes modelos. As descobertas do MARBLE indicam resultados promissores para vários modelos pré-treinados, mas o campo ainda tem muito potencial para crescimento.
Facilitando o acesso fácil e medições comparativas, o MARBLE visa promover mais pesquisas no domínio da compreensão musical e suas aplicações em IA. A comunidade musical é incentivada a se envolver com esta iniciativa para avançar no aprendizado de representação em recuperação de informação musical.
Título: MARBLE: Music Audio Representation Benchmark for Universal Evaluation
Resumo: In the era of extensive intersection between art and Artificial Intelligence (AI), such as image generation and fiction co-creation, AI for music remains relatively nascent, particularly in music understanding. This is evident in the limited work on deep music representations, the scarcity of large-scale datasets, and the absence of a universal and community-driven benchmark. To address this issue, we introduce the Music Audio Representation Benchmark for universaL Evaluation, termed MARBLE. It aims to provide a benchmark for various Music Information Retrieval (MIR) tasks by defining a comprehensive taxonomy with four hierarchy levels, including acoustic, performance, score, and high-level description. We then establish a unified protocol based on 14 tasks on 8 public-available datasets, providing a fair and standard assessment of representations of all open-sourced pre-trained models developed on music recordings as baselines. Besides, MARBLE offers an easy-to-use, extendable, and reproducible suite for the community, with a clear statement on copyright issues on datasets. Results suggest recently proposed large-scale pre-trained musical language models perform the best in most tasks, with room for further improvement. The leaderboard and toolkit repository are published at https://marble-bm.shef.ac.uk to promote future music AI research.
Autores: Ruibin Yuan, Yinghao Ma, Yizhi Li, Ge Zhang, Xingran Chen, Hanzhi Yin, Le Zhuo, Yiqi Liu, Jiawen Huang, Zeyue Tian, Binyue Deng, Ningzhi Wang, Chenghua Lin, Emmanouil Benetos, Anton Ragni, Norbert Gyenge, Roger Dannenberg, Wenhu Chen, Gus Xia, Wei Xue, Si Liu, Shi Wang, Ruibo Liu, Yike Guo, Jie Fu
Última atualização: 2023-11-23 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2306.10548
Fonte PDF: https://arxiv.org/pdf/2306.10548
Licença: https://creativecommons.org/licenses/by-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://marble-bm.shef.ac.uk
- https://github.com/a43992899/MARBLE-Benchmark
- https://www.music-ir.org/mirex/wiki/MIREX
- https://huggingface.co/m-a-p/MERT-v0
- https://huggingface.co/m-a-p/MERT-v0-public
- https://huggingface.co/m-a-p/MERT-v1-95M
- https://huggingface.co/m-a-p/MERT-v1-330M
- https://github.com/speechbrain/speechbrain/blob/develop/recipes/LibriSpeech/LM/hparams/transformer.yaml