Apresentando o PIAST: Um Novo Conjunto de Dados para Pesquisa em Música de Piano
A PIAST tem uma coleção única de música de piano para os pesquisadores.
― 6 min ler
Índice
Música de piano é um assunto bem interessante pra pesquisa musical, mas achar bons datasets sobre isso é tipo procurar uma agulha no palheiro. A maioria dos datasets foca em outros instrumentos ou estilos, deixando as peças solo de piano meio de lado, parecendo solitárias. Pra mudar isso, criaram um novo dataset chamado PIAST. Esse dataset inclui Áudio, música simbólica (como partituras) e informações em texto, o que o torna super útil pra quem estuda música.
O Que É PIAST?
PIAST é a sigla pra Piano dataset with Audio, Symbolic, and Text. É uma coleção de música de piano que junta vários elementos: gravações de áudio, arquivos MIDI e anotações em texto que ajudam pra caramba. O objetivo desse dataset é ajudar pesquisadores na área de Recuperação da Informação Musical (MIR) – que é um jeito chique de dizer que é sobre encontrar e organizar música pelo conteúdo.
Por Que Esse Dataset É Necessário?
O mundo da música de piano é enorme. Um piano pode expressar muitos estilos, desde jazz até clássico e pop. Mas, não existem muitos datasets que focam só na música de piano, especialmente com rótulos em texto que expliquem sobre o que é a música. A maioria dos datasets que já existem ou não têm variedade ou não trazem informações suficientes. Por exemplo, se você olhar um dataset popular como o ECALS, vai perceber que só uma fração mínima das faixas são de piano solo.
Existem alguns datasets, tipo MAESTRO e GiantMIDI, mas eles geralmente focam em gêneros específicos. Outros, como Pop1K7, são sobre música pop, e o PiJAMA é pra piano jazz. Embora sejam legais, eles não capturam todo o espectro do que a música de piano solo pode oferecer, especialmente quando se trata de descrições em texto detalhadas.
Construindo o PIAST
Pra criar o PIAST, os pesquisadores primeiro montaram uma espécie de “dicionário” pra música de piano. Esse dicionário tem 31 Tags cobrindo gêneros, emoções, humores e estilos, pra deixar bem claro o que a música representa. Eles juntaram mais de 9.600 faixas do YouTube, com alguns especialistas em música anotando manualmente cerca de 2.000 dessas faixas. A parte divertida? O dataset contém não só a música, mas também explicações e descrições que podem ajudar qualquer um que esteja interessado em música de piano.
O Dataset PIAST-YT
Uma parte do PIAST se chama PIAST-YT. Essa seção tem cerca de 9.600 faixas de áudio coletadas do YouTube, junto com informações em texto como títulos e descrições dos vídeos. Pra reunir essa música, os pesquisadores usaram dois métodos: coleta baseada em tags e coleta baseada em canais. O método baseado em tags envolveu procurar uma variedade de música de piano usando as tags estabelecidas. Porém, o YouTube pode ser um pouco como tentar achar um grão específico de arroz em um saco gigante – tem muita coisa aleatória misturada!
Pra garantir música de boa qualidade, os pesquisadores também usaram um método baseado em canais, escolhendo conteúdo de 23 canais do YouTube conhecidos pelos vídeos de piano. Depois de um filtro, o dataset acabou com cerca de 1.006 horas de áudio, garantindo que a maioria fosse de performances solo de piano.
O Dataset PIAST-AT
Enquanto o PIAST-YT é incrível, os dados em texto ainda tinham algumas falhas. Era uma mistura e algumas peças não tinham texto correspondente. Então, os pesquisadores criaram o PIAST-AT pra resolver isso. Essa parte do dataset contém 2.023 faixas que foram anotadas por especialistas em música. É como ter um professor de música pessoal te dizendo exatamente o que cada peça representa!
Pra PIAST-AT, os pesquisadores pegaram amostras do PIAST-YT e fizeram com que especialistas anotassem segmentos de áudio de 30 segundos. Cada segmento foi lido por pelo menos três anotadores diferentes pra garantir a precisão. Eles receberam instruções claras sobre o que procurar e foram orientados a ignorar qualquer coisa que não se encaixasse estritamente na categoria de música de piano solo. Depois de muito esforço, eles conseguiram definir boas tags pra 2.023 amostras.
Tagging e Classificação da Música de Piano
Com o PIAST, os pesquisadores conseguem fazer coisas legais como taggear e classificar música de piano. O dataset permite análise de áudio e dados MIDI. A ideia é primeiro treinar um modelo com uma ampla gama de música de piano e, em seguida, aplicar esse conhecimento em tarefas mais específicas.
Pra tagging, eles usaram um método de treinamento que maximiza a semelhança entre diferentes arquivos de música e suas descrições. Dessa forma, o modelo aprende a reconhecer quais tags combinam com quais peças de música. Pense nisso como ensinar uma criança a associar imagens com suas histórias favoritas!
Resultados e Desempenho
Os resultados de usar o PIAST pra tagging e tarefas de recuperação de música de piano foram promissores. Os pesquisadores compararam como seus modelos se saíram ao usar as partes de áudio em comparação com as partes MIDI do dataset. Curiosamente, os modelos que usaram MIDI tendiam a ter um desempenho melhor. Acontece que o MIDI captura os detalhes de ritmo e notas, tornando-o mais eficaz em tarefas de classificação.
Nos testes, o desempenho melhorou significativamente quando usaram o maior dataset PIAST-YT pra treinamento, mostrando que mais dados geralmente ajudam na hora de ensinar modelos sobre música.
O Futuro do PIAST
A música de piano tem tanto potencial pra pesquisa e criatividade. Pode ajudar a melhorar como encontramos música, analisamos e entendemos as emoções que ela transmite. A equipe por trás do PIAST tá pensando em expandir ainda mais o dataset, adicionando peças de música variadas e diferentes tipos de anotações no futuro.
Então, se você é fã de música de piano ou só curte uma boa sonata de vez em quando, esse dataset pode ser a ferramenta perfeita pra ajudar a descobrir todas as joias escondidas que o mundo do piano tem a oferecer. Quem diria que estudar música poderia ser tão empolgante quanto uma caça ao tesouro? Afinal, cada nota tocada em um piano conta uma história esperando pra ser descoberta!
Título: PIAST: A Multimodal Piano Dataset with Audio, Symbolic and Text
Resumo: While piano music has become a significant area of study in Music Information Retrieval (MIR), there is a notable lack of datasets for piano solo music with text labels. To address this gap, we present PIAST (PIano dataset with Audio, Symbolic, and Text), a piano music dataset. Utilizing a piano-specific taxonomy of semantic tags, we collected 9,673 tracks from YouTube and added human annotations for 2,023 tracks by music experts, resulting in two subsets: PIAST-YT and PIAST-AT. Both include audio, text, tag annotations, and transcribed MIDI utilizing state-of-the-art piano transcription and beat tracking models. Among many possible tasks with the multi-modal dataset, we conduct music tagging and retrieval using both audio and MIDI data and report baseline performances to demonstrate its potential as a valuable resource for MIR research.
Autores: Hayeon Bang, Eunjin Choi, Megan Finch, Seungheon Doh, Seolhee Lee, Gyeong-Hoon Lee, Juhan Nam
Última atualização: 2024-11-07 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2411.02551
Fonte PDF: https://arxiv.org/pdf/2411.02551
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.