Medindo a Adesão em Modelos de Música Generativa
Uma nova forma de avaliar como a música segue os comandos de áudio.
― 10 min ler
Índice
- A Necessidade de Medida Padrão
- Metodologia Proposta
- A Ascensão dos Modelos de Música Generativa
- Avaliando Música Gerada
- A Abordagem Baseada em Distribuição
- Processo de Avaliação de Base
- Coletas de Dados e Métricas Usadas
- Experimentando com Métricas
- Refinando a Medida de Adesão
- Testando Sensibilidade a Mudanças de Áudio
- Conclusão e Trabalho Futuro
- Fonte original
- Ligações de referência
À medida que a tecnologia avança, mais sistemas de criação musical usam prompts de áudio como guia para gerar música. Um prompt de áudio é basicamente uma peça de música que serve como referência para o que uma nova música deveria parecer. Esse método permite mais controle sobre como a música é criada, parecido com dar instruções a um músico.
Apesar do crescimento desses sistemas, não existe uma forma padrão de medir o quão bem a música gerada alinha-se com o prompt de áudio original. Isso cria desafios ao desenvolver novos modelos e comparar seus desempenhos. Neste artigo, exploramos um método potencial para medir quão de perto a música gerada segue os prompts de áudio.
A Necessidade de Medida Padrão
Avaliar o quanto os modelos seguem os prompts de áudio é muitas vezes feito de várias maneiras específicas para cada situação. No entanto, um método universal seria útil tanto para criar e treinar novos modelos quanto para comparar o desempenho de diferentes modelos.
Muitos métodos atuais focam em fatores como qualidade de áudio, usando ferramentas e métricas específicas. Porém, isso pode não refletir com precisão o quão bem uma música adere ao prompt de áudio orientador.
Este artigo analisa se métodos estatísticos comumente usados podem ajudar a medir o quanto a música gerada se encaixa em seu prompt de áudio. Sugerimos uma abordagem simples que depende de um número limitado de componentes para avaliar sistematicamente a medida de Adesão.
Metodologia Proposta
Para avaliar a adesão ao prompt de áudio, optamos por uma seleção de medidas Estatísticas amplamente aceitas. O procedimento inclui o uso de um Modelo de Embedding que transforma áudio em um formato adequado para análise, seguido pela comparação desses formatos usando várias métricas de distância. Essas comparações quantificam quão similar a música gerada é ao prompt de áudio.
Nos nossos testes iniciais, exploramos quão sensível essa abordagem é a mudanças comuns no áudio, como variações de tom ou tempo. Os resultados indicaram que nosso método poderia detectar essas mudanças mesmo ao comparar diferentes coleções musicais.
Embora mais testes sejam necessários para abordar questões sobre a confiabilidade da medida em meio a problemas adicionais de áudio, os resultados sugerem que usar distâncias estatísticas poderia oferecer um meio razoável de medir o quão bem a música gerada adere ao seu prompt de áudio.
A Ascensão dos Modelos de Música Generativa
Os modelos de música generativa têm se tornado cada vez mais populares. Tecnologias como redes adversariais generativas (GANs) e modelos de difusão permitem que computadores criem música. Esses sistemas podem produzir mixes completos, partes individuais ou apenas o som de um instrumento.
Tradicionalmente, os usuários controlam o processo de geração musical por meio de prompts textuais. No entanto, condicionar o modelo a um prompt de áudio oferece um controle ainda mais preciso. O prompt de áudio pode ser utilizado de duas maneiras principais: como um guia para transferência de estilo ou como uma base para criar música complementar.
Em tarefas de transferência de estilo, o objetivo é reproduzir elementos do prompt de áudio, como melodia ou ritmo. Em tarefas de acompanhamento, o que o sistema visa é gerar música que combine bem com o áudio original.
Avaliando Música Gerada
A avaliação da música generativa geralmente se baseia em vários critérios, dependendo da tarefa em questão. Uma das medidas mais comuns usadas é a qualidade do áudio, normalmente avaliada usando ferramentas como a Fréchet Audio Distance (FAD). Essa métrica avalia a distância entre o áudio real e as representações de áudio geradas em um formato específico conhecido como espaço de embedding.
Além disso, avaliações humanas muitas vezes entram em jogo, onde indivíduos classificam a qualidade da música gerada. Essas classificações podem abranger vários aspectos, incluindo a adesão aos prompts. Contudo, esse método não é tão confiável ou facilmente disponível quanto as avaliações computacionais.
Para música gerada com prompts de texto, medir o quão bem a saída se alinha ao prompt pode ser conseguido comparando vetores de embedding que representam ambos os elementos. Isso muitas vezes envolve diferentes modelos para avaliar a relação entre a música gerada com base em prompts de áudio ou simbólicos.
Atualmente, não existem medidas quantitativas universais que sejam específicas para prompts de áudio e adaptáveis a diferentes tipos de instrumentos musicais. Estamos tentando desenvolver um método que possa oferecer uma avaliação significativa da adesão aos prompts de áudio.
A Abordagem Baseada em Distribuição
Para lidar com a falta de medidas padrão, propomos um método baseado em distribuição. Isso significa que vamos focar em como os prompts de áudio se relacionam com as saídas geradas, em vez de apenas analisar instrumentos musicais individuais.
Nossa abordagem utiliza métricas estabelecidas, como FAD e outra medida estatística conhecida como Maximum Mean Discrepancy (MMD). Nós validamos nossa medida proposta por meio de avaliações de baseline para determinar quão efetivamente ela distingue entre pares de prompts de áudio que combinam e não combinam com as saídas.
Nessas avaliações, vamos comparar quão bem nosso método proposto funciona quando o áudio de referência e o candidato são da mesma coleção em comparação com coleções diferentes. Nosso objetivo é identificar configurações promissoras que possam ajudar a medir a adesão ao prompt de áudio.
Processo de Avaliação de Base
Como não temos uma referência clara sobre como a “verdade fundamental” deveria se parecer em relação à adesão ao prompt de áudio, estabelecemos uma avaliação de baseline. Usamos coleções de áudio multitrack que contêm vários projetos musicais, cada um com diferentes faixas instrumentais.
Assumimos que, quando uma seleção de faixas instrumentais de um projeto é mixada e usada como um prompt de áudio, as faixas restantes do mesmo projeto devem se alinhar a esse prompt. Por outro lado, faixas de outros projetos são consideradas como não combinando com o prompt.
Esse entendimento nos leva a criar um processo de avaliação simples. O objetivo é maximizar as diferenças entre pares de áudio não combinando e combinando, ajudando assim a identificar métricas eficazes para medir a adesão.
Coletas de Dados e Métricas Usadas
Para conduzir nossa pesquisa, selecionamos coleções de áudio multitrack específicas. Uma coleção notável contém músicas pop e rock que são acessíveis publicamente, enquanto outras coleções têm licenças internas com vários gêneros.
Vamos usar tanto as métricas FAD quanto MMD para medir distâncias entre as distribuições de áudio representadas no espaço de embedding. Neste trabalho, implementamos um kernel polinomial para a métrica MMD e confiamos em modelos de embedding bem conhecidos para calcular os embeddings.
Escolher os modelos de embedding certos é crucial porque eles transformam áudio em um formato adequado para análise estatística. Diferentes modelos podem gerar resultados variados em relação às medições de adesão, então também analisamos o impacto de processar esses embeddings de áudio para otimizar nossas avaliações.
Experimentando com Métricas
No nosso primeiro experimento, avaliamos se as métricas de distância podem distinguir efetivamente entre pares de prompts de áudio e saídas combinando e não combinando. Para manter nossa análise focada, limitamos nossas comparações a segmentos de áudio curtos-por exemplo, cinco segundos-que são mais gerenciáveis e relevantes para avaliar a adesão.
Amostramos segmentos de nossas coleções de áudio para criar pares combinando e não combinando. Usando esse método, podemos calcular as distâncias entre os pares e identificar se as métricas podem diferenciar efetivamente entre aqueles que aderem aos prompts e aqueles que não aderem.
Os resultados dos nossos experimentos indicaram que, embora nossas métricas escolhidas pudessem muitas vezes perceber diferenças nos pares de áudio, elas enfrentaram dificuldades ao comparar faixas de coleções diferentes. Essa limitação serve como um incentivo para refinar nossa abordagem para se tornar mais sensível em diferentes contextos.
Refinando a Medida de Adesão
Com base em nossas descobertas, propomos uma medida alternativa de adesão que compara um conjunto de saídas de áudio com o conjunto de referência original e uma versão não combinando criada por emparelhamentos aleatórios. Esse ajuste ajuda a focar menos nas pontuações de distância absolutas e mais na diferença relativa entre conjuntos combinando e não combinando.
Ao aplicar esse novo método, podemos avaliar melhor quão bem a música gerada adere ao prompt de áudio. Realizamos testes adicionais para verificar a capacidade dessa medida de discriminar entre pares combinando e não combinando em diferentes contextos.
Testando Sensibilidade a Mudanças de Áudio
Para garantir que nossa medida seja prática, também examinamos sua sensibilidade a mudanças comuns no áudio que poderiam afetar a adesão. Isso inclui variações de tempo e tom, que podem alterar o quão de perto o áudio gerado combina com o prompt. Nossa hipótese é que os pontos de adesão ao prompt de áudio deveriam diminuir significativamente quando essas mudanças são aplicadas.
Fizemos vários testes aplicando variações aleatórias de tom e ajustes de tempo aos prompts de áudio e avaliando como nossa medida de adesão muda em resposta. Os resultados destacam a eficácia potencial da nossa abordagem ao lidar com essas variações comuns de áudio.
Conclusão e Trabalho Futuro
Com o avanço contínuo dos sistemas de geração musical baseados em IA, estabelecer um método de avaliação comum para a adesão a prompts de áudio é essencial. Juntas, nossas experiências mostram que podemos medir a adesão dos prompts de áudio de forma confiável, embora sejam necessárias refinamentos contínuos.
Avançando, é crucial expandir nossos testes para incluir outros fatores que possam afetar as pontuações de adesão, como mudanças na qualidade do áudio que não impactem como a música gerada segue o prompt de áudio.
Além disso, trabalhos futuros se concentrarão em determinar como diferentes níveis de volume entre prompts e saídas afetam as medições de adesão. Nosso objetivo final é criar uma medida robusta e universalmente aplicável que melhore o desempenho dos modelos de música generativa, enquanto fornece insights valiosos sobre suas saídas.
Título: Measuring Audio Prompt Adherence with Distribution-based Embedding Distances
Resumo: An increasing number of generative music models can be conditioned on an audio prompt that serves as musical context for which the model is to create an accompaniment (often further specified using a text prompt). Evaluation of how well model outputs adhere to the audio prompt is often done in a model or problem specific manner, presumably because no generic evaluation method for audio prompt adherence has emerged. Such a method could be useful both in the development and training of new models, and to make performance comparable across models. In this paper we investigate whether commonly used distribution-based distances like Fr\'echet Audio Distance (FAD), can be used to measure audio prompt adherence. We propose a simple procedure based on a small number of constituents (an embedding model, a projection, an embedding distance, and a data fusion method), that we systematically assess using a baseline validation. In a follow-up experiment we test the sensitivity of the proposed audio adherence measure to pitch and time shift perturbations. The results show that the proposed measure is sensitive to such perturbations, even when the reference and candidate distributions are from different music collections. Although more experimentation is needed to answer unaddressed questions like the robustness of the measure to acoustic artifacts that do not affect the audio prompt adherence, the current results suggest that distribution-based embedding distances provide a viable way of measuring audio prompt adherence. An python/pytorch implementation of the proposed measure is publicly available as a github repository.
Autores: Maarten Grachten, Javier Nistal
Última atualização: 2024-12-28 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2404.00775
Fonte PDF: https://arxiv.org/pdf/2404.00775
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.