Simple Science

Ciência de ponta explicada de forma simples

# Engenharia Eletrotécnica e Ciência dos Sistemas# Processamento de Áudio e Fala# Aprendizagem de máquinas# Som

Avançando a Correspondência de Sons de Sintetizador com Transformador de Espectrograma de Áudio

Um novo método simplifica a correspondência de sons de sintetizadores para músicos.

― 6 min ler


Revolucionando o Match deRevolucionando o Match deSons de Synthavançada.sintetizador com uma combinação de sonsTransformando a criatividade do
Índice

Os sintetizadores são ferramentas populares para fazer música. Eles criam sons ajustando vários Parâmetros. Mas, configurar esses parâmetros pode ser complicado, especialmente pra quem tá começando a usar sintetizadores. Sistemas que ajustam automaticamente as configurações do Sintetizador pra recriar um som podem simplificar esse processo, tornando tudo mais rápido e fácil pra galera. Com tantos tipos diferentes de sintetizadores por aí, um sistema geral que funcione com várias opções pode ser muito útil.

Neste artigo, a gente apresenta um novo método pra combinar sons de sintetizadores usando uma técnica chamada Audio Spectrogram Transformer. Esse método usa um computador pra analisar sons e depois combina as configurações do sintetizador com esses sons. Nossa pesquisa foi feita com um sintetizador famoso chamado Massive. A gente criou um grande conjunto de dados contendo sons gerados mudando aleatoriamente as configurações do Massive e treinou nosso modelo pra prever as configurações corretas com base nos sons de entrada.

Importância da Combinação de Sons

Ajustar automaticamente os parâmetros do sintetizador pra criar sons específicos não é uma ideia nova. O interesse por esses sistemas existe desde os anos 90. Eles podem ajudar músicos que não manjam muito de criação sonora, além de acelerar o processo pros usuários mais experientes. Esses sistemas de combinação de sons têm potencial pra abrir novas portas criativas, permitindo que músicos usem sons como uma forma de controlar sintetizadores e criar perfis sonoros únicos.

Mas, muitos sistemas existentes exigem um conhecimento prévio de como um sintetizador funciona, o que pode limitar a utilidade deles. Cada sintetizador tem seu próprio conjunto de regras e características, então um modelo projetado pra um pode não funcionar em outro. Isso torna difícil criar um sistema flexível que se adapte a diferentes sintetizadores, especialmente aqueles com configurações complexas.

Algumas abordagens recentes tentaram evitar a necessidade de um conhecimento profundo sobre sintetizadores. Por exemplo, alguns sistemas usam redes neurais convolucionais pra inferir as configurações a partir de entradas de áudio. Outros exploraram variações de redes neurais pra conectar melhor os sons com as configurações que os criaram.

Apresentando o Audio Spectrogram Transformer

Transformers têm ficado cada vez mais populares em várias tarefas, incluindo recuperação de informações musicais. Eles são conhecidos pelo bom desempenho, mas precisam de muitos recursos computacionais e dados. Pra combinar sons em sintetizadores, a gente propõe usar o Audio Spectrogram Transformer como nossa base. Esse método nos permite criar um modelo que funciona com suposições mínimas sobre como os sintetizadores operam.

Nossa abordagem foca em combinar sons prevendo os parâmetros subjacentes usados pra criar aquele som. Dado um sample de áudio, nosso modelo tenta adivinhar os parâmetros do sintetizador, que podem ser usados pra gerar um novo som. O modelo foi treinado em um conjunto de dados especialmente criado com amostras de áudio emparelhadas e suas respectivas configurações de parâmetros do sintetizador.

Como Montamos Nosso Conjunto de Dados

Pra nosso projeto de combinação de sons de sintetizador, a gente criou um conjunto de dados com um milhão de amostras. Cada amostra consistia em um som produzido pelo sintetizador e seu respectivo conjunto de parâmetros. Em vez de usar sons existentes, a gente gerou sons aleatoriamente mudando os parâmetros do sintetizador Massive. Esse método nos permitiu capturar uma ampla variedade de sons e suas configurações associadas.

O processo envolveu gerar um som alimentando o sintetizador com configurações aleatórias e gravando a saída. A gente garantiu que os sons estivessem altos o suficiente pra evitar amostras silenciosas filtrando qualquer áudio abaixo de um certo nível de volume. Esse método nos permitiu amostrar uma gama substancial de configurações do sintetizador e produzir um grande conjunto de dados pra treinar nosso modelo.

Treinamento e Avaliação do Modelo

O processo de treinamento do nosso modelo envolveu alimentá-lo com o conjunto de dados gerado e ensiná-lo a prever as configurações do parâmetro do sintetizador com base na entrada de áudio. Usamos duas métricas principais pra avaliar o desempenho do nosso modelo: erro quadrático médio pra previsão de parâmetros e convergência espectral pra qualidade do áudio.

Quando testamos nosso modelo contra dois métodos estabelecidos, ele mostrou uma vantagem significativa tanto na previsão precisa de parâmetros quanto na recriação de áudio de alta qualidade. Em ambos os casos, nossa abordagem mostrou boas capacidades, até em comparação com Modelos já existentes.

Resultados e Observações

Os resultados mostraram que nosso modelo não só se destacou em prever parâmetros do sintetizador, mas também gerou sons que se pareciam muito com o áudio de entrada. Enquanto o modelo teve um bom desempenho com sons gerados pelo sintetizador Massive, ele também mostrou potencial pra combinar sons de outros instrumentos e até imitações vocais.

Mas, uma área que precisa de melhorias é a capacidade do modelo de prever a afinação com precisão. Em certos casos, pequenas discrepâncias na afinação levaram a diferenças notáveis no áudio resultante. Resolver essas questões poderia aumentar a eficácia da nossa abordagem de combinação de sons.

Direções Futuras

Olhando pra frente, planejamos expandir nossa abordagem trabalhando com conjuntos de parâmetros maiores e mais complexos. Queremos explorar como modelar melhor os vários tipos de parâmetros, incluindo configurações categóricas e contínuas, pra refletir as diversas opções disponíveis em sintetizadores.

Além disso, queremos melhorar o processo de treinamento incorporando variação de afinação, permitindo que nosso modelo se ajuste a diferentes notas musicais de forma mais eficaz. Isso pode ajudar na combinação precisa de sons sem perder qualidade.

Conclusão

Nossa pesquisa demonstra o potencial de usar um Audio Spectrogram Transformer pra criar um sistema flexível e poderoso de combinação de sons de sintetizadores. Ao desenvolver um método que requer suposições mínimas sobre como os sintetizadores funcionam, podemos criar soluções que atendem a uma ampla gama de sons. Os resultados mostram que essa abordagem pode combinar efetivamente sons com as configurações do sintetizador, sugerindo uma avenida promissora pra exploração futura na tecnologia de produção musical.

Trabalhos contínuos nesse campo podem levar a uma criação de sons mais fácil pra músicos de todos os níveis de habilidade e incentivar maneiras mais inovadoras de usar sintetizadores na produção musical. Nossa meta é continuar empurrando os limites do que é possível com a combinação de sons de sintetizadores e abrir novas oportunidades pra expressão criativa através da tecnologia.

Fonte original

Título: Synthesizer Sound Matching Using Audio Spectrogram Transformers

Resumo: Systems for synthesizer sound matching, which automatically set the parameters of a synthesizer to emulate an input sound, have the potential to make the process of synthesizer programming faster and easier for novice and experienced musicians alike, whilst also affording new means of interaction with synthesizers. Considering the enormous variety of synthesizers in the marketplace, and the complexity of many of them, general-purpose sound matching systems that function with minimal knowledge or prior assumptions about the underlying synthesis architecture are particularly desirable. With this in mind, we introduce a synthesizer sound matching model based on the Audio Spectrogram Transformer. We demonstrate the viability of this model by training on a large synthetic dataset of randomly generated samples from the popular Massive synthesizer. We show that this model can reconstruct parameters of samples generated from a set of 16 parameters, highlighting its improved fidelity relative to multi-layer perceptron and convolutional neural network baselines. We also provide audio examples demonstrating the out-of-domain model performance in emulating vocal imitations, and sounds from other synthesizers and musical instruments.

Autores: Fred Bruford, Frederik Blang, Shahan Nercessian

Última atualização: 2024-07-23 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2407.16643

Fonte PDF: https://arxiv.org/pdf/2407.16643

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes