Avançando a Correspondência de Sons de Sintetizador com Transformador de Espectrograma de Áudio
Um novo método simplifica a correspondência de sons de sintetizadores para músicos.
― 6 min ler
Índice
Os sintetizadores são ferramentas populares para fazer música. Eles criam sons ajustando vários Parâmetros. Mas, configurar esses parâmetros pode ser complicado, especialmente pra quem tá começando a usar sintetizadores. Sistemas que ajustam automaticamente as configurações do Sintetizador pra recriar um som podem simplificar esse processo, tornando tudo mais rápido e fácil pra galera. Com tantos tipos diferentes de sintetizadores por aí, um sistema geral que funcione com várias opções pode ser muito útil.
Neste artigo, a gente apresenta um novo método pra combinar sons de sintetizadores usando uma técnica chamada Audio Spectrogram Transformer. Esse método usa um computador pra analisar sons e depois combina as configurações do sintetizador com esses sons. Nossa pesquisa foi feita com um sintetizador famoso chamado Massive. A gente criou um grande conjunto de dados contendo sons gerados mudando aleatoriamente as configurações do Massive e treinou nosso modelo pra prever as configurações corretas com base nos sons de entrada.
Importância da Combinação de Sons
Ajustar automaticamente os parâmetros do sintetizador pra criar sons específicos não é uma ideia nova. O interesse por esses sistemas existe desde os anos 90. Eles podem ajudar músicos que não manjam muito de criação sonora, além de acelerar o processo pros usuários mais experientes. Esses sistemas de combinação de sons têm potencial pra abrir novas portas criativas, permitindo que músicos usem sons como uma forma de controlar sintetizadores e criar perfis sonoros únicos.
Mas, muitos sistemas existentes exigem um conhecimento prévio de como um sintetizador funciona, o que pode limitar a utilidade deles. Cada sintetizador tem seu próprio conjunto de regras e características, então um modelo projetado pra um pode não funcionar em outro. Isso torna difícil criar um sistema flexível que se adapte a diferentes sintetizadores, especialmente aqueles com configurações complexas.
Algumas abordagens recentes tentaram evitar a necessidade de um conhecimento profundo sobre sintetizadores. Por exemplo, alguns sistemas usam redes neurais convolucionais pra inferir as configurações a partir de entradas de áudio. Outros exploraram variações de redes neurais pra conectar melhor os sons com as configurações que os criaram.
Apresentando o Audio Spectrogram Transformer
Transformers têm ficado cada vez mais populares em várias tarefas, incluindo recuperação de informações musicais. Eles são conhecidos pelo bom desempenho, mas precisam de muitos recursos computacionais e dados. Pra combinar sons em sintetizadores, a gente propõe usar o Audio Spectrogram Transformer como nossa base. Esse método nos permite criar um modelo que funciona com suposições mínimas sobre como os sintetizadores operam.
Nossa abordagem foca em combinar sons prevendo os parâmetros subjacentes usados pra criar aquele som. Dado um sample de áudio, nosso modelo tenta adivinhar os parâmetros do sintetizador, que podem ser usados pra gerar um novo som. O modelo foi treinado em um conjunto de dados especialmente criado com amostras de áudio emparelhadas e suas respectivas configurações de parâmetros do sintetizador.
Como Montamos Nosso Conjunto de Dados
Pra nosso projeto de combinação de sons de sintetizador, a gente criou um conjunto de dados com um milhão de amostras. Cada amostra consistia em um som produzido pelo sintetizador e seu respectivo conjunto de parâmetros. Em vez de usar sons existentes, a gente gerou sons aleatoriamente mudando os parâmetros do sintetizador Massive. Esse método nos permitiu capturar uma ampla variedade de sons e suas configurações associadas.
O processo envolveu gerar um som alimentando o sintetizador com configurações aleatórias e gravando a saída. A gente garantiu que os sons estivessem altos o suficiente pra evitar amostras silenciosas filtrando qualquer áudio abaixo de um certo nível de volume. Esse método nos permitiu amostrar uma gama substancial de configurações do sintetizador e produzir um grande conjunto de dados pra treinar nosso modelo.
Treinamento e Avaliação do Modelo
O processo de treinamento do nosso modelo envolveu alimentá-lo com o conjunto de dados gerado e ensiná-lo a prever as configurações do parâmetro do sintetizador com base na entrada de áudio. Usamos duas métricas principais pra avaliar o desempenho do nosso modelo: erro quadrático médio pra previsão de parâmetros e convergência espectral pra qualidade do áudio.
Quando testamos nosso modelo contra dois métodos estabelecidos, ele mostrou uma vantagem significativa tanto na previsão precisa de parâmetros quanto na recriação de áudio de alta qualidade. Em ambos os casos, nossa abordagem mostrou boas capacidades, até em comparação com Modelos já existentes.
Resultados e Observações
Os resultados mostraram que nosso modelo não só se destacou em prever parâmetros do sintetizador, mas também gerou sons que se pareciam muito com o áudio de entrada. Enquanto o modelo teve um bom desempenho com sons gerados pelo sintetizador Massive, ele também mostrou potencial pra combinar sons de outros instrumentos e até imitações vocais.
Mas, uma área que precisa de melhorias é a capacidade do modelo de prever a afinação com precisão. Em certos casos, pequenas discrepâncias na afinação levaram a diferenças notáveis no áudio resultante. Resolver essas questões poderia aumentar a eficácia da nossa abordagem de combinação de sons.
Direções Futuras
Olhando pra frente, planejamos expandir nossa abordagem trabalhando com conjuntos de parâmetros maiores e mais complexos. Queremos explorar como modelar melhor os vários tipos de parâmetros, incluindo configurações categóricas e contínuas, pra refletir as diversas opções disponíveis em sintetizadores.
Além disso, queremos melhorar o processo de treinamento incorporando variação de afinação, permitindo que nosso modelo se ajuste a diferentes notas musicais de forma mais eficaz. Isso pode ajudar na combinação precisa de sons sem perder qualidade.
Conclusão
Nossa pesquisa demonstra o potencial de usar um Audio Spectrogram Transformer pra criar um sistema flexível e poderoso de combinação de sons de sintetizadores. Ao desenvolver um método que requer suposições mínimas sobre como os sintetizadores funcionam, podemos criar soluções que atendem a uma ampla gama de sons. Os resultados mostram que essa abordagem pode combinar efetivamente sons com as configurações do sintetizador, sugerindo uma avenida promissora pra exploração futura na tecnologia de produção musical.
Trabalhos contínuos nesse campo podem levar a uma criação de sons mais fácil pra músicos de todos os níveis de habilidade e incentivar maneiras mais inovadoras de usar sintetizadores na produção musical. Nossa meta é continuar empurrando os limites do que é possível com a combinação de sons de sintetizadores e abrir novas oportunidades pra expressão criativa através da tecnologia.
Título: Synthesizer Sound Matching Using Audio Spectrogram Transformers
Resumo: Systems for synthesizer sound matching, which automatically set the parameters of a synthesizer to emulate an input sound, have the potential to make the process of synthesizer programming faster and easier for novice and experienced musicians alike, whilst also affording new means of interaction with synthesizers. Considering the enormous variety of synthesizers in the marketplace, and the complexity of many of them, general-purpose sound matching systems that function with minimal knowledge or prior assumptions about the underlying synthesis architecture are particularly desirable. With this in mind, we introduce a synthesizer sound matching model based on the Audio Spectrogram Transformer. We demonstrate the viability of this model by training on a large synthetic dataset of randomly generated samples from the popular Massive synthesizer. We show that this model can reconstruct parameters of samples generated from a set of 16 parameters, highlighting its improved fidelity relative to multi-layer perceptron and convolutional neural network baselines. We also provide audio examples demonstrating the out-of-domain model performance in emulating vocal imitations, and sounds from other synthesizers and musical instruments.
Autores: Fred Bruford, Frederik Blang, Shahan Nercessian
Última atualização: 2024-07-23 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2407.16643
Fonte PDF: https://arxiv.org/pdf/2407.16643
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.