Simple Science

Ciência de ponta explicada de forma simples

# Engenharia Eletrotécnica e Ciência dos Sistemas# Processamento de Áudio e Fala# Aprendizagem de máquinas# Som

Avanços em Efeitos de Fase Digital

Novo modelo imita efeitos de fase analógicos com técnicas de aprendizado melhoradas.

― 6 min ler


Avanço em Efeitos de FaseAvanço em Efeitos de FaseDigitalanalógico com métodos avançados.O modelo imita efeitos de phasing
Índice

Efeitos de áudio são super importantes na produção musical e design de som. Um tipo comum de efeito é chamado de phasing. O phasing cria um som único mudando a fase de um sinal de áudio. Esse efeito geralmente tá em pedais de guitarra e pode deixar os sons mais interessantes. Entender como recriar esse efeito digitalmente virou um foco pra pesquisadores e engenheiros.

Efeitos de Áudio e Phasing

Efeitos de áudio podem mudar como os sons são percebidos. Phasers criam um som oscilante mudando a fase do sinal. Eles funcionam juntando o sinal original com uma versão modificada que teve a fase alterada. Isso gera “notches” ou buracos no espectro de frequência, que é o que a gente escuta como o efeito de phasing. Embora seja fácil criar versões digitais desses efeitos, muitos músicos preferem o som dos dispositivos analógicos originais.

Desafios na Modelagem Digital

Criar modelos digitais de efeitos analógicos pode ser complicado. Os dispositivos analógicos tradicionais dependem das características físicas dos seus circuitos. Um desafio com os efeitos de phaser é o uso de um oscilador de baixa frequência (LFO), que modula a mudança de fase ao longo do tempo. Os métodos atuais requerem conhecimento prévio do LFO ou não funcionam em tempo real.

Solução Proposta

Uma nova abordagem foi desenvolvida usando um método chamado processamento digital de sinal diferenciável. Esse método permite que o modelo do efeito phaser aprenda tanto o LFO quanto como a resposta espectral muda ao longo do tempo. Processando áudio em quadros curtos, o modelo consegue imitar o comportamento de um pedal phaser analógico.

Componentes do Modelo

O LFO

O LFO é uma parte crucial do efeito phaser. Ele controla como as mudanças de fase variam ao longo do tempo. No modelo proposto, o LFO é gerado de um jeito que permite que ele seja ajustado e aprendido durante o processo de Treinamento. Usando uma função exponencial complexa, o modelo consegue gerar diferentes formas de onda pro LFO, que podem se parecer com os padrões de LFO usados em dispositivos reais.

Perceptron de Múltiplas Camadas

Pra refinar ainda mais os sinais do LFO, um perceptron de múltiplas camadas (MLP) é utilizado. O MLP ajuda o modelo a aprender relações mais complexas entre os sinais de controle e as mudanças de fase. Isso permite uma correspondência melhor com como os dispositivos analógicos funcionam, que podem ter características não lineares que não são facilmente capturadas por modelos mais simples.

Processamento Baseado em Quadros

O modelo processa áudio em quadros. Cada quadro representa um segmento curto de áudio. Isso permite que o modelo trate o phaser como um sistema estável por um breve momento, enquanto ainda captura como ele muda ao longo do tempo. A abordagem baseada em quadros também facilita a otimização do modelo através de um método chamado descida de gradiente.

Treinamento do Modelo

O modelo aprende a partir de exemplos. O treinamento requer pares de entrada-saída de um dispositivo phaser real pra ver como as previsões do modelo se comparam aos resultados reais. Um conjunto de dados único foi criado pro processo de treinamento. O conjunto consistiu em um sinal sintético seguido por gravações de guitarra processadas através de um phaser.

O sinal sintético ajuda no treinamento porque é espectralmente plano. Isso facilita pro modelo aprender os padrões subjacentes do efeito de phasing. As gravações de guitarra fornecem um sinal realista que ajuda o modelo a generalizar seu aprendizado pra música de verdade.

Experimentação

Investigando o Comprimento dos Quadros

Vários experimentos foram realizados pra descobrir como o comprimento dos quadros usados no processamento afeta a precisão do modelo. O modelo foi treinado com diferentes tamanhos de quadro, e os resultados mostraram que quadros mais longos geralmente levam a uma precisão melhor. Isso acontece porque quadros mais longos fornecem mais informações pro modelo aprender. Porém, existem compensações, já que quadros mais longos também introduzem latência, que pode ser problemática pra processamento de áudio em tempo real.

Sinais de Entrada

A escolha dos sinais de entrada também teve um papel no treinamento. Por exemplo, usar um sinal chirp ajuda a fornecer uma ampla gama de frequências, permitindo que o modelo aprenda a criar mudanças de fase em diferentes notas e tons. Gravações de guitarra ajudaram a garantir que o modelo pudesse trabalhar efetivamente com sons do mundo real.

Conclusão

Esse novo modelo apresenta um método promissor pra recriar digitalmente efeitos de phaser. A capacidade de aprender os sinais de controle subjacentes e adaptar os parâmetros permite que ele imite de perto dispositivos analógicos. Os experimentos mostraram que tanto o comprimento dos quadros quanto o tipo de sinais de entrada têm impactos significativos no desempenho do modelo. Trabalhos futuros vão se concentrar em melhorar a precisão do modelo e reduzir a latência, tornando-o mais adequado pra situações de performance ao vivo. Essa abordagem também pode se expandir pra outros tipos de efeitos de áudio, tornando-se uma adição valiosa à tecnologia de processamento de áudio.

Direções Futuras

Enquanto a pesquisa continua, várias áreas-chave pra melhoria foram identificadas. Uma área é refinar o processo de treinamento. Atualmente, o modelo requer um pouco de suposição sobre a frequência do LFO pra funcionar de forma ideal. Encontrar maneiras de eliminar a necessidade dessas suposições iniciais poderia agilizar o processo de treinamento.

Além disso, reduzir a latência é uma alta prioridade. Um modelo em tempo real aumentaria muito a utilidade dessa tecnologia pra músicos e engenheiros de áudio.

Por fim, aplicar essa metodologia a outros efeitos de áudio, como flangers ou efeitos de coro, poderia abrir novas avenidas pra design criativo de som. Aproveitando as forças dessa abordagem, desenvolvedores podem criar simulações digitais mais autênticas de efeitos tradicionais, que podem enriquecer a experiência de criação musical.

Fonte original

Título: Differentiable Grey-box Modelling of Phaser Effects using Frame-based Spectral Processing

Resumo: Machine learning approaches to modelling analog audio effects have seen intensive investigation in recent years, particularly in the context of non-linear time-invariant effects such as guitar amplifiers. For modulation effects such as phasers, however, new challenges emerge due to the presence of the low-frequency oscillator which controls the slowly time-varying nature of the effect. Existing approaches have either required foreknowledge of this control signal, or have been non-causal in implementation. This work presents a differentiable digital signal processing approach to modelling phaser effects in which the underlying control signal and time-varying spectral response of the effect are jointly learned. The proposed model processes audio in short frames to implement a time-varying filter in the frequency domain, with a transfer function based on typical analog phaser circuit topology. We show that the model can be trained to emulate an analog reference device, while retaining interpretable and adjustable parameters. The frame duration is an important hyper-parameter of the proposed model, so an investigation was carried out into its effect on model accuracy. The optimal frame length depends on both the rate and transient decay-time of the target effect, but the frame length can be altered at inference time without a significant change in accuracy.

Autores: Alistair Carson, Cassia Valentini-Botinhao, Simon King, Stefan Bilbao

Última atualização: 2023-06-02 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2306.01332

Fonte PDF: https://arxiv.org/pdf/2306.01332

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes