Simple Science

Ciência de ponta explicada de forma simples

# Engenharia Eletrotécnica e Ciência dos Sistemas# Som# Processamento de Áudio e Fala

Melhorando a Recuperação de Distorção em Gravações de Guitarra

Um novo método melhora a clareza nas gravações de guitarra elétrica, lidando com os efeitos de distorção.

― 8 min ler


Método de Recuperação deMétodo de Recuperação deDistorção de Guitarraguitarra elétrica mais claros.Uma nova abordagem para sons de
Índice

Remover efeitos indesejados de gravações de guitarra elétrica deixa a edição e a produção musical mais fáceis. Modelos de recuperação de Distorção ajudam a deixar os sons da guitarra mais claros e oferecem mais opções de mixagem. Embora algumas melhorias tenham sido feitas, muitos modelos anteriores focaram em distorções simples, que talvez não capturem as complexidades reais encontradas nas gravações.

Problema com a Distorção

Efeitos de guitarra, como a distorção, são cruciais em muitos estilos musicais. Eles podem moldar o clima e o caráter de uma música. Porém, esses efeitos também dificultam tarefas como a transcrição musical, pois complicam os sons. Por exemplo, estudos mostraram que usar diferentes efeitos de pedais de guitarra pode prejudicar a precisão da transcrição. Isso mostra que recuperar o som original removendo os efeitos pode melhorar o desempenho em tarefas de análise musical.

Abordagens Anteriores

Pesquisas anteriores abordaram a recuperação de distorção principalmente como um tipo de separação de fontes, assumindo que o sinal distorcido é uma mistura do sinal limpo e do sinal de efeito. Esses métodos usaram várias técnicas para separar o som limpo do distorcido. Embora alguns desses métodos mostrem potencial, eles se concentram em efeitos sintéticos, que podem não representar os sons do mundo real de forma precisa. As diversas características dos efeitos de guitarra reais e os diferentes estilos de tocar tornam essa tarefa ainda mais complexa.

Novas Contribuições

Esse trabalho apresenta uma nova abordagem para a recuperação de distorção, que consiste em duas etapas. A primeira etapa processa o áudio em formato de Mel-spectrograma, e a segunda usa um Vocoder Neural para recriar o som limpo original da guitarra. Comparando nosso método com abordagens existentes, conseguimos mostrar que nosso método preserva mais detalhes das gravações originais.

Para testar nossos modelos, usamos dois tipos de conjuntos de dados: um criado com sons de guitarra simulados e outro de gravações do mundo real usando software comercial. Treinar em ambos os conjuntos ajuda a ver como os modelos se saem em configurações controladas e na vida real.

O Processo de Recuperação de Distorção

As técnicas mais avançadas para recuperar áudio de distorções geralmente assumem que o sinal misturado pode ser representado como uma mistura dos sinais molhados (distorcidos) e secos (limpos). No entanto, ao invés de ver a distorção apenas como ruído, entendemos que ela muda o sinal limpo de maneiras complexas. Nossa nova abordagem reconhece que a distorção altera dramaticamente o som e propõe um processo de recuperação em duas etapas.

Na primeira etapa, nosso objetivo é recuperar uma aproximação do sinal limpo a partir do distorcido. A segunda etapa foca em restaurar os detalhes mais finos do sinal limpo estimado para conseguir resultados de alta qualidade.

Mel Denoiser: A Primeira Etapa

Para começar o processo, convertemos o sinal de áudio molhado em um Mel espectrograma. Tratamos cada quadro do Mel espectrograma como uma camada, adequada para modelos baseados em Transformer que processam sequências de forma eficaz. Em vez de usar métodos convencionais que podem ser pesados computacionalmente, modificamos a arquitetura para melhorar a eficiência e a eficácia do processo de remoção de ruído.

Neural Vocoder: A Segunda Etapa

Na segunda etapa, transformamos o Mel espectrograma de volta em uma forma de onda de áudio limpa usando um vocoder neural chamado HiFi-GAN. Essa ferramenta ajuda a gerar áudio de alta qualidade a partir do Mel espectrograma, construindo gradualmente a forma de onda para corresponder ao som original.

Configuração Experimental

Para os experimentos, usamos sinais de áudio amostrados a uma taxa padrão de 44,1 kHz, com 128 bins no Mel-spectrograma. Nosso Mel Denoiser é composto por vários blocos projetados para melhorar o processo de remoção de ruído. Treinamos tanto o Mel Denoiser quanto o vocoder neural e ajustamos o último para garantir saídas de alta qualidade.

Modelos de Referência para Comparação

Para ver como nosso modelo se saiu, o comparamos com três modelos notáveis: Demucs V3, DCUnet e HiFi-GAN Denoiser. Cada um desses modelos teve sucesso em tarefas relacionadas ao processamento de áudio, como remoção de ruído e melhoria da qualidade sonora.

Demucs V3 é projetado para separar várias fontes musicais, enquanto DCUnet se destaca em lidar com sinais de áudio complexos. HiFi-GAN Denoiser foca em remover diferentes tipos de ruído e distorções de gravações. Também testamos uma versão simplificada do nosso modelo para entender como menos parâmetros afetam o desempenho.

Conjuntos de Dados Usados nos Experimentos

Usamos dois conjuntos de dados diferentes para nossos experimentos. O primeiro é uma coleção de sinais pareados criada em um ambiente controlado. Este conjunto inclui mais de 80 horas de sinais secos e molhados de guitarristas profissionais, coletados garantindo privacidade e consentimento.

O segundo conjunto inclui efeitos de distorção sintética criados usando software de guitarra. Isso ajuda a comparar o desempenho do nosso modelo com pesquisas anteriores que se basearam principalmente em dados sintéticos.

Métricas de Avaliação

Para avaliar como nossos modelos se saíram, usamos métricas objetivas e subjetivas. As métricas objetivas incluem Fréchet Audio Distance (FAD), Error-to-Signal Ratio (ESR), Scale-Invariant Signal-to-Distortion Ratio (SI-SDR) e outras que medem quão próximo o áudio reconstruído está do som original.

As avaliações subjetivas envolveram músicos profissionais avaliando a Qualidade do Áudio e a eficácia da remoção de distorções. Isso ajuda a capturar a qualidade sonora percebida, já que a percepção humana pode diferir bastante das métricas numéricas.

Resultados e Discussão

Ao comparar os modelos, nossa abordagem mostrou resultados promissores. Ela alcançou a menor pontuação de FAD, indicando que nossa saída estava mais parecida com o som limpo alvo. Nosso modelo também obteve o maior valor de SI-SDR, mostrando sua capacidade de preservar a clareza do sinal original.

Embora Demucs V3 tenha tido a menor pontuação de ESR, não se saiu tão bem quanto nosso modelo em outras áreas. O DCUnet proporcionou processamento eficiente, mas ficou para trás em termos de desempenho geral. Os resultados do nosso modelo base mostraram um bom desempenho devido a menos parâmetros treináveis sem sacrificar muita qualidade.

Comparação dos Dados de Treinamento

Analisando o desempenho em diferentes conjuntos de dados, ficou claro que os modelos treinados com dados sintéticos tiveram dificuldade com gravações do mundo real. Em contraste, modelos treinados com dados derivados de VST mostraram uma melhoria significativa em várias métricas de avaliação, confirmando que a qualidade dos dados de treinamento afeta significativamente o desempenho do modelo.

Avaliações de Qualidade Subjetiva

Ao avaliar a qualidade do áudio e a extensão da remoção de distorções, nosso modelo recebeu notas altas dos ouvintes. A maioria avaliou a qualidade do áudio em cerca de 4 pontos, indicando uma percepção favorável da saída. Da mesma forma, as notas para os níveis de secura sugeriram que nosso modelo restaurou efetivamente o som natural da guitarra.

A análise pós-avaliação mostrou diferenças significativas nas avaliações entre os modelos, reafirmando que nosso modelo teve um desempenho melhor que os outros em termos de qualidade sonora.

Estudo de Ablação da Arquitetura do Modelo

Um estudo de ablação foi realizado para explorar como o tamanho do modelo afeta as saídas e como o ajuste fino do vocoder influencia o desempenho. O modelo maior geralmente produziu sons de melhor qualidade, especialmente em áudio complexo. Embora o ajuste fino do vocoder reduza certos artefatos, ele não superou o modelo base em todas as métricas.

Conclusão

Desenvolvemos um método em duas etapas para remover efeitos de áudio de faixas de guitarra, melhorando a recuperação de distorção. Nossa abordagem combina a limpeza do Mel-spectrograma com a reconstrução de áudio de alta fidelidade. Através de uma avaliação extensiva com vários plugins, demonstramos a eficácia do nosso modelo em remover distorções complexas que métodos anteriores tiveram dificuldade.

Trabalhos futuros podem envolver testar nosso modelo com gravações desafiadoras do mundo real e aplicá-lo a tarefas relacionadas, como a transcrição automática de música. Nossas descobertas destacam os benefícios de usar dados de alta qualidade para treinar modelos para melhor desempenho em aplicações práticas.

Fonte original

Título: Distortion Recovery: A Two-Stage Method for Guitar Effect Removal

Resumo: Removing audio effects from electric guitar recordings makes it easier for post-production and sound editing. An audio distortion recovery model not only improves the clarity of the guitar sounds but also opens up new opportunities for creative adjustments in mixing and mastering. While progress have been made in creating such models, previous efforts have largely focused on synthetic distortions that may be too simplistic to accurately capture the complexities seen in real-world recordings. In this paper, we tackle the task by using a dataset of guitar recordings rendered with commercial-grade audio effect VST plugins. Moreover, we introduce a novel two-stage methodology for audio distortion recovery. The idea is to firstly process the audio signal in the Mel-spectrogram domain in the first stage, and then use a neural vocoder to generate the pristine original guitar sound from the processed Mel-spectrogram in the second stage. We report a set of experiments demonstrating the effectiveness of our approach over existing methods, through both subjective and objective evaluation metrics.

Autores: Ying-Shuo Lee, Yueh-Po Peng, Jui-Te Wu, Ming Cheng, Li Su, Yi-Hsuan Yang

Última atualização: 2024-07-23 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2407.16639

Fonte PDF: https://arxiv.org/pdf/2407.16639

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes