Simple Science

Ciência de ponta explicada de forma simples

# Engenharia Eletrotécnica e Ciência dos Sistemas# Som# Inteligência Artificial# Processamento de Áudio e Fala

Avanços na Tecnologia de Conversão de Voz Cantada

Revolucionando a produção de áudio ao transformar as vozes dos cantores sem mudar as músicas originais.

― 7 min ler


Avanço na Tecnologia deAvanço na Tecnologia deConversão de Voz Cantadasem regravar.Transformando vozes na produção musical
Índice

A Conversão de Voz para canto é uma tecnologia que permite transformar a voz de um cantor em outra, mantendo a música original. Isso pode mudar a identidade percebida do cantor em uma gravação, o que tem implicações significativas para a indústria da música. Essa tecnologia pode economizar tempo e dinheiro, permitindo que produtores troquem cantores sem precisar regravar as músicas. Embora muita pesquisa tenha focado na conversão de voz na fala, a área de conversão de voz para canto só recentemente começou a receber atenção.

Processo de Conversão de Voz

A conversão de voz funciona usando um sistema que muda a voz. Esse sistema geralmente tem duas partes principais: um codificador e um decodificador. O codificador pega os dados de entrada (a voz do cantor) e divide em embeddings, que são representações que guardam informações importantes sobre a voz. O decodificador então combina esses embeddings com representações da voz do cantor alvo para recriar o áudio no estilo desse cantor.

Um desafio comum é como representar as qualidades únicas da voz de um cantor. A codificação one-hot, um método onde cada cantor é representado como um valor único, limita a capacidade do sistema de lidar com cantores que não faziam parte dos dados de treinamento. Técnicas mais recentes focam em usar embeddings de identidade vocal, que capturam as variações específicas de diferentes cantores sem estar atreladas a rótulos explícitos. Isso permite que o sistema funcione melhor com novos exemplos que não foram vistos.

Desafios na Conversão de Voz

Mesmo com os embeddings de identidade vocal melhorando o processo, ainda existem questões sobre quão bem o sistema consegue separar as características vocais do cantor do conteúdo linguístico (as palavras realmente cantadas). Alguns métodos ajudam a melhorar essa separação, mas ainda podem causar borrão no som. Técnicas como a adição de redes de pós-processamento foram usadas para melhorar a qualidade do áudio após a conversão.

Autoencoders Variacionais (VAEs) e Redes Adversariais Generativas (GANs) também foram testados para conversão de voz. Esses modelos podem ajudar a obter melhores resultados, especialmente na conversão das características de diferentes vozes e até instrumentos.

As funções de perda usadas no treinamento dos modelos desempenham um papel crítico em como eles se saem. Essas funções orientam o modelo sobre o que ele deve buscar durante o treinamento, medindo quão longe a saída está do resultado desejado. Enquanto a maioria dos sistemas usa comparações simples de pixel para perda, métricas mais avançadas consideram características como tom e conteúdo fonético, o que pode levar a resultados melhores.

Nossa Abordagem para Conversão de Voz Cantada

No nosso trabalho, adotamos uma estrutura de autoencoder bem conhecida para estudar a conversão de voz para canto e experimentamos com diferentes funções de perda. A abordagem consiste em um autoencoder onde tanto o codificador quanto o decodificador são condicionados a embeddings únicos de cantores que capturam a essência da voz de cada um.

O processo de treinamento envolveu alimentar o modelo com Mel-espectrogramas, que são representações visuais das características de áudio, em uma certa resolução. Após o treinamento, o modelo pode pegar áudio de um cantor e converter para soar como outro cantor usando os embeddings para guiar.

Implementamos dois tipos de perdas de regressor latente em nossos experimentos: uma baseada em embeddings de gargalo (BN-LR) e outra baseada em embeddings de identidade de cantor (SIE-LR). O objetivo era ver como essas diferentes perdas impactariam a qualidade da conversão de voz.

Treinamento e Dados

Para treinar, usamos um conjunto de dados composto por várias gravações de canto em condições reais, que às vezes incluíam ruído de fundo. Foi essencial limpar os dados removendo partes que não eram de canto para garantir que o modelo aprendesse efetivamente.

A rede SIE foi treinada através de um método auto-supervisionado, permitindo que aprendesse sozinha agrupando gravações do mesmo cantor enquanto as mantinha distintas das de cantores diferentes. O autoencoder foi então treinado em várias configurações, incluindo modelos com apenas perdas de reconstrução ou aqueles com perdas de regressor latente adicionadas.

Para manter a autenticidade da conversão de voz cantada, criamos um algoritmo de correspondência de tom. Isso garantiu que os clipes de áudio convertidos fossem mais precisos ao selecionar cantores-alvo que cantavam em intervalos de tom semelhantes ao cantor fonte.

Avaliando o Desempenho

Para medir quão eficaz era nosso modelo, usamos tanto métricas objetivas quanto avaliações subjetivas de ouvintes. Essa abordagem dupla é vital porque confiar apenas em métricas computacionais pode levar a conclusões enganosas. Ouvintes humanos podem fornecer feedback valioso sobre aspectos da qualidade do áudio que podem não ser percebidos em notas técnicas.

Os participantes avaliaram a naturalidade das vozes convertidas, bem como sua semelhança com as vozes-alvo. Eles ouviram vários clipes de áudio gerados a partir de diferentes versões das configurações do nosso modelo, e calculamos uma pontuação média de opinião (MOS) com base no feedback deles.

Curiosamente, descobrimos que, embora muitas vezes houvesse uma correlação clara entre o quão natural uma voz soava e quão semelhante era à voz-alvo, também havia algumas inversões dependendo das condições de gênero das vozes. Isso sugeriu que os ouvintes podem pesar certas frequências de forma diferente ao julgar a qualidade da conversão.

Resultados e Conclusões

A partir das nossas avaliações, notamos tendências específicas. O modelo que se concentrou apenas na reconstrução teve um desempenho significativamente melhor em termos de naturalidade do que o que adicionou a perda de regressor latente de gargalo. Os resultados indicaram que fazer o decodificador priorizar embeddings de identidade de cantor em vez de apenas informações residuais levou a resultados melhores.

Além disso, enquanto o uso da perda SIE-LR não produziu resultados melhores do que o modelo básico de reconstrução, mostrou potencial, pois ofereceu uma proteção contra o desempenho ruim ligado a limitações do codificador. Isso indicou que, para conjuntos de dados mais extensos e complexos, incluir a perda SIE poderia ser benéfico.

Observamos também que a perda de regressor latente relacionada a embeddings de identidade de cantor levou a conversões mais claras e definidas em comparação com outros métodos. Isso destaca como é importante escolher a função de perda certa no treinamento de modelos de conversão de voz.

Importância das Avaliações Duplas

No geral, nosso trabalho enfatizou a importância de usar avaliações computacionais e humanas ao avaliar tecnologias de conversão de voz. Entender como o modelo opera é crucial, mas, no final das contas, a percepção humana desempenha um papel significativo no sucesso dessas tecnologias. Os resultados indicam um caminho claro para melhorar ainda mais os sistemas de conversão de voz para canto.

Através desta pesquisa, buscamos contribuir para a conversa em andamento sobre conversão de voz e suas aplicações na indústria da música, abrindo novas possibilidades para artistas e produtores. Trabalhos futuros explorarão conjuntos de dados adicionais e expandirão esta pesquisa para refinar as técnicas e resultados que conseguimos até agora.

Fonte original

Título: A Comparative Analysis Of Latent Regressor Losses For Singing Voice Conversion

Resumo: Previous research has shown that established techniques for spoken voice conversion (VC) do not perform as well when applied to singing voice conversion (SVC). We propose an alternative loss component in a loss function that is otherwise well-established among VC tasks, which has been shown to improve our model's SVC performance. We first trained a singer identity embedding (SIE) network on mel-spectrograms of singer recordings to produce singer-specific variance encodings using contrastive learning. We subsequently trained a well-known autoencoder framework (AutoVC) conditioned on these SIEs, and measured differences in SVC performance when using different latent regressor loss components. We found that using this loss w.r.t. SIEs leads to better performance than w.r.t. bottleneck embeddings, where converted audio is more natural and specific towards target singers. The inclusion of this loss component has the advantage of explicitly forcing the network to reconstruct with timbral similarity, and also negates the effect of poor disentanglement in AutoVC's bottleneck embeddings. We demonstrate peculiar diversity between computational and human evaluations on singer-converted audio clips, which highlights the necessity of both. We also propose a pitch-matching mechanism between source and target singers to ensure these evaluations are not influenced by differences in pitch register.

Autores: Brendan O'Connor, Simon Dixon

Última atualização: 2023-02-27 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2302.13678

Fonte PDF: https://arxiv.org/pdf/2302.13678

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes