Avanços na Tecnologia de Conversão de Voz
Um novo modelo melhora a conversão de voz ao simplificar técnicas de separação de fala.
― 7 min ler
Índice
Conversão de Voz (CV) é uma técnica que muda a voz de uma pessoa para soar como a de outra, mantendo o mesmo Conteúdo falado. Esse método pode ser útil pra várias aplicações, como dublagem em filmes ou criação de vozes de IA pra assistentes virtuais. Pra CV funcionar bem, a fala precisa ser dividida em diferentes partes: conteúdo (o que é dito), Timbre (a qualidade única da voz), Ritmo (a velocidade da fala) e altura (quão alta ou baixa a voz soa).
No entanto, muitos métodos existentes só focam no conteúdo e no timbre, o que pode fazer a fala soar artificial. Alguns métodos mais novos conseguem separar a fala em diferentes partes, mas precisam de muito esforço manual pra ajustar as configurações ou usar recursos específicos que precisam ser projetados com antecedência.
Nesta discussão, um novo modelo de CV é apresentado, que consegue separar automaticamente a fala em todas as quatro partes com apenas dois ajustes simples, sem precisar de sintonização complicada ou um monte de recursos pré-projetados. Esse modelo é direto e mostra resultados melhores que os modelos anteriores, tanto na separação das partes da fala quanto na naturalidade do resultado.
Conversão de Voz Explicada
A conversão de voz permite que uma voz "pegue emprestadas" as características de outra enquanto diz as mesmas palavras. Isso pode ser útil em situações como pós-produção de filmes, onde a voz de um ator precisa combinar com a animação ou outro ator. Também pode ser aplicada em tecnologias de suporte, onde as vozes podem ser alteradas pra atender a diferentes preferências dos usuários.
Com o avanço da tecnologia, os métodos de CV também melhoraram. Alguns sistemas mais complexos usam modelos secundários, como aqueles que convertem fala em texto ou vice-versa, pra ajudar a gerar a voz desejada. Embora esses métodos possam produzir bons resultados, podem ser difíceis de implementar e exigem esforços significativos de treinamento.
Uma abordagem mais simples e emergente foca em quebrar a fala em seus componentes fundamentais, como conteúdo e características do falante (timbre). Esses métodos ganharam popularidade porque não precisam dos modelos adicionais e são mais fáceis de treinar. No entanto, nem todos os aspectos da fala são levados em conta; componentes como ritmo e altura costumam ser deixados de lado. Se um sistema considera apenas o timbre, a voz resultante pode soar menos expressiva e natural.
Modelos Existentes
Dois modelos notáveis, conhecidos como SpeechSplit e SpeechSplit2.0, tentam separar esses componentes da fala de forma eficaz. Ambos os modelos usam uma estrutura semelhante com diferentes codificadores para conteúdo, ritmo e altura, além de um decodificador pra combinar essas partes em uma saída final de voz.
No SpeechSplit, o modelo usa diferentes recursos criados manualmente pra cada tipo de codificador. Isso requer um ajuste cuidadoso das configurações, muitas vezes sacrificando a qualidade da voz gerada. O SpeechSplit2.0 melhora seu antecessor usando técnicas de processamento de sinal mais avançadas, mas ainda depende bastante desses recursos feitos à mão.
O objetivo é encontrar uma maneira de separar os componentes da fala sem tanto esforço manual. Uma solução automática pode economizar tempo e criar resultados melhores, reduzindo o viés introduzido por decisões humanas na seleção de recursos.
Abordagem Proposta
O novo modelo de CV proposto aqui compartilha algumas semelhanças com modelos existentes. No entanto, tem uma diferença chave: consegue separar automaticamente a fala em seus quatro componentes usando apenas duas modificações na fala-mudando a altura e ajustando o ritmo. Isso elimina a necessidade de múltiplos recursos feitos à mão e tira o processo tedioso de ajuste.
Inspirado em trabalhos realizados em áreas relacionadas, esse modelo inclui um módulo de Ranking que ajuda a identificar representações eficazes da fala a partir dos dados. O modelo é treinado pra classificar a fala original contra suas versões modificadas. Por exemplo, se a altura é elevada, o modelo classificará a versão modificada mais alta na representação de altura, mantendo as pontuações de ritmo as mesmas.
Usando uma abordagem que permite ao modelo focar no conteúdo central, separado das mudanças de altura e ritmo, o modelo consegue discernir exatamente as características relevantes para cada componente da fala.
Processo de Treinamento
O modelo consiste em várias etapas. Inicialmente, múltiplos codificadores extraem informações relevantes para conteúdo, ritmo e altura da fala de entrada. O processo começa modificando os dados de fala com as duas funções de aumento-mudando a altura e o ritmo. Cada vez que a fala é modificada, isso é feito aleatoriamente pra evitar overfitting.
Uma vez aumentado, a fala original e a modificada são alimentadas em codificadores separados pra extrair as respectivas representações de conteúdo, ritmo e altura. Após extrair essas características, o modelo aplica um mecanismo de classificação pra garantir que as representações produzidas sejam efetivamente separadas.
A próxima etapa envolve treinar o decodificador, que combina todos os componentes pra gerar a voz convertida final. Diferente dos métodos anteriores que realizam todo o treinamento de uma vez, esse modelo treina os codificadores primeiro antes de passar pro decodificador. Esse método de duas etapas ajuda a melhorar os resultados.
Configuração do Experimento
O modelo foi treinado e avaliado usando o corpus VCTK, um conjunto de dados bem reconhecido pra tarefas de conversão de voz. Esse conjunto de dados apresenta gravações de vários falantes de inglês, onde cada falante leu várias frases. As gravações de áudio foram processadas pra extrair certas características, deixando-as prontas pro treinamento do modelo.
Foi feita uma comparação base contra o modelo SpeechSplit2.0, que já é estabelecido como um forte desempenho nessa área. Vários testes foram realizados pra avaliar a eficácia do modelo proposto em relação a essa linha de base.
Métodos de Avaliação
Pra avaliar de forma completa como o novo modelo se saiu, diferentes métodos de teste foram usados. Um teste focou em medir a "taxa de conversão", onde os participantes ouviram amostras de fala e determinaram qual estava mais próxima em altura, ritmo ou timbre da voz sintetizada. Isso pode mostrar quão efetivamente o modelo separou os componentes da fala.
Outro método de avaliação envolveu uma Pontuação Média de Opinião (MOS), onde os ouvintes avaliaram a naturalidade da fala gerada em uma escala de ruim a excelente. Os resultados mostraram que o novo modelo produziu consistentemente uma fala que soava mais natural em comparação com a linha de base.
A Taxa de Erro de Caracteres (CER) foi usada em outro teste pra medir quão bem o conteúdo da fala original foi preservado na fala convertida, comparando as diferenças na precisão linguística. Resultados mais baixos de CER sugeriram um desempenho melhor na preservação do conteúdo.
Além disso, as características de altura foram avaliadas usando o Coeficiente de Correlação de Pearson, que mede quão de perto os padrões de altura de duas amostras de fala combinam. Essa avaliação demonstrou ainda mais a eficácia do modelo em capturar os aspectos essenciais da fala.
Conclusões
O modelo de conversão de voz proposto mostra um grande potencial em separar a fala em seus componentes críticos automaticamente. Usando apenas duas transformações simples, ele evita as complicações encontradas em métodos anteriores que dependiam de muito manuseio e ajuste manual.
Os resultados indicam que esse novo modelo atinge um desempenho melhor não só na separação dos componentes da fala, mas também na geração de vozes que soam mais naturais. O trabalho representa um passo significativo pra frente na tecnologia de conversão de voz e abre novas possibilidades pra aplicações em entretenimento e interfaces guiadas por IA.
Título: Automatic Speech Disentanglement for Voice Conversion using Rank Module and Speech Augmentation
Resumo: Voice Conversion (VC) converts the voice of a source speech to that of a target while maintaining the source's content. Speech can be mainly decomposed into four components: content, timbre, rhythm and pitch. Unfortunately, most related works only take into account content and timbre, which results in less natural speech. Some recent works are able to disentangle speech into several components, but they require laborious bottleneck tuning or various hand-crafted features, each assumed to contain disentangled speech information. In this paper, we propose a VC model that can automatically disentangle speech into four components using only two augmentation functions, without the requirement of multiple hand-crafted features or laborious bottleneck tuning. The proposed model is straightforward yet efficient, and the empirical results demonstrate that our model can achieve a better performance than the baseline, regarding disentanglement effectiveness and speech naturalness.
Autores: Zhonghua Liu, Shijun Wang, Ning Chen
Última atualização: 2023-06-21 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2306.12259
Fonte PDF: https://arxiv.org/pdf/2306.12259
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.