Simple Science

Ciência de ponta explicada de forma simples

# Engenharia Eletrotécnica e Ciência dos Sistemas# Processamento de Áudio e Fala# Som

Avanços na Transferência de Estilo de Texto para Fala

Novas técnicas melhoram a qualidade da fala expressiva entre diferentes falantes.

― 6 min ler


Enfrentando os DesafiosEnfrentando os Desafiosda Transferência deEstilo em TTSTTS e a semelhança do falante.Dados sintéticos melhoram a qualidade
Índice

Criar uma fala que soe natural e expressiva é uma tarefa difícil no campo da tecnologia de texto-para-fala (TTS). Um grande desafio é transferir o estilo de um falante para outro, mantendo a voz única de cada um intacta. Isso é especialmente complicado quando não há dados suficientes de falantes expressivos. Nessas situações, técnicas como Conversão de Voz (VC) ajudam a produzir uma fala expressiva ao modificar a voz de um falante fonte para se ajustar ao estilo de um falante alvo.

Contexto

Para produzir fala expressiva para diferentes falantes, usa-se a transferência de estilo entre falantes. Esse método permite transferir o estilo de fala de um falante de referência para um falante alvo, mesmo que o falante alvo só tenha gravações neutras. No entanto, alcançar qualidade nessa transferência de estilo não é fácil, principalmente ao tentar separar diferentes aspectos de uma voz: a identidade do falante e seu estilo de fala.

Nos últimos anos, os pesquisadores desenvolveram novos métodos para abordar esse problema. Alguns métodos envolvem usar um módulo conhecido como Encoder de Referência (RE) para criar uma representação de estilo a partir de um clipe de áudio de referência. Essa representação de estilo pode ser usada em modelos TTS para ajudar a controlar como a fala soa. No entanto, o desafio do vazamento do falante permanece, onde informações sobre a voz do falante original influenciam involuntariamente a saída.

O Papel da Conversão de Voz

Modelos de conversão de voz desempenham um papel crucial na criação de fala sintética expressiva, especialmente quando os dados são escassos. Esses modelos pegam gravações regulares e neutras de um falante e as convertem em fala expressiva que transmite emoções ou estilos de fala específicos. A qualidade dessas vozes convertidas afeta o desempenho geral do modelo TTS.

Nessa abordagem, os pesquisadores desenvolvem um modelo de conversão de voz que ajuda a gerar Dados Sintéticos, que podem ser usados para treinar o sistema TTS. Aplicando técnicas como perturbação de timbre, que modifica as características vocais do falante, os pesquisadores buscam criar um Codificador de Estilo que possa produzir representações melhores de estilos de fala sem vazar a identidade do falante.

Geração de Dados Sintéticos

Para criar dados sintéticos, foi usado um modelo de conversão de voz único. Esse modelo processa áudio usando vários codificadores que capturam diferentes características vocais, como a identidade do falante, o conteúdo falado e o tom emocional. Ao empregar esses codificadores, o modelo pode separar e manipular efetivamente os diferentes aspectos da fala para produzir vozes sintéticas de alta qualidade.

Por exemplo, o modelo analisa o tom, o ritmo e a altura da voz, garantindo que o conteúdo continue compreensível. Ao treinar esse modelo e ajustá-lo com conjuntos de dados específicos, os pesquisadores podem gerar uma grande quantidade de fala expressiva sintética que pode ser utilizada na estrutura TTS.

Treinando o Codificador de Estilo e o Modelo TTS

O processo de treinar o modelo TTS envolve duas etapas principais. Inicialmente, o codificador de estilo é pré-treinado usando os dados sintéticos gerados pelo modelo de conversão de voz. Essa fase foca em criar representações fortes de diferentes estilos de fala, evitando qualquer vazamento de informações do falante. A segunda etapa envolve usar o codificador de estilo pré-treinado no treinamento do TTS, onde ele permanece inalterado.

Durante o treinamento, são utilizados dados originais e sintéticos. Essa combinação garante que o modelo TTS aprenda a transferir estilos de um falante para outro de forma eficaz, mantendo um som natural.

Três experimentos principais foram realizados para avaliar o impacto do uso de dados sintéticos em vários cenários de treinamento:

  1. Synth None: Apenas dados expressivos originais são usados para treinamento.
  2. Synth TTS: Dados sintéticos são adicionados apenas durante a fase de treinamento do TTS.
  3. Synth Both: Dados sintéticos estão incluídos durante as fases de treinamento do codificador de estilo e do TTS.

Resultados e Observações

Os resultados dos experimentos mostraram variações significativas na qualidade da fala gerada com base na configuração de treinamento. Os resultados indicaram que o uso de dados sintéticos, especialmente no cenário Synth Both, levou a uma maior naturalidade e similaridade do falante na fala resultante.

No entanto, ao focar na intensidade do estilo-quão bem o sistema captura as nuances de estilos de fala específicos-algumas configurações tiveram desempenhos diferentes. Curiosamente, enquanto a configuração Synth None teve um bom desempenho na intensidade do estilo para certos estilos, isso aconteceu às custas da naturalidade. Isso ressalta o equilíbrio necessário entre capturar o estilo e manter um som natural.

O estudo continuou a avaliar quão bem a voz sintética se assemelha aos falantes originais. Descobriu-se que utilizar os dados sintéticos durante o treinamento do TTS melhorou significativamente a similaridade do falante, fazendo com que a fala sintética gerada soasse mais próxima de falantes reais.

Transferência de Acento Entre Idiomas

A eficácia da abordagem também foi testada em um cenário entre idiomas. Ao tentar transferir acentos de falantes de inglês e espanhol para falantes de português brasileiro, os pesquisadores queriam ver se as mesmas técnicas funcionariam em diferentes idiomas. Os resultados mostraram que a incorporação de dados sintéticos permitiu uma transferência de acento bem-sucedida, melhorando também a naturalidade e clareza da fala gerada.

Usando vozes sintéticas de um modelo de conversão de voz, foi possível criar saídas que carregavam acentos específicos, mesmo quando os falantes neutros originais não foram treinados nesses acentos. Esse é um passo promissor para criar sistemas TTS multilíngues que possam soar autênticos, independentemente do idioma ou do acento utilizado.

Conclusão

Os desafios envolvidos na transferência de estilo entre falantes em cenários de dados expressivos de baixo recurso são significativos, mas não insuperáveis. Ao usar dados sintéticos, os pesquisadores encontraram maneiras de melhorar tanto a naturalidade quanto a similaridade do falante na fala gerada. Embora a intensidade do estilo possa flutuar com base na qualidade dos modelos de conversão de voz, integrar vozes sintéticas pode ajudar a alcançar um equilíbrio entre estilo e naturalidade.

Os esforços futuros se concentrarão em aprimorar essas técnicas utilizando conjuntos de dados expressivos entre idiomas, permitindo um melhor desempenho mesmo em idiomas com menos vozes expressivas disponíveis. A exploração contínua de dados sintéticos e conversão de voz oferece caminhos promissores para sistemas TTS mais naturais e expressivos, fazendo com que vozes digitais soem mais humanas em vários idiomas e estilos de fala.

Fonte original

Título: Exploring synthetic data for cross-speaker style transfer in style representation based TTS

Resumo: Incorporating cross-speaker style transfer in text-to-speech (TTS) models is challenging due to the need to disentangle speaker and style information in audio. In low-resource expressive data scenarios, voice conversion (VC) can generate expressive speech for target speakers, which can then be used to train the TTS model. However, the quality and style transfer ability of the VC model are crucial for the overall TTS model quality. In this work, we explore the use of synthetic data generated by a VC model to assist the TTS model in cross-speaker style transfer tasks. Additionally, we employ pre-training of the style encoder using timbre perturbation and prototypical angular loss to mitigate speaker leakage. Our results show that using VC synthetic data can improve the naturalness and speaker similarity of TTS in cross-speaker scenarios. Furthermore, we extend this approach to a cross-language scenario, enhancing accent transfer.

Autores: Lucas H. Ueda, Leonardo B. de M. M. Marques, Flávio O. Simões, Mário U. Neto, Fernando Runstein, Bianca Dal Bó, Paula D. P. Costa

Última atualização: 2024-09-25 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2409.17364

Fonte PDF: https://arxiv.org/pdf/2409.17364

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Artigos semelhantes