Simple Science

Ciência de ponta explicada de forma simples

# Engenharia Eletrotécnica e Ciência dos Sistemas# Som# Computação e linguagem# Processamento de Áudio e Fala

DiCon: Uma Nova Abordagem para Síntese de Fala

Apresentando um método mais rápido para síntese de fala de alta qualidade usando modelos de difusão.

― 7 min ler


Síntese de Fala MaisSíntese de Fala MaisRápida com DiConqualidade da geração de fala.Um método que melhora a velocidade e
Índice

A Síntese de Fala é o processo de criar linguagem falada usando computadores. Isso envolve transformar texto em fala. Essa tecnologia é usada em várias aplicações, como assistentes virtuais, ferramentas de acessibilidade e anúncios automáticos. Existem diferentes métodos para sintetizar fala, cada um com seus pontos fortes e fracos.

Entendendo os Modelos de Geração de Fala

Ao longo dos anos, modelos de aprendizado profundo foram amplamente adotados para a síntese de fala. Esses modelos usam estruturas complexas para aprender com grandes conjuntos de dados de linguagem falada. Algumas técnicas populares incluem Redes Adversariais Generativas (GANs) e Métodos baseados em verossimilhança.

Redes Adversariais Generativas (GANs)

As GANs consistem em duas redes que trabalham uma contra a outra: um gerador que cria fala e um discriminador que tenta descobrir se a fala é real ou falsa. Embora as GANs possam produzir fala de alta qualidade, elas costumam ser difíceis de treinar devido à sua instabilidade. Isso as torna menos confiáveis para algumas aplicações.

Métodos Baseados em Verossimilhança

As abordagens baseadas em verossimilhança incluem modelos autorregressivos, modelos baseados em fluxo e modelos baseados em Codificadores Variacionais. Essas técnicas geralmente geram fala amostra por amostra. No entanto, essa geração sequencial pode ser lenta e requer muitos cálculos, tornando-os inadequados para aplicações em tempo real.

O Papel dos Modelos de Difusão

Uma abordagem mais nova na síntese de fala é o modelo probabilístico de difusão. Essa técnica adiciona ruído aos dados de fala de maneira sistemática e depois tenta recuperar os dados originais removendo o ruído. Embora os modelos de difusão possam criar fala bem realista, eles requerem muitos passos durante o processo de geração, o que pode desacelerar as coisas.

Resolvendo o Problema de Velocidade

Os pesquisadores perceberam que a velocidade baixa dos modelos de difusão pode ser um problema para aplicações no mundo real. Para lidar com isso, várias técnicas têm sido exploradas para encurtar o número de passos necessários para gerar fala. Alguns métodos existentes envolvem mudar como o ruído é gerenciado durante o processo de geração.

Nossa Técnica Proposta: DiCon

Nosso método, chamado DiCon, tem como objetivo acelerar a síntese de fala usando modelos de difusão. A ideia principal por trás do DiCon é usar camadas de rede neural para melhorar o processo de recuperação da fala original a partir do ruído.

Transferência de Conteúdo

A abordagem envolve um conceito chamado transferência de conteúdo. Aqui, camadas de uma rede neural são treinadas para produzir representações que se encaixam de perto nas diferentes etapas do processo de ruído. Isso ajuda a criar uma transição mais suave do ruído de volta para a fala clara.

Parâmetro de Salto

Para aprimorar o processo, introduzimos um parâmetro de salto. Esse parâmetro nos permite conectar certas camadas da rede neural a múltiplos passos no processo de ruído. Fazendo isso, conseguimos remover mais ruído em menos passos, tornando a síntese mais rápida enquanto ainda mantemos a qualidade.

Processo de Remoção de Ruído Explicado

O método proposto recebe ruído branco e o processa através de múltiplas camadas de uma rede neural treinada. Em cada camada, o modelo trabalha para reduzir gradualmente o ruído. Ao mesmo tempo, ele consulta os dados originais de fala para informar seus ajustes. Cada camada aprende a lidar com uma parte menor do ruído, levando a uma fala mais clara.

Representações por Camada

Usando um modelo pré-treinado como o Wav2Vec 2.0, conseguimos gerar representações eficazes da fala. Esse modelo decompõe o áudio em características úteis para nosso processo. Durante a geração reversa, essas representações guiam a rede enquanto ela reduz o ruído.

Geração de Fala Condicional e Incondicional

A síntese de fala pode ser feita de duas maneiras principais: condicional e incondicional.

Geração de Fala Condicional

Na geração condicional, o modelo usa características específicas da fala desejada, como entonação ou emoção, para guiar a síntese. Isso ajuda a saída final a soar mais natural e alinhada com a mensagem pretendida. Usando entradas adicionais como espectrogramas de Mel-representações visuais do som-nosso modelo pode ajustar suas saídas com base nessas características.

Geração de Fala Incondicional

Em contraste, a geração incondicional não se baseia em características específicas. Em vez disso, o modelo gera fala a partir de ruído aleatório, criando diferentes tipos de saídas. Embora isso possa levar a resultados variados, às vezes pode resultar em fala menos coerente. Até agora, nosso modelo mostrou a capacidade de criar fala clara e compreensível mesmo com entradas aleatórias.

Avaliação do DiCon

Para ver como nossa técnica funcionou, realizamos várias avaliações usando conjuntos de dados de fala populares. Comparamos o DiCon com vários modelos existentes em diferentes aspectos, incluindo qualidade de fala e velocidade.

Conjuntos de Dados Usados

Para nossos testes, usamos dois conjuntos de dados bem conhecidos:

  1. Conjunto de Dados LJSpeech: Consiste em clipes de áudio de um único falante, permitindo avaliar a síntese de uma voz.
  2. Conjunto de Dados VCTK: Inclui vários falantes com diferentes sotaques. Isso ajuda a avaliar quão bem nosso modelo se generaliza para diferentes vozes.

Treinamento e Teste

Durante o treinamento, os modelos foram desenvolvidos em uma GPU poderosa usando técnicas de otimização especiais para aprimorar seu desempenho. Para garantir uma comparação justa, geramos amostras tanto do nosso modelo quanto de algoritmos líderes existentes.

Métricas de Avaliação

Usamos várias métricas para medir o desempenho:

  • Mean Opinion Score (MOS): Esse é uma medida subjetiva onde ouvintes avaliam a qualidade das amostras de fala em uma escala.
  • Short-time Objective Intelligibility (STOI): Esse algoritmo avalia quão inteligível a fala soa.
  • Perceptual Evaluation of Speech Quality (PESQ): Isso avalia a qualidade com base nas classificações humanas.
  • Deep Noise Suppression MOS: Isso mede a qualidade geral da fala sem nenhuma referência.

Resultados e Descobertas

Os resultados do uso do DiCon mostraram melhorias promissoras tanto na qualidade da fala quanto na velocidade em comparação com métodos existentes.

Resultados de Um Único Falante

Para o conjunto de dados de um único falante, nosso modelo alcançou uma alta pontuação MOS, apenas um pouco abaixo das pontuações de verdade. Em termos de métricas objetivas, o DiCon superou os outros modelos, gerando fala clara e compreensível rapidamente.

Resultados de Múltiplos Falantes

Quando testado com o conjunto de dados de múltiplos falantes, nosso método demonstrou sua capacidade de lidar com diferentes vozes de forma eficaz. As pontuações MOS estavam novamente próximas da verdade, indicando que nosso modelo pode criar saídas de fala diversas e de alta qualidade.

Resultados Incondicionais

Na geração de fala incondicional, o DiCon produziu amostras que mostraram coerência inicial, mas precisavam de melhorias para mantê-la por durações mais longas. No entanto, o áudio gerado estava limpo, com ruído de fundo mínimo, indicando um desempenho sólido.

Conclusão

Em conclusão, apresentamos o DiCon como um novo método para aprimorar a síntese de fala usando modelos de difusão. Aproveitando camadas de rede neural e transferência de conteúdo, conseguimos produzir fala de alta qualidade mais rapidamente do que os métodos tradicionais. Nossas avaliações indicam que o DiCon alcança resultados competitivos, tornando-se um avanço promissor no campo da síntese de fala. O trabalho futuro envolverá o aprimoramento da coerência de amostras de áudio mais longas e a melhoria adicional das capacidades do modelo.

Fonte original

Título: Speeding Up Speech Synthesis In Diffusion Models By Reducing Data Distribution Recovery Steps Via Content Transfer

Resumo: Diffusion based vocoders have been criticised for being slow due to the many steps required during sampling. Moreover, the model's loss function that is popularly implemented is designed such that the target is the original input $x_0$ or error $\epsilon_0$. For early time steps of the reverse process, this results in large prediction errors, which can lead to speech distortions and increase the learning time. We propose a setup where the targets are the different outputs of forward process time steps with a goal to reduce the magnitude of prediction errors and reduce the training time. We use the different layers of a neural network (NN) to perform denoising by training them to learn to generate representations similar to the noised outputs in the forward process of the diffusion. The NN layers learn to progressively denoise the input in the reverse process until finally the final layer estimates the clean speech. To avoid 1:1 mapping between layers of the neural network and the forward process steps, we define a skip parameter $\tau>1$ such that an NN layer is trained to cumulatively remove the noise injected in the $\tau$ steps in the forward process. This significantly reduces the number of data distribution recovery steps and, consequently, the time to generate speech. We show through extensive evaluation that the proposed technique generates high-fidelity speech in competitive time that outperforms current state-of-the-art tools. The proposed technique is also able to generalize well to unseen speech.

Autores: Peter Ochieng

Última atualização: 2024-11-22 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2309.09652

Fonte PDF: https://arxiv.org/pdf/2309.09652

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais do autor

Artigos semelhantes