Simple Science

Ciência de ponta explicada de forma simples

# Engenharia Eletrotécnica e Ciência dos Sistemas# Processamento de Áudio e Fala# Som

DurIAN-E: Avançando a Tecnologia de Texto para Fala

DurIAN-E melhora a fala sintética com uma expressividade e fluidez mais naturais.

― 5 min ler


DurIAN-E: TTS de OutroDurIAN-E: TTS de OutroNívelsuper realista.Modelo de ponta para voz sintética
Índice

A tecnologia de texto para fala (TTS) cria áudio falado a partir de texto. Essa tecnologia é usada em aplicativos como assistentes de voz, sistemas de navegação e leitores de tela. Um dos principais objetivos do TTS é fazer com que a fala sintética soe mais natural e parecida com a humana. Este artigo fala sobre um modelo avançado chamado DurIAN-E que produz uma fala sintética expressiva e de alta qualidade.

Contexto

Os sistemas TTS tradicionais têm dificuldades para gerar uma fala que pareça humana. Métodos anteriores usavam regras e trechos de som gravados, que muitas vezes resultavam em vozes com som robótico. Mas avanços recentes com aprendizado profundo melhoraram significativamente a qualidade da fala sintética. Esses modelos podem gerar vozes que soam mais naturais, mas ainda falta Expressividade.

Expressividade na fala significa transmitir emoções e personalidade. Muitos pesquisadores querem aumentar a expressividade nos sistemas TTS, permitindo que eles imitem melhor os padrões e estilos da fala humana. Existem dois métodos principais para controlar o estilo de fala: um usa rótulos de estilo pré-definidos, enquanto o outro aprende com exemplos falados reais.

O Modelo DurIAN

O modelo DurIAN é um avanço na tecnologia TTS. Ele usa um mecanismo de atenção especial que alinha o texto de entrada ao som produzido. Esse modelo tem uma estrutura que inclui um codificador que processa os fonemas (as menores unidades de som) e um decodificador que gera características acústicas.

O modelo DurIAN também incorpora um modelo de duração. Esse modelo ajuda a prever quanto tempo cada som deve durar, o que reduz erros comuns no TTS, como repetir ou pular palavras. Usando esse modelo, o DurIAN pode produzir uma fala mais precisa e clara.

Apresentando o DurIAN-E

O novo modelo DurIAN-E se baseia no modelo DurIAN original. Ele inclui novas técnicas para melhorar ainda mais a qualidade da fala produzida. Uma inovação é o uso do SwishRNN, um tipo de rede neural que ajuda o modelo a entender melhor o tempo e o ritmo. Isso é importante para fazer a fala soar mais natural, já que a fala humana tem um fluxo natural.

Além disso, o DurIAN-E usa um método avançado chamado Normalização de Instância Adaptativa ao Estilo (SAIN). Isso permite que o modelo ajuste como representa diferentes estilos na fala, o que aumenta sua expressividade. O uso de um denoiser- um mecanismo que limpa a fala gerada- também melhora a clareza da saída.

O Processo de Síntese de Fala

O processo de gerar fala a partir de texto envolve várias etapas. Primeiro, o texto é convertido em fonemas. O modelo DurIAN-E então usa a sequência de fonemas e os limites prosódicos (indicadores de ritmo e estresse) para criar uma sequência de estados ocultos. Isso é expandido com base nas durações previstas para preparar a geração das características acústicas.

Uma vez que os estados ocultos estão prontos, o modelo gera o Mel-espectrograma, uma representação visual do som, quadro a quadro. Essa etapa é onde a compreensão do modelo sobre tempo, ritmo e estilo entra em ação. O mel-espectrograma é então passado por um denoiser, que limpa para uma saída de melhor qualidade.

Importância da Expressividade

A expressividade no TTS é crucial para aplicativos que dependem da transmissão de emoções. Por exemplo, um sistema de navegação pode soar excessivamente robótico se não conseguir expressar urgência ou calma quando necessário. O modelo DurIAN-E visa preencher essa lacuna. Usando várias técnicas, ele aumenta a gama emocional das vozes sintéticas.

Com o DurIAN-E, os sistemas TTS podem usar métodos de controle de estilo de forma eficaz. O modelo pode se adaptar a diferentes estilos de fala, tornando-o adequado para várias aplicações. Essa adaptabilidade significa que os usuários podem escolher como querem que a voz sintética soe- feliz, triste, brava ou neutra.

Resultados Experimentais

O desempenho do DurIAN-E foi testado em comparação com outros sistemas TTS líderes. Em testes de audição subjetivos, usuários compararam a fala sintética do DurIAN-E com a de outros modelos, como FastSpeech e DiffSpeech. Os resultados mostraram que os ouvintes preferiram o DurIAN-E pela sua expressividade e qualidade.

Os testes não apenas mediram quão natural a fala soava, mas também o quão bem transmitia diferentes emoções. As melhorias decorrentes do uso do SwishRNN, SAIN e do denoiser foram evidentes. Os ouvintes relataram que o DurIAN-E produzia uma fala que parecia mais próxima da comunicação humana.

Conclusão

O DurIAN-E representa um avanço significativo na tecnologia TTS. Combinando vários modelos e técnicas, gera uma fala que é tanto de alta qualidade quanto expressiva. Isso torna as vozes sintéticas mais relacionáveis e humanas. À medida que a tecnologia TTS continua a crescer, modelos como o DurIAN-E desempenharão um papel vital em como as máquinas se comunicam com as pessoas.

O trabalho futuro para o DurIAN-E pode focar em aumentar a eficiência, o que ajudaria a diminuir o tempo necessário para produzir fala enquanto mantém a alta qualidade. Esforços para integrar novas inovações poderiam enriquecer ainda mais a expressividade das vozes sintéticas. No final, o objetivo é tornar a tecnologia mais acessível e agradável para todos.

Fonte original

Título: DurIAN-E: Duration Informed Attention Network For Expressive Text-to-Speech Synthesis

Resumo: This paper introduces an improved duration informed attention neural network (DurIAN-E) for expressive and high-fidelity text-to-speech (TTS) synthesis. Inherited from the original DurIAN model, an auto-regressive model structure in which the alignments between the input linguistic information and the output acoustic features are inferred from a duration model is adopted. Meanwhile the proposed DurIAN-E utilizes multiple stacked SwishRNN-based Transformer blocks as linguistic encoders. Style-Adaptive Instance Normalization (SAIN) layers are exploited into frame-level encoders to improve the modeling ability of expressiveness. A denoiser incorporating both denoising diffusion probabilistic model (DDPM) for mel-spectrograms and SAIN modules is conducted to further improve the synthetic speech quality and expressiveness. Experimental results prove that the proposed expressive TTS model in this paper can achieve better performance than the state-of-the-art approaches in both subjective mean opinion score (MOS) and preference tests.

Autores: Yu Gu, Yianrao Bian, Guangzhi Lei, Chao Weng, Dan Su

Última atualização: 2023-09-22 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2309.12792

Fonte PDF: https://arxiv.org/pdf/2309.12792

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes