Um Novo Método Leve para Tecnologia de Text-to-Speech
Esse artigo apresenta um sistema TTS mais eficiente que se adapta aos falantes.
― 6 min ler
Índice
A tecnologia de Texto-para-fala (TTS) evoluiu muito na geração de fala natural a partir de texto. Métodos recentes conseguem reproduzir bem as características únicas de diferentes falantes. No entanto, muitos desses sistemas são bem grandes e não são adequados para uso diário, como em smartphones ou dispositivos pequenos. Este artigo fala sobre um novo método mais leve para TTS que permite se adaptar a diferentes falantes sem precisar de muitos dados de cada um.
Contexto
O TTS funciona convertendo texto escrito em palavras faladas. Tradicionalmente, treinar um sistema de TTS exige grandes quantidades de dados de cada falante específico. Nos últimos anos, foram desenvolvidos métodos que permitem que sistemas de TTS se adaptem a novos falantes com pouco ou nenhum treinamento adicional. Isso é chamado de TTS "Zero-shot". Embora o TTS zero-shot tenha mostrado grande potencial, ainda enfrenta desafios para ser leve o suficiente para aplicações do dia a dia.
Os modelos grandes frequentemente necessários para um TTS eficaz podem ser pesados. Eles têm dificuldade para rodar em dispositivos menores, como smartphones, o que limita sua praticidade em situações reais. As pessoas querem uma síntese de fala de alta qualidade que se adapte a vários falantes sem precisar de muitos dados ou recursos.
Abordagens Atuais
Vários métodos foram desenvolvidos para criar sistemas de TTS leves. Esses métodos podem ser amplamente categorizados em sistemas autorregressivos, não autorregressivos e baseados em difusão. No entanto, nenhum conseguiu criar um sistema leve que também se adaptasse a novos falantes de forma eficaz.
Alguns sistemas existentes, como PortaSpeech e LightGrad, são mais leves, mas geralmente são projetados para falantes únicos. Outros, como Light-TTS, podem lidar com múltiplos falantes, mas são limitados na quantidade de dados que usam para treinamento. Para conseguir uma síntese de fala de alta qualidade, os modelos geralmente precisam de muitos dados de treinamento de vários falantes.
Mistura de adaptadores
Conceito dePara enfrentar o desafio de criar um sistema de TTS leve, foi proposto um conceito chamado "mistura de adaptadores" (MoA). Essa ideia envolve o uso de múltiplos módulos pequenos dentro do sistema de TTS, ativando apenas os módulos necessários com base nas características do falante. Essa abordagem permite que o sistema lide com diferentes tarefas de forma eficiente, mantendo os parâmetros adicionais ao mínimo.
MoA permite que o modelo de TTS se adapte com base nas informações do falante. Ao ativar seletivamente os módulos certos, o sistema pode gerenciar efetivamente uma ampla variedade de tipos e estilos de falantes sem precisar de dados excessivos.
Metodologia Proposta
O sistema de TTS proposto integra módulos MoA em sua estrutura. A ideia principal é usar as características do falante para determinar quais módulos ativar durante a geração da fala. Com isso, o sistema consegue criar uma saída de fala de alta qualidade usando bem menos recursos.
Esse sistema é composto por três partes principais: o modelo de TTS, um extrator de embeddings do falante e um vocoder. O modelo de TTS transforma texto em fala, o extrator de embeddings identifica características-chave de diferentes falantes, e o vocoder converte a representação da fala em som real.
Durante a fase de treinamento, o extrator de embeddings processa as vozes de muitos falantes para criar um banco de dados de características dos falantes. Na hora de gerar a fala, o sistema pode usar esse banco de dados para adaptar sua saída ao estilo desejado do falante.
Processo de Treinamento
O processo de treinamento para esse sistema de TTS envolveu um grande banco de dados de fala japonesa, contendo gravações de milhares de falantes. Os dados de treinamento foram divididos em três partes: uma para treinamento, uma para validação e uma para teste. O objetivo era criar um modelo capaz de sintetizar fala a partir do texto mantendo uma alta qualidade.
Para garantir que o sistema pudesse se adaptar bem, foram testados dois tipos de MoA: MoA denso, onde todos os adaptadores foram usados, e MoA esparso, onde apenas os adaptadores mais relevantes foram ativados. Os resultados mostraram que a versão esparsa poderia ter um desempenho tão bom quanto sendo mais eficiente.
Avaliação de Desempenho
Para avaliar a eficácia do sistema de TTS proposto, foram realizados testes objetivos e subjetivos. Testes objetivos mediram aspectos específicos da fala gerada, enquanto testes subjetivos envolveram ouvintes humanos avaliando a naturalidade e semelhança da fala sintética em comparação com gravações reais.
Os resultados indicaram que o novo método superou os sistemas existentes mesmo com menos parâmetros. A fala gerada foi considerada natural e intimamente semelhante às características do falante-alvo, mostrando que a combinação de MoA e um modelo de TTS leve foi eficaz.
Resultados e Análise
Nas avaliações objetivas, o sistema proposto apresentou um desempenho melhor em várias métricas, indicando uma capacidade de modelagem superior em comparação com modelos de base. As avaliações mostraram que o módulo MoA melhorou efetivamente a capacidade do sistema sem aumentar significativamente sua carga computacional.
Nas avaliações subjetivas, os ouvintes relataram que a fala gerada pelo novo sistema era mais natural e semelhante aos falantes-alvo. Isso foi especialmente notável ao comparar os resultados entre diferentes tipos de falantes, incluindo falantes profissionais e não-profissionais. A estrutura MoA permitiu que o sistema de TTS gerasse uma saída de fala de maior qualidade adaptada a características específicas dos falantes.
Implicações
Esse método leve de TTS zero-shot tem implicações significativas para muitas aplicações. Pode ser implementado em smartphones, assistentes de voz e outros dispositivos que precisam de fala natural sem a necessidade de muitos recursos computacionais ou dados. Isso abre possibilidades para experiências de usuário mais personalizadas em uma variedade de interfaces digitais.
Trabalhos futuros vão explorar mais aplicações desse método em modelos de TTS mais complexos e diferentes arquiteturas. O objetivo é melhorar a qualidade e expandir a variedade de falantes aos quais o sistema pode se adaptar sem comprometer o desempenho.
Conclusão
Em resumo, o método leve de TTS zero-shot proposto usando mistura de adaptadores apresenta uma abordagem nova para gerar síntese de fala de alta qualidade. Ao utilizar efetivamente parâmetros e recursos computacionais limitados, esse sistema pode se adaptar a vários falantes sem muitos dados de treinamento. As avaliações confirmam seu desempenho superior e som natural, tornando-o uma solução promissora para integrar a tecnologia TTS em dispositivos e aplicações do dia a dia.
Título: Lightweight Zero-shot Text-to-Speech with Mixture of Adapters
Resumo: The advancements in zero-shot text-to-speech (TTS) methods, based on large-scale models, have demonstrated high fidelity in reproducing speaker characteristics. However, these models are too large for practical daily use. We propose a lightweight zero-shot TTS method using a mixture of adapters (MoA). Our proposed method incorporates MoA modules into the decoder and the variance adapter of a non-autoregressive TTS model. These modules enhance the ability to adapt a wide variety of speakers in a zero-shot manner by selecting appropriate adapters associated with speaker characteristics on the basis of speaker embeddings. Our method achieves high-quality speech synthesis with minimal additional parameters. Through objective and subjective evaluations, we confirmed that our method achieves better performance than the baseline with less than 40\% of parameters at 1.9 times faster inference speed. Audio samples are available on our demo page (https://ntt-hilab-gensp.github.io/is2024lightweightTTS/).
Autores: Kenichi Fujita, Takanori Ashihara, Marc Delcroix, Yusuke Ijima
Última atualização: 2024-07-01 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2407.01291
Fonte PDF: https://arxiv.org/pdf/2407.01291
Licença: https://creativecommons.org/licenses/by-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.