Avanços na Síntese de Fala Usando BPE Acústico
O BPE acústico melhora a inteligibilidade e a qualidade da fala em sistemas TTS.
― 7 min ler
Índice
- O Desafio dos Tokens de Fala
- A Necessidade de Compressão
- Explorando o BPE Acústico no TTS
- Configuração do Experimento
- Modelo TTS Só com Decodificador
- Métricas de Avaliação
- Resultados
- Melhoria na Inteligibilidade da Fala
- Aprimoramento da Qualidade da Fala
- Aceleração da Velocidade de Inferência
- Aumento da Diversidade das Amostras
- Discussão das Limitações
- Conclusão
- Fonte original
- Ligações de referência
A Síntese de Fala, ou transformar texto em palavras faladas, é uma área que tá crescendo e usa várias técnicas pra deixar as máquinas com um som mais humano. Um desses métodos é chamado de TTS só com decodificador. Essa tecnologia transforma texto em fala sem precisar de um passo separado pra entender o conteúdo antes. Ela permite que os modelos gerem a fala diretamente da linguagem escrita, tornando o processo mais eficiente.
O Desafio dos Tokens de Fala
Quando a gente cria fala a partir de texto, precisa representar os sons de um jeito que a máquina consiga entender. Na processamento de linguagem natural, as palavras ou frases têm limites claros. Mas a fala é diferente. É uma onda sonora contínua, o que dificulta identificar onde um som termina e outro começa. Por isso, a gente geralmente divide a fala em partes menores chamadas tokens.
Esses tokens podem vir de dois tipos principais de codificação: tokens acústicos, que tentam recriar o som de forma precisa, e tokens semânticos, que capturam o significado do que tá sendo dito. Embora esse processo funcione, muitas vezes leva a sequências longas de tokens, que podem ser difíceis pro modelo gerenciar. Por exemplo, uma frase curta pode precisar de centenas de tokens, tornando complicado pro modelo manter tudo em contexto.
A Necessidade de Compressão
Pra resolver o problema das longas sequências de tokens, os pesquisadores têm procurado formas de encurtar essas sequências. Uma solução promissora é um método chamado codificação por pares de bytes acústicos (BPE). Essa técnica comprime sequências curtas de tokens em uma forma mais gerenciável. Em vez de tratar cada token como uma unidade individual, o BPE acústico agrupa eles com base na frequência de ocorrência nos dados de treino. Isso significa que sons ou fonemas comuns podem ser mesclados em tokens únicos, reduzindo o comprimento total da sequência.
Explorando o BPE Acústico no TTS
Embora o BPE acústico tenha mostrado potencial em outras áreas de aprendizado de máquina, sua eficácia no TTS ainda precisa ser examinada. Alguns modelos existentes mencionam o uso do BPE acústico pra gerar fala, mas não houve pesquisa suficiente pra entender completamente como ele impacta o desempenho do TTS.
Nesse estudo, várias configurações do BPE acústico foram exploradas pra ver como elas afetam a qualidade da síntese de fala. O objetivo era determinar como esse método funciona pra melhorar a Inteligibilidade da Fala (quanto bem pode ser entendido), a diversidade (quão diferentes soam as vozes geradas) e a qualidade geral.
Configuração do Experimento
Os experimentos foram realizados usando um grande conjunto de dados de inglês falado chamado LibriTTS. Esse conjunto contém várias gravações de diferentes falantes. Os pesquisadores se concentraram em dois modelos, HuBERT e WavLM, que são modelos pré-treinados que convertem fala em tokens semânticos. Ajustando o número de clusters usados pra representar esses tokens e variando o tamanho do vocabulário no BPE acústico, eles queriam ver como esses fatores impactavam a fala sintetizada.
As configurações escolhidas incluíram não usar codificação BPE acústica e codificação com tamanhos de vocabulário de 5.000, 10.000 e 20.000 subpalavras. Essas várias configurações permitiram que os pesquisadores coletassem uma compreensão abrangente de como o BPE acústico influencia o desempenho do TTS.
Modelo TTS Só com Decodificador
O modelo de TTS usado no estudo é baseado em um tipo de rede neural chamada transformer. Esse modelo é projetado pra aprender e prever as próximas características de áudio com base no texto de entrada e sons anteriores. Treinando o modelo dessa forma, ele aprende a gerar sons que se aproximam dos padrões naturais da fala.
Ao gerar fala, o modelo usa prompts, que são pedaços de áudio que guiam o que ele deve dizer a seguir. Esse método ajuda o modelo a adotar a voz e estilo do falante do prompt, permitindo uma síntese de fala mais personalizada.
Métricas de Avaliação
Pra determinar a eficácia do BPE acústico na melhoria do desempenho do TTS, várias métricas de avaliação foram usadas. Essas incluíram:
- Inteligibilidade da Fala: Medida comparando a fala sintetizada com o texto original e checando erros de compreensão.
- Qualidade e Naturalidade da Fala: Avaliada através de testes de audição subjetivos onde os participantes classificaram a fala gerada em quão natural ela soou.
- Velocidade de Inferência: Avaliada medindo quão rápido o modelo gera fala.
- Diversidade de Amostras: Analisada pra ver quão diferentes são as saídas geradas ao usar a mesma entrada.
Resultados
Os resultados dos experimentos mostraram que usar o BPE acústico geralmente levou a melhorias em vários aspectos da fala sintetizada.
Melhoria na Inteligibilidade da Fala
A inteligibilidade da fala gerada usando BPE acústico foi significativamente melhor do que a da fala gerada sem ele. Os modelos que usaram BPE acústico produziram um áudio mais claro e compreensível. Essa melhoria foi evidente na redução da taxa de erro de palavras (WER) quando o áudio sintetizado foi transcrito de volta em texto.
Aprimoramento da Qualidade da Fala
Em termos de qualidade, a fala sintetizada com BPE acústico também se saiu bem. Os participantes notaram que o áudio soou natural e suave. Embora houvesse algumas variações, a qualidade geral permaneceu competitiva, com algumas configurações até superando as sem BPE acústico.
Aceleração da Velocidade de Inferência
Outra descoberta significativa foi a velocidade de inferência aprimorada. À medida que o tamanho do vocabulário aumentou, o tempo necessário pro modelo gerar fala diminuiu. Esse aumento de velocidade foi atribuído às sequências de entrada mais curtas resultantes da mesclagem de tokens, facilitando a rápida análise dos dados pelo modelo.
Aumento da Diversidade das Amostras
Usar BPE acústico também aumentou a diversidade das amostras geradas. Isso significava que quando o modelo produzia fala a partir da mesma entrada, o estilo e a entonação variavam mais do que sem o BPE. Os resultados indicaram que o BPE acústico pode introduzir variações eficazes em como as frases são faladas, levando a uma experiência auditiva mais envolvente.
Discussão das Limitações
Embora as vantagens de usar BPE acústico em aplicações de TTS sejam significativas, algumas limitações e desafios também foram observados. Por exemplo, o desempenho pode ser afetado se o número de clusters e o tamanho do vocabulário não forem equilibrados corretamente. Muitos ou poucos clusters podem levar à instabilidade no modelo, causando saídas repetitivas ou não naturais.
Além disso, o modelo WavLM mostrou algumas inconsistências no desempenho, que poderiam ser ainda mais afetadas pelo uso do BPE acústico. Isso destaca a importância de encontrar as configurações certas pra maximizar os benefícios desse método de codificação.
Conclusão
Em resumo, o BPE acústico se mostrou uma ferramenta valiosa pra melhorar o desempenho de sistemas TTS só com decodificadores. Ele melhora a inteligibilidade, a qualidade e a diversidade da fala, enquanto também acelera os processos de treinamento e inferência. Apesar de algumas limitações em relação às escolhas de configuração, o potencial geral do BPE acústico na síntese de fala é evidente. Pesquisas futuras podem explorar o aumento de conjuntos de dados e modelos pra investigar ainda mais a eficácia dessa abordagem e considerar outros métodos eficazes de tokenização de áudio.
Esses avanços podem abrir caminho pra sistemas de síntese de fala mais naturais e versáteis, nos aproximando de máquinas que se comunicam de forma tão fluida quanto os humanos.
Título: On the Effectiveness of Acoustic BPE in Decoder-Only TTS
Resumo: Discretizing speech into tokens and generating them by a decoder-only model have been a promising direction for text-to-speech (TTS) and spoken language modeling (SLM). To shorten the sequence length of speech tokens, acoustic byte-pair encoding (BPE) has emerged in SLM that treats speech tokens from self-supervised semantic representations as characters to further compress the token sequence. But the gain in TTS has not been fully investigated, and the proper choice of acoustic BPE remains unclear. In this work, we conduct a comprehensive study on various settings of acoustic BPE to explore its effectiveness in decoder-only TTS models with semantic speech tokens. Experiments on LibriTTS verify that acoustic BPE uniformly increases the intelligibility and diversity of synthesized speech, while showing different features across BPE settings. Hence, acoustic BPE is a favorable tool for decoder-only TTS.
Autores: Bohan Li, Feiyu Shen, Yiwei Guo, Shuai Wang, Xie Chen, Kai Yu
Última atualização: 2024-07-04 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2407.03892
Fonte PDF: https://arxiv.org/pdf/2407.03892
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://github.com/facebookresearch/fairseq/tree/main/examples/hubert
- https://huggingface.co/microsoft/wavlm-large
- https://github.com/google/sentencepiece
- https://github.com/lifeiteng/vall-e
- https://github.com/X-LANCE/UniCATS-CTX-vec2wav
- https://huggingface.co/nvidia/stt
- https://github.com/eitanrich/gans-n-gmms/blob/master/utils/ndb.py