Simple Science

Ciência de ponta explicada de forma simples

# Engenharia Eletrotécnica e Ciência dos Sistemas# Processamento de Áudio e Fala# Inteligência Artificial# Computação e linguagem# Aprendizagem de máquinas# Som

Avanços na Síntese de Fala com ARDiT

Novo modelo ARDiT melhora a síntese de texto para fala e a edição de fala.

― 7 min ler


ARDiT: Síntese de Fala deARDiT: Síntese de Fala dePróxima Geraçãogeração e edição de fala.ARDiT estabelece um novo padrão para
Índice

O campo de síntese de áudio e fala avançou bastante nos últimos anos. Com o surgimento de modelos de linguagem de áudio, os pesquisadores começaram a se concentrar em gerar áudio de alta qualidade usando novas técnicas. Este artigo fala sobre uma abordagem inovadora para gerar fala usando um modelo chamado Autoregressive Diffusion Transformer, ou ARDiT. Esse modelo tem como objetivo melhorar a síntese de texto para fala ao superar os desafios enfrentados por métodos anteriores.

O Desafio da Tokenização de Áudio

No coração da geração de áudio está a tokenização de áudio, onde formas de onda são transformadas em sequências de símbolos discretos. Mas esse processo vem com trade-offs, especialmente entre compressão e clareza de som. Quando se usam códigos de áudio de baixa taxa de bits, fica difícil para os modelos de linguagem processar todas as informações contidas no áudio, limitando a capacidade de gerar fala de alta qualidade.

Para resolver esses problemas, o modelo ARDiT codifica o áudio como sequências de vetores contínuos em vez de tokens discretos. Ao fazer isso, o ARDiT pode representar melhor os dados de áudio, melhorando a qualidade da fala e tornando a geração de fala mais eficiente.

Visão Geral do ARDiT

O modelo ARDiT se baseia em uma arquitetura específica conhecida como transformador de difusão só de decodificador. Esse modelo permite uma síntese de texto para fala de alta qualidade sem a necessidade de tokenização discreta. Em termos simples, o ARDiT pode produzir uma fala mais clara e com som mais natural usando uma representação contínua do áudio.

Uma vantagem significativa do ARDiT é seu desempenho em síntese de texto para fala zero-shot. Isso significa que ele pode gerar fala para um novo falante usando apenas uma pequena quantidade de áudio como referência, sem precisar de um treinamento extenso ou de dados de alta qualidade desse falante. Os resultados mostraram que o ARDiT pode alcançar níveis de desempenho comparáveis ou até superiores aos de modelos líderes existentes na área.

Técnicas Chave Usadas no ARDiT

Várias técnicas contribuem para o sucesso do ARDiT em gerar fala de alta qualidade. Uma delas é chamada de divergência Kullback-Leibler Integral (IKL), que melhora a qualidade percebida das amostras geradas. Usando esse método, o ARDiT pode condensar seu processo de amostragem, tornando-o mais eficiente e rápido.

Além disso, o ARDiT pode prever múltiplos vetores contínuos durante uma única etapa de processamento. Essa abordagem reduz o tempo necessário para gerar fala, oferecendo uma vantagem clara durante a fase de geração.

Treinamento e Avaliação

A equipe de pesquisa treinou o ARDiT usando vários conjuntos de dados, focando especialmente na coleção LibriTTS, que contém uma quantidade significativa de gravações de fala em inglês. Esse conjunto de dados permitiu que a equipe avaliassse as capacidades do ARDiT em gerar fala a partir de texto enquanto também editava clipes de áudio existentes.

A avaliação envolveu vários testes e comparações com outros modelos, tanto não autoregressivos quanto autoregressivos. Os resultados indicaram que o ARDiT superou seus concorrentes em termos de naturalidade da fala e similaridade com o falante.

Síntese de Texto para Fala Zero-Shot

A síntese de texto para fala zero-shot é um aspecto empolgante do ARDiT. Muitos métodos tradicionais de síntese de fala exigem um treinamento extenso com gravações de áudio de alta qualidade do falante-alvo. Em contraste, o ARDiT pode produzir fala usando apenas alguns segundos de áudio como referência.

Nesse processo, um prompt de fala serve tanto como ponto de partida quanto de término para a frase gerada. O modelo se baseia em estimar a duração total da fala gerada com base no prompt, permitindo que ele crie frases coerentes sem conhecimento prévio da voz do falante.

Edição de Fala

Outra aplicação inovadora do modelo ARDiT é na edição de fala. Esse processo envolve ajustar partes específicas de um clipe de áudio para se ajustar a uma transcrição desejada, preservando o restante do áudio. Métodos anteriores muitas vezes resultavam em fala com som não natural devido a prosódia e transições mal alinhadas.

Com o ARDiT, o modelo preenche inteligentemente seções de áudio faltantes. Levando em conta o contexto ao redor, ele melhora a coesão e a naturalidade da fala gerada, resultando em saídas de áudio de melhor qualidade.

Comparação com Outros Modelos

Na avaliação do desempenho do ARDiT, os pesquisadores o compararam com vários outros modelos de síntese de fala. Alguns desses incluíam tanto modelos autoregressivos, que geram áudio em sequência, quanto modelos não autoregressivos, que produzem áudio em paralelo.

Os resultados indicaram que o ARDiT consistentemente entregou uma saída de qualidade superior em termos de similaridade com o falante e inteligibilidade. Esse sucesso resulta da representação contínua do áudio, que permite uma melhor compreensão e geração da fala.

Desafios Técnicos na Síntese de Áudio

Embora avanços tenham sido feitos, desafios ainda existem no campo da síntese de áudio. Uma preocupação principal é o trade-off entre a taxa de bits do áudio e a qualidade de reconstrução. Os codecs de áudio atuais podem exigir uma alta taxa de bits para um som claro, afetando a eficiência geral do modelo.

Além disso, técnicas de otimização baseadas em gradiente enfrentam dificuldades quando aplicadas a distribuições discretas, comumente vistas em métodos tradicionais de síntese de áudio. Treinar modelos como VQ-GANs pode ser complexo e pode exigir funções de perda adicionais para aprendizado eficaz.

Direções Futuras

Há um potencial considerável para melhorar o ARDiT e modelos semelhantes em pesquisas futuras. Uma direção promissora é aplicar as técnicas desenvolvidas no ARDiT a outras tarefas de geração de áudio, como síntese de música e geração de efeitos sonoros.

Além disso, explorar o impacto de diferentes fontes de dados fora do conjunto de dados LibriTTS poderia levar a aplicações mais amplas e melhor desempenho em vários cenários de síntese de fala. O desafio continua sendo garantir que os modelos possam funcionar de maneira confiável em dados de áudio diversos e do mundo real.

Conclusão

O desenvolvimento do Autoregressive Diffusion Transformer marca um avanço significativo no campo da síntese de texto para fala. Ao utilizar representações contínuas de áudio, o ARDiT oferece uma solução poderosa para os desafios anteriores enfrentados por modelos tradicionais de áudio. Sua capacidade de realizar síntese zero-shot e edição de fala abre novas possibilidades para aplicações em várias áreas, desde assistentes virtuais até criação de conteúdo.

Embora desafios permaneçam, a pesquisa contínua sobre o ARDiT e modelos semelhantes indica um futuro onde a geração de fala de alta qualidade será mais acessível e eficiente, beneficiando, em última análise, muitos usuários e aplicações.

Fonte original

Título: Autoregressive Diffusion Transformer for Text-to-Speech Synthesis

Resumo: Audio language models have recently emerged as a promising approach for various audio generation tasks, relying on audio tokenizers to encode waveforms into sequences of discrete symbols. Audio tokenization often poses a necessary compromise between code bitrate and reconstruction accuracy. When dealing with low-bitrate audio codes, language models are constrained to process only a subset of the information embedded in the audio, which in turn restricts their generative capabilities. To circumvent these issues, we propose encoding audio as vector sequences in continuous space $\mathbb R^d$ and autoregressively generating these sequences using a decoder-only diffusion transformer (ARDiT). Our findings indicate that ARDiT excels in zero-shot text-to-speech and exhibits performance that compares to or even surpasses that of state-of-the-art models. High-bitrate continuous speech representation enables almost flawless reconstruction, allowing our model to achieve nearly perfect speech editing. Our experiments reveal that employing Integral Kullback-Leibler (IKL) divergence for distillation at each autoregressive step significantly boosts the perceived quality of the samples. Simultaneously, it condenses the iterative sampling process of the diffusion model into a single step. Furthermore, ARDiT can be trained to predict several continuous vectors in one step, significantly reducing latency during sampling. Impressively, one of our models can generate $170$ ms of $24$ kHz speech per evaluation step with minimal degradation in performance. Audio samples are available at http://ardit-tts.github.io/ .

Autores: Zhijun Liu, Shuai Wang, Sho Inoue, Qibing Bai, Haizhou Li

Última atualização: 2024-06-08 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2406.05551

Fonte PDF: https://arxiv.org/pdf/2406.05551

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes