Simple Science

Ciência de ponta explicada de forma simples

# Engenharia Eletrotécnica e Ciência dos Sistemas# Som# Inteligência Artificial# Processamento de Áudio e Fala

Avanços na Edição de Fala Baseada em Texto

O FluentEditor melhora a edição de áudio focando no fluxo natural e na consistência.

― 4 min ler


Revolução na Edição deRevolução na Edição deFala Baseada em Textomelhorados.com uma naturalidade e um fluxoO FluentEditor muda a edição de áudio
Índice

A edição de fala baseada em texto permite que os usuários mudem o áudio ajustando o texto escrito em vez do som em si. Isso pode ser muito útil, especialmente no mundo digital de hoje, onde compartilhar áudio online é comum. Mudando o texto, os usuários podem criar vozes personalizadas para aplicativos como vídeos, jogos e dublagens de filmes.

Como Funciona a Edição de Fala Baseada em Texto

Sistemas de texto-para-fala (TTS) são frequentemente usados para construir esses modelos de edição. Esses sistemas transformam texto escrito em palavras faladas. Modelos recentes, como os baseados em um método chamado difusão, mostraram resultados promissores. Eles podem fazer alterações precisas na tonalidade e no conteúdo do áudio de forma eficaz.

No entanto, um desafio chave permanece: garantir que a fala editada soe natural e flua bem. Muitos modelos passados focaram principalmente em fazer o áudio parecer próximo ao original, sem considerar como os segmentos editados se conectam suavemente ao que vem antes e depois.

A Necessidade de Fluência na Edição de Fala

Para produzir melhores resultados, é importante garantir que a fala editada não apenas corresponda ao original em som, mas também flua legal. Duas áreas principais precisam ser abordadas:

  1. Consistência Acústica: Isso significa que, quando a parte editada é adicionada ao áudio ao redor, deve soar suave e sem costura.
  2. Consistência de Prosódia: Isso se refere a manter o ritmo e o tom das palavras faladas consistentes com a fala original. Por exemplo, se o áudio original tem um certo tom emocional, ele deve ser preservado mesmo após as edições.

Uma Nova Abordagem: FluentEditor

Para enfrentar esses desafios, um novo método chamado FluentEditor foi desenvolvido. Esse modelo inclui técnicas de treinamento específicas para garantir tanto a consistência acústica quanto a de prosódia durante o processo de edição.

Como Funciona o FluentEditor

FluentEditor usa um processo em duas etapas:

  1. Primeiro, analisa o texto e seu áudio relacionado para encontrar áreas para edição.
  2. Depois, prevê como deve ser o novo som com base no texto ajustado, considerando o áudio ao redor.

O processo de treinamento incorpora funções de perda especiais que medem o quão bem o áudio editado se encaixa com o som original. Assim, o modelo aprende a criar transições suaves e manter o tom do áudio original.

Avaliação do FluentEditor

O FluentEditor foi testado em um conjunto de dados que inclui gravações de vários falantes de inglês. Os resultados mostram que o novo modelo tem um desempenho melhor que abordagens tradicionais em Naturalidade e fluência.

Medidas Objetivas

Várias medidas objetivas são usadas para avaliar a qualidade do áudio editado. Essas medidas focam em aspectos como clareza e qualidade sonora geral. As avaliações mostram que o FluentEditor atinge pontuações altas, indicando que pode produzir segmentos editados que soam bons.

Medidas Subjetivas

Além das pontuações objetivas, também é coletado feedback dos ouvintes para avaliar quão fluido o áudio editado soa. Os participantes ouvem os segmentos editados e classificam sua fluência. Os resultados mostram que os ouvintes acham que as saídas do FluentEditor são muito naturais, muitas vezes comparando favoravelmente com gravações originais.

O Impacto das Perdas de Consistência

O estudo também explora quão cruciais são as perdas de consistência acústica e de prosódia para o desempenho. Testes demonstram que remover essas perdas reduz significativamente a qualidade do áudio editado. Isso destaca a importância delas para garantir que o resultado final soe polido e fluido.

Visualizando Resultados

Ao olhar para representações visuais dos sinais de áudio produzidos, fica claro que o FluentEditor gera detalhes sonoros mais ricos em comparação com outros modelos. Isso é mostrado nos mel-espectrogramas, que exibem como o som varia ao longo do tempo. Os detalhes mais ricos nessas imagens sugerem uma saída de áudio mais expressiva e atraente.

Conclusão

FluentEditor representa um grande avanço no campo da edição de fala baseada em texto. Ao focar na consistência acústica e de prosódia, esse modelo melhora a qualidade e fluidez da fala editada. Os resultados dos testes enfatizam quão importantes esses elementos são para criar áudio que soe natural.

À medida que o campo avança, trabalhos futuros visam melhorar ainda mais o modelo e explorar novas técnicas que podem tornar a edição de áudio ainda mais eficaz. O objetivo é desenvolver ferramentas que facilitem para os usuários criar áudio de alta qualidade sem precisar de muito conhecimento técnico.

Fonte original

Título: FluentEditor: Text-based Speech Editing by Considering Acoustic and Prosody Consistency

Resumo: Text-based speech editing (TSE) techniques are designed to enable users to edit the output audio by modifying the input text transcript instead of the audio itself. Despite much progress in neural network-based TSE techniques, the current techniques have focused on reducing the difference between the generated speech segment and the reference target in the editing region, ignoring its local and global fluency in the context and original utterance. To maintain the speech fluency, we propose a fluency speech editing model, termed \textit{FluentEditor}, by considering fluency-aware training criterion in the TSE training. Specifically, the \textit{acoustic consistency constraint} aims to smooth the transition between the edited region and its neighboring acoustic segments consistent with the ground truth, while the \textit{prosody consistency constraint} seeks to ensure that the prosody attributes within the edited regions remain consistent with the overall style of the original utterance. The subjective and objective experimental results on VCTK demonstrate that our \textit{FluentEditor} outperforms all advanced baselines in terms of naturalness and fluency. The audio samples and code are available at \url{https://github.com/Ai-S2-Lab/FluentEditor}.

Autores: Rui Liu, Jiatian Xi, Ziyue Jiang, Haizhou Li

Última atualização: 2023-09-21 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2309.11725

Fonte PDF: https://arxiv.org/pdf/2309.11725

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes