Simple Science

Ciência de ponta explicada de forma simples

# Engenharia Eletrotécnica e Ciência dos Sistemas# Computação e linguagem# Aprendizagem de máquinas# Som# Processamento de Áudio e Fala

Avançando a Síntese de Fala Expressiva com Novo Conjunto de Dados

Um novo conjunto de dados melhora a síntese de fala ao capturar a expressão emocional sem depender de texto.

― 6 min ler


Novo Conjunto de DadosNovo Conjunto de Dadospara Síntese de Falacriação de fala expressiva e natural.Conjunto de dados inovador melhora a
Índice

Avanços recentes na tecnologia de fala tornaram possível criar Discursos de alta qualidade que capturam várias características expressivas sem depender só do texto. Métodos tradicionais de síntese de fala costumam limitar a expressividade da saída porque trabalham principalmente a partir de texto escrito, que só transmite informações básicas. Muitos elementos emocionais e Expressivos da fala, como tom, ritmo e até sons não verbais, se perdem na conversão de texto para fala.

Este artigo apresenta um novo conjunto de dados projetado para criar fala expressiva sem usar texto. Esse conjunto inclui uma variedade de estilos de fala, tanto roteirizados quanto improvisados, tornando possível sintetizar uma fala mais natural e envolvente.

O Desafio com os Métodos Existentes

A maioria dos Conjuntos de dados de síntese de fala consiste em fala lida, onde atores de voz leem frases roteirizadas. Essa abordagem limita a diversidade e expressividade da fala sintetizada. Embora existam alguns conjuntos de dados expressivos disponíveis, eles costumam envolver atores exagerando emoções enquanto leem frases neutras, resultando em expressões menos realistas.

Técnicas de aprendizado auto-supervisionado surgiram como uma solução promissora. Essas técnicas permitem que modelos aprendam a partir de dados de áudio bruto sem precisar de texto escrito. Usando várias entradas de áudio, esses modelos podem capturar uma gama mais ampla de qualidades da fala.

Apresentando o Novo Conjunto de Dados

O novo conjunto de dados foi projetado para melhorar a expressividade da síntese de fala. Ele consiste em 47 horas de fala gravada de vários falantes expressando 26 estilos diferentes. Isso inclui uma seção onde os atores leem roteiros com uma variedade de tons emocionais e outra seção onde os atores participam de diálogos improvisados com base em sugestões.

Nos diálogos improvisados, os atores são incentivados a encenar cenários, o que leva a uma forma de fala mais genuína e espontânea. Essa abordagem visa criar uma fala que soa mais natural e relacionável do que o que os métodos tradicionais produzem.

Coleta e Estrutura de Dados

O conjunto de dados é dividido em diferentes seções. Cerca de 37% contém leituras expressivas onde os atores entregam falas sugeridas em vários estilos, incluindo tons felizes, tristes e confusos. Os 72% restantes consistem em diálogos improvisados, onde os atores recebem um cenário e devem interagir entre si em personagem. Os diálogos incluem elementos naturais da fala, como risadas e interrupções.

Além da fala regular, o conjunto também contém uma pequena seção onde os atores cantam músicas populares. Isso adiciona outra camada de expressividade ao corpus.

As gravações foram feitas em estúdios profissionais para garantir alta qualidade de áudio, capturando toda a gama de expressão vocal humana.

Codificação e Ressíntese

Para avaliar a qualidade da fala sintetizada, o processo envolve codificar a entrada falada em partes menores e depois reconstruí-la em uma nova voz enquanto mantém o conteúdo e estilo originais. Isso é conhecido como ressíntese expressiva.

Duas tipos de métodos de codificação foram testados: modelos baseados em HuBERT e modelos baseados em Encodec. Os modelos HuBERT foram treinados usando uma variedade de conjuntos de dados de linguagem falada, enquanto os modelos Encodec foram projetados para compressão de áudio geral.

A tarefa dos modelos é pegar um clipe de áudio, dividi-lo em unidades de baixa taxa de bits e recriar o áudio em uma voz diferente que ainda capture a emoção e intenção originais da fala.

Métricas de Avaliação

Para medir a eficácia da ressíntese, várias métricas foram usadas. Essas incluem:

  • Preservação de Conteúdo: Isso verifica quão precisamente a fala ressintetizada corresponde às palavras originais faladas. Usa um modelo de reconhecimento automático de fala para comparar os dois.
  • Preservação de Tom: Isso analisa o quão bem a entonação e o tom da fala original são mantidos na versão sintetizada.
  • Preservação da Expressividade: Isso avalia se o tom emocional da fala foi transferido com sucesso no processo de síntese.

Resultados e Conclusões

Os resultados mostraram que os modelos baseados em HuBERT geralmente se saíram melhor que os modelos Encodec em termos de preservação de conteúdo. No entanto, os modelos Encodec se destacaram em gerar áudio com som natural, mas tiveram dificuldades em manter a expressividade da fala.

Para preservação de tom, as unidades HuBERT mostraram um bom desempenho quando o vocoder-ferramenta usada para converter as unidades codificadas de volta para áudio-foi treinado com a identidade do falante e estilo expressivo. Em contraste, usar apenas a identidade do falante levou a uma queda na qualidade.

Curiosamente, mesmo quando as vozes usadas no modelo eram diferentes das originais, os modelos HuBERT ainda mantiveram um bom nível de desempenho, indicando que as unidades eram um pouco independentes das características do falante original.

As avaliações também revelaram que, embora os modelos mostrassem um bom desempenho dentro das condições projetadas, aplicar os métodos em diferentes conjuntos de dados levou a uma queda notável na eficácia. Isso sugere que mais trabalho é necessário para criar modelos robustos que funcionem bem em vários tipos de dados de fala.

Melhorias Necessárias

Embora o novo conjunto de dados e métodos mostrem promessa, ainda há espaço para melhorias. O trabalho futuro se concentrará em refinar os modelos HuBERT para aumentar sua capacidade de capturar nuances emocionais enquanto ainda cria fala com som realista.

Além disso, mais exploração é necessária sobre o uso de unidades de tom discretas durante o processo de síntese, o que poderia levar a uma melhor preservação do tom e qualidade geral do áudio.

O objetivo final é desenvolver um sistema que possa gerar fala expressiva dinamicamente, permitindo aplicações mais flexíveis em áreas como assistentes virtuais, entretenimento e ferramentas de acessibilidade.

Conclusão

Esse novo conjunto de dados apresenta oportunidades empolgantes para avançar a tecnologia de síntese de fala. Ao usar estilos diversos e incorporar improvisação, o conjunto permite um novo nível de expressividade que os métodos tradicionais têm dificuldade em alcançar.

A análise da qualidade da ressíntese fornece insights valiosos sobre como diferentes métodos de codificação podem afetar a fidelidade da fala de saída. À medida que a pesquisa nessa área continua, a esperança é criar um sistema de síntese que capture a rica complexidade da fala humana, tornando as interações com máquinas mais naturais e envolventes.

Com os esforços em andamento, o sonho de criar IA que possa se comunicar com a mesma calorosidade e expressividade que um falante humano pode em breve se tornar uma realidade.

Fonte original

Título: EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech Resynthesis

Resumo: Recent work has shown that it is possible to resynthesize high-quality speech based, not on text, but on low bitrate discrete units that have been learned in a self-supervised fashion and can therefore capture expressive aspects of speech that are hard to transcribe (prosody, voice styles, non-verbal vocalization). The adoption of these methods is still limited by the fact that most speech synthesis datasets are read, severely limiting spontaneity and expressivity. Here, we introduce Expresso, a high-quality expressive speech dataset for textless speech synthesis that includes both read speech and improvised dialogues rendered in 26 spontaneous expressive styles. We illustrate the challenges and potentials of this dataset with an expressive resynthesis benchmark where the task is to encode the input in low-bitrate units and resynthesize it in a target voice while preserving content and style. We evaluate resynthesis quality with automatic metrics for different self-supervised discrete encoders, and explore tradeoffs between quality, bitrate and invariance to speaker and style. All the dataset, evaluation metrics and baseline models are open source

Autores: Tu Anh Nguyen, Wei-Ning Hsu, Antony D'Avirro, Bowen Shi, Itai Gat, Maryam Fazel-Zarani, Tal Remez, Jade Copet, Gabriel Synnaeve, Michael Hassid, Felix Kreuk, Yossi Adi, Emmanuel Dupoux

Última atualização: 2023-08-10 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2308.05725

Fonte PDF: https://arxiv.org/pdf/2308.05725

Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes