Simple Science

Ciência de ponta explicada de forma simples

# Engenharia Eletrotécnica e Ciência dos Sistemas# Processamento de Áudio e Fala# Som

MuLanTTS: Uma Nova Fronteira em Texto para Fala

O MuLanTTS da Microsoft oferece capacidades de texto-para-fala em francês de forma natural e expressiva.

― 5 min ler


MuLanTTS Transforma TextoMuLanTTS Transforma Textoem Falafala em francês e nas emoções.Novo sistema manda bem na síntese de
Índice

MuLanTTS é um novo sistema de texto-para-fala criado pela Microsoft para o Blizzard Challenge 2023. Esse sistema foi feito pra ler em voz alta textos em francês, aproveitando uma grande coleção de audiolivros. O objetivo desse projeto é desenvolver vozes que consigam ler frases, parágrafos e listas de um jeito que soe natural e expressivo.

O que é o Blizzard Challenge?

O Blizzard Challenge é um evento anual que testa e compara diferentes sistemas de texto-para-fala. Desde que começou em 2005, os participantes têm a tarefa de criar sistemas de alta qualidade que possam transformar texto escrito em palavras faladas. Eles usam uma base de dados de fala fornecida pra gerar amostras de áudio, que são depois avaliadas por ouvintes quanto à qualidade e naturalidade.

A Tecnologia por trás do Sistema

MuLanTTS é baseado em um método chamado de texto-para-fala neural end-to-end, que melhorou bastante como esses sistemas soam. Os principais componentes da tecnologia incluem:

  • Tacotron e TransformerTTS: Esses modelos usam uma abordagem baseada em atenção pra criar áudio de fala a partir do texto.
  • FastSpeech: Esse modelo fez uma mudança pra permitir uma produção de áudio mais rápida sem perder qualidade.

Recentemente, outros modelos foram desenvolvidos, focando em melhorar a velocidade e clareza da fala, incluindo DelightfulTTS e VITS.

Tarefas do Blizzard Challenge 2023

Para o desafio deste ano, teve duas tarefas principais. A primeira tarefa envolveu sintetizar fala a partir de 50 horas de dados de audiolivro, enquanto a segunda usou 2 horas de fala de um orador diferente. O objetivo era criar áudio de alta qualidade que se parecesse com fala natural.

Processamento e Preparação dos Dados

Pra alcançar a qualidade de som desejada, os dados de áudio foram cuidadosamente processados. Os passos principais incluíram:

  1. Segmentação de Áudio: O audiolivro foi dividido em segmentos menores pra facilitar o processamento.
  2. Normalização do Texto: O texto foi transformado em um formato que o sistema pudesse entender, convertendo palavras escritas em fonemas, os sons básicos da fala.
  3. Redução de Ruído: Ferramentas especiais foram usadas pra limpar o áudio, removendo ruídos de fundo pra aumentar a clareza.

Preparando os dados desse jeito, a fala resultante soou mais natural e envolvente.

Melhorando a Qualidade da Fala

Um dos aspectos mais importantes do MuLanTTS é a capacidade de adicionar expressão emocional à fala. Isso foi conseguido através do uso de vários codificadores que capturam emoção e contexto. O sistema agora pode mudar a maneira como fala dependendo de diferentes situações, como ler uma história de forma calma ou transmitir empolgação num diálogo.

Estrutura e Visão Geral do Sistema

MuLanTTS usa uma estrutura tradicional para sistemas de texto-para-fala, consistindo em:

  • Frontend: É onde o texto de entrada é processado e transformado em sequências de fonemas.
  • Modelo Acústico: Essa parte gera um mel-espectrograma, uma representação visual do som.
  • Vocoder: Esse componente transforma o espectrograma em uma onda de áudio real que pode ser reproduzida.

Usando modelos avançados como Conformer e técnicas pra capturar as nuances da fala, o sistema produz um som de alta qualidade.

Lidando com os Desafios da Língua Francesa

A língua francesa apresenta desafios únicos por causa das suas regras de pronúncia, especialmente em relação a ligação e homônimos. Ligação acontece quando a consoante final de uma palavra é ligada à primeira vogal da próxima. MuLanTTS utiliza um modelo especial pra prever quando essas ligações devem acontecer, tornando a pronúncia mais precisa.

Além disso, o sistema reconhece homônimos, palavras que soam iguais mas têm significados diferentes. Treinar um modelo polifônico ajudou a diferenciar entre essas palavras com base no contexto.

Compreensão Contextual e Emocional

MuLanTTS tem capacidades avançadas pra entender contexto e emoção ao ler textos. O codificador contextual melhora a prosódia da fala, que é como os sons são acentuados e modulados ao longo do tempo. Isso permite que o sistema gere uma fala que flui suavemente e é expressiva.

O Codificador de Emoções ajuda o sistema a captar o tom emocional do texto. Ele pode ajustar a maneira como fala dependendo se a passagem é calma, alegre ou triste.

Avaliação de Desempenho

O desempenho do MuLanTTS foi avaliado através de vários testes que analisaram sua naturalidade e semelhança com a fala humana. Nos testes, os ouvintes avaliaram a qualidade da fala gerada numa escala de 1 a 5. Os resultados mostraram que o MuLanTTS se saiu muito bem, alcançando altas pontuações que indicavam uma semelhança próxima à fala natural.

Para as duas tarefas principais do desafio, as médias das pontuações foram 4.3 e 4.5, mostrando resultados impressionantes em comparação com outros sistemas. Essas pontuações refletem a eficácia do sistema em criar áudio de fala de alta qualidade.

Direções Futuras

Embora os resultados do MuLanTTS no Blizzard Challenge tenham sido promissores, ainda há oportunidades de melhoria. O sistema pode ser aprimorado ainda mais pra tarefas de fala mais complexas, como lidar com textos mais longos ou criar diálogos com mais expressividade. Esses ajustes vão ajudar o MuLanTTS a proporcionar uma experiência de escuta ainda melhor.

Em conclusão, o MuLanTTS representa um avanço significativo na tecnologia de texto-para-fala, especialmente para a língua francesa. Com seu foco em qualidade, emoção e contexto, o sistema está bem equipado pra atender às demandas de diversas aplicações de fala. À medida que a tecnologia continua a evoluir, o MuLanTTS pretende se adaptar e melhorar, oferecendo uma síntese de fala mais natural e envolvente para os usuários.

Fonte original

Título: MuLanTTS: The Microsoft Speech Synthesis System for Blizzard Challenge 2023

Resumo: In this paper, we present MuLanTTS, the Microsoft end-to-end neural text-to-speech (TTS) system designed for the Blizzard Challenge 2023. About 50 hours of audiobook corpus for French TTS as hub task and another 2 hours of speaker adaptation as spoke task are released to build synthesized voices for different test purposes including sentences, paragraphs, homographs, lists, etc. Building upon DelightfulTTS, we adopt contextual and emotion encoders to adapt the audiobook data to enrich beyond sentences for long-form prosody and dialogue expressiveness. Regarding the recording quality, we also apply denoise algorithms and long audio processing for both corpora. For the hub task, only the 50-hour single speaker data is used for building the TTS system, while for the spoke task, a multi-speaker source model is used for target speaker fine tuning. MuLanTTS achieves mean scores of quality assessment 4.3 and 4.5 in the respective tasks, statistically comparable with natural speech while keeping good similarity according to similarity assessment. The excellent and similarity in this year's new and dense statistical evaluation show the effectiveness of our proposed system in both tasks.

Autores: Zhihang Xu, Shaofei Zhang, Xi Wang, Jiajun Zhang, Wenning Wei, Lei He, Sheng Zhao

Última atualização: 2023-09-11 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2309.02743

Fonte PDF: https://arxiv.org/pdf/2309.02743

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes