Avanços na Síntese de Fala em Alemão Suíço
Novos métodos melhoram a síntese de fala para o suíço-alemão a partir de texto em alemão padrão.
― 6 min ler
Índice
Este artigo fala sobre uma nova forma de criar fala em suíço-alemão a partir de texto escrito. Os autores estudaram como diferentes sistemas funcionam na transformação de texto em fala em suíço-alemão. Eles descobriram que um sistema, chamado ViTs, teve um desempenho melhor que os outros. Também inventaram uma nova maneira de avaliar a qualidade desses sistemas de fala, verificando se um modelo treinado conseguia dizer se um som era de fala humana real ou produzido por uma máquina.
Suíço-Alemão e Síntese de Fala
O suíço-alemão é bem diferente do alemão padrão por causa dos vários dialetos falados na Suíça. Cerca de 60% das pessoas na Suíça falam suíço-alemão, mas não existe uma forma escrita única. Isso significa que criar um sistema para transformar texto em fala suíço-alemã não é fácil.
Um dos desafios é que os diferentes dialetos têm suas próprias gramáticas, vocabulários e sons únicos. Isso dificulta que um sistema aprenda a produzir fala suíço-alemã com precisão. Enquanto outras línguas avançaram bastante na criação de bons sistemas de fala, o suíço-alemão não teve a mesma atenção.
No entanto, nos últimos anos, houve um movimento para coletar dados de áudio de alta qualidade para o suíço-alemão. Esse esforço de coleta de dados abriu novas possibilidades para construir sistemas melhores que consigam transformar texto em alemão padrão em vários dialetos suíços.
Coleta de Dados
Para melhorar a síntese de fala para suíço-alemão, os autores usaram três conjuntos de dados diferentes. O primeiro é o SDS-200, que inclui 200 horas de gravações em suíço-alemão de diferentes dialetos, junto com suas traduções em alemão padrão. O segundo conjunto é o SwissDial, que tem cerca de 3 horas de áudio de alta qualidade para oito principais dialetos suíço-alemães. O último conjunto é da SlowSoft, que foca em línguas minoritárias e contém transcrições fonéticas para o dialeto dos Grisons.
Esses conjuntos de dados permitiram que os autores testassem quão bem diferentes modelos conseguem transformar texto em fala suíço-alemã. Os autores se concentraram em criar um sistema que traduz texto em alemão padrão para suíço-alemão. Também treinaram um modelo de aprendizado de máquina usando o método VITS, que é um tipo de síntese de fala de ponta a ponta.
O Modelo VITS
O modelo VITS significa Inferência Variacional com Aprendizado Adversarial para Síntese de Fala de Texto para Fala de Ponta a Ponta. Esse é um sistema que combina diferentes técnicas para criar fala diretamente a partir do texto.
Os autores usaram uma abordagem específica com o modelo VITS onde eles inseriam texto e o modelo gerava áudio. Eles também descobriram que dividir o texto em partes menores, como caracteres em vez de palavras, ajudou a melhorar a qualidade da fala gerada.
Para preparar os dados, os autores se certificaram de remover qualquer ruído de fundo das gravações de áudio. Eles também cortaram o silêncio no começo e no final de cada gravação para deixar a saída mais natural.
Sistema de Tradução
Antes de transformar o texto em fala, os autores criaram um sistema que traduz texto em alemão padrão para suíço-alemão. Eles usaram um modelo chamado T5, que foi treinado no conjunto de dados SwissDial. Ao marcar os dialetos, eles garantiram que o modelo de tradução pudesse lidar com as variações do suíço-alemão.
Avaliação da Qualidade da Fala
Avaliar a qualidade da síntese de fala é importante, mas pode ser complexo. Os autores usaram uma mistura de métodos de avaliação automatizados e humanos. Eles mediram quão próximo a fala sintetizada estava da fala real usando diferentes critérios, incluindo:
- Distância Mel-Cepstral (MCD): Isso verifica quão diferentes são duas amostras de fala.
- Erro Quadrático Médio do Log-F0 (RMSE): Isso analisa as diferenças de pitch na fala.
- Taxa de Erro de Caractere (CER) e Taxa de Erro de Palavra (WER): Essas medem os erros no texto gerado em comparação com o texto correto.
Os autores também introduziram um novo método onde um modelo treinado prevê se clipes de áudio são reais ou feitos por máquina. Isso deu uma camada extra de avaliação ao trabalho deles.
Resultados
Os resultados do modelo de tradução T5 mostraram potencial, com uma boa pontuação indicando que o modelo poderia traduzir efetivamente frases em alemão padrão para dialetos suíço-alemães. Os autores analisaram exemplos e notaram que, embora algumas traduções estivessem corretas, outras mostravam variações baseadas em escolhas pessoais de grafia ou diferenças de dialeto.
Para o modelo VITS, o conjunto de dados SDS-200 forneceu os melhores resultados em certas medições, mas o conjunto SwissDial se destacou em outras. Houve alguns desafios com o conjunto de dados SlowSoft devido ao seu tamanho menor, mas ainda assim conseguiu um bom desempenho.
Em termos de avaliação humana, os autores fizeram pessoas ouvirem o áudio sintetizado e classificá-lo. O áudio do conjunto de dados SlowSoft recebeu as maiores avaliações, mostrando que material de treinamento de qualidade é fundamental para gerar boa fala.
Conclusão
No geral, esse trabalho demonstra que transformar texto em alemão padrão para fala suíço-alemã pode ser feito de forma eficaz se dados de treinamento de alta qualidade forem utilizados. Os resultados mostraram que o modelo VITS pode gerar áudio suíço-alemão de alta qualidade, até superando algumas amostras de fala real de outros conjuntos de dados.
As descobertas sugerem que a combinação de um bom sistema de tradução e dados de qualidade pode levar a uma síntese de fala bem-sucedida para o suíço-alemão. Isso abre portas para mais pesquisas e desenvolvimento na área de tecnologia de fala para línguas de baixo recurso, mostrando que o progresso é possível com as ferramentas e dados certos.
Os autores agradecem pelo apoio recebido para seu projeto voltado a melhorar sistemas de tradução de fala para dialetos suíço-alemães de baixo recurso.
Título: Text-to-Speech Pipeline for Swiss German -- A comparison
Resumo: In this work, we studied the synthesis of Swiss German speech using different Text-to-Speech (TTS) models. We evaluated the TTS models on three corpora, and we found, that VITS models performed best, hence, using them for further testing. We also introduce a new method to evaluate TTS models by letting the discriminator of a trained vocoder GAN model predict whether a given waveform is human or synthesized. In summary, our best model delivers speech synthesis for different Swiss German dialects with previously unachieved quality.
Autores: Tobias Bollinger, Jan Deriu, Manfred Vogel
Última atualização: 2023-05-31 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2305.19750
Fonte PDF: https://arxiv.org/pdf/2305.19750
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.