Simple Science

Ciência de ponta explicada de forma simples

# Engenharia Eletrotécnica e Ciência dos Sistemas# Computação e linguagem# Aprendizagem de máquinas# Som# Processamento de Áudio e Fala

Aprimorando TTS para Línguas de Baixos Recursos

Esse artigo explora métodos pra melhorar sistemas de texto-para-fala pra línguas sub-representadas.

― 8 min ler


Sistemas de TTS paraSistemas de TTS paraDiversas Línguasrecursos.comunidades de línguas com poucosMelhorando a tecnologia de fala para
Índice

A tecnologia de Texto-para-Fala (TTS) evoluiu rapidamente graças aos avanços recentes em tecnologias de fala. Mas, pra criar modelos TTS de alta qualidade, geralmente precisa-se de muitos dados, que podem ser caros e difíceis de coletar, especialmente pra idiomas que não são muito usados ou estudados. Muitas Línguas de baixo recurso não recebem atenção suficiente, o que limita a disponibilidade de sistemas TTS pra pessoas que poderiam se beneficiar deles.

Este artigo vai discutir uma estratégia de treinamento que usa dados de várias línguas pra ajudar a criar sistemas TTS pra línguas de baixo recurso. Vamos olhar pra duas ideias principais: primeiro, se os dados de redes sociais podem ser usados pra criar pequenos conjuntos de dados TTS; e segundo, se aprender a partir de uma língua pode ajudar a melhorar modelos TTS pra outra, especialmente línguas de baixo recurso.

Importância do TTS pra Línguas de Baixo Recurso

Apoiar sistemas TTS pra línguas de baixo recurso não é só importante pra negócios, mas também pode ter benefícios sociais. Pra pessoas com deficiência visual, baixos níveis de alfabetização ou dificuldades de aprendizado, acessar conteúdo escrito pode ser muito difícil. A tecnologia TTS pode ajudar essas pessoas convertendo material escrito em fala, permitindo que elas se envolvam com conteúdos que, de outra forma, estariam fora de alcance.

Atualmente, a tecnologia TTS está mais disponível pra línguas como inglês, onde a qualidade da fala gerada pode ser indistinguível de vozes humanas. Porém, muitas línguas e dialetos ainda não têm suporte TTS adequado, tornando necessário focar mais em línguas de baixo recurso.

Desafios na Criação de Sistemas TTS

Treinar modelos TTS geralmente requer muitos dados de alta qualidade que são gravados especialmente. Isso pode ser caro e demorado, levando a desafios especialmente em ambientes de baixo recurso. Métodos tradicionais costumam depender de gravações limpas e de alta qualidade feitas por profissionais, mas isso não é viável pra muitas línguas menos estudadas.

No entanto, desenvolvimentos recentes em aprendizado profundo inspiraram pesquisadores a encontrar maneiras de tornar os sistemas TTS menos dependentes de grandes quantidades de dados. Alguns sugeriram criar conjuntos de dados a partir de material existente, como conjuntos de dados de reconhecimento de fala automática ou notícias transmitidas, enquanto outros exploraram diferentes técnicas de aprendizado profundo, como aprendizado semi-supervisionado e aprendizado por transferência.

Aprendizado por Transferência pra Línguas de Baixo Recurso

O aprendizado por transferência tem sido uma área-chave de foco pra pesquisadores que buscam melhorar sistemas TTS em ambientes de baixo recurso. Uma abordagem é usar modelos que foram treinados em uma língua relacionada ao trabalhar com uma língua-alvo que carece de dados. Isso pode envolver usar uma língua de alto recurso pra ajudar a aprimorar o modelo pra outra língua com menos dados.

Por exemplo, TTS emocional ou clonagem de voz pode se beneficiar do uso de dados de uma língua similar. Quando os dados pra uma língua-alvo são escassos, os pesquisadores podem até usar informações de várias línguas pra ajudar a construir melhores sistemas TTS.

Usando Dados de Redes Sociais

Pra nossa pesquisa, queríamos explorar se poderíamos usar dados de redes sociais pra criar um modelo TTS pra uma língua de baixo recurso, especificamente o Dialeto Marroquino (Darija). Nos concentramos em coletar dados de plataformas como YouTube, particularmente de canais de contação de histórias. Esses vídeos costumam ter áudio claro, mas com menos ruído de fundo em comparação com estilos mais conversacionais.

Pra construir nosso conjunto de dados, seguimos várias etapas pra garantir qualidade:

  1. Ouvimos várias amostras de áudio e selecionamos aquelas que eram claras e de boa qualidade.
  2. Excluímos gravações que estavam abaixo de um certo padrão de qualidade sonora.
  3. Removemos ruídos do áudio pra torná-lo mais claro.
  4. Dividimos o áudio em segmentos menores e gerenciáveis pra processamento.
  5. Usamos reconhecimento automático de fala pra criar transcrições de texto pro áudio.
  6. Corrigimos manualmente erros nas transcrições pra garantir precisão.

No total, criamos cerca de 6 horas de dados de áudio, com 1,2 horas sendo pareadas com texto, o que é necessário pra treinar um modelo TTS.

Escolhendo Línguas Fonte

Ao usar aprendizado por transferência em modelagem multilíngue, é crucial escolher as línguas fonte com cuidado. Muitas vezes, os pesquisadores escolhem línguas com base na intuição, em vez de métodos baseados em dados. Nosso objetivo foi melhorar esse processo usando uma abordagem baseada em dados pra determinar quais línguas seriam mais benéficas pra nossa língua-alvo.

Usamos um modelo pra computar similaridades entre línguas e selecionamos oito línguas que proporcionariam as melhores oportunidades de transferência de conhecimento. Essa seleção cuidadosa incluiu línguas de várias famílias pra capturar uma gama mais ampla de características fonéticas que poderiam beneficiar o processo de aprendizado por transferência.

Arquitetura do Sistema TTS

Os sistemas TTS modernos consistem em três componentes principais:

  1. Um módulo de análise de texto que converte texto em características linguísticas.
  2. Um modelo acústico que gera características sonoras a partir dessas características linguísticas.
  3. Um vocoder que transforma essas características em ondas sonoras reais.

A eficácia de um sistema TTS depende de quão bem esses componentes trabalham juntos. Dada a quantidade limitada de dados disponíveis pra nossa língua-alvo, escolhemos modelos de ponta a ponta, como TransformerTTS e FastSpeech2, que podem lidar com entradas de texto bruto diretamente e aprender as mapeações sonoras necessárias de forma eficiente.

Procedimento de Treinamento

Nossos experimentos focaram em comparar a eficácia do treinamento de modelos TTS usando uma única língua de alto recurso ou várias línguas. Isso envolveu criar dois experimentos principais:

  1. No primeiro experimento, treinamos um modelo usando 12 horas de dados do árabe (a língua de alto recurso mais próxima) e depois o ajustamos com dados de Darija.
  2. No segundo experimento, treinamos um modelo usando dados de várias línguas, incluindo árabe, hebraico, francês e holandês, totalizando 12 horas, e o ajustamos no conjunto de dados de Darija.

Ambos os modelos usaram a mesma quantidade de dados pra treinamento e ajuste fino, permitindo que comparássemos seu desempenho de forma eficaz.

Resultados

Avaliar o desempenho dos nossos modelos usando várias métricas. Avaliações objetivas mostraram que modelos treinados com dados multilíngues geralmente tiveram um desempenho melhor do que aqueles treinados em uma única língua. A qualidade da fala sintetizada melhorou significativamente com a adição de dados de várias línguas.

Melhoria da Qualidade

Em ambos os experimentos, notamos que o ajuste contínuo melhorou a qualidade da fala gerada. Adicionar a vocalização de texto e usar um vocoder avançado também desempenharam papéis essenciais em melhorar a naturalidade e inteligibilidade da fala gerada.

Nas avaliações subjetivas, descobrimos que os ouvintes classificaram o modelo multilíngue mais alto em inteligibilidade (quão clara era a fala) e naturalidade (quão humano era o som). Esses achados destacaram os benefícios de usar dados de redes sociais pra criar sistemas TTS.

Avaliação Automática

Também usamos um modelo de avaliação automática pra avaliar a qualidade da fala sintetizada. Este modelo previu Pontuações Médias de Opinião (MOS), que são amplamente usadas pra medir a qualidade da fala. Os resultados mostraram que nosso modelo multilíngue superou o monolíngue, com classificações mais altas tanto em clareza quanto em naturalidade.

Conclusão

Essa pesquisa destaca o valor de uma abordagem multilíngue pra melhorar sistemas TTS pra línguas de baixo recurso. Ao aproveitar dados de redes sociais e aprendizado por transferência de várias línguas, conseguimos criar um sistema que ofereceu uma melhor qualidade de síntese de fala.

Como muitas línguas continuam a carecer de suporte TTS adequado, as técnicas discutidas aqui podem abrir caminho pra tecnologias de fala mais inclusivas que atendam a diversas comunidades linguísticas. Trabalhos futuros incluirão expandir nossos métodos de seleção de línguas e explorar o impacto de diferentes línguas fonte no desempenho TTS.

Ao adotar uma perspectiva multilíngue e utilizar fontes de dados diversas, podemos aumentar a eficácia das tecnologias de síntese de fala e construir um futuro mais inclusivo para falantes de línguas de baixo recurso.

Fonte original

Título: A multilingual training strategy for low resource Text to Speech

Resumo: Recent speech technologies have led to produce high quality synthesised speech due to recent advances in neural Text to Speech (TTS). However, such TTS models depend on extensive amounts of data that can be costly to produce and is hardly scalable to all existing languages, especially that seldom attention is given to low resource languages. With techniques such as knowledge transfer, the burden of creating datasets can be alleviated. In this paper, we therefore investigate two aspects; firstly, whether data from social media can be used for a small TTS dataset construction, and secondly whether cross lingual transfer learning (TL) for a low resource language can work with this type of data. In this aspect, we specifically assess to what extent multilingual modeling can be leveraged as an alternative to training on monolingual corporas. To do so, we explore how data from foreign languages may be selected and pooled to train a TTS model for a target low resource language. Our findings show that multilingual pre-training is better than monolingual pre-training at increasing the intelligibility and naturalness of the generated speech.

Autores: Asma Amalas, Mounir Ghogho, Mohamed Chetouani, Rachid Oulad Haj Thami

Última atualização: Sep 2, 2024

Idioma: English

Fonte URL: https://arxiv.org/abs/2409.01217

Fonte PDF: https://arxiv.org/pdf/2409.01217

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes