Avanços na tecnologia de texto-para-fala com múltiplos falantes
Novas técnicas melhoram a geração de voz sintética com dados mínimos.
― 6 min ler
Índice
- O que é TTS Multi-Voices?
- Abordagens Zero-Shot e Few-Shot em TTS
- O Papel do Modelo SpeechT5
- Coleta e Pré-processamento de Dados
- Treinando o Modelo SpeechT5
- Finalizando o Processo de Ajuste Fino
- Testando as Capacidades do Modelo
- Resultados dos Testes de Audição
- Aplicações e Implicações
- Considerações Éticas
- Conclusão
- Fonte original
- Ligações de referência
A tecnologia de texto para fala (TTS) evoluiu muito ao longo dos anos, principalmente por causa dos avanços em deep learning e da disponibilidade de um monte de dados para treinamento. Sistemas de TTS conseguem transformar texto escrito em palavras faladas, possibilitando várias aplicações, como assistentes virtuais e ferramentas de acessibilidade.
O que é TTS Multi-Voices?
TTS multi-voices se refere a sistemas que conseguem imitar as vozes de diferentes falantes. No passado, os sistemas de TTS precisavam de muitas gravações de cada falante específico para criar um modelo de fala. Mas agora, novas técnicas permitem criar vozes usando apenas pequenas quantidades de dados de cada falante.
Abordagens Zero-Shot e Few-Shot em TTS
Nesse contexto, tem duas abordagens importantes - zero-shot e few-shot TTS.
Zero-Shot TTS: Esse método permite que o sistema gere fala para um novo falante que nunca encontrou antes, sem precisar de gravações adicionais desse falante.
Few-Shot TTS: Esse método precisa apenas de um número pequeno de gravações (de segundos a poucos minutos) da voz do falante alvo para o sistema aprender a replicar a voz desse falante.
Essas abordagens facilitam muito a produção de vozes sintéticas para várias aplicações, principalmente para quem não consegue fornecer muitos dados de voz.
O Papel do Modelo SpeechT5
O modelo SpeechT5 é um novo modelo de TTS multi-vozes. Ele foi treinado com uma grande quantidade de dados de fala e texto, o que o torna capaz de gerar vozes diversas e de alta qualidade. O modelo foi projetado para funcionar bem tanto em cenários zero-shot quanto few-shot.
Durante nossa pesquisa, testamos o desempenho desse modelo usando gravações de políticos e celebridades tchecas conhecidas. Isso permitiu que os avaliadores comparassem as vozes sintéticas com vozes reais de forma confiável.
Coleta e Pré-processamento de Dados
Para desenvolver o modelo SpeechT5 de forma eficaz, coletamos uma quantidade imensa de dados de fala e texto em tcheco. Os dados de fala foram coletados de várias fontes, incluindo transmissões de televisão, programas de rádio, podcasts e mais. Essa coleção somou mais de 120.000 horas de fala, fazendo dela um recurso único para desenvolver a tecnologia TTS em tcheco.
Para os dados de texto, usamos um grande arquivo da web que contém páginas capturadas. Filtramos esses dados para manter apenas texto limpo e relevante. Depois da limpeza, acabamos com 530 milhões de páginas da web cheias de texto, permitindo um treinamento abrangente do modelo SpeechT5.
Treinando o Modelo SpeechT5
Realizamos o treinamento do modelo SpeechT5 utilizando um setup de alto desempenho com várias Unidades de Processamento Gráfico (GPUs). O treinamento envolveu várias etapas, onde o modelo aprendeu a prever dados faltantes da fala e texto que recebeu. Essa fase de aprendizado autossupervisionado permitiu que o modelo ganhasse uma compreensão fundamental de fala e texto.
Após o pré-treinamento inicial, focamos em afinar o modelo especificamente para a tarefa de TTS multi-vozes. Isso exigiu um conjunto de dados limpo e diversificado que incluísse vozes e estilos de fala diferentes.
Finalizando o Processo de Ajuste Fino
O ajuste fino envolveu usar vários conjuntos de dados, incluindo aqueles com fala gravada profissionalmente e outras fontes para aumentar a diversidade. Garantimos que os dados coletados fossem de alta qualidade, descartando exemplos barulhentos ou mal transcritos.
Quando o ajuste fino foi concluído, nosso modelo conseguiu replicar vozes com base em apenas algumas amostras da voz de um falante. Isso ajudou a alcançarmos a qualidade desejada na fala sintética para uma variedade de vozes.
Testando as Capacidades do Modelo
Depois de completar o treinamento, fizemos testes para avaliar como o modelo se saiu. Escolhemos um grupo diversificado de falantes, incluindo políticos e celebridades, para garantir uma boa mistura de vozes.
Para avaliar a qualidade e semelhança das vozes sintéticas com as vozes reais, organizamos testes de audição. Os participantes ouviram gravações sintéticas e genuínas e deram feedback sobre quão semelhantes elas soavam.
Resultados dos Testes de Audição
Os resultados mostraram que o modelo SpeechT5 teve um desempenho ruim em cenários zero-shot, o que significa que ele teve dificuldades para gerar fala de alta qualidade para falantes que nunca encontrou antes. Em contrapartida, os modelos few-shot se saíram muito melhor depois de serem ajustados com apenas um minuto de dados de fala de um falante alvo.
O ajuste fino melhorou tanto a qualidade quanto a semelhança da fala gerada, especialmente para vozes que eram mais expressivas. Adicionar mais dados de treinamento além de um minuto não mostrou benefícios substanciais em qualidade, mas melhorou a semelhança para vozes mais dinâmicas.
Aplicações e Implicações
A capacidade de criar vozes sintéticas com amostras mínimas abre muitas possibilidades. Por exemplo, pode ajudar a preservar as vozes de pessoas que perderam a capacidade de falar por conta de condições médicas. Além disso, oferece uma forma de gerar vozes para novas produções sem problemas legais sobre direitos de voz.
Além disso, a tecnologia pode enriquecer várias aplicações, incluindo chatbots, assistentes virtuais e plataformas de contação de histórias ao fornecer vozes diversas.
Considerações Éticas
Embora essa tecnologia tenha um grande potencial, também traz riscos, principalmente em relação a abusos. A habilidade de criar vozes de indivíduos famosos pode levar à desinformação ou uso não autorizado na mídia. Por isso, é fundamental abordar o lançamento de tal tecnologia com cautela e implementar salvaguardas contra abusos.
Conclusão
Resumindo, o modelo SpeechT5 representa um avanço significativo na tecnologia de TTS multi-vozes. Ao permitir capacidades zero-shot e few-shot, ele possibilita a geração de vozes sintéticas com dados mínimos. Nossos resultados indicam que, embora o desempenho zero-shot precise de melhorias, a abordagem few-shot mostra grande potencial.
A pesquisa abre novas possibilidades para criar vozes sintéticas realistas para várias aplicações, enquanto levanta questões éticas importantes que precisam ser abordadas à medida que a tecnologia continua a evoluir.
Título: Zero-Shot vs. Few-Shot Multi-Speaker TTS Using Pre-trained Czech SpeechT5 Model
Resumo: In this paper, we experimented with the SpeechT5 model pre-trained on large-scale datasets. We pre-trained the foundation model from scratch and fine-tuned it on a large-scale robust multi-speaker text-to-speech (TTS) task. We tested the model capabilities in a zero- and few-shot scenario. Based on two listening tests, we evaluated the synthetic audio quality and the similarity of how synthetic voices resemble real voices. Our results showed that the SpeechT5 model can generate a synthetic voice for any speaker using only one minute of the target speaker's data. We successfully demonstrated the high quality and similarity of our synthetic voices on publicly known Czech politicians and celebrities.
Autores: Jan Lehečka, Zdeněk Hanzlíček, Jindřich Matoušek, Daniel Tihelka
Última atualização: 2024-07-24 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2407.17167
Fonte PDF: https://arxiv.org/pdf/2407.17167
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://huggingface.co/fav-kky/SpeechT5-base-cs-tts
- https://commoncrawl.org
- https://github.com/LDNOOBW/List-of-Dirty-Naughty-Obscene-and-Otherwise-Bad-Words
- https://pypi.org/project/langdetect/
- https://github.com/microsoft/SpeechT5
- https://catalogue.elra.info/en-us/repository/browse/ELRA-S0298/
- https://huggingface.co/speechbrain/spkrec-xvect-voxceleb
- https://huggingface.co/docs/transformers
- https://huggingface.co/speechbrain/spkrec-ecapa-voxceleb