Rasa: Uma Revolução na Síntese de Fala em Línguas Indianas
O dataset Rasa melhora a conversão de texto em fala para línguas indianas com uma fala neutra e expressiva.
― 7 min ler
Índice
- Por que Rasa é Importante
- O que Torna Rasa Único
- Criando o Conjunto de Dados Rasa
- Escrevendo Roteiros
- Contribuição Humana
- Fontes de Fala Neutra
- Gravando Áudio
- Escolhendo Artistas de Voz
- Medidas de Controle de Qualidade
- Entendendo as Estatísticas do Conjunto de Dados
- Construindo Sistemas TTS com Rasa
- Importância do Equilíbrio Silábico
- Experimentando com TTS Neutro
- Papel do Equilíbrio Silábico
- Avaliando TTS Expressivo
- Modelos TTS de Múltiplas Emoções
- Desempenho em Diferentes Emoções
- Generalização para Outras Línguas Indianas
- Trabalhos Relacionados e Direções Futuras
- Conclusão
- Fonte original
- Ligações de referência
Rasa é um novo conjunto de dados de fala criado para línguas indianas como Assamese, Bengali e Tamil. Esse conjunto é especial porque inclui tanto fala neutra quanto fala expressiva, que mostra seis emoções básicas: felicidade, tristeza, raiva, medo, surpresa e nojo. O conjunto tem cerca de 10 horas de fala neutra e de 1 a 3 horas de fala expressiva para cada emoção. O objetivo desse trabalho é facilitar a criação de sistemas que possam ler texto em voz alta de um jeito que soe natural e transmita emoções.
Por que Rasa é Importante
Em muitos lugares do mundo, especialmente para línguas como as faladas na Índia, não há recursos suficientes para criar sistemas de fala de alta qualidade. Enquanto existem alguns Conjuntos de dados disponíveis para línguas como inglês e mandarim, as línguas indianas geralmente carecem de conjuntos de dados Expressivos. Rasa preenche essa lacuna, permitindo que pesquisadores e desenvolvedores trabalhem na melhoria de sistemas de texto-para-fala (TTS) para essas línguas, mesmo quando os recursos são limitados.
O que Torna Rasa Único
Uma das características que se destacam no Rasa é a abordagem equilibrada para os dados de fala. Estudos mostraram que até uma pequena quantidade de dados expressivos, quando combinada com uma quantidade maior de dados Neutros, pode gerar um sistema TTS decente. Por exemplo, usar apenas 1 hora de fala neutra e 30 minutos de fala expressiva pode trazer bons resultados. Isso é especialmente importante para línguas com menos recursos, já que destaca que coletar fala neutra é geralmente mais fácil do que coletar fala expressiva.
Criando o Conjunto de Dados Rasa
Escrevendo Roteiros
Para criar o conteúdo de fala expressiva, primeiro, foram escritos roteiros que incluem elementos emocionais. Não havia coleções de textos existentes com emoções marcadas nas línguas indianas, então novos métodos foram desenvolvidos para escrever esses roteiros. Modelos de Linguagem Grande (LLMs) foram usados para gerar frases relevantes sobre vários tópicos como finanças, saúde e esportes em inglês. Depois de gerar essas frases, tradutores humanos as traduziram para Assamese, Bengali e Tamil. Os tradutores se concentraram não apenas na precisão palavra por palavra, mas também em como as frases expressavam emoção.
Contribuição Humana
Além de usar LLMs, uma equipe de escritores nativos foi envolvida para garantir que os roteiros fossem diversos e representativos da vida cotidiana na Índia. Eles imaginaram diferentes cenários onde as emoções entram em jogo. Isso ajudou a criar um conjunto de dados mais vivo e rico.
Fontes de Fala Neutra
Para a fala neutra, conjuntos de dados existentes foram utilizados para encontrar frases adequadas. Esses incluíam várias fontes que continham uma gama de declarações neutras sobre vários assuntos.
Gravando Áudio
Uma vez que os roteiros estavam prontos, o próximo passo foi gravar o áudio. Isso foi feito em um estúdio profissional usando microfones de alta qualidade. O objetivo era garantir que o áudio produzido fosse claro e livre de ruídos de fundo.
Escolhendo Artistas de Voz
Para encontrar os artistas de voz, foi feito um processo de seleção onde os possíveis artistas enviaram gravações mostrando seu alcance emocional. Falantes nativos avaliaram essas gravações para selecionar os mais adequados para o projeto. Os artistas de voz também foram informados sobre o propósito de suas gravações e assinaram formulários de consentimento para garantir que tudo fosse feito de forma ética.
Medidas de Controle de Qualidade
Para garantir alta qualidade, a equipe do projeto filtrou qualquer conteúdo inadequado e corrigiu erros nos roteiros. Depois de gravar, o áudio foi revisado e quaisquer inconsistências ou erros foram corrigidos. Isso garantiu que o conjunto de dados final tivesse qualidade excepcional.
Entendendo as Estatísticas do Conjunto de Dados
Rasa inclui uma variedade de dados de fala que cobre diferentes sílabas usadas nas línguas Assamese, Bengali e Tamil. O conjunto de dados foi projetado para garantir que tenha uma boa representação dos sons usados nessas línguas. Isso ajuda a treinar sistemas TTS de forma eficaz.
Construindo Sistemas TTS com Rasa
O próximo passo envolveu usar o conjunto de dados Rasa para criar sistemas TTS. FastPitch e HiFiGAN-V1 foram utilizados para esse propósito. FastPitch é um modelo projetado para gerar fala de maneira mais eficiente, enquanto HiFiGAN ajuda a produzir áudio de alta fidelidade.
Importância do Equilíbrio Silábico
Ao trabalhar com línguas de baixo recurso, a escolha do texto se torna vital. A equipe se concentrou no equilíbrio silábico para garantir que vários sons fossem adequadamente representados. Essa abordagem ajuda a gerar uma fala que soe mais natural.
Experimentando com TTS Neutro
Os pesquisadores realizaram experimentos para ver quão bem um sistema TTS de baixo recurso poderia desempenhar usando diferentes quantidades de fala neutra. Eles descobriram que para criar um sistema TTS funcional, era necessário pelo menos 1 hora de tipos específicos de dados neutros.
Papel do Equilíbrio Silábico
Um estudo mostrou que uma estrutura silábica bem balanceada impacta significativamente os sistemas TTS. Aqueles criados com enunciados cuidadosamente selecionados tiveram um desempenho melhor em comparação com os construídos com seleções aleatórias. Isso destaca a importância de ser intencional ao escolher o conteúdo para treinamento.
Avaliando TTS Expressivo
O próximo foco foi descobrir quão pouca fala expressiva é necessária para criar um TTS expressivo decente. Os pesquisadores realizaram testes para ver quais resultados vieram de diferentes quantidades de fala expressiva, levando a uma descoberta surpreendente: pouco mais de 15 minutos de dados expressivos poderiam levar a resultados aceitáveis para alguns tons emocionais.
Modelos TTS de Múltiplas Emoções
A equipe avaliou modelos de emoções únicas e múltiplas para ver como se saíam. Eles descobriram que combinar diferentes emoções em um único modelo geralmente levava a melhores resultados gerais em comparação com o treinamento de modelos separados para cada emoção. No entanto, em configurações de muito baixo recurso, modelos de emoções únicas tiveram um desempenho um pouco melhor.
Desempenho em Diferentes Emoções
Ao examinar como os sistemas TTS se saíam em diferentes emoções, descobriram que emoções como tristeza e raiva eram mais fáceis de sintetizar do que emoções como medo e surpresa. Isso provavelmente porque as duas últimas exigem um tipo diferente de entrega vocal.
Generalização para Outras Línguas Indianas
As percepções obtidas com o Rasa foram consideradas aplicáveis a várias línguas indianas. Os pesquisadores demonstraram que, com a preparação certa, sistemas TTS expressivos poderiam ser desenvolvidos não apenas para Assamese, Bengali e Tamil, mas também para Hindi, que é a língua mais falada na Índia.
Trabalhos Relacionados e Direções Futuras
A pesquisa em torno de sistemas TTS de baixo recurso e TTS expressivo tem crescido, e o Rasa contribui significativamente para esse campo. Embora muitos modelos existentes se concentrem apenas em línguas ricas em recursos, a abordagem do Rasa abre portas para futuros trabalhos em sistemas TTS que podem ter um bom desempenho mesmo em cenários de baixo recurso.
Conclusão
Rasa representa um passo significativo para melhorar a síntese de fala para línguas indianas. Ele abre possibilidades para melhores tecnologias de comunicação em regiões onde os recursos linguísticos são escassos. As descobertas compartilhadas a partir desse trabalho fornecem uma base sólida para futuros esforços na criação de sistemas TTS expressivos globalmente. A comunidade se beneficiará muito das percepções fornecidas, abrindo caminho para pesquisas e desenvolvimentos contínuos.
Título: Rasa: Building Expressive Speech Synthesis Systems for Indian Languages in Low-resource Settings
Resumo: We release Rasa, the first multilingual expressive TTS dataset for any Indian language, which contains 10 hours of neutral speech and 1-3 hours of expressive speech for each of the 6 Ekman emotions covering 3 languages: Assamese, Bengali, & Tamil. Our ablation studies reveal that just 1 hour of neutral and 30 minutes of expressive data can yield a Fair system as indicated by MUSHRA scores. Increasing neutral data to 10 hours, with minimal expressive data, significantly enhances expressiveness. This offers a practical recipe for resource-constrained languages, prioritizing easily obtainable neutral data alongside smaller amounts of expressive data. We show the importance of syllabically balanced data and pooling emotions to enhance expressiveness. We also highlight challenges in generating specific emotions, e.g., fear and surprise.
Autores: Praveen Srinivasa Varadhan, Ashwin Sankar, Giri Raju, Mitesh M. Khapra
Última atualização: 2024-08-30 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2407.14056
Fonte PDF: https://arxiv.org/pdf/2407.14056
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.