Simple Science

Ciência de ponta explicada de forma simples

# Engenharia Eletrotécnica e Ciência dos Sistemas# Som# Processamento de Áudio e Fala

Nova Método para Criação de Voz em Síntese de Fala

Um método simples pra criar vozes e controlar emoções na síntese de fala.

― 6 min ler


Avanço na Criação de VozAvanço na Criação de Voztecnologia de síntese de fala.Um novo método pra melhorar a
Índice

Nos últimos anos, o campo da síntese de voz cresceu rápido. Os pesquisadores estão trabalhando em desenvolver sistemas que conseguem criar uma fala realista e natural. Eles estão enfrentando tarefas bem desafiadoras, como gerar vozes de falantes que não existem e controlar a intensidade de emoções na fala. Um método popular pra conseguir isso é chamado de interpolação de atributos.

Mas muitos dos métodos tradicionais de interpolação de atributos precisam de ferramentas específicas ou técnicas de treinamento. Neste artigo, apresentamos um novo método de interpolação de atributos baseado em uma técnica chamada fusão de modelos.

O que é Fusão de Modelos?

Fusão de modelos é uma técnica que combina as forças de diferentes modelos pra criar um novo. Ao invés de precisar de muitas ajustes complicados ou novas ferramentas, a fusão de modelos simplesmente pode fazer a média dos parâmetros de vários modelos existentes. Esse novo modelo mesclado pode produzir fala que reflete características de ambos os modelos originais.

A atratividade dessa abordagem tá na sua simplicidade. Os usuários podem aplicar esse método sem precisar criar novos modelos do zero ou ter recursos de treinamento específicos. É fácil de implementar usando modelos que já foram treinados.

Aplicações na Síntese de Voz

Com os avanços em aprendizado profundo, os sistemas de conversão de texto em palavras faladas ficaram muito mais naturais, chegando perto da fala humana real. O foco agora tá em criar uma variedade de vozes, incluindo aquelas que nunca foram ouvidas antes e aquelas que podem expressar diferentes emoções em intensidades variadas.

Essas tecnologias são usadas em várias áreas, como criar vozes de personagens pra filmes e jogos, melhorar assistentes de conversa e oferecer uma narração melhor pra audiolivros.

Desafios em Métodos Anteriores

Vários métodos foram propostos pra criar novas vozes e controlar a entrega emocional. Alguns deles incluem técnicas que usam um token de estilo global, métodos de incorporação pra falante e emoção, e até modelos generativos avançados como Autoencoders Variacionais.

Mas a maioria das técnicas tradicionais de interpolação de atributos precisa de procedimentos de treinamento adicionais ou módulos dedicados. Por exemplo, alguns exigem funções de perda específicas ou classificadores pré-treinados pra serem eficazes.

É aí que o método de fusão de modelos se destaca. Ele não precisa de treinamento especial ou ferramentas extras, tornando-se uma opção mais acessível.

O Método de Interpolação de Atributos

Na nossa nova abordagem, introduzimos um método de interpolação de atributos que mescla dois modelos de texto pra fala. Ao ajustar um coeficiente que controla quanto de cada modelo é usado, conseguimos produzir fala que combina características de ambos.

A ideia principal é que o modelo mesclado pode gerar uma mistura das vozes ou emoções dos falantes representados pelos modelos originais. Realizamos experimentos pra avaliar o desempenho do nosso método na geração de novos falantes e no controle da Intensidade Emocional na síntese de voz.

Geração de Falantes

Geração de falantes se refere à criação de fala pra falantes que na verdade não existem. Essa tarefa pode ser útil pra várias aplicações, incluindo narrações em filmes ou para assistentes virtuais.

Pra conseguir isso, usamos dois modelos TTS diferentes como modelos base e os mesclamos. Testamos diferentes combinações de vozes masculinas e femininas pra ver como os modelos mesclados se saíram.

Os resultados mostraram que nosso método conseguiu gerar fala que era natural e inteligível, misturando características dos dois falantes originais. Os participantes dos nossos testes avaliaram a naturalidade da fala, e os resultados indicaram que nossos modelos mesclados se saíram bem em comparação com modelos de um único falante.

Controle da Intensidade Emocional

Junto com a criação de novas vozes, controlar a intensidade emocional da fala é outro aspecto essencial da síntese de voz. Os usuários costumam querer ajustar quão forte as emoções são transmitidas, desde um tom neutro até expressões mais intensas, como felicidade ou tristeza.

Testamos nosso método de fusão nessa tarefa combinando uma voz de estilo neutro com quatro estilos emocionais diferentes. Ao mudar o coeficiente de fusão, podíamos controlar a força das emoções na fala gerada.

A avaliação mostrou que os participantes conseguiram identificar facilmente diferentes níveis de intensidade emocional nas amostras de fala. Isso sugere que nosso método é eficaz pra controlar emoções na síntese de voz.

Importância da Diversidade nos Dados de Treinamento

Um achado notável dos nossos experimentos é que a diversidade dos dados de treinamento desempenha um papel significativo no controle emocional. Quando as expressões emocionais entre os estilos neutro e emocional eram bem diferentes no conjunto de dados original, isso permitia um controle mais suave da intensidade emocional.

No entanto, quando as diferenças eram menores, como com a voz triste em comparação com a voz neutra, o controle não foi tão eficaz. Isso destaca a necessidade de uma ampla gama de expressões emocionais nos conjuntos de dados de treinamento pra melhorar o desempenho nas tarefas de controle emocional.

Conclusão

Resumindo, apresentamos um novo método de interpolação de atributos na síntese de voz baseado na fusão de modelos. Nossa abordagem simplifica o processo de gerar novas vozes e controlar a intensidade emocional sem a necessidade de treinamento adicional ou módulos complicados.

Nossos experimentos demonstram que esse método pode gerar fala realista enquanto preserva o conteúdo linguístico. A capacidade de mesclar facilmente modelos existentes permite aplicações práticas nos campos de produção de áudio, assistentes virtuais e mais.

Para trabalhos futuros, queremos refinar ainda mais nossa abordagem pra possibilitar uma interpolação de falantes ainda melhor, especialmente entre diferentes gêneros, e explorar métodos que possam controlar múltiplos atributos ao mesmo tempo, como voz e emoção.

Ao tornar a síntese de voz mais acessível e eficaz, esperamos contribuir para avanços na criação de experiências de áudio mais realistas e envolventes em várias aplicações.

Fonte original

Título: An Attribute Interpolation Method in Speech Synthesis by Model Merging

Resumo: With the development of speech synthesis, recent research has focused on challenging tasks, such as speaker generation and emotion intensity control. Attribute interpolation is a common approach to these tasks. However, most previous methods for attribute interpolation require specific modules or training methods. We propose an attribute interpolation method in speech synthesis by model merging. Model merging is a method that creates new parameters by only averaging the parameters of base models. The merged model can generate an output with an intermediate feature of the base models. This method is easily applicable without specific modules or training methods, as it uses only existing trained base models. We merged two text-to-speech models to achieve attribute interpolation and evaluated its performance on speaker generation and emotion intensity control tasks. As a result, our proposed method achieved smooth attribute interpolation while keeping the linguistic content in both tasks.

Autores: Masato Murata, Koichi Miyazaki, Tomoki Koriyama

Última atualização: 2024-06-30 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2407.00766

Fonte PDF: https://arxiv.org/pdf/2407.00766

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes