Avanços na Tecnologia de Conversão de Emoção na Fala
Uma nova forma de mudar as emoções na fala em meio ao barulho do dia a dia.
― 7 min ler
Índice
A conversão de emoção na fala é o processo de mudar a emoção expressa nas palavras faladas, mantendo o significado original e a identidade do falante. Essa tecnologia é importante para criar interações mais naturais entre humanos e máquinas, especialmente em áreas onde a expressão emocional é crucial. No entanto, gerar uma fala emocional realista ainda é um desafio.
Esse artigo foca na conversão de emoção na fala em condições barulhentas do mundo real, onde não há dados correspondentes disponíveis para referência. Em termos mais simples, estamos vendo como mudar a emoção na fala sem ter um exemplo perfeito para trabalhar. Isso cria dificuldades porque temos que separar a fala em partes diferentes: quais emoções estão sendo expressas, quem está falando e o que as palavras estão dizendo.
Metodologia
Nesse approach, usamos redes especiais que nos ajudam a dividir a fala em suas partes: as palavras, a voz do falante e o tom emocional. Depois de separar esses elementos, usamos um sistema chamado HiFiGAN para recombiná-los em uma nova fala que reflita a emoção desejada.
Para gerenciar quão forte a nova emoção aparece, focamos em um aspecto da emoção chamado "Excitação". Isso se refere a quão animada ou calma uma pessoa se sente, em vez de rotular a emoção como feliz ou triste. Fazendo isso, conseguimos controlar mais efetivamente a intensidade da emoção na saída final da fala.
Treinando o Sistema
O processo de treinamento envolve usar um grande conjunto de dados de podcasts falados onde as emoções são rotuladas. Nós nos concentramos especificamente em quão excitada ou calma a fala soa, em vez de apenas categorizar emoções. Esse foco em escalas contínuas nos permite lidar com a intensidade emocional de forma mais eficaz.
Para treinar nosso sistema, começamos com o áudio das palavras faladas, que quebramos em seus componentes. Usamos diferentes tipos de codificadores para esse processo.
- Codificador Lexical: Essa parte cuida das palavras faladas. Ela pega o áudio bruto e processa para extrair os detalhes fonéticos.
- Codificador de Falante: Essa parte identifica quem está falando analisando as qualidades da voz deles.
- Codificador de Emoção: Em vez de depender de rótulos categóricos, essa parte trabalha com uma pontuação simples que indica quão excitada a fala está.
Depois de processar com esses codificadores, temos representações distintas para as palavras, a voz do falante e o tom emocional.
Em seguida, alimentamos essas representações no HiFiGAN, uma rede neural que gera fala de alta qualidade. Ela usa os componentes separados para criar uma nova saída de áudio que reflete o tom emocional desejado, mantendo as palavras originais e a voz do falante.
Desafios com os Dados
A maioria dos conjuntos de dados usados para treinar sistemas de conversão de emoção na fala é criada em ambientes controlados onde atores leem linhas com emoções específicas. Isso pode ser muito diferente da fala espontânea, que é mais bagunçada e complexa.
Em situações do mundo real, nem sempre é viável coletar conjuntos de dados paralelos onde cada linha falada tem um correspondente emocional. É por isso que focamos em dados não paralelos. Modelos que podem trabalhar com esses dados são mais flexíveis, já que não dependem de pares exatos de emoção.
No entanto, dados não paralelos também trazem desafios. Precisamos garantir que o sistema ainda consiga separar e reassemblar os componentes emocionais, lexicais e do falante sem ter um exemplo direto para trabalhar.
Aprendizado Auto-Supervisionado
Para lidar com os desafios de trabalhar com dados não paralelos, usamos um método chamado aprendizado auto-supervisionado (SSL). Essa técnica utiliza grandes quantidades de dados não rotulados para melhorar o processo de treinamento. Fazendo isso, conseguimos entender melhor os vários elementos da fala envolvidos na expressão emocional e melhorar a qualidade da fala gerada.
O SSL tem se mostrado eficaz em tarefas relacionadas, como reconhecer emoções na fala e converter vozes de um falante para outro. Ao aplicar esse método, esperamos obter uma melhor visão de como separar e reconstruir os elementos da fala.
Processo de Ressíntese
Uma vez que temos nossos componentes separados, o próximo passo é recombiná-los em uma saída de fala que soa natural. É aqui que o HiFiGAN desempenha um papel crucial. Ele pega as partes separadas e gera áudio de alta qualidade que reflete a emoção pretendida.
O HiFiGAN usa uma combinação de técnicas para garantir que a saída final soe realista. Isso inclui ajustar o tom e outras qualidades vocais para combinar com o tom emocional que estamos buscando.
Em nosso treinamento, também avaliamos quão bem o sistema se sai em gerar fala emocionalmente expressiva. Observamos quão próximo a fala gerada está do conteúdo emocional pretendido e quão natural a voz soa.
Testes e Validação
Para medir a eficácia da nossa abordagem, realizamos testes usando um conjunto de dados específico que contém áudio de podcasts. As emoções nesse conjunto de dados são rotuladas com base em excitação, valência e dominância. No entanto, para o nosso estudo, focamos principalmente na excitação.
Durante os testes, avaliamos tanto quão bem o conteúdo emocional é convertido quanto quão natural a saída soa. Comparamos diferentes versões do nosso modelo para ver qual combinação de componentes produz os melhores resultados.
Achamos que usar uma combinação de todas as representações-palavras, identidade do falante e emoções-resulta na fala mais natural. Isso sugere que condicionar o HiFiGAN em todos os três aspectos melhora tanto a expressão emocional quanto o realismo da saída.
Resultados e Observações
Quando analisamos os resultados de nossos experimentos, vemos várias tendências. Primeiro, observamos que segmentos de fala maiores tendem a resultar em melhor conversão de emoção. Isso é provavelmente porque segmentos mais longos fornecem mais contexto para o modelo trabalhar.
Além disso, descobrimos que nosso método funciona melhor com níveis de excitação emocional moderados em comparação com os extremos. Isso significa que, embora o sistema possa converter emoções de forma eficaz, ele é mais bem-sucedido ao lidar com emoções que não estão nos extremos da escala.
Além de avaliações quantitativas como erros quadráticos médios e pontuações de naturalidade, também realizamos análises qualitativas. Ao examinar amostras de áudio e visualizar os espectrogramas, podemos entender quão bem os tons emocionais estão representados.
Por exemplo, ao sintetizar fala com alta excitação, notamos que o tom tende a ser mais alto e variável do que na fala com baixa excitação. Isso se alinha com ideias existentes que sugerem que as pessoas falam com um tom mais alto quando estão animadas ou emocionais.
Conclusão
Em resumo, nosso trabalho destaca o potencial da conversão de emoção na fala dentro de contextos do mundo real. Ao focar na separação dos componentes emocionais, lexicais e do falante da fala, conseguimos gerar expressões emocionais mais dinâmicas e realistas através da fala sintetizada.
Os resultados indicam que nossa metodologia melhora a naturalidade e a precisão emocional da saída. Alcançar isso de uma maneira não supervisionada, especialmente com dados do mundo real, é um passo significativo para frente.
À medida que a tecnologia continua a avançar, as aplicações da conversão de emoção na fala provavelmente se expandirão, abrindo o caminho para interações humanas-máquinas mais conscientes emocionalmente. As descobertas desta pesquisa podem servir como uma base para estudos futuros visando refinar e melhorar a expressividade emocional da fala sintetizada.
Título: In-the-wild Speech Emotion Conversion Using Disentangled Self-Supervised Representations and Neural Vocoder-based Resynthesis
Resumo: Speech emotion conversion aims to convert the expressed emotion of a spoken utterance to a target emotion while preserving the lexical information and the speaker's identity. In this work, we specifically focus on in-the-wild emotion conversion where parallel data does not exist, and the problem of disentangling lexical, speaker, and emotion information arises. In this paper, we introduce a methodology that uses self-supervised networks to disentangle the lexical, speaker, and emotional content of the utterance, and subsequently uses a HiFiGAN vocoder to resynthesise the disentangled representations to a speech signal of the targeted emotion. For better representation and to achieve emotion intensity control, we specifically focus on the aro\-usal dimension of continuous representations, as opposed to performing emotion conversion on categorical representations. We test our methodology on the large in-the-wild MSP-Podcast dataset. Results reveal that the proposed approach is aptly conditioned on the emotional content of input speech and is capable of synthesising natural-sounding speech for a target emotion. Results further reveal that the methodology better synthesises speech for mid-scale arousal (2 to 6) than for extreme arousal (1 and 7).
Autores: Navin Raj Prabhu, Nale Lehmann-Willenbrock, Timo Gerkmann
Última atualização: 2023-06-02 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2306.01916
Fonte PDF: https://arxiv.org/pdf/2306.01916
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.