Melhorando a Compreensão de Fala e Emoção pela IA
Uma nova abordagem ensina a IA a reconhecer melhor a fala e as emoções em ambientes barulhentos.
― 6 min ler
Índice
Sistemas modernos de IA que interagem com pessoas, como assistentes de voz em carros ou chatbots de atendimento, precisam entender tanto o que alguém está dizendo quanto como essa pessoa se sente. Essa habilidade combina duas tarefas: Reconhecimento Automático de Fala (ASR), que transforma palavras faladas em texto, e Reconhecimento de Emoção na Fala (SER), que identifica o tom emocional por trás das palavras.
Em ambientes barulhentos, como call centers movimentados ou dentro de carros, pode ser complicado para esses sistemas funcionarem bem. Muitas vezes, ASR e SER são tratados separadamente, o que significa que eles podem não se beneficiar das forças um do outro. Este trabalho fala sobre uma nova maneira de treinar esses sistemas juntos para que eles fiquem melhores em lidar com a fala e as emoções, mesmo quando há barulho de fundo.
A Necessidade de Sistemas Melhores
Entender emoções é importante para sistemas que interagem com pessoas. Por exemplo, em um call center, uma IA pode identificar a frustração de um cliente pelo tom de voz e ajustar suas respostas para oferecer um atendimento melhor. Para fazer isso de forma eficiente, ASR e SER deveriam trabalhar juntos. No entanto, eles costumam enfrentar problemas:
- Tradicionalmente, ASR e SER são desenvolvidos separadamente.
- Não há dados suficientes disponíveis que tenham tanto palavras faladas quanto pistas emocionais, dificultando o treinamento de modelos para ambas as tarefas juntas.
Desafios na Aprendizagem Conjunta
Embora pesquisas tenham mostrado que treinar ASR e SER juntos pode melhorar a detecção de emoções, ainda não exploraram completamente como esses modelos se saem em ambientes barulhentos. O barulho pode vir de várias fontes, como conversas de fundo ou música, e pode confundir os modelos.
Alguns estudos tentaram tornar sistemas ASR ou SER mais resistentes ao barulho, mas poucos analisaram como o treinamento conjunto afeta o desempenho deles em ambientes barulhentos. Este trabalho busca preencher essa lacuna.
Nossas Contribuições
A gente propõe um método de Aprendizado Conjunto para ASR e SER que visa melhorar o desempenho em ambas as tarefas. Nossa abordagem inclui:
- Uma estrutura de aprendizado multitarefa que utiliza ASR e SER como tarefas principais, em vez de tratar uma como secundária.
- Uma exploração de como esse modelo conjunto lida com diferentes tipos de barulho de fundo.
Usamos modelos pré-treinados para ajudar com a quantidade limitada de dados disponíveis, tornando nosso método adequado para configurações de poucos recursos.
Conjunto de Dados e Configuração do Experimento
Para testar nossa abordagem, usamos o conjunto de dados IEMOCAP, que contém gravações de atores falando em diferentes tons emocionais. O conjunto inclui cerca de 12 horas de dados de fala, e focamos em quatro categorias emocionais: felicidade, tristeza, raiva e neutralidade.
Também adicionamos barulho aos dados de fala limpa usando um conjunto de dados separado que inclui vários tipos de música, fala e barulho de fundo. Ao misturar esses sons, criamos cenários desafiadores para testar como nossos modelos se saem.
Modelos de Referência
Desenvolvemos modelos para ASR e SER separadamente antes de combiná-los. Para ASR, treinamos um modelo para converter fala em texto a partir de fala limpa e barulhenta. Usamos um modelo popular chamado wav2vec2 para extrair características do áudio, que ajuda o sistema a entender a fala melhor.
Para SER, também usamos wav2vec2, mas focamos em classificar a emoção exibida naquela fala. A classificação emocional envolve determinar se um falante parece feliz, triste, irritado ou neutro.
Arquitetura do Modelo Conjunto
Nosso modelo conjunto funciona processando o áudio em dois caminhos paralelos: um para ASR e outro para SER. O caminho de ASR converte sons de fala em texto, enquanto o caminho de SER tenta determinar a emoção por trás da fala. Combinamos as informações de ambos os caminhos para aumentar a compreensão do modelo.
Também introduzimos uma nova maneira de combinar características de áudio e características linguísticas, facilitando para o modelo aprender com ambos os tipos de informação. Fazendo isso, pretendemos tornar nosso modelo mais preciso e robusto, especialmente em ambientes desafiadores.
Resultados e Desempenho
Testamos nossos modelos em diferentes condições-fala limpa e fala barulhenta. Os resultados indicaram que o modelo conjunto teve um desempenho significativamente melhor do que os modelos separados de ASR ou SER.
Quando treinado com dados limpos, o modelo conjunto mostrou uma melhoria notável tanto no reconhecimento da fala quanto das emoções, em comparação com os modelos de referência. Ele reduziu erros no ASR e melhorou a precisão do SER.
Em condições barulhentas, nossa abordagem conjunta continuou se saindo melhor do que os modelos separados. Por exemplo, quando barulho de música ou outras conversas foi adicionado, nosso modelo ainda conseguiu entender a fala e a emoção melhor do que quando ASR e SER foram tratados independentemente.
Análise de Robustez ao Barulho
Um dos aspectos mais importantes da nossa pesquisa foi analisar como os modelos se saíram em diferentes situações barulhentas. Testamos nosso modelo conjunto com vários tipos de barulho de fundo em diferentes intensidades.
Os resultados sugeriram que treinar com dados barulhentos melhorou a capacidade do modelo de lidar com situações do mundo real onde o barulho é inevitável. Em muitos testes, o modelo conjunto lidou com o barulho de fundo muito melhor do que os modelos separados.
No entanto, houve certas condições em que os modelos de referência superaram o modelo conjunto, especialmente em cenários envolvendo fala de fundo (conversinhas) e música em volumes mais baixos. Trabalhos futuros precisarão investigar maneiras de melhorar o desempenho do modelo conjunto nessas situações.
Conclusão
Resumindo, combinar ASR e SER em uma única tarefa de aprendizado parece levar a melhorias em ambas as frentes. Nosso modelo conjunto mostrou maior resistência ao barulho em comparação com modelos separados, tornando-o valioso para aplicações do mundo real, como atendimento ao cliente e assistentes de voz.
As descobertas indicam que treinar essas tarefas juntas não apenas ajuda no desempenho em ambientes tranquilos, mas também prepara o modelo para enfrentar os desafios de ambientes barulhentos. À medida que a IA continua a evoluir, desenvolver sistemas que entendam não apenas palavras, mas também as emoções por trás delas, vai melhorar bastante a experiência dos usuários.
Pesquisas futuras podem se basear nesses resultados para lidar com os desafios restantes e aprimorar a forma como os sistemas de IA interagem com as pessoas no dia a dia.
Título: On the Efficacy and Noise-Robustness of Jointly Learned Speech Emotion and Automatic Speech Recognition
Resumo: New-age conversational agent systems perform both speech emotion recognition (SER) and automatic speech recognition (ASR) using two separate and often independent approaches for real-world application in noisy environments. In this paper, we investigate a joint ASR-SER multitask learning approach in a low-resource setting and show that improvements are observed not only in SER, but also in ASR. We also investigate the robustness of such jointly trained models to the presence of background noise, babble, and music. Experimental results on the IEMOCAP dataset show that joint learning can improve ASR word error rate (WER) and SER classification accuracy by 10.7% and 2.3% respectively in clean scenarios. In noisy scenarios, results on data augmented with MUSAN show that the joint approach outperforms the independent ASR and SER approaches across many noisy conditions. Overall, the joint ASR-SER approach yielded more noise-resistant models than the independent ASR and SER approaches.
Autores: Lokesh Bansal, S. Pavankumar Dubagunta, Malolan Chetlur, Pushpak Jagtap, Aravind Ganapathiraju
Última atualização: 2023-05-25 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2305.12540
Fonte PDF: https://arxiv.org/pdf/2305.12540
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.