Avaliação da Inteligência Emocional em Modelos de Linguagem Grandes
Um novo benchmark, EmoBench, testa a inteligência emocional em modelos de linguagem.
― 13 min ler
Índice
- Limitações das Abordagens Atuais
- Apresentando o EmoBench
- Definindo Inteligência Emocional
- Medindo Inteligência Emocional
- Desenvolvendo o EmoBench
- Compreensão Emocional
- Coleta de Dados e Anotação
- Aplicação Emocional
- Configuração do Experimento
- Resultados e Descobertas
- Comparando LLMs ao Desempenho Humano
- Erros Comuns Cometidos pelos LLMs
- Conclusão e Direções Futuras
- Considerações Éticas
- Fonte original
- Ligações de referência
Avanços recentes em Modelos de Linguagem de Grande Escala (LLMs) mostraram como é importante ter testes fortes e desafiadores para avaliar as habilidades deles. Porém, a avaliação da Inteligência Emocional (IE) nesses modelos ainda é bem limitada. Os testes atuais costumam ter dois problemas principais. Primeiro, eles geralmente olham só pra como esses modelos conseguem reconhecer emoções, mas ignoram outras habilidades importantes da IE, como gerenciar emoções e entender sentimentos. Segundo, muitos desses testes usam conjuntos de dados já existentes que têm padrões comuns, informações claras e erros de rotulagem, o que os torna pouco confiáveis para avaliações reais.
Pra resolver esses problemas, a gente sugere o EmoBench, um novo benchmark que é baseado em teorias psicológicas estabelecidas e oferece uma definição completa de IE em máquinas. Isso inclui Compreensão Emocional e Aplicação Emocional. O EmoBench consiste em 400 perguntas cuidadosamente elaboradas em inglês e chinês que exigem raciocínio profundo e compreensão.
Nossos resultados mostram uma diferença significativa entre a inteligência emocional dos atuais LLMs e a de humanos comuns. Isso indica uma direção valiosa para futuros estudos. Vamos disponibilizar nosso código e dados para acesso público pra incentivar mais pesquisas.
Limitações das Abordagens Atuais
Os testes atuais para reconhecer emoções e suas causas têm deficiências notáveis. Por exemplo, o valor de um objeto pode estar ligado às emoções de uma pessoa e à força dessas emoções. Em vez de extrair partes do contexto, esse valor deveria ser implícito na situação como um todo, tornando o conjunto de dados mais desafiador e prático.
A inteligência emocional nos permite reconhecer, entender e gerenciar nossas emoções e as dos outros. É vital para construir relacionamentos melhores, tomar boas decisões e influenciar o bem-estar geral. Sistemas com inteligência emocional são vistos como mais compreensivos e confiáveis, o que é crucial em muitas áreas como educação, atendimento ao cliente e suporte à saúde mental.
Embora os LLMs recentes tenham superado expectativas em muitas tarefas, a pesquisa sobre sua inteligência emocional ainda é escassa. A maioria dos testes atuais foca em tarefas tradicionais como Rotulagem de Emoções e Reconhecimento de Causas, que foram originalmente projetadas com foco em reconhecimento de padrões. Esse design incentiva os modelos a dependerem de padrões comuns em vez de entender implicações mais profundas.
A inteligência emocional vai além de apenas identificar emoções e suas causas. Inclui também a habilidade de entender sentimentos e usar essa compreensão pra ajudar a gerenciar emoções e pensamentos. Por isso, as capacidades crescentes dos LLMs pedem benchmarks novos e mais complexos que avaliem todo o espectro das habilidades de inteligência emocional deles.
Apresentando o EmoBench
Diante dos desafios acima, propomos o EmoBench, um benchmark abrangente voltado para avaliar a inteligência emocional nos LLMs. Essa ferramenta inclui 400 perguntas cuidadosamente elaboradas que se baseiam em teorias psicológicas estabelecidas e cobrem duas dimensões principais da inteligência emocional: Compreensão Emocional (CE) e Aplicação Emocional (AE).
Nossa estrutura de avaliação envolve cenários complexos que requerem entender as emoções das pessoas, junto com suas causas. Por exemplo, ao lidar com um membro da família pedindo dinheiro durante suas próprias dificuldades financeiras, os LLMs devem ser capazes de identificar os estados emocionais envolvidos e propor soluções eficazes.
Nos nossos testes, encontramos que até mesmo o LLM com melhor desempenho (GPT-4) ficou aquém quando comparado ao desempenho médio de humanos. Isso indica uma área significativa para futuras explorações.
Definindo Inteligência Emocional
A inteligência emocional tem sido definida de várias maneiras, mas, de forma ampla, abrange a habilidade de reconhecer e gerenciar sentimentos - tanto os próprios quanto os dos outros. Muitas definições ressaltam a necessidade de perceber, entender, regular e expressar emoções.
Uma compreensão abrangente da inteligência emocional inclui várias capacidades, como reconhecer emoções em si mesmo e nos outros, gerenciar essas emoções, se motivar e construir relacionamentos fortes. Embora essas definições possam diferir um pouco, todas enfatizam a habilidade de entender emoções com precisão e aplicar essa compreensão para alcançar objetivos.
Nosso benchmark, EmoBench, reflete essas dimensões, tornando mais fácil avaliar as capacidades emocionais dos LLMs.
Medindo Inteligência Emocional
Na psicologia, a inteligência emocional é medida principalmente de duas maneiras: medidas de traço e medidas de habilidade. As medidas de traço são, geralmente, questionários auto-relatados projetados pra explorar como as pessoas reagem a situações emocionalmente carregadas. No entanto, essas não são adequadas para avaliar LLMs. As medidas de habilidade se concentram em quão bem os indivíduos entendem e realizam tarefas emocionalmente inteligentes e oferecem uma abordagem mais teórica.
Entre as medidas de habilidade mais comumente usadas estão o Teste de Inteligência Emocional de Mayer-Salovey-Caruso (MSCEIT) e outros testes situacionais para entender e gerenciar emoções. Esses testes geralmente consistem em perguntas de múltipla escolha que visam habilidades emocionais específicas.
Acreditamos que os benchmarks de IE deveriam ser mais abrangentes, focando em raciocínio detalhado e compreensão pra transcender padrões comuns. Assim, com base na nossa definição de IE em máquinas e nas ferramentas de avaliação existentes, o EmoBench oferece uma avaliação detalhada das capacidades de compreensão e raciocínio emocional dos LLMs.
Desenvolvendo o EmoBench
Pra criar o EmoBench, analisamos teorias psicológicas estabelecidas pra identificar as capacidades essenciais nas dimensões de Compreensão Emocional e Aplicação Emocional. Baseados nesses achados, projetamos cenários que envolvem múltiplos indivíduos e várias relações sociais e problemas emocionais.
Um dos fatores-chave nas nossas avaliações é entender as perspectivas de diferentes indivíduos em uma situação. Isso envolve capturar as nuances das emoções, como sentimentos de alegria, tristeza ou frustração, e avaliar como esses sentimentos impactam reações e decisões.
Projetar esses cenários exige criatividade e diversidade, já que eles precisam apresentar desafios que vão além de padrões familiares. Inicialmente, usamos o GPT-4 pra gerar exemplos de cenários, mas percebemos que eles muitas vezes incluíam menções explícitas de emoções e suas causas. Isso limitou a profundidade e complexidade emocional que estávamos buscando.
Como resultado, nos inspiramos nos exemplos do GPT-4 e elaboramos manualmente os cenários pra incluir mais profundidade emocional e variedade. Também anotamos cada cenário de acordo com os requisitos específicos dos nossos critérios de avaliação.
Compreensão Emocional
Entender emoções é uma parte crítica da inteligência emocional. Isso se tornou uma área popular de pesquisa em Processamento de Linguagem Natural (NLP), já que essa habilidade é essencial pra máquinas emocionalmente inteligentes. Vários conjuntos de dados são comumente usados pra avaliar o reconhecimento de emoções, como MELD e DailyDialog. No entanto, esses conjuntos de dados focam principalmente em rótulos de emoções simples baseados em padrões observados, carecendo da necessidade de uma compreensão mais profunda ou raciocínio.
Outra tarefa relacionada é o Reconhecimento de Causas das Emoções, que envolve identificar as razões por trás das respostas emocionais. Conjuntos de dados tradicionais pra essa tarefa têm limitações semelhantes, focando em extrair declarações claras em vez de implicar causas emocionais a partir da situação.
Nosso objetivo era combinar essas tarefas em uma medida mais robusta de compreensão emocional. Projetamos cenários complexos onde os modelos não podem confiar em padrões comuns, mas devem se apoiar em raciocínio e inferência. Isso requer uma maior compreensão das implicações emocionais e das perspectivas de múltiplos indivíduos envolvidos em uma situação.
Coleta de Dados e Anotação
Para a dimensão de compreensão emocional, estabelecemos categorias pra avaliar a compreensão dos LLMs em quatro áreas-chave: emoções complexas, pistas emocionais, crenças e experiências pessoais, e perspectivas individuais.
Cada categoria consiste em subcategorias que exploram esses aspectos em detalhes. Pra classificar as emoções envolvidas, usamos a roda das emoções de Plutchik, que oferece uma maneira abrangente e adaptável de rotular emoções com base em várias intensidades e combinações.
O processo de coleta de dados envolveu criar cenários desafiadores manualmente e anotá-los com rótulos de emoções e causas para os indivíduos envolvidos. Também criamos perguntas de múltipla escolha (MCQs) baseadas em cada cenário.
Nossa equipe se concentrou em traduções de alta qualidade e revisões de dados pra garantir precisão, resultando na criação de 121 cenários com 200 MCQs desafiadores.
Aplicação Emocional
Enquanto entender emoções é essencial, é igualmente importante avaliar como os LLMs aplicam esse conhecimento pra facilitar pensamentos e gerenciar emoções em situações emocionalmente complexas. Apresentamos uma nova tarefa chamada Aplicação Emocional, que avalia a habilidade dos LLMs de usar seu entendimento dos estados emocionais pra identificar respostas adequadas em vários dilemas.
Ao criar cenários pra essa tarefa, consideramos diferentes tipos de relacionamentos e problemas. A natureza desses relacionamentos pode impactar significativamente como os indivíduos reagem e quais desafios emocionais enfrentam. Nessa tarefa, pedimos aos LLMs que propusessem a ação ou resposta mais eficaz dada uma situação emocional específica.
O processo de coleta de dados pra essa dimensão seguiu uma abordagem semelhante, com o objetivo de aumentar a dificuldade das perguntas de múltipla escolha introduzindo várias implicações e opções plausíveis.
Configuração do Experimento
Todas as tarefas na nossa avaliação tomam a forma de perguntas de múltipla escolha (MCQs). Na tarefa de Compreensão Emocional, os LLMs primeiro identificam a emoção de um indivíduo antes de selecionar a causa correspondente. Na tarefa de Aplicação Emocional, eles simplesmente escolhem a resposta mais eficaz.
Realizamos avaliações em dois cenários, usando um método de prompting zero-shot com instruções de tarefa e um método de raciocínio em cadeia. Para cada pergunta, pedimos ao modelo que escolhesse a resposta correta cinco vezes e usamos a resposta mais frequentemente escolhida como sua resposta.
Também randomizamos a ordem das opções de resposta pra evitar viés. A precisão das respostas dos LLMs foi calculada a partir de várias avaliações.
Resultados e Descobertas
Nos nossos experimentos, avaliamos uma variedade de LLMs recentes. O GPT-4 teve um desempenho melhor que outros modelos tanto nas tarefas de Compreensão Emocional quanto na de Aplicação. Modelos menores mostraram uma precisão melhor do que o acaso, mas variaram em seu desempenho em diferentes dimensões.
Curiosamente, a linguagem usada na tarefa não afetou significativamente o desempenho. No entanto, os modelos tendiam a ter um desempenho ligeiramente melhor em inglês do que em chinês, provavelmente devido a diferenças nos dados de treinamento.
Nossos resultados indicaram que os LLMs tiveram mais dificuldade com a compreensão emocional do que com a aplicação emocional. Isso provavelmente porque a tarefa de compreensão é mais complicada, exigindo que os modelos respondam a duas perguntas em vez de uma. Em contraste, a tarefa de aplicação envolveu selecionar uma solução a partir de opções plausíveis, tornando-a inerentemente mais fácil.
Uma observação notável foi que solicitar aos LLMs que raciocinassem passo a passo não melhorou significativamente seu desempenho. Em alguns casos, isso até prejudicou os resultados, especialmente para modelos menores. Esses modelos frequentemente faziam suposições incorretas ou mudavam de tópico ao raciocinar, levando a erros inesperados.
Por outro lado, modelos maiores demonstraram capacidades de raciocínio mais confiáveis, resultando em lacunas menores de desempenho quando o raciocínio foi incluído.
Comparando LLMs ao Desempenho Humano
Pra estabelecer uma linha de base para a inteligência emocional humana, recrutamos voluntários através de plataformas online. Eles participaram do nosso teste de inteligência emocional, respondendo a várias MCQs do EmoBench que não foram usadas em avaliações anteriores.
Os resultados mostraram que os participantes humanos superaram os LLMs em ambas as tarefas. Embora o GPT-4, o modelo com melhor desempenho, estivesse próximo da performance média humana na tarefa de aplicação, ainda ficou aquém de superar indivíduos com inteligência emocional mais alta.
Erros Comuns Cometidos pelos LLMs
Pra entender o desempenho dos LLMs, analisamos erros comuns cometidos durante as avaliações. Nas tarefas de compreensão emocional, modelos frequentemente interpretavam mal o contexto ou confiavam em padrões familiares em vez de raciocinar. Esses erros incluíam confundir sinais emocionais ou falhar em entender as transições emocionais.
Nas tarefas de aplicação emocional, os LLMs frequentemente ofereciam soluções gerais que não consideravam as dinâmicas específicas dos relacionamentos envolvidos. Por exemplo, em resposta a críticas, um modelo poderia sugerir uma ação corretiva muito ampla em vez de uma resposta adequada ao contexto que reconhecesse os relacionamentos pessoais.
Conclusão e Direções Futuras
Neste artigo, propomos o EmoBench, um conjunto abrangente de 400 perguntas de múltipla escolha elaboradas à mão pra avaliar a inteligência emocional nos LLMs. Nossas descobertas destacam que LLMs maiores têm um desempenho significativamente melhor do que os menores, mas ainda existe uma lacuna considerável entre mesmo os modelos mais avançados e a inteligência emocional média humana.
Esperamos que o EmoBench incentive mais pesquisas sobre LLMs emocionalmente inteligentes, levando a avanços que ajudem esses modelos a entender e aplicar melhor a inteligência emocional em várias tarefas, especialmente em saúde mental e suporte emocional.
Versões futuras do EmoBench poderiam incluir casos mais complexos e explorar características como traços pessoais e expressão linguística. Embora tenhamos focado em anotações cuidadosas e cenários de alta qualidade, reconhecemos as limitações em escala e diversidade de tópicos.
Expandir nosso benchmark pra outras línguas e explorar várias modalidades poderia fornecer insights adicionais sobre o comportamento emocional. Ainda há muito o que aprender sobre a inteligência emocional nos LLMs e como eles podem mimetizar melhor a compreensão emocional e as respostas humanas.
Considerações Éticas
Embora nossa avaliação se concentre nas percepções de inteligência emocional, temos cuidado em esclarecer que os LLMs não possuem emoções genuínas. Nosso benchmark visa revelar limitações nos modelos atuais e não sugere que eles realmente entendam emoções de maneira humana.
Em resumo, o EmoBench fornece uma ferramenta fundamental pra avaliar a inteligência emocional nos LLMs e serve como base pra pesquisas futuras que podem aprimorar a compreensão das emoções na inteligência artificial. Ao continuar a desenvolver e refinar esse benchmark, nosso objetivo é diminuir ainda mais a lacuna entre a compreensão emocional humana e a de máquinas.
Título: EmoBench: Evaluating the Emotional Intelligence of Large Language Models
Resumo: Recent advances in Large Language Models (LLMs) have highlighted the need for robust, comprehensive, and challenging benchmarks. Yet, research on evaluating their Emotional Intelligence (EI) is considerably limited. Existing benchmarks have two major shortcomings: first, they mainly focus on emotion recognition, neglecting essential EI capabilities such as emotion regulation and thought facilitation through emotion understanding; second, they are primarily constructed from existing datasets, which include frequent patterns, explicit information, and annotation errors, leading to unreliable evaluation. We propose EmoBench, a benchmark that draws upon established psychological theories and proposes a comprehensive definition for machine EI, including Emotional Understanding and Emotional Application. EmoBench includes a set of 400 hand-crafted questions in English and Chinese, which are meticulously designed to require thorough reasoning and understanding. Our findings reveal a considerable gap between the EI of existing LLMs and the average human, highlighting a promising direction for future research. Our code and data are publicly available at https://github.com/Sahandfer/EmoBench.
Autores: Sahand Sabour, Siyang Liu, Zheyuan Zhang, June M. Liu, Jinfeng Zhou, Alvionna S. Sunaryo, Juanzi Li, Tatia M. C. Lee, Rada Mihalcea, Minlie Huang
Última atualização: 2024-07-17 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2402.12071
Fonte PDF: https://arxiv.org/pdf/2402.12071
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://github.com/Sahandfer/EmoBench
- https://huggingface.co/01-ai/Yi-6B
- https://huggingface.co/THUDM/chatglm3-6b
- https://huggingface.co/meta-llama/Llama-2-7b-chat-hf
- https://huggingface.co/baichuan-inc/Baichuan2-7B-Chat
- https://huggingface.co/Qwen/Qwen-7B-Chat
- https://huggingface.co/meta-llama/Llama-2-13b-chat-hf
- https://huggingface.co/baichuan-inc/Baichuan2-13B-Chat
- https://huggingface.co/Qwen/Qwen-14B-Chat
- https://openai.com/blog/chatgpt
- https://openai.com/gpt-4
- https://api.openai.com/v1/chat/completions
- https://github.com/01-ai/Yi
- https://github.com/huggingface/transformers
- https://www.dol.gov/general/topic/wages/minimumwage