Avaliando a Inteligência Social em Modelos de Linguagem
Esse estudo avalia quão bem modelos de linguagem entendem situações sociais usando um jogo.
― 8 min ler
Índice
- Entendendo a Inteligência Social
- O Jogo Avalon
- Configuração do Jogo
- Avaliando a Inteligência Social
- Consciência Situacional: Seleção de Intenções
- Autorregulação: Cumprimento de Intenções
- Autoconsciência: Resumo de Intenções
- Teoria da Mente: Adivinhação de Intenções
- Resultados Experimentais
- Visão Geral dos Resultados
- Avaliações Centradas em Intenções
- Avaliando a Consciência Situacional
- Avaliação da Autorregulação
- Medição da Autoconsciência
- Avaliação da Teoria da Mente
- Insights sobre o Desempenho no Jogo
- Análise da Taxa de Vitórias
- Métricas de Engajamento nas Missões
- Precisão na Seleção de Equipe
- Taxa de Assassinato de Merlin
- Desafios e Limitações
- Conclusão
- Fonte original
- Ligações de referência
Modelos de linguagem grandes (LLMs) são programas de computador que conseguem entender e criar texto de forma parecida com a humana. Eles mostraram ter habilidades em imitar como as pessoas interagem em situações sociais. No entanto, muitos estudos sobre esses modelos usaram testes simples que não capturam bem o quanto eles entendem de situações sociais. Este artigo apresenta um novo método para avaliar a inteligência social dos LLMs examinando como eles lidam com intenções em um ambiente de jogo.
Entendendo a Inteligência Social
Inteligência social inclui a capacidade de uma pessoa em entender e gerenciar suas próprias ações e as ações dos outros. Geralmente, envolve quatro componentes principais:
- Consciência Situacional: Isso significa perceber e entender o que está acontecendo ao seu redor.
- Autorregulação: É sobre controlar seus próprios pensamentos, sentimentos e ações para alcançar metas.
- Autoconsciência: Isso é saber sobre seu próprio caráter, sentimentos, motivos e desejos.
- Teoria da Mente (ToM): Isso envolve entender o que os outros pensam e sentem.
Para avaliar esses quatro componentes, projetamos um jogo onde os jogadores devem navegar por situações sociais, analisar intenções e interagir de forma significativa.
O Jogo Avalon
Escolhemos o jogo Avalon para nosso estudo. Avalon é um jogo de dedução social onde os jogadores assumem papéis como personagens leais ou viloões. Os jogadores leais visam ter sucesso em suas missões, enquanto os viloões trabalham para sabotar esses esforços. O jogo depende muito de conversa e estratégia, tornando-se uma ótima escolha para avaliar a inteligência social.
Configuração do Jogo
No jogo, de cinco a dez jogadores participam, e cada rodada envolve várias ações: resumir ações passadas, discutir estratégias, votar em propostas de equipe e executar missões. O discurso de cada jogador ajuda a revelar suas intenções, e usamos esses momentos como oportunidades para avaliar sua inteligência social.
Avaliando a Inteligência Social
A avaliação é estruturada em quatro áreas-chave da inteligência social.
Consciência Situacional: Seleção de Intenções
Os jogadores devem escolher intenções com base no que está acontecendo no jogo. Avaliamos se eles selecionam intenções que fazem sentido dado o contexto. Por exemplo, se nenhuma missão falhou, escolher uma intenção para questionar por que um jogador não votou é irracional.
Autorregulação: Cumprimento de Intenções
Isso envolve avaliar o quanto os jogadores aderem às intenções que escolheram em suas ações e falas. Os jogadores devem expressar suas intenções de forma clara e significativa. Observamos tanto seus processos de pensamento quanto suas respostas verbais.
Autoconsciência: Resumo de Intenções
Nesta área, avaliamos o quanto os jogadores conseguem explicar suas próprias intenções. Isso exige que eles articulem o que pretendem fazer durante o jogo e por que essas intenções são importantes.
Teoria da Mente: Adivinhação de Intenções
Os jogadores são convidados a prever as intenções dos outros com base em suas discussões e ações. Isso é especialmente desafiador, pois requer uma compreensão profunda das interações sociais e a capacidade de interpretar o que os outros podem estar pensando.
Resultados Experimentais
Realizamos experimentos usando tanto o GPT-3.5 quanto o GPT-4, dois modelos conhecidos. Nesses experimentos, realizamos mais de 40 jogos e observamos como os modelos se saíram em diferentes dimensões da inteligência social.
Visão Geral dos Resultados
Seleção de Intenções: Ambos os modelos mandaram bem na seleção de intenções apropriadas com precisões em torno de 87-89%. Isso mostra que conseguiram entender a situação em andamento de forma eficaz.
Cumprimento de Intenções: Ao realizar suas intenções, os modelos tiveram dificuldades. Eles receberam notas mais baixas, indicando que, embora conseguissem selecionar intenções, acharam desafiador seguir com ações claras e relevantes.
Resumo de Intenções: As capacidades dos modelos de resumir suas próprias intenções variaram. Os resultados mostraram que o GPT-4 se saiu muito melhor que o GPT-3.5, destacando sua habilidade de articular intenções claramente.
Teoria da Mente: Ambos os modelos tiveram um desempenho abaixo do esperado em entender as intenções dos outros. Isso sugere que, embora consigam entender suas próprias ações, acharam muito mais difícil decifrar as perspectivas dos outros em um contexto social.
Avaliações Centradas em Intenções
Nossas avaliações são projetadas em torno das intenções e suas conexões com os quatro componentes da inteligência social. Cada um desses componentes é essencial para uma comunicação eficaz e adaptação às dinâmicas das interações sociais.
Avaliando a Consciência Situacional
O primeiro passo é avaliar quão bem os modelos conseguem selecionar intenções com base em sua consciência do estado atual do jogo. Isso envolve verificar se as intenções estão alinhadas com os fatos estabelecidos e os papéis que os jogadores devem desempenhar.
Avaliação da Autorregulação
Em seguida, observamos como os modelos expressam suas intenções escolhidas. Isso exige que eles conectem seus pensamentos às suas expressões verbais, garantindo que tenham um plano claro e válido. O discurso deles deve refletir suas intenções, e medimos isso usando uma escala de avaliação.
Medição da Autoconsciência
Para medir a autoconsciência, analisamos quão bem os modelos conseguem articular suas motivações e intenções. Isso oferece insights sobre seu processamento interno e nos ajuda a entender como os modelos se percebem durante o jogo.
Avaliação da Teoria da Mente
As avaliações da teoria da mente exigem que os modelos façam adivinhações educadas sobre as intenções de outros jogadores. Isso envolve interpretar o contexto e aplicar raciocínio para prever o que os outros podem fazer ou pensar.
Insights sobre o Desempenho no Jogo
Nossa configuração experimental revelou insights notáveis sobre como os jogadores se saíram no jogo Avalon. Ao examinar taxas de vitórias e resultados de missões, entendemos como a inteligência social dos jogadores influencia o sucesso geral do jogo.
Análise da Taxa de Vitórias
Medimos a porcentagem de jogos vencidos por cada lado. O lado leal geralmente enfrenta desvantagens devido à sua informação limitada, o que torna o sucesso deles mais desafiador, apesar de demonstrarem inteligência social superior.
Métricas de Engajamento nas Missões
Também analisamos com que frequência os jogadores foram incluídos nas missões, o que reflete sua participação ativa e engajamento no jogo. As dinâmicas de seleção de equipe destacaram ainda mais as estratégias empregadas pelos jogadores.
Precisão na Seleção de Equipe
Examinar a precisão na seleção de equipe oferece insights sobre quão bem os jogadores propuseram estratégias efetivas com base em seus papéis. Esse fator demonstra a importância da seleção de intenções para alcançar os objetivos do jogo.
Taxa de Assassinato de Merlin
A habilidade dos viloões em identificar Merlin, o líder do lado leal, oferece insights críticos sobre como os jogadores utilizam suas habilidades em contextos de dedução social.
Desafios e Limitações
Embora nosso estudo forneça insights valiosos, ele também tem limitações.
Foco Restrito: Nos concentramos exclusivamente em quatro componentes da inteligência social, deixando outras áreas importantes inexploradas. Estudos futuros poderiam explorar aspectos como adaptabilidade e criatividade.
Custo da Avaliação: Uma parte significativa do nosso estudo dependia de anotações humanas, o que pode ser intensivo em recursos. Isso destaca a necessidade de métodos mais eficientes em pesquisas futuras.
Limitações do Modelo: A avaliação foi limitada ao GPT-3.5 e GPT-4. Embora esses modelos sejam avançados, existem outros que podem oferecer insights diferentes sobre inteligência social.
Conclusão
Nossa pesquisa lança luz sobre como os LLMs se saem em jogos de dedução social como Avalon, usando a compreensão de intenções como uma lente para avaliar sua inteligência social. Embora os modelos se destaquem em algumas áreas, eles também enfrentam desafios notáveis, especialmente quando se trata de entender as perspectivas dos outros. Este trabalho prepara o terreno para uma exploração mais aprofundada no campo da inteligência social e LLMs, fornecendo uma estrutura para futuras avaliações que podem levar a resultados melhores em interações humano-computador.
Título: InterIntent: Investigating Social Intelligence of LLMs via Intention Understanding in an Interactive Game Context
Resumo: Large language models (LLMs) have demonstrated the potential to mimic human social intelligence. However, most studies focus on simplistic and static self-report or performance-based tests, which limits the depth and validity of the analysis. In this paper, we developed a novel framework, InterIntent, to assess LLMs' social intelligence by mapping their ability to understand and manage intentions in a game setting. We focus on four dimensions of social intelligence: situational awareness, self-regulation, self-awareness, and theory of mind. Each dimension is linked to a specific game task: intention selection, intention following, intention summarization, and intention guessing. Our findings indicate that while LLMs exhibit high proficiency in selecting intentions, achieving an accuracy of 88%, their ability to infer the intentions of others is significantly weaker, trailing human performance by 20%. Additionally, game performance correlates with intention understanding, highlighting the importance of the four components towards success in this game. These findings underline the crucial role of intention understanding in evaluating LLMs' social intelligence and highlight the potential of using social deduction games as a complex testbed to enhance LLM evaluation. InterIntent contributes a structured approach to bridging the evaluation gap in social intelligence within multiplayer games.
Autores: Ziyi Liu, Abhishek Anand, Pei Zhou, Jen-tse Huang, Jieyu Zhao
Última atualização: 2024-11-03 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2406.12203
Fonte PDF: https://arxiv.org/pdf/2406.12203
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.