Simple Science

Ciência de ponta explicada de forma simples

# Informática# Inteligência Artificial

Avaliando a Inteligência Social em Modelos de Linguagem

Esse estudo avalia quão bem modelos de linguagem entendem situações sociais usando um jogo.

― 8 min ler


Inteligência Social emInteligência Social emModelos de Linguagemsociais.modelos de linguagem sobre dinâmicasPesquisas analisam a compreensão dos
Índice

Modelos de linguagem grandes (LLMs) são programas de computador que conseguem entender e criar texto de forma parecida com a humana. Eles mostraram ter habilidades em imitar como as pessoas interagem em situações sociais. No entanto, muitos estudos sobre esses modelos usaram testes simples que não capturam bem o quanto eles entendem de situações sociais. Este artigo apresenta um novo método para avaliar a inteligência social dos LLMs examinando como eles lidam com intenções em um ambiente de jogo.

Entendendo a Inteligência Social

Inteligência social inclui a capacidade de uma pessoa em entender e gerenciar suas próprias ações e as ações dos outros. Geralmente, envolve quatro componentes principais:

  1. Consciência Situacional: Isso significa perceber e entender o que está acontecendo ao seu redor.
  2. Autorregulação: É sobre controlar seus próprios pensamentos, sentimentos e ações para alcançar metas.
  3. Autoconsciência: Isso é saber sobre seu próprio caráter, sentimentos, motivos e desejos.
  4. Teoria da Mente (ToM): Isso envolve entender o que os outros pensam e sentem.

Para avaliar esses quatro componentes, projetamos um jogo onde os jogadores devem navegar por situações sociais, analisar intenções e interagir de forma significativa.

O Jogo Avalon

Escolhemos o jogo Avalon para nosso estudo. Avalon é um jogo de dedução social onde os jogadores assumem papéis como personagens leais ou viloões. Os jogadores leais visam ter sucesso em suas missões, enquanto os viloões trabalham para sabotar esses esforços. O jogo depende muito de conversa e estratégia, tornando-se uma ótima escolha para avaliar a inteligência social.

Configuração do Jogo

No jogo, de cinco a dez jogadores participam, e cada rodada envolve várias ações: resumir ações passadas, discutir estratégias, votar em propostas de equipe e executar missões. O discurso de cada jogador ajuda a revelar suas intenções, e usamos esses momentos como oportunidades para avaliar sua inteligência social.

Avaliando a Inteligência Social

A avaliação é estruturada em quatro áreas-chave da inteligência social.

Consciência Situacional: Seleção de Intenções

Os jogadores devem escolher intenções com base no que está acontecendo no jogo. Avaliamos se eles selecionam intenções que fazem sentido dado o contexto. Por exemplo, se nenhuma missão falhou, escolher uma intenção para questionar por que um jogador não votou é irracional.

Autorregulação: Cumprimento de Intenções

Isso envolve avaliar o quanto os jogadores aderem às intenções que escolheram em suas ações e falas. Os jogadores devem expressar suas intenções de forma clara e significativa. Observamos tanto seus processos de pensamento quanto suas respostas verbais.

Autoconsciência: Resumo de Intenções

Nesta área, avaliamos o quanto os jogadores conseguem explicar suas próprias intenções. Isso exige que eles articulem o que pretendem fazer durante o jogo e por que essas intenções são importantes.

Teoria da Mente: Adivinhação de Intenções

Os jogadores são convidados a prever as intenções dos outros com base em suas discussões e ações. Isso é especialmente desafiador, pois requer uma compreensão profunda das interações sociais e a capacidade de interpretar o que os outros podem estar pensando.

Resultados Experimentais

Realizamos experimentos usando tanto o GPT-3.5 quanto o GPT-4, dois modelos conhecidos. Nesses experimentos, realizamos mais de 40 jogos e observamos como os modelos se saíram em diferentes dimensões da inteligência social.

Visão Geral dos Resultados

  1. Seleção de Intenções: Ambos os modelos mandaram bem na seleção de intenções apropriadas com precisões em torno de 87-89%. Isso mostra que conseguiram entender a situação em andamento de forma eficaz.

  2. Cumprimento de Intenções: Ao realizar suas intenções, os modelos tiveram dificuldades. Eles receberam notas mais baixas, indicando que, embora conseguissem selecionar intenções, acharam desafiador seguir com ações claras e relevantes.

  3. Resumo de Intenções: As capacidades dos modelos de resumir suas próprias intenções variaram. Os resultados mostraram que o GPT-4 se saiu muito melhor que o GPT-3.5, destacando sua habilidade de articular intenções claramente.

  4. Teoria da Mente: Ambos os modelos tiveram um desempenho abaixo do esperado em entender as intenções dos outros. Isso sugere que, embora consigam entender suas próprias ações, acharam muito mais difícil decifrar as perspectivas dos outros em um contexto social.

Avaliações Centradas em Intenções

Nossas avaliações são projetadas em torno das intenções e suas conexões com os quatro componentes da inteligência social. Cada um desses componentes é essencial para uma comunicação eficaz e adaptação às dinâmicas das interações sociais.

Avaliando a Consciência Situacional

O primeiro passo é avaliar quão bem os modelos conseguem selecionar intenções com base em sua consciência do estado atual do jogo. Isso envolve verificar se as intenções estão alinhadas com os fatos estabelecidos e os papéis que os jogadores devem desempenhar.

Avaliação da Autorregulação

Em seguida, observamos como os modelos expressam suas intenções escolhidas. Isso exige que eles conectem seus pensamentos às suas expressões verbais, garantindo que tenham um plano claro e válido. O discurso deles deve refletir suas intenções, e medimos isso usando uma escala de avaliação.

Medição da Autoconsciência

Para medir a autoconsciência, analisamos quão bem os modelos conseguem articular suas motivações e intenções. Isso oferece insights sobre seu processamento interno e nos ajuda a entender como os modelos se percebem durante o jogo.

Avaliação da Teoria da Mente

As avaliações da teoria da mente exigem que os modelos façam adivinhações educadas sobre as intenções de outros jogadores. Isso envolve interpretar o contexto e aplicar raciocínio para prever o que os outros podem fazer ou pensar.

Insights sobre o Desempenho no Jogo

Nossa configuração experimental revelou insights notáveis sobre como os jogadores se saíram no jogo Avalon. Ao examinar taxas de vitórias e resultados de missões, entendemos como a inteligência social dos jogadores influencia o sucesso geral do jogo.

Análise da Taxa de Vitórias

Medimos a porcentagem de jogos vencidos por cada lado. O lado leal geralmente enfrenta desvantagens devido à sua informação limitada, o que torna o sucesso deles mais desafiador, apesar de demonstrarem inteligência social superior.

Métricas de Engajamento nas Missões

Também analisamos com que frequência os jogadores foram incluídos nas missões, o que reflete sua participação ativa e engajamento no jogo. As dinâmicas de seleção de equipe destacaram ainda mais as estratégias empregadas pelos jogadores.

Precisão na Seleção de Equipe

Examinar a precisão na seleção de equipe oferece insights sobre quão bem os jogadores propuseram estratégias efetivas com base em seus papéis. Esse fator demonstra a importância da seleção de intenções para alcançar os objetivos do jogo.

Taxa de Assassinato de Merlin

A habilidade dos viloões em identificar Merlin, o líder do lado leal, oferece insights críticos sobre como os jogadores utilizam suas habilidades em contextos de dedução social.

Desafios e Limitações

Embora nosso estudo forneça insights valiosos, ele também tem limitações.

  1. Foco Restrito: Nos concentramos exclusivamente em quatro componentes da inteligência social, deixando outras áreas importantes inexploradas. Estudos futuros poderiam explorar aspectos como adaptabilidade e criatividade.

  2. Custo da Avaliação: Uma parte significativa do nosso estudo dependia de anotações humanas, o que pode ser intensivo em recursos. Isso destaca a necessidade de métodos mais eficientes em pesquisas futuras.

  3. Limitações do Modelo: A avaliação foi limitada ao GPT-3.5 e GPT-4. Embora esses modelos sejam avançados, existem outros que podem oferecer insights diferentes sobre inteligência social.

Conclusão

Nossa pesquisa lança luz sobre como os LLMs se saem em jogos de dedução social como Avalon, usando a compreensão de intenções como uma lente para avaliar sua inteligência social. Embora os modelos se destaquem em algumas áreas, eles também enfrentam desafios notáveis, especialmente quando se trata de entender as perspectivas dos outros. Este trabalho prepara o terreno para uma exploração mais aprofundada no campo da inteligência social e LLMs, fornecendo uma estrutura para futuras avaliações que podem levar a resultados melhores em interações humano-computador.

Fonte original

Título: InterIntent: Investigating Social Intelligence of LLMs via Intention Understanding in an Interactive Game Context

Resumo: Large language models (LLMs) have demonstrated the potential to mimic human social intelligence. However, most studies focus on simplistic and static self-report or performance-based tests, which limits the depth and validity of the analysis. In this paper, we developed a novel framework, InterIntent, to assess LLMs' social intelligence by mapping their ability to understand and manage intentions in a game setting. We focus on four dimensions of social intelligence: situational awareness, self-regulation, self-awareness, and theory of mind. Each dimension is linked to a specific game task: intention selection, intention following, intention summarization, and intention guessing. Our findings indicate that while LLMs exhibit high proficiency in selecting intentions, achieving an accuracy of 88%, their ability to infer the intentions of others is significantly weaker, trailing human performance by 20%. Additionally, game performance correlates with intention understanding, highlighting the importance of the four components towards success in this game. These findings underline the crucial role of intention understanding in evaluating LLMs' social intelligence and highlight the potential of using social deduction games as a complex testbed to enhance LLM evaluation. InterIntent contributes a structured approach to bridging the evaluation gap in social intelligence within multiplayer games.

Autores: Ziyi Liu, Abhishek Anand, Pei Zhou, Jen-tse Huang, Jieyu Zhao

Última atualização: 2024-11-03 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2406.12203

Fonte PDF: https://arxiv.org/pdf/2406.12203

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes