Avaliando a Inteligência Social em Modelos de Linguagem

Índice

Entendendo a Inteligência Social
O Jogo Avalon
Configuração do Jogo
Avaliando a Inteligência Social
Resultados Experimentais
Avaliações Centradas em Intenções
Insights sobre o Desempenho no Jogo
Desafios e Limitações
Conclusão
Fonte original
Ligações de referência

Modelos de linguagem grandes (LLMs) são programas de computador que conseguem entender e criar texto de forma parecida com a humana. Eles mostraram ter habilidades em imitar como as pessoas interagem em situações sociais. No entanto, muitos estudos sobre esses modelos usaram testes simples que não capturam bem o quanto eles entendem de situações sociais. Este artigo apresenta um novo método para avaliar a inteligência social dos LLMs examinando como eles lidam com intenções em um ambiente de jogo.

Entendendo a Inteligência Social

Inteligência social inclui a capacidade de uma pessoa em entender e gerenciar suas próprias ações e as ações dos outros. Geralmente, envolve quatro componentes principais:

Consciência Situacional: Isso significa perceber e entender o que está acontecendo ao seu redor.
Autorregulação: É sobre controlar seus próprios pensamentos, sentimentos e ações para alcançar metas.
Autoconsciência: Isso é saber sobre seu próprio caráter, sentimentos, motivos e desejos.
Teoria da Mente (ToM): Isso envolve entender o que os outros pensam e sentem.

Para avaliar esses quatro componentes, projetamos um jogo onde os jogadores devem navegar por situações sociais, analisar intenções e interagir de forma significativa.

O Jogo Avalon

Escolhemos o jogo Avalon para nosso estudo. Avalon é um jogo de dedução social onde os jogadores assumem papéis como personagens leais ou viloões. Os jogadores leais visam ter sucesso em suas missões, enquanto os viloões trabalham para sabotar esses esforços. O jogo depende muito de conversa e estratégia, tornando-se uma ótima escolha para avaliar a inteligência social.

Configuração do Jogo

No jogo, de cinco a dez jogadores participam, e cada rodada envolve várias ações: resumir ações passadas, discutir estratégias, votar em propostas de equipe e executar missões. O discurso de cada jogador ajuda a revelar suas intenções, e usamos esses momentos como oportunidades para avaliar sua inteligência social.

Avaliando a Inteligência Social

A avaliação é estruturada em quatro áreas-chave da inteligência social.

Consciência Situacional: Seleção de Intenções

Os jogadores devem escolher intenções com base no que está acontecendo no jogo. Avaliamos se eles selecionam intenções que fazem sentido dado o contexto. Por exemplo, se nenhuma missão falhou, escolher uma intenção para questionar por que um jogador não votou é irracional.

Autorregulação: Cumprimento de Intenções

Isso envolve avaliar o quanto os jogadores aderem às intenções que escolheram em suas ações e falas. Os jogadores devem expressar suas intenções de forma clara e significativa. Observamos tanto seus processos de pensamento quanto suas respostas verbais.

Autoconsciência: Resumo de Intenções

Nesta área, avaliamos o quanto os jogadores conseguem explicar suas próprias intenções. Isso exige que eles articulem o que pretendem fazer durante o jogo e por que essas intenções são importantes.

Teoria da Mente: Adivinhação de Intenções

Os jogadores são convidados a prever as intenções dos outros com base em suas discussões e ações. Isso é especialmente desafiador, pois requer uma compreensão profunda das interações sociais e a capacidade de interpretar o que os outros podem estar pensando.

Resultados Experimentais

Realizamos experimentos usando tanto o GPT-3.5 quanto o GPT-4, dois modelos conhecidos. Nesses experimentos, realizamos mais de 40 jogos e observamos como os modelos se saíram em diferentes dimensões da inteligência social.

Visão Geral dos Resultados

Seleção de Intenções: Ambos os modelos mandaram bem na seleção de intenções apropriadas com precisões em torno de 87-89%. Isso mostra que conseguiram entender a situação em andamento de forma eficaz.
Cumprimento de Intenções: Ao realizar suas intenções, os modelos tiveram dificuldades. Eles receberam notas mais baixas, indicando que, embora conseguissem selecionar intenções, acharam desafiador seguir com ações claras e relevantes.
Resumo de Intenções: As capacidades dos modelos de resumir suas próprias intenções variaram. Os resultados mostraram que o GPT-4 se saiu muito melhor que o GPT-3.5, destacando sua habilidade de articular intenções claramente.
Teoria da Mente: Ambos os modelos tiveram um desempenho abaixo do esperado em entender as intenções dos outros. Isso sugere que, embora consigam entender suas próprias ações, acharam muito mais difícil decifrar as perspectivas dos outros em um contexto social.

Avaliações Centradas em Intenções

Nossas avaliações são projetadas em torno das intenções e suas conexões com os quatro componentes da inteligência social. Cada um desses componentes é essencial para uma comunicação eficaz e adaptação às dinâmicas das interações sociais.

Avaliando a Consciência Situacional

O primeiro passo é avaliar quão bem os modelos conseguem selecionar intenções com base em sua consciência do estado atual do jogo. Isso envolve verificar se as intenções estão alinhadas com os fatos estabelecidos e os papéis que os jogadores devem desempenhar.

Avaliação da Autorregulação

Em seguida, observamos como os modelos expressam suas intenções escolhidas. Isso exige que eles conectem seus pensamentos às suas expressões verbais, garantindo que tenham um plano claro e válido. O discurso deles deve refletir suas intenções, e medimos isso usando uma escala de avaliação.

Medição da Autoconsciência

Para medir a autoconsciência, analisamos quão bem os modelos conseguem articular suas motivações e intenções. Isso oferece insights sobre seu processamento interno e nos ajuda a entender como os modelos se percebem durante o jogo.

Avaliação da Teoria da Mente

As avaliações da teoria da mente exigem que os modelos façam adivinhações educadas sobre as intenções de outros jogadores. Isso envolve interpretar o contexto e aplicar raciocínio para prever o que os outros podem fazer ou pensar.

Insights sobre o Desempenho no Jogo

Nossa configuração experimental revelou insights notáveis sobre como os jogadores se saíram no jogo Avalon. Ao examinar taxas de vitórias e resultados de missões, entendemos como a inteligência social dos jogadores influencia o sucesso geral do jogo.

Análise da Taxa de Vitórias

Medimos a porcentagem de jogos vencidos por cada lado. O lado leal geralmente enfrenta desvantagens devido à sua informação limitada, o que torna o sucesso deles mais desafiador, apesar de demonstrarem inteligência social superior.

Métricas de Engajamento nas Missões

Também analisamos com que frequência os jogadores foram incluídos nas missões, o que reflete sua participação ativa e engajamento no jogo. As dinâmicas de seleção de equipe destacaram ainda mais as estratégias empregadas pelos jogadores.

Precisão na Seleção de Equipe

Examinar a precisão na seleção de equipe oferece insights sobre quão bem os jogadores propuseram estratégias efetivas com base em seus papéis. Esse fator demonstra a importância da seleção de intenções para alcançar os objetivos do jogo.

Taxa de Assassinato de Merlin

A habilidade dos viloões em identificar Merlin, o líder do lado leal, oferece insights críticos sobre como os jogadores utilizam suas habilidades em contextos de dedução social.

Desafios e Limitações

Embora nosso estudo forneça insights valiosos, ele também tem limitações.

Foco Restrito: Nos concentramos exclusivamente em quatro componentes da inteligência social, deixando outras áreas importantes inexploradas. Estudos futuros poderiam explorar aspectos como adaptabilidade e criatividade.
Custo da Avaliação: Uma parte significativa do nosso estudo dependia de anotações humanas, o que pode ser intensivo em recursos. Isso destaca a necessidade de métodos mais eficientes em pesquisas futuras.
Limitações do Modelo: A avaliação foi limitada ao GPT-3.5 e GPT-4. Embora esses modelos sejam avançados, existem outros que podem oferecer insights diferentes sobre inteligência social.

Conclusão

Nossa pesquisa lança luz sobre como os LLMs se saem em jogos de dedução social como Avalon, usando a compreensão de intenções como uma lente para avaliar sua inteligência social. Embora os modelos se destaquem em algumas áreas, eles também enfrentam desafios notáveis, especialmente quando se trata de entender as perspectivas dos outros. Este trabalho prepara o terreno para uma exploração mais aprofundada no campo da inteligência social e LLMs, fornecendo uma estrutura para futuras avaliações que podem levar a resultados melhores em interações humano-computador.

Avaliando a Inteligência Social em Modelos de Linguagem

Esse estudo avalia quão bem modelos de linguagem entendem situações sociais usando um jogo.

Entendendo a Inteligência Social

O Jogo Avalon

Configuração do Jogo

Avaliando a Inteligência Social

Consciência Situacional: Seleção de Intenções

Autorregulação: Cumprimento de Intenções

Autoconsciência: Resumo de Intenções

Teoria da Mente: Adivinhação de Intenções

Resultados Experimentais

Visão Geral dos Resultados

Avaliações Centradas em Intenções

Avaliando a Consciência Situacional

Avaliação da Autorregulação

Medição da Autoconsciência

Avaliação da Teoria da Mente

Insights sobre o Desempenho no Jogo

Análise da Taxa de Vitórias

Métricas de Engajamento nas Missões

Precisão na Seleção de Equipe

Taxa de Assassinato de Merlin

Desafios e Limitações

Conclusão

Ligações de referência

Tópicos referenciados

Avaliando a Inteligência Social em Modelos de Linguagem

Esse estudo avalia quão bem modelos de linguagem entendem situações sociais usando um jogo.

#Entendendo a Inteligência Social

#O Jogo Avalon

#Configuração do Jogo

#Avaliando a Inteligência Social

#Consciência Situacional: Seleção de Intenções

#Autorregulação: Cumprimento de Intenções

#Autoconsciência: Resumo de Intenções

#Teoria da Mente: Adivinhação de Intenções

#Resultados Experimentais

#Visão Geral dos Resultados

#Avaliações Centradas em Intenções

#Avaliando a Consciência Situacional

#Avaliação da Autorregulação

#Medição da Autoconsciência

#Avaliação da Teoria da Mente

#Insights sobre o Desempenho no Jogo

#Análise da Taxa de Vitórias

#Métricas de Engajamento nas Missões

#Precisão na Seleção de Equipe

#Taxa de Assassinato de Merlin

#Desafios e Limitações

#Conclusão

Ligações de referência

Tópicos referenciados

Entendendo a Inteligência Social

O Jogo Avalon

Configuração do Jogo

Avaliando a Inteligência Social

Consciência Situacional: Seleção de Intenções

Autorregulação: Cumprimento de Intenções

Autoconsciência: Resumo de Intenções

Teoria da Mente: Adivinhação de Intenções

Resultados Experimentais

Visão Geral dos Resultados

Avaliações Centradas em Intenções

Avaliando a Consciência Situacional

Avaliação da Autorregulação

Medição da Autoconsciência

Avaliação da Teoria da Mente

Insights sobre o Desempenho no Jogo

Análise da Taxa de Vitórias

Métricas de Engajamento nas Missões

Precisão na Seleção de Equipe

Taxa de Assassinato de Merlin

Desafios e Limitações

Conclusão