Entendendo Metas Através da Linguagem e Raciocínio
Explorando como a linguagem ajuda a inferir objetivos em situações sociais.
― 8 min ler
Índice
Os seres humanos são sociais e geralmente precisam entender o que os outros estão tentando alcançar. Uma parte chave disso é entender os objetivos das pessoas com base em suas ações e no contexto fornecido pela linguagem. Em muitas situações, conseguimos entender esses objetivos através de descrições simples em linguagem sobre o que os agentes fazem e os ambientes em que estão. Este texto investiga como a linguagem pode nos ajudar a raciocinar sobre interações sociais, particularmente na identificação de objetivos através de uma abordagem probabilística.
O Modelo
O modelo que propomos se chama Neuro-Symbolic Inverse Planning Engine (NIPE). Esse modelo combina dois elementos importantes: um grande modelo de linguagem (LLM) que ajuda a converter linguagem em um formato simbólico, e um motor bayesiano que realiza o planejamento com base nesses símbolos. O LLM transforma descrições em linguagem em código que representa ações e ambientes. O motor bayesiano então usa essas informações para inferir possíveis objetivos dos agentes.
Design do Experimento
Para testar quão bem nosso modelo funciona, desenhamos um experimento onde humanos participam de uma tarefa que envolve descobrir objetivos baseados em descrições linguísticas. No nosso estudo, os participantes ouvem sobre um cenário complexo de um programa de perguntas e respostas com obstáculos e vários troféus. Eles precisam inferir qual troféu um participante do jogo está tentando alcançar com base nas ações descritas e no ambiente.
Raciocínio Social Humano
As pessoas são boas em ler pistas sociais e entender os objetivos e intenções dos outros. Muitas vezes pensamos sobre o que os outros podem querer alcançar e como suas crenças e desejos influenciam suas ações. Essa capacidade requer um entendimento de vários estados mentais e como eles se relacionam com as ações. Dependemos muito da linguagem para transmitir essas ideias complexas sobre intenções, ações e ambiente.
Linguagem e Raciocínio Social
A linguagem desempenha um papel crucial em como pensamos sobre interações sociais. Ela nos permite descrever ações, transmitir pensamentos e sentimentos, e discutir o ambiente onde essas ações acontecem. Por exemplo, podemos dizer: "Eu vi alguém tentando abrir um armário trancado", o que dá uma visão sobre seu objetivo e os desafios que enfrenta.
Desafios na Modelagem do Raciocínio Social
Pesquisadores tentaram modelar o raciocínio humano através de vários métodos computacionais. Muitos desses Modelos, no entanto, focam em ações visuais ou físicas, o que limita sua eficácia quando se trata de entender a linguagem. Eles geralmente têm dificuldades em representar a natureza diversa e interconectada das tarefas de raciocínio social, especialmente em ambientes complexos onde o planejamento é necessário.
O Papel dos Grandes Modelos de Linguagem
Avanços recentes em grandes modelos de linguagem despertaram interesse em aplicar essas ferramentas a tarefas de raciocínio social. Esses modelos têm a capacidade de analisar e extrair significados da linguagem, e os pesquisadores estão curiosos para ver se podem ajudar a entender situações sociais. No entanto, as primeiras aplicações frequentemente usaram estruturas excessivamente simplistas, levando a conclusões que podem não se sustentar em cenários mais complexos.
Nossa Abordagem
Neste trabalho, apresentamos uma estrutura neuro-simbólica que usa a linguagem para guiar o processo de raciocínio. Focamos em como a linguagem pode informar nossa compreensão da inferência de objetivos e como os agentes atuam em diferentes ambientes. Nosso objetivo é criar um modelo que possa interpretar e inferir objetivos com base em pistas linguísticas de forma robusta.
Metodologia do Experimento
Criamos um conjunto de tarefas onde os participantes devem adivinhar os objetivos dos agentes com base em descrições linguísticas de vários cenários. Cada tarefa envolve um curso de obstáculos semelhante a um programa de perguntas e respostas onde os jogadores devem descobrir o melhor caminho para alcançar um dos vários troféus. Nosso objetivo é testar quão bem nosso modelo pode prever o raciocínio humano nessas situações.
Variantes de Tarefas
Desenhamos quatro tipos diferentes de tarefas, cada uma variando em complexidade e nas informações fornecidas:
- Chaves Genéricas: Os troféus estão atrás de portas trancadas que precisam de chaves para abrir, e qualquer chave pode abrir qualquer porta.
- Chaves da Mesma Cor: Chaves e portas são codificadas por cor, e chaves só podem desbloquear portas da mesma cor.
- Chaves de Cores Diferentes: A regra oposta se aplica, onde chaves só podem abrir portas de uma cor diferente.
- Tarefas Espaciais: Nesta variante, não há chaves ou portas, e os agentes podem se mover livremente em direção aos troféus.
Coletando Julgamentos Humanos
Recrutamos participantes para avaliar essas tarefas. Cada participante vê vários cenários e então classifica quão provável eles acham que um jogador está tentando alcançar um troféu específico. Esse feedback nos permite avaliar a eficácia do nosso modelo em comparação com os julgamentos humanos.
O Modelo NIPE Explicado
O núcleo da nossa abordagem está na sua capacidade de processar linguagem através do raciocínio estruturado. Dividimos o processo de descobrir objetivos em três partes principais:
- Tradução de Linguagem: Esta etapa converte informações linguísticas em um código simbólico que reflete com precisão o cenário.
- Criação de Modelo Probabilístico: Implementamos um modelo generativo que delineia as ações e potenciais objetivos com base na linguagem descritiva usada.
- Inferência de Objetivo: Usando planejamento bayesiano, o modelo pode inferir os objetivos mais prováveis com base nas ações realizadas pelos agentes e nas condições do ambiente.
Tradução de Linguagem
A tradução da linguagem para código é um passo crucial. Isso é feito usando um LLM que processa frases e as transforma em expressões que se encaixam no nosso modelo simbólico. Essa etapa garante que o modelo tenha representações precisas do ambiente e os detalhes sobre as ações dos agentes.
Gerando o Modelo Probabilístico
Depois de traduzir a linguagem em código, criamos um modelo que descreve as possíveis ações que os agentes podem tomar dentro do ambiente. Isso envolve especificar como o mundo está configurado e quais regras o governam. O modelo pode levar em conta variações nos comportamentos dos agentes e suas interações com o ambiente.
Realizando Inferência de Objetivo
Uma vez que temos o ambiente e as ações delineadas, aplicamos inferência bayesiana para determinar a probabilidade de vários objetivos com base nas ações observadas. Isso permite que o modelo faça previsões sobre quais troféus os agentes provavelmente estão mirando.
Resultados e Descobertas
Comparamos as previsões do nosso modelo com as respostas humanas em várias tarefas. Nossos resultados indicam que o NIPE se alinha de perto com os julgamentos humanos em uma variedade de cenários, excelendo especialmente em tarefas mais complexas onde entender as nuances das ações e objetivos é crítico.
Entendendo as Correlações
Através de análises estatísticas, descobrimos que nosso modelo mostra uma forte correlação com os julgamentos humanos nas tarefas do programa de perguntas e respostas. Em contrapartida, modelos que dependem exclusivamente de LLMs tendem a ter um desempenho menos confiável, especialmente em cenários mais complicados onde um raciocínio sutil é necessário.
Insights sobre o Raciocínio Humano
Os participantes tendem a fazer suposições detalhadas sobre os agentes como seres racionais. Eles levam em conta vários fatores, como a distância até os objetivos e as regras que governam os cenários, que nosso modelo também tenta simular. Avaliações qualitativas revelam diferenças em como humanos e LLMs processam informações em situações complexas.
Conclusão e Direções Futuras
Este trabalho abre várias possibilidades para pesquisas futuras. Uma área envolve aprimorar como traduzimos linguagem para código, potencialmente incorporando técnicas de raciocínio mais profundas dentro dos modelos. Outra via é expandir o domínio do programa de perguntas e respostas para capturar uma gama mais ampla de interações sociais, possivelmente envolvendo múltiplos agentes com objetivos diversos.
Ao avançar nessas direções, pretendemos melhorar nossa compreensão de como linguagem e raciocínio podem convergir em contextos sociais, levando a modelos mais eficazes que reflitam os processos de pensamento humano.
Título: The Neuro-Symbolic Inverse Planning Engine (NIPE): Modeling Probabilistic Social Inferences from Linguistic Inputs
Resumo: Human beings are social creatures. We routinely reason about other agents, and a crucial component of this social reasoning is inferring people's goals as we learn about their actions. In many settings, we can perform intuitive but reliable goal inference from language descriptions of agents, actions, and the background environments. In this paper, we study this process of language driving and influencing social reasoning in a probabilistic goal inference domain. We propose a neuro-symbolic model that carries out goal inference from linguistic inputs of agent scenarios. The "neuro" part is a large language model (LLM) that translates language descriptions to code representations, and the "symbolic" part is a Bayesian inverse planning engine. To test our model, we design and run a human experiment on a linguistic goal inference task. Our model closely matches human response patterns and better predicts human judgements than using an LLM alone.
Autores: Lance Ying, Katherine M. Collins, Megan Wei, Cedegao E. Zhang, Tan Zhi-Xuan, Adrian Weller, Joshua B. Tenenbaum, Lionel Wong
Última atualização: 2023-06-27 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2306.14325
Fonte PDF: https://arxiv.org/pdf/2306.14325
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.