Novas ideias sobre simulação mental nos cérebros
Pesquisas mostram como os cérebros simulam eventos futuros usando modelos complexos.
― 10 min ler
Índice
Os humanos e os animais têm uma compreensão profunda do mundo físico que ajuda a prever como objetos e eventos vão agir no futuro. Essa habilidade permite que eles planejem e vejam os resultados de suas ações. Mas os sistemas do cérebro que permitem esse tipo de pensamento ainda não são totalmente compreendidos.
Para estudar isso, os pesquisadores misturam modelos computacionais avançados com dados detalhados da atividade cerebral e testes extensivos de Comportamento Humano. O objetivo é descobrir como esses cérebros preveem o futuro em cenas dinâmicas e complexas. Eles usam vários tipos de redes de computadores projetadas para imitar como humanos e animais preveem estados futuros em diferentes ambientes.
Os resultados mostraram que só o tamanho não é suficiente para uma previsão bem-sucedida. Muitos modelos de aprendizado de máquina de ponta não se saíram bem nos benchmarks usados tanto para a atividade cerebral quanto para o comportamento humano. Só um tipo específico de modelo mostrou uma boa concordância geral com os dados. Esse modelo previu as respostas cerebrais melhor quando treinado para prever condições futuras nas camadas ocultas de modelos complexos voltados para vídeo.
Curiosamente, esses modelos também conseguem adivinhar estados ambientais que não estão visíveis no momento, mesmo que não tenham sido especificamente treinados para isso. Nem todas as camadas nesses modelos têm o mesmo desempenho. Aqueles focados em representações em vídeo que suportam uma ampla gama de tarefas correspondem consistentemente aos erros humanos e atividades cerebrais em várias situações.
Essas descobertas indicam que os processos do cérebro para simulação mental são fortemente influenciados por certas preferências e estão otimizados para prever eventos futuros usando informações visuais que são úteis para aplicações de inteligência artificial mais gerais. Em poucos segundos, conseguimos fazer julgamentos complexos sobre novas cenas.
Uma crença comum em ciência cognitiva tem sido que o cérebro forma imagens mentais ou modelos do mundo ao seu redor, que ele então usa para adivinhar o que vai acontecer em seguida. Nos últimos dez anos, essa ideia ganhou apoio de estudos que comparam as ações humanas com modelos computacionais que simulam eventos físicos futuros.
Pesquisas recentes também mostraram a base neural para simulações mentais na rede frontoparietal, uma parte chave da estrutura cerebral em primatas. Essa rede inclui várias regiões interativas que trabalham juntas para processar essas previsões.
Para entender melhor como o cérebro funciona nessa área, os pesquisadores estão construindo modelos que exibem esse comportamento em cenários naturais e ricos. Eles querem descobrir que tipos de vieses no design e treinamento ajudam o cérebro a simular efetivamente cenários mentais em diferentes ambientes. Isso inclui não apenas como os modelos respondem em novas situações, mas quão bem eles conseguem se adaptar a ambientes completamente diferentes.
Prever a dinâmica física em ambientes é crucial para avançar a inteligência artificial que pode atuar em contextos do mundo real. Uma maneira comum de ensinar esses modelos a prever ações futuras é fazer com que eles adivinhem o próximo quadro em uma sequência, focando em cada detalhe. No entanto, essa abordagem pode não captar a compreensão geral da dinâmica física de forma eficaz.
Outra estratégia envolve criar "modelos de base" visuais treinados em grandes coleções de imagens e vídeos. Esses modelos desenvolvem uma representação geral do mundo, que pode ser aplicada a tarefas como manipulação robótica. Embora esses modelos não sejam especificamente projetados para previsões físicas, equipá-los com um Modelo Dinâmico para analisar objetos em movimento pode ajudar.
Os pesquisadores estão ansiosos para saber se esses modelos dinâmicos realmente aprenderam algo sobre interações físicas testando suas habilidades em novos cenários e comparando-as com o desempenho humano e de primatas. Os resultados mostram que existem limites significativos para quão bem os animais conseguem simular seu ambiente, especialmente em situações variadas.
A descoberta-chave é que um pequeno grupo de modelos faz um bom trabalho em corresponder como os primatas processam informações em uma tarefa de interceptação de bola onde o caminho da bola está parcialmente escondido. No geral, um tipo de modelo, que prevê o futuro no espaço latente de um modelo de base de vídeo, se destaca por sua capacidade de corresponder de perto tanto ao comportamento humano quanto às respostas cerebrais.
Examinando Simulações Mentais
A pesquisa em simulações mentais só recentemente mudou o foco para a Atividade Neural. Antes disso, a maioria das investigações sobre simulação mental era baseada na observação da atividade sanguínea cerebral, sem os detalhes necessários para verificar se essas atividades refletiam o funcionamento neural real.
Estudos anteriores mostraram que as respostas neurais do córtex frontal de macacos estavam sincronizadas com as previsões de certos modelos de aprendizado de máquina, particularmente durante um jogo de interceptação de bola chamado "Mental-Pong." O objetivo era rastrear o caminho da bola atrás de obstáculos e comparar os resultados com os modelos computacionais.
Macacos conseguem realizar tais tarefas com pouco treinamento, o que implica que eles possuem capacidades inerentes para simulação mental. Os pesquisadores estão ansiosos para desenvolver modelos que possam generalizar para novas tarefas mesmo que não tenham sido extensivamente treinados nessas áreas específicas.
Um grande desafio é encontrar um padrão comum para avaliar quão bem esses modelos entendem cenas físicas e quão precisamente conseguem imitar previsões cerebrais. Os modelos devem seguir certas regras: eles devem lidar com entradas visuais não estruturadas, gerar previsões físicas com base em cenas e consistir em unidades internas que possam ser comparadas com unidades biológicas.
Isso leva à criação de uma variedade de "redes sensoriais-cognitivas." Essas redes abrangem várias hipóteses funcionalmente razoáveis que excluem certas abordagens que dependem demais de dados de verdade fundamental ou que não atendem aos requisitos necessários.
Os modelos estão sendo testados em um conjunto de dados chamado Physion, que simula situações físicas do dia a dia. Esse conjunto de dados contém inúmeras cenas envolvendo objetos rígidos e suaves. Alguns modelos também incluem um conjunto maior conhecido como Kinetics-700, que consiste em vídeos do mundo real.
Várias classes diferentes de modelos estão sendo avaliadas. Estes incluem modelos de fim a fim que preveem quadros futuros com base em dados de pixels e modelos estruturados que consideram objetos e suas relações. A esperança é determinar qual abordagem oferece melhores insights sobre o processo de simulação mental.
Previsões do Comportamento Humano
Para avaliar como esses modelos se saem, os pesquisadores observam como eles se comparam às previsões humanas em uma tarefa chamada previsão de contato de objetos (OCP). Nesse cenário, os participantes preveem se dois objetos vão se tocar com base na física de seus movimentos. O desempenho dos modelos é medido em relação à precisão humana e à consistência de suas previsões.
Os resultados indicam que modelos treinados com previsões futuras baseadas em pixels geram as melhores taxas de precisão em relação às previsões humanas. O sucesso desses modelos mostra uma forte correlação com sua capacidade de prever padrões de julgamento humano, especialmente em tarefas envolvendo interações complexas entre objetos.
Para certas tarefas que envolvem dinâmicas de corpo rígido, os melhores modelos alcançam previsões mais próximas do desempenho humano. Por outro lado, eles têm dificuldades com cenários que envolvem dinâmicas de corpo suave, indicando um gap em suas capacidades preditivas.
Em termos de confiabilidade humana, as comparações mostram que, enquanto os modelos podem se sair bem nessas tarefas, eles geralmente ficam aquém das pontuações de consistência humana. Isso sugere que ainda há espaço significativo para melhorias.
Entendendo a Dinâmica da Resposta Neural
Para obter uma compreensão mais profunda do desempenho dos modelos, os pesquisadores analisam a atividade neural de uma parte do cérebro de primatas durante a tarefa de interceptação de bola. Isso permite que eles vejam quão bem as previsões dos modelos se alinham com as respostas neurais reais.
As descobertas destacam que apenas os modelos dinamicamente equipados de modelos de base de vídeo mostram forte sucesso em prever como o cérebro age durante a tarefa. No entanto, modelos estáticos que não incorporam fatores dinâmicos não se saem tão bem.
Quando se concentram em objetos específicos em movimento, modelos treinados em cenas dinâmicas superam aqueles que se baseiam apenas em imagens estáticas. Além disso, modelos que incorporam estruturas dinâmicas básicas, como redes neurais recorrentes mais simples, também mostram potencial.
Os pesquisadores puderam estabelecer uma conexão entre quão bem um modelo prevê a atividade neural e sua capacidade de simular os movimentos de objetos em cenas. Vários modelos foram testados, com alguns alcançando uma qualidade de previsão próxima da posição real da bola enquanto estava escondida da vista.
Essa comparação de modelos mostra que, enquanto há uma relação robusta entre eficácia do modelo e capacidades preditivas, designs específicos ainda restringem o desempenho geral. Modelos treinados com objetivos específicos de vídeo se saíram melhor do que aqueles treinados com dados de imagem genéricos.
Ao focar nas relações entre preditividade neural e comportamento, os pesquisadores podem obter insights críticos que apontam para os mecanismos neurais que sustentam a simulação mental. Isso inclui entender como atenção, movimento e incerteza podem afetar as previsões feitas tanto por modelos quanto por cérebros.
Direções Futuras para Melhoria
Seguindo em frente, há várias maneiras de aprimorar esses modelos. Uma área de foco está em melhorar as estruturas de codificação para aproveitar melhor as relações temporais nos dados visuais, levando a representações mais reutilizáveis.
Esses ajustes são vitais, já que os modelos fixos de "slot de objeto" atuais não estão dando bons resultados, sugerindo que uma abordagem mais flexível e centrada em objetos poderia melhorar o desempenho preditivo. Isso pode envolver a utilização de slots de objeto dinâmicos ou mascaramento estruturado dentro de conjuntos de dados maiores.
Há também a oportunidade de refinar a arquitetura dinâmica incorporando múltiplas escalas de tempo que reflitam as mudanças naturais em objetos e suas propriedades ao longo do tempo. Unir essas melhorias incrementais poderia levar a uma melhor compreensão das interações físicas em vários cenários.
No geral, há um reconhecimento crescente da importância de entender as fundações neurais das simulações mentais. Ao avançar a inteligência artificial e entender a cognição humana e animal simultaneamente, os pesquisadores podem desenvolver sistemas que funcionem efetivamente no mundo real.
Esforços para alinhar o aprendizado de máquina com processos cognitivos humanos desempenharão um papel crítico em alcançar uma compreensão mais profunda das simulações mentais. As relações entre o comportamento humano, dinâmicas neurais e Modelagem Preditiva irão, em última análise, guiar o desenvolvimento de sistemas de IA mais sofisticados e precisos que possam operar perfeitamente em nosso ambiente físico.
Título: Neural Foundations of Mental Simulation: Future Prediction of Latent Representations on Dynamic Scenes
Resumo: Humans and animals have a rich and flexible understanding of the physical world, which enables them to infer the underlying dynamical trajectories of objects and events, plausible future states, and use that to plan and anticipate the consequences of actions. However, the neural mechanisms underlying these computations are unclear. We combine a goal-driven modeling approach with dense neurophysiological data and high-throughput human behavioral readouts to directly impinge on this question. Specifically, we construct and evaluate several classes of sensory-cognitive networks to predict the future state of rich, ethologically-relevant environments, ranging from self-supervised end-to-end models with pixel-wise or object-centric objectives, to models that future predict in the latent space of purely static image-based or dynamic video-based pretrained foundation models. We find strong differentiation across these model classes in their ability to predict neural and behavioral data both within and across diverse environments. In particular, we find that neural responses are currently best predicted by models trained to predict the future state of their environment in the latent space of pretrained foundation models optimized for dynamic scenes in a self-supervised manner. Notably, models that future predict in the latent space of video foundation models that are optimized to support a diverse range of sensorimotor tasks, reasonably match both human behavioral error patterns and neural dynamics across all environmental scenarios that we were able to test. Overall, these findings suggest that the neural mechanisms and behaviors of primate mental simulation are thus far most consistent with being optimized to future predict on dynamic, reusable visual representations that are useful for Embodied AI more generally.
Autores: Aran Nayebi, Rishi Rajalingham, Mehrdad Jazayeri, Guangyu Robert Yang
Última atualização: 2023-10-25 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2305.11772
Fonte PDF: https://arxiv.org/pdf/2305.11772
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.