O Papel da Memória Falha na Tomada de Decisões
Explorando como a memória imperfeita pode ajudar na tomada de decisões em situações incertas.
― 7 min ler
Índice
Nossos cérebros não são sistemas perfeitos pra processar informações. Eles têm limites de como conseguem lembrar e recordar o que a gente vive no dia a dia. Às vezes, erros no nosso jeito de pensar parecem inúteis, mas outras vezes, esses erros podem nos ajudar a tomar decisões melhores, especialmente em situações incertas. Pesquisas mostram que um pouco de barulho no nosso pensamento pode realmente ajudar a gente a aprender e descobrir coisas novas. Porém, a maioria dos modelos que tentam entender como tomamos decisões geralmente tratam o barulho como um erro, o que não capta a imagem completa.
Esse artigo faz uma pergunta simples: E se os erros do nosso cérebro na verdade ajudassem a gente a fazer boas escolhas quando as coisas estão incertas? Tomar decisões em situações que mudam o tempo todo exige que a gente esteja aprendendo sempre, e é nessas situações que erros aleatórios poderiam ser bem úteis. Mas os modelos atuais de tomada de decisão geralmente assumem que a gente lembra das recompensas perfeitamente. Em vez disso, a gente desenvolveu uma nova ideia chamada "Programas de Memória Imperfeita" (IMPs), que intencionalmente lembra das recompensas passadas de uma forma que espelha como nossos cérebros podem realmente funcionar.
Como os IMPs Funcionam
Os IMPs tomam decisões usando um processo de duas etapas. Primeiro, eles recordam os resultados passados através de um sistema de memória barulhento. Segundo, com base no que lembram, eles decidem se vão continuar com a mesma escolha ou tentar algo novo.
Os IMPs lembram das recompensas passadas de um jeito que equilibra dois objetivos principais: primeiro, recordar eventos relevantes que aconteceram recentemente, e segundo, manter o processo de recordar informações simples. Eles adaptam sua recordação pra tentar minimizar erros enquanto mantêm a complexidade baixa. Isso significa que às vezes eles escolhem memórias que são um pouco mais antigas se isso ajuda a pensar com clareza.
Amostragem de Recompensas
Na primeira etapa, os IMPs amostram recompensas da memória de uma forma que tenta recordar as informações mais úteis das experiências passadas deles. Eles lembram de recompensas que aconteceram em diferentes momentos, mas sabem que quanto mais longe no tempo uma recompensa ocorreu, menos relevante ela é. Quando não conseguem lembrar de uma recompensa passada-tipo quando estão fazendo a primeira escolha-eles escolhem aleatoriamente uma recompensa pra trabalhar.
Na segunda etapa, os IMPs usam o que lembram pra tomar uma decisão. Se a recompensa anterior foi boa, eles mantêm a mesma ação. Se não foi boa, eles exploram uma opção diferente.
Testando os IMPs em Várias Tarefas
A gente testou os IMPs em três tarefas diferentes de tomada de decisão. Essas tarefas são comuns no estudo de como humanos e animais fazem escolhas. As tarefas envolvem tomar decisões quando as recompensas mudam ao longo do tempo, o que significa que os tomadores de decisão precisam adaptar suas escolhas regularmente.
- Tarefa do Bandido Inquieto: Nessa tarefa, as probabilidades de recompensa pra cada opção mudam aleatoriamente com o tempo.
- Tarefa da Lei da Correspondência: Nessa tarefa, os tomadores de decisão tendem a igualar suas escolhas às taxas de recompensa que veem.
- Tarefa de Aprendizado Reversível Probabilístico: Essa tarefa envolve inverter as recompensas altas e baixas após certos pontos.
Em todas essas tarefas, os IMPs se saíram bem, às vezes até melhor do que agentes que lembram tudo perfeitamente.
Desempenho dos IMPs
Quando olhamos como os IMPs se saíram, descobrimos que o desempenho deles dependia de um parâmetro específico, chamado parâmetro de temperatura inversa. Quando esse valor era muito alto, os IMPs agiam quase perfeitamente. Quando era muito baixo, eles tinham dificuldade em recordar recompensas passadas, resultando em decisões piores. Os melhores resultados aconteceram em um valor intermediário, onde eles ainda se saíam bem enquanto faziam menos escolhas que precisavam mudar.
A gente também comparou os IMPs com outros agentes de tomada de decisão, como um que sempre escolhe a melhor opção e um agente que escolhe aleatoriamente. Embora os IMPs tenham se saído um pouco pior do que o melhor tomador de decisão, eles ainda superaram os agentes aleatórios e mostraram que podem ser eficazes em situações incertas.
Histórico de Recompensas e Escolhas
A maioria dos modelos de tomada de decisão assume que as pessoas calculam o valor de suas opções combinando recompensas passadas. No entanto, os IMPs não usam esse método pra calcular quais opções são melhores. Mesmo assim, eles conseguem gerar uma espécie de “memória de recompensa” com base em como eles lembram errado. Quando estudamos as escolhas dos IMPs, descobrimos que a memória deles sobre recompensas passadas mostrava um rápido desgaste, significando que as recompensas mais recentes tinham um efeito maior nas escolhas deles do que as mais antigas.
A capacidade deles de recordar também dependia de como decidiram pesar suas memórias. Em ambientes menos mutáveis, eles mostraram uma clara vantagem sobre modelos de memória perfeita, pois conseguiam fazer previsões melhores sobre quais opções escolher.
Correspondência vs. Maximização de Recompensas
Quando analisamos como os IMPs tomaram decisões em uma tarefa projetada pra testar seu comportamento de correspondência e maximização, encontramos alguns resultados interessantes. Eles tendiam a igualar suas escolhas à taxa de recompensas disponíveis, o que é parecido com como tomadores de decisão biológicos se comportam na vida real. No entanto, os IMPs mostraram uma leve tendência a escolher a opção de maior recompensa às vezes, indicando que eles poderiam mudar sua estratégia dependendo da situação.
A gente também testou os IMPs em um cenário onde as recompensas mudavam de lugar ocasionalmente. Durante períodos estáveis, os IMPs se saíram melhor do que os agentes que lembram tudo perfeitamente, já que conseguiam manter a opção de maior valor mesmo quando havia barulho. No entanto, durante períodos onde as recompensas mudaram, os IMPs se adaptaram mais rápido, mostrando que podiam aprender com seus erros rapidamente.
O Valor da Memória Imperfeita
Os IMPs mostraram que podiam armazenar e recuperar informações pra tomar decisões de forma eficaz. Eles se saíram bem nas tarefas de tomada de decisão que envolviam incerteza e mostraram que uma memória falha não necessariamente prejudica o desempenho. O jeito deles de usar a memória-equilibrando erros e mantendo as coisas simples-ajudou eles nas tarefas, e eles até mostraram traços como manter suas decisões e uma leve tendência a maximizar suas recompensas.
Expandindo a Memória Imperfeita
A ideia de que a memória imperfeita pode ter benefícios reais vai além desse estudo. Ela oferece insights sobre como nossos cérebros funcionam e como podemos melhorar sistemas de tomada de decisão. Permitindo um pouco de espaço para erro na memória, a gente pode criar sistemas que talvez aprendam melhor em ambientes complexos e se adaptem a novas informações ao longo do tempo.
Implicações Futuras
Essa pesquisa nos dá esperança para o design de sistemas cognitivos que reflitam o comportamento humano real de forma mais precisa. Reconhecendo o papel dos erros de memória, podemos criar ferramentas de tomada de decisão mais inteligentes ou sistemas de inteligência artificial. Esses ferramentas poderiam ser mais flexíveis e eficazes ao implementar sistemas que aprendem com suas experiências, mesmo quando não lembram de tudo perfeitamente.
Seguindo em frente, examinar a relação entre memória imperfeita e tomada de decisão poderia levar a novos métodos na tecnologia e melhorar nossa compreensão de como pensamos e agimos em um mundo imprevisível.
Título: "Value" emerges from imperfect memory
Resumo: Whereas computational models of value-based decision-making generally assume that past rewards are perfectly remembered, biological brains regularly forget, fail to encode, or misremember past events. Here, we ask how realistic memory retrieval errors would affect decision-making. We build a simple decision-making model that systematically misremembers the timing of past rewards but performs no other value computations. We call these agents "Imperfect Memory Programs" (IMPs) and their single free parameter optimizes the trade-off between the magnitude of error and the complexity of imperfect recall. Surprisingly, we found that IMPs perform better than a simple agent with perfect memory in multiple classic decision-making tasks. IMPs also generated multiple behavioral signatures of value-based decision-making without ever calculating value. These results suggest that mnemonic errors (1) can improve, rather than impair decision-making, and (2) provide a plausible alternative explanation for some behavioral correlates of "value".
Autores: Jorge Ramírez-Ruiz, J. Ramirez-Ruiz, B. Ebitz
Última atualização: 2024-05-27 00:00:00
Idioma: English
Fonte URL: https://www.biorxiv.org/content/10.1101/2024.05.26.595970
Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.05.26.595970.full.pdf
Licença: https://creativecommons.org/licenses/by-nc/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.