O Papel da Memória no Comportamento Cooperativo
Este estudo analisa como uma memória mais longa melhora a cooperação em interações repetidas.
― 12 min ler
Índice
- Cooperação Condicional com Memória Mais Longa
- Palavras-chave
- Declaração de Significância
- Modelo e Notação
- Um Algoritmo para Identificar Parceiros Entre Estratégias Reativas
- Parceiros Entre as Estratégias Reativas-2 e Reativas-3
- Parceiros Entre as Estratégias de Contagem Reativa
- Dinâmica Evolutiva
- Conclusão
- Fonte original
- Ligações de referência
Cooperação Condicional com Memória Mais Longa
A reciprocidade direta é uma maneira comum de explicar como a cooperação se desenvolve. Em jogos onde os jogadores interagem repetidamente, eles podem ajustar seu comportamento com base nos resultados passados. Um método popular é conhecido como estratégias reativas, onde os jogadores respondem ao que o outro jogador fez na rodada anterior. Este estudo olha para a extensão dessas estratégias reativas para considerar memórias mais longas.
Uma estratégia reativa considera os últimos movimentos feitos pelo outro jogador. Uma estratégia de contagem reativa observa com que frequência o outro jogador cooperou durante o último conjunto de rodadas. Desenvolvemos um método para identificar estratégias de parceiros dentro das estratégias reativas. Estratégias de parceiros são aquelas que ajudam ambos os jogadores a cooperar sem se aproveitar um do outro. Nossas simulações computacionais mostram que ter uma memória mais longa melhora a taxa média de cooperação para estratégias reativas, mas não para estratégias de contagem reativa. Parece que acompanhar o que aconteceu em rodadas anteriores é importante para se beneficiar de uma memória mais longa.
Palavras-chave
Teoria dos Jogos Evolutivos, reciprocidade direta, evolução da cooperação, Dilema do Prisioneiro
Declaração de Significância
Em interações repetidas, as pessoas frequentemente cooperam com base no comportamento dos outros. Elas tendem a espelhar se outros estão cooperando, ajustando suas ações de acordo. A reciprocidade direta envolve interações repetidas entre dois jogadores, onde estratégias legais não defeitam primeiro. Essas estratégias podem manter a cooperação total como um resultado estável. Se você se envolver com um parceiro, sua melhor opção é cooperar plenamente. Essa parceria resolve dilemas sociais. Nós delineamos todas as estratégias legais e de parceiros entre as estratégias reativas que consideram memórias mais longas. Nossos achados sugerem que a natureza seleciona parceiros, e ser legal é benéfico.
Em grande parte, o comportamento cooperativo humano é moldado pela reciprocidade direta. Esse mecanismo pode clarificar porque as pessoas retornam favores, porque elas mostram mais esforço em tarefas em grupo quando outros estão envolvidos, e porque a cooperação pode cair quando alguém se sente explorado.
A estrutura primária para descrever a reciprocidade é o dilema do prisioneiro repetido, onde dois jogadores escolhem repetidamente se vão cooperar ou defeitar. Ambos os jogadores preferem cooperar mutuamente a defeitar mutuamente. No entanto, dada a decisão do outro jogador, sempre há um incentivo para defeitar. Uma versão do dilema do prisioneiro é o jogo de doação, onde cooperar significa que um jogador arca com um custo para o benefício do outro.
Apesar da simplicidade desses jogos, eles podem levar a padrões complexos de comportamento. Muitos estudos examinaram esses padrões e identificaram como a cooperação evolui dependendo das configurações do jogo, como os benefícios da cooperação e com que frequência ocorrem erros. Outros estudos analisaram como estilos de aprendizagem, estrutura populacional ou estratégias de jogadores podem influenciar os resultados.
As estratégias no dilema do prisioneiro repetido podem variar em complexidade. Algumas estratégias são fáceis de implementar, enquanto outras são mais complexas. Para medir a complexidade de uma estratégia, os pesquisadores geralmente olham para quantas rodadas anteriores os jogadores precisam lembrar. Estratégias incondicionais como "sempre defeitar" ou "sempre cooperar" são chamadas de estratégias de memória-0. Estratégias que dependem apenas da rodada anterior são referidas como estratégias de memória-1.
A maioria das pesquisas sobre reciprocidade se concentrou em estratégias de memória-1. Embora essas estratégias de memória-1 possam explicar um pouco do comportamento humano, as pessoas frequentemente consideram mais do que apenas a última rodada. Memórias mais longas parecem ser especialmente úteis em jogos barulhentos, onde indivíduos podem defeitar por engano.
No entanto, analisar estratégias que se lembram de mais de uma rodada tem sido desafiador por duas razões principais. Primeiro, à medida que o comprimento da memória aumenta, as estratégias se tornam mais difíceis de interpretar. Por exemplo, duas rodadas do dilema do prisioneiro permitem muitos resultados diferentes, exigindo que as estratégias de memória-2 especifiquem inúmeras escolhas condicionais.
Segundo, o número de estratégias e o tempo necessário para calcular seus pagamentos aumentam muito com o comprimento da memória. Para estratégias de memória-1, há apenas algumas estratégias determinísticas que podem ser usadas. Quando ambos os jogadores usam estratégias de memória-1, calcular seus pagamentos exige matemática mais complexa.
Por causa desses desafios, estudos anteriores se concentraram principalmente em estratégias de memória pequena ou examinaram apenas algumas estratégias de memória mais alta. Para resolver isso, focamos em um subconjunto mais simples de estratégias, as estratégias reativas. Essas estratégias dependem apenas do que o jogador co-participante fez nas últimas rodadas e refletem a ideia de cooperação condicional.
Embora estudos anteriores não tenham conseguido descrever totalmente todos os possíveis resultados entre as estratégias de memória, mostramos que isso é possível para estratégias reativas. Nossos resultados são baseados em uma percepção importante: se um jogador usa uma estratégia reativa, o outro jogador sempre pode encontrar uma melhor resposta entre estratégias auto-reativas mais simples.
Estratégias auto-reativas dependem apenas das próprias ações anteriores do jogador. Investigamos todas as estratégias reativas que podem apoiar a cooperação total em um resultado estável e apresentamos uma descrição completa para tanto estratégias de duas rodadas quanto de três rodadas.
Resultados ainda melhores surgem quando focamos nas estratégias de contagem, que reagem apenas à frequência com que o outro jogador cooperou nas últimas rodadas, independentemente de quando isso aconteceu. Detalhamos as condições para essas estratégias de parceiros e ilustramos como identificá-las.
Modelo e Notação
Consideramos um jogo repetido onde dois jogadores se alternam decidindo se cooperam ou defeitam. A cada rodada, os jogadores podem escolher cooperar (C) ou defeitar (D). Se ambos cooperarem, eles recebem uma recompensa, que é melhor do que a punição que recebem por defeitar mutuamente. Se um jogador defeita, ele recebe um pagamento de tentação enquanto o jogador cooperante recebe o pagamento do "tonto".
Assumimos que a estrutura de pagamento segue as condições padrão para o dilema do prisioneiro. Os jogadores visam maximizar seu pagamento médio por rodada ao longo de um número infinito de rodadas. Para simplificar as coisas, podemos olhar para uma versão específica do dilema do prisioneiro, o jogo de doação. Aqui, cooperar envolve um jogador arcar com um custo para o benefício do outro jogador.
Para definir estratégias formalmente, usamos um sistema de notação. As últimas ações de cada jogador são chamadas de história do jogador. Cada entrada corresponde a uma ação desse jogador um certo número de rodadas atrás. Podemos definir uma estratégia reativa para o jogador um como um vetor, indicando a probabilidade de cooperar com base nas ações do outro jogador nas últimas rodadas.
Se dissermos que uma estratégia é pura ou determinística, significa que qualquer entrada é zero ou um, indicando uma escolha definitiva. A definição não especifica os movimentos do jogador durante as primeiras rodadas, já que esses geralmente não afetam o resultado em jogos repetidos infinitamente.
A definição nos permite recuperar a forma clássica das estratégias de memória-1, onde a probabilidade de cooperação de cada jogador é baseada no que aconteceu na rodada anterior. Também podemos definir estratégias de memória mais alta. Quando ambos os jogadores usam estratégias reativas, é simples calcular seus pagamentos esperados usando uma abordagem de cadeia de Markov.
Estamos particularmente interessados em estratégias reativas que apoiem a cooperação total. Tais estratégias devem atender a dois critérios: elas devem ser legais, significando que nunca defeitam primeiro, e devem formar um equilíbrio de Nash, onde nenhum jogador tem um incentivo para mudar sua estratégia. As estratégias que atendem a ambas as condições são chamadas de estratégias de parceiros.
Para o jogo de doação, as estratégias de parceiros seguem padrões distintos. Para os casos mais complexos, provamos que podemos caracterizar parceiros entre as estratégias reativas. Isso envolve simplificar o processo de verificação para facilitar as coisas.
Um Algoritmo para Identificar Parceiros Entre Estratégias Reativas
É relativamente fácil verificar se uma estratégia reativa é legal, mas mostrar que a estratégia também forma um equilíbrio de Nash é mais desafiador. Isso geralmente requer muitas comparações de pagamentos potenciais. Em vez disso, é o suficiente testar estratégias com memória limitada.
Se o jogador um usar alguma estratégia aleatória contra o jogador dois usando uma estratégia reativa, o jogador um pode mudar para uma estratégia auto-reativa sem afetar os pagamentos. Ao usar uma estratégia auto-reativa, o jogador um considera apenas seus movimentos anteriores. Se a estratégia do jogador um for a melhor escolha contra a estratégia do jogador dois, então uma estratégia auto-reativa associada produzirá os mesmos resultados.
Esse resultado mostra que, para qualquer estratégia reativa, sempre há pelo menos uma melhor resposta entre as estratégias auto-reativas. Além disso, podemos mostrar que as melhores respostas podem sempre ser encontradas entre estratégias auto-reativas determinísticas, restringindo ainda mais as estratégias a serem testadas.
Parceiros Entre as Estratégias Reativas-2 e Reativas-3
Para ilustrar o algoritmo, primeiro caracterizamos parceiros entre as estratégias reativas. É simples calcular o pagamento para uma estratégia auto-reativa específica contra uma estratégia reativa geral. Calculando os pagamentos para todas as estratégias puras e exigindo que elas atendam a certas condições, descobrimos que algumas condições específicas devem ser atendidas para que uma estratégia seja considerada parceria.
Essas condições indicam que os parceiros devem operar sob certas regras: se o co-jogador cooperou várias vezes, a estratégia deve continuar cooperando; se houve uma mistura de cooperação e defeito, a estratégia deve ainda cooperar, mas com uma probabilidade reduzida.
Da mesma forma, também podemos identificar estratégias de parceiros entre as estratégias reativas-3. Como antes, há condições específicas que devem ser atendidas para serem classificadas como parceiras. As condições seguem uma lógica semelhante: para cada defeito, a probabilidade de cooperação deve diminuir de acordo.
Parceiros Entre as Estratégias de Contagem Reativa
Podemos generalizar ainda mais nossas descobertas para cobrir comprimentos de memória arbitrários se restringirmos o espaço de estratégia. Aqui, olhamos para as estratégias de contagem. Essas estratégias se concentram em com que frequência o co-jogador cooperou durante as últimas rodadas sem considerar o momento exato.
Para o jogo de doação entre jogadores que usam estratégias de contagem, podemos delinear as condições para estratégias de parceiros. Essencialmente, para cada defeito na memória, uma estratégia de parceria deve reduzir sua probabilidade de cooperação de acordo. Essa descoberta é significativa, já que mostra que uma estratégia de contagem também pode formar um equilíbrio de Nash.
Dinâmica Evolutiva
Com nossa análise anterior, identificamos estratégias que poderiam manter a cooperação. O próximo passo é verificar se essas estratégias podem evoluir. Nesta fase, assumimos que os jogadores não jogam estratégias estáveis. Em vez disso, eles começam com um comportamento aleatório e se adaptam com base na aprendizagem social.
Para modelar essa aprendizagem, consideramos um grupo de indivíduos que ajustam suas estratégias com base nas interações com os outros. A eficácia dessa aprendizagem depende de um parâmetro de força de seleção. Uma força de seleção maior significa que os indivíduos têm mais chances de adotar estratégias de maior pagamento.
Mutações também podem introduzir novas estratégias. Descrevemos como simular esse processo de aprendizagem. É especialmente fácil explorar quando as mutações são raras. Nesse caso, a população frequentemente se estabiliza, com todos usando a mesma estratégia. Quando um novo mutante aparece, ele ou prospera ou morre antes que a próxima mutação aconteça.
Simulações com mutações raras podem ser realizadas de forma mais eficiente, já que há uma fórmula clara para a probabilidade de um mutante sobreviver. Os resultados dessas simulações indicam como vários parâmetros afetam tanto a presença de estratégias de parceiros quanto a taxa geral de cooperação dentro da população.
Conclusão
Primeiro, olhamos para quais estratégias reativas se desenvolvem sob um conjunto de parâmetros de jogo fixos. Variando os comprimentos de memória e controlando quais tipos de estratégias podem surgir, descobrimos que as estratégias mais eficazes são aquelas que se assemelham às nossas estratégias de parceiros identificadas.
No geral, descobrimos que a evolução da cooperação depende muito do uso de estratégias de parceiros, especialmente em cenários onde os jogadores têm uma memória mais longa. Para as estratégias de contagem, vimos que seu impacto é muito menos pronunciado. Isso sugere que o timing da cooperação é essencial em todas as situações.
Nossos resultados fornecem lições importantes sobre como a cooperação pode se desenvolver entre indivíduos com habilidades cognitivas razoáveis. Embora as pessoas frequentemente tomem decisões com base no que acabou de acontecer, elas geralmente também consideram o que ocorreu antes disso. Nossa pesquisa esclarece como os indivíduos podem usar efetivamente interações passadas para melhorar sua cooperação.
Título: Conditional cooperation with longer memory
Resumo: Direct reciprocity is a wide-spread mechanism for evolution of cooperation. In repeated interactions, players can condition their behavior on previous outcomes. A well known approach is given by reactive strategies, which respond to the co-player's previous move. Here we extend reactive strategies to longer memories. A reactive-$n$ strategy takes into account the sequence of the last $n$ moves of the co-player. A reactive-$n$ counting strategy records how often the co-player has cooperated during the last $n$ rounds. We derive an algorithm to identify all partner strategies among reactive-$n$ strategies. We give explicit conditions for all partner strategies among reactive-2, reactive-3 strategies, and reactive-$n$ counting strategies. Partner strategies are those that ensure mutual cooperation without exploitation. We perform evolutionary simulations and find that longer memory increases the average cooperation rate for reactive-$n$ strategies but not for reactive counting strategies. Paying attention to the sequence of moves is necessary for reaping the advantages of longer memory.
Autores: Nikoleta E. Glynatsi, Martin A. Nowak, Christian Hilbe
Última atualização: 2024-02-04 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2402.02437
Fonte PDF: https://arxiv.org/pdf/2402.02437
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.