Analisando Jogos às Cegas com Amostragem de Thompson
Este estudo analisa o comportamento dos jogadores em jogos com venda de olhos usando amostragem de Thompson.
― 6 min ler
Índice
Neste estudo, a gente analisa um jogo de dois jogadores onde ambos não conseguem ver as Ações um do outro. Esse tipo de jogo é chamado de "jogo vendado". Os jogadores usam um método chamado Amostragem de Thompson pra decidir suas ações.
Quando os jogadores não sabem muito sobre como suas ações vão se sair, eles podem não perceber que estão competindo entre si. Eles tentam escolher ações que gerem os melhores resultados pra eles mesmos. Esse jogo é interessante porque ajuda a entender se os jogadores vão cooperar ou coludir sem querer, mesmo quando não têm essa intenção.
Colusão Algorítmica
Entendendo aColusão algorítmica acontece quando empresas ou jogadores usam algoritmos pra tomar decisões e, com o tempo, isso pode levar à colusão. Isso significa que, em vez de competir de verdade, os resultados podem acabar beneficiando ambos de um jeito que não é competitivo.
Por exemplo, pense em duas empresas que estão definindo preços pros seus produtos. Em um cenário competitivo normal, essas empresas diminuiriam os preços pra atrair mais clientes. Mas se ambas usarem algoritmos pra definir preços com base nos próprios lucros e aprendendo com a dinâmica do mercado, elas podem acabar cobrando preços mais altos do que cobrariam em um verdadeiro cenário competitivo.
Estudos anteriores mostraram que quando os algoritmos são feitos pra aprender com as ações passadas de outros competidores, a colusão pode aparecer. No entanto, a nossa configuração de jogo é diferente, já que os jogadores do nosso estudo não têm acesso a essas informações.
Configuração do Jogo
No nosso jogo vendado, cada um dos dois jogadores tem duas ações diferentes que podem escolher. Os jogadores não sabem quais serão os resultados quando escolhem suas ações. Em vez disso, eles só veem como se saíram com base nas próprias escolhas nas rodadas passadas. Isso é muito parecido com como as empresas podem operar na vida real; elas nem sempre sabem como seus concorrentes estão agindo.
Nesse jogo, os jogadores estão tentando maximizar suas próprias recompensas usando a amostragem de Thompson. Isso significa que eles começam com algumas suposições sobre quão boas cada ação é e atualizam essas suposições conforme jogam mais rodadas.
Resultados Informais
Nossas descobertas informais sugerem que quando ambos os jogadores usam a amostragem de Thompson sob certas condições, suas ações eventualmente vão se estabilizar em um ponto conhecido como equilíbrio de Nash. Em termos mais simples, isso significa que eles vão chegar a um ponto de equilíbrio onde nenhum dos jogadores pode se sair melhor mudando sua ação, considerando o que o outro jogador está fazendo.
Isso é surpreendente porque, mesmo que o resultado de cada jogador dependa da ação do outro, a amostragem de Thompson parece levar ambos os jogadores a um resultado estável em vez de permitir que cooperem de um jeito que prejudique a competição.
Contribuições Técnicas e Conexões com a Literatura
Pra provar nossas principais descobertas, desenvolvemos um modelo que captura como esse jogo vendado opera sob a amostragem de Thompson. No entanto, as técnicas usuais usadas em pesquisas similares tinham limitações no nosso caso devido à natureza única do nosso jogo.
Por exemplo, existem métodos padrão em aproximação estocástica que geralmente funcionam bem. Esses métodos assumem que as atualizações acontecem de forma consistente, mas no nosso jogo, algumas ações são tomadas raramente e de forma imprevisível.
Em vez disso, criamos um novo método pra analisar como o jogo evolui ao longo do tempo, o que acreditamos ser um passo significativo pra entender esse tipo de jogo.
Dinâmica do Jogo
A gente explica como as ações dos jogadores mudam ao longo do tempo. Cada jogador fica de olho em quantas vezes já jogou cada ação e quão bem essa ação se saiu.
Em cada rodada, os jogadores usam o que sabem pra escolher suas ações com base nas experiências passadas. Eles estão basicamente tentando descobrir qual ação vai dar o melhor resultado ao longo do tempo.
A forma como o jogo evolui é definida pela frequência com que cada jogador escolhe cada ação e como essas ações performam na geração de resultados.
Ponto de Equilíbrio do Jogo
Fazemos algumas suposições pra analisar o jogo.
Primeiro, assumimos que nunca vai haver um empate nos resultados. Isso significa que uma ação sempre vai performar melhor que a outra. Segundo, assumimos que vai haver um resultado específico onde ambos os jogadores acabam escolhendo as mesmas ações de forma consistente - esse é o equilíbrio de Nash único.
Com essas suposições, a gente pode analisar como o jogo vai se comportar e quais resultados podemos esperar.
Resultados Preliminares
A gente encontra alguns resultados iniciais que ajudam a mostrar que cada jogador vai escolher ambas as ações infinitamente ao longo do jogo.
As ações passadas de cada jogador não atrapalham a capacidade deles de explorar opções diferentes. Mesmo com informações limitadas, os jogadores vão continuar tentando novas ações em vez de ficar só no que já sabem que funciona.
Principal Resultado e Análise
Nossa principal descoberta é que, sob as condições que estabelecemos, as ações dos jogadores vão convergir pro equilíbrio de Nash conforme o tempo passa. Isso significa que, a longo prazo, os jogadores vão se acomodar em um padrão onde ambos escolhem a melhor opção pra si mesmos enquanto continuam sem saber as ações um do outro.
Isso é importante porque destaca que, mesmo quando os jogadores estão cegos pras estratégias do adversário, eles ainda podem alcançar um equilíbrio competitivo.
Estudos de Simulação
Pra apoiar nossa teoria, fizemos simulações do jogo. Criamos várias situações com regras e condições iniciais variadas. Em todos esses casos, observamos que as ações dos jogadores tendiam a convergir pro equilíbrio de Nash.
Isso valida nossas descobertas teóricas e mostra que esse jogo vendado pode levar a resultados estáveis mesmo quando os jogadores não têm informações completas.
Conclusão e Trabalhos Futuros
Em conclusão, nosso estudo mostra que a colusão algorítmica não acontece em jogos vendados de dois jogadores usando amostragem de Thompson quando certas condições são atendidas.
Mas a gente reconhece que nossa pesquisa é baseada em cenários simplificados. Trabalhos futuros vão investigar cenários mais complexos com diferentes distribuições de resultados, mais jogadores e ações adicionais.
A gente também quer explorar se os mesmos resultados podem ser alcançados sem as suposições que fizemos inicialmente.
Ao expandir essa pesquisa, podemos entender melhor como os jogadores interagem em ambientes competitivos, especialmente quando não estão plenamente cientes das ações de seus concorrentes.
Título: No Algorithmic Collusion in Two-Player Blindfolded Game with Thompson Sampling
Resumo: When two players are engaged in a repeated game with unknown payoff matrices, they may be completely unaware of the existence of each other and use multi-armed bandit algorithms to choose the actions, which is referred to as the ``blindfolded game'' in this paper. We show that when the players use Thompson sampling, the game dynamics converges to the Nash equilibrium under a mild assumption on the payoff matrices. Therefore, algorithmic collusion doesn't arise in this case despite the fact that the players do not intentionally deploy competitive strategies. To prove the convergence result, we find that the framework developed in stochastic approximation doesn't apply, because of the sporadic and infrequent updates of the inferior actions and the lack of Lipschitz continuity. We develop a novel sample-path-wise approach to show the convergence.
Autores: Ningyuan Chen, Xuefeng Gao, Yi Xiong
Última atualização: 2024-05-23 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2405.17463
Fonte PDF: https://arxiv.org/pdf/2405.17463
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.