Analyse von Blindfolded-Spielen mit Thompson-Sampling
Diese Studie untersucht das Spieler Verhalten in Blindspiel-Spielen mit Thompson-Sampling.
― 6 min Lesedauer
Inhaltsverzeichnis
In dieser Studie schauen wir uns ein Zwei-Spieler-Spiel an, bei dem die Spieler die Aktionen des anderen nicht sehen können. So ein Spiel nennt man ein "Blindspiel." Die Spieler nutzen eine Methode namens Thompson-Sampling, um ihre Aktionen zu entscheiden.
Wenn die Spieler nicht viel darüber wissen, wie sich ihre Aktionen auswirken, merken sie vielleicht gar nicht, dass sie gegeneinander antreten. Sie versuchen einfach, Aktionen zu wählen, die für sie die besten Ergebnisse bringen. Dieses Spiel ist interessant, weil es hilft zu verstehen, ob die Spieler unabsichtlich kooperieren oder sich absprechen, auch wenn sie es nicht vorhaben.
Verständnis von Algorithmischer Kollusion
Algorithmische Kollusion passiert, wenn Firmen oder Spieler Algorithmen verwenden, um Entscheidungen zu treffen, was über die Zeit zu Kollusion führen kann. Das bedeutet, dass statt wirklich zu konkurrieren, die Ergebnisse beiden Spielern auf eine Weise zugutekommen, die nicht wettbewerbsfähig ist.
Zum Beispiel, denken wir an zwei Firmen, die Preise für ihre Produkte festlegen. In einem normalen Wettbewerbszenario würden diese Firmen ihre Preise senken, um mehr Kunden anzuziehen. Aber wenn beide Firmen Algorithmen verwenden, um Preise basierend auf ihrem eigenen Gewinn und dem Lernen aus den Marktdynamiken festzulegen, könnten sie unabsichtlich beginnen, höhere Preise zu verlangen, als sie in einem echten Wettbewerbszenario tun würden.
Frühere Studien haben gezeigt, dass, wenn Algorithmen so gestaltet sind, dass sie von den vergangenen Aktionen anderer Wettbewerber lernen, Kollusion entstehen kann. Unser Spielaufbau ist jedoch anders, da die Spieler in unserer Studie keinen Zugang zu solchen Informationen haben.
Spielaufbau
In unserem Blindspiel hat jeder der beiden Spieler zwei verschiedene Aktionen, aus denen er wählen kann. Die Spieler wissen nicht, welche Auszahlungen sie erhalten, wenn sie ihre Aktionen wählen. Stattdessen sehen sie nur, wie gut sie in den vorherigen Runden basierend auf ihren eigenen Entscheidungen abgeschnitten haben. Das ist sehr ähnlich, wie Firmen in der echten Welt agieren; sie wissen nicht immer, wie sich ihre Wettbewerber verhalten.
In diesem Spiel versuchen die Spieler, ihre eigenen Belohnungen zu maximieren, indem sie Thompson-Sampling verwenden. Das bedeutet, dass sie mit einigen Annahmen darüber beginnen, wie gut jede Aktion ist, und diese Annahmen aktualisieren, während sie mehr Runden des Spiels spielen.
Informelle Ergebnisse
Unsere informellen Ergebnisse deuten darauf hin, dass, wenn beide Spieler unter bestimmten Bedingungen Thompson-Sampling verwenden, ihre Aktionen schliesslich an einem Punkt stabil werden, der als Nash-Gleichgewicht bekannt ist. Einfacher gesagt, das bedeutet, dass sie einen Gleichgewichtszustand erreichen, in dem keiner der Spieler seine Aktion ändern kann, um ein besseres Ergebnis zu erzielen, basierend auf dem, was der andere Spieler tut.
Das ist überraschend, weil, obwohl das Ergebnis jedes Spielers von der Aktion des anderen abhängt, scheint Thompson-Sampling beide Spieler zu einem stabilen Ergebnis zu führen, anstatt ihnen zu erlauben, auf eine Weise zu kooperieren, die den Wettbewerb schädigt.
Technische Beiträge und Verbindungen zur Literatur
Um unsere Hauptergebnisse zu beweisen, haben wir ein Modell entwickelt, das erfasst, wie dieses Blindspiel unter Thompson-Sampling funktioniert. Die üblichen Techniken, die in ähnlichen Forschungen verwendet werden, hatten jedoch in unserem Fall aufgrund der einzigartigen Natur unseres Spiels Einschränkungen.
Zum Beispiel gibt es standardisierte Methoden in der stochastischen Approximation, die normalerweise gut funktionieren. Diese Methoden setzen voraus, dass Updates konsistent stattfinden, aber in unserem Spiel werden einige Aktionen selten und unvorhersehbar durchgeführt.
Stattdessen haben wir eine neue Methode entwickelt, um zu analysieren, wie das Spiel sich im Laufe der Zeit entwickelt, was wir für einen bedeutenden Fortschritt im Verständnis dieser Art von Spiel halten.
Spieldynamik
Wir erklären, wie sich die Aktionen der Spieler im Laufe der Zeit ändern. Jeder Spieler verfolgt, wie oft er jede Aktion gespielt hat und wie gut diese Aktion abgeschnitten hat.
In jeder Runde nutzen die Spieler ihr Wissen, um ihre Aktionen basierend auf vergangenen Erfahrungen auszuwählen. Sie versuchen im Wesentlichen herauszufinden, welche Aktion ihnen über die Zeit das beste Ergebnis bringt.
Die Art und Weise, wie sich das Spiel entwickelt, wird definiert durch, wie oft jeder Spieler jede Aktion wählt und wie diese Aktionen bei der Generierung von Auszahlungen abschneiden.
Gleichgewichtspunkt des Spiels
Wir machen ein paar Annahmen, um das Spiel zu analysieren.
Erstens gehen wir davon aus, dass es nie ein Unentschieden bei den Auszahlungen geben wird. Das bedeutet, dass eine Aktion immer besser abschneidet als eine andere. Zweitens nehmen wir an, dass es ein spezielles Ergebnis geben wird, bei dem beide Spieler ständig dieselben Aktionen wählen - das ist das einzigartige Nash-Gleichgewicht.
Mit diesen Annahmen können wir analysieren, wie sich das Spiel verhalten wird und welche Ergebnisse wir erwarten können.
Vorläufige Ergebnisse
Wir finden einige erste Ergebnisse, die uns zeigen, dass jeder Spieler beide Aktionen während des Spiels unendlich oft wählen wird.
Die vergangenen Aktionen jedes Spielers hindern sie nicht daran, verschiedene Optionen zu erkunden. Selbst mit begrenzten Informationen werden die Spieler weiterhin neue Aktionen ausprobieren, anstatt sich nur auf das zu beschränken, was sie wissen, dass es funktioniert.
Hauptresultat und Analyse
Unsere Hauptentdeckung ist, dass unter den Bedingungen, die wir festgelegt haben, die Aktionen der Spieler mit der Zeit zum Nash-Gleichgewicht konvergieren werden. Das bedeutet, dass die Spieler langfristig in ein Muster kommen, in dem sie beide die beste Option für sich selbst wählen, während sie sich der Aktionen des anderen nicht bewusst sind.
Das ist wichtig, weil es aufzeigt, dass die Spieler, auch wenn sie blind gegenüber den Strategien ihres Gegners sind, trotzdem ein wettbewerbsfähiges Gleichgewicht erreichen können.
Simulationsstudien
Um unsere Theorie zu unterstützen, haben wir Simulationen des Spiels durchgeführt. Wir haben mehrere Szenarien mit unterschiedlichen Regeln und Anfangsbedingungen eingerichtet. In all diesen Fällen haben wir beobachtet, dass die Aktionen der Spieler dazu tendierten, sich dem Nash-Gleichgewicht anzunähern.
Das bestätigt unsere theoretischen Ergebnisse und zeigt, dass dieses Blindspiel zu stabilen Ergebnissen führen kann, auch wenn die Spieler nicht über vollständige Informationen verfügen.
Fazit und zukünftige Arbeiten
Zusammenfassend zeigt unsere Studie, dass algorithmische Kollusion in Zwei-Spieler-Blindspielen, die Thompson-Sampling verwenden, unter bestimmten Bedingungen nicht auftritt.
Wir erkennen jedoch an, dass unsere Forschung auf vereinfachten Szenarien basiert. Zukünftige Arbeiten werden sich komplexeren Szenarien mit unterschiedlichen Verteilungen von Auszahlungen, mehr Spielern und zusätzlichen Aktionen widmen.
Wir möchten auch untersuchen, ob die gleichen Ergebnisse ohne die anfänglichen Annahmen erreicht werden können.
Durch die Erweiterung dieser Forschung können wir ein besseres Verständnis dafür gewinnen, wie Spieler in wettbewerbsfähigen Umfeldern interagieren, insbesondere wenn sie sich nicht vollständig über die Aktionen ihrer Wettbewerber im Klaren sind.
Titel: No Algorithmic Collusion in Two-Player Blindfolded Game with Thompson Sampling
Zusammenfassung: When two players are engaged in a repeated game with unknown payoff matrices, they may be completely unaware of the existence of each other and use multi-armed bandit algorithms to choose the actions, which is referred to as the ``blindfolded game'' in this paper. We show that when the players use Thompson sampling, the game dynamics converges to the Nash equilibrium under a mild assumption on the payoff matrices. Therefore, algorithmic collusion doesn't arise in this case despite the fact that the players do not intentionally deploy competitive strategies. To prove the convergence result, we find that the framework developed in stochastic approximation doesn't apply, because of the sporadic and infrequent updates of the inferior actions and the lack of Lipschitz continuity. We develop a novel sample-path-wise approach to show the convergence.
Autoren: Ningyuan Chen, Xuefeng Gao, Yi Xiong
Letzte Aktualisierung: 2024-05-23 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2405.17463
Quell-PDF: https://arxiv.org/pdf/2405.17463
Lizenz: https://creativecommons.org/licenses/by-nc-sa/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.