Attaques backdoor coopératives dans l'apprentissage par renforcement décentralisé
Recherche sur la façon dont des agents nuisibles peuvent corrompre de bons agents dans l'apprentissage par renforcement décentralisé.
― 9 min lire
Table des matières
La sécurité de l'apprentissage par renforcement décentralisé (RL) est un sujet important. Dans ce domaine, on s'inquiète que des Agents nuisibles puissent partager de mauvaises Stratégies avec des bons agents. Cet article se penche sur un type d'attaque, appelé Attaque par porte dérobée coopérative, qui peut se produire dans l'apprentissage par renforcement décentralisé. Contrairement aux méthodes précédentes qui cachent une porte dérobée entière derrière des stratégies partagées, cette nouvelle méthode découpe la porte dérobée en plus petites parties selon l'environnement. Chaque agent nuisible cache une partie dans sa stratégie et la partage avec les bons agents. Quand un bon agent apprend ces stratégies contaminées, il assemble sans le savoir l'attaque de porte dérobée complète dans sa propre stratégie. L'article fournit une preuve montrant que notre approche coopérative peut réussir à injecter la porte dérobée dans les stratégies des bons agents.
Contexte
Les attaques par porte dérobée sont devenues un sujet significatif dans le domaine de l'apprentissage par renforcement. Une politique de porte dérobée en RL est une stratégie qui a l'air normale dans un environnement sûr mais qui se comporte mal ou d'une certaine manière quand des conditions spécifiques sont remplies. De nombreuses études ont été réalisées sur les attaques par porte dérobée dans différents environnements comme des labyrinthes, la reconnaissance d'images, et les voitures autonomes. Cependant, la plupart de ces recherches se sont concentrées sur des scénarios à agent unique plutôt que sur des environnements Décentralisés.
Le RL décentralisé a de nombreuses applications pratiques. En utilisant plusieurs agents pour explorer un environnement inconnu, le RL décentralisé peut trouver la meilleure stratégie plus rapidement. Cependant, cette configuration rend difficile de faire confiance aux agents participants, ce qui entraîne le risque d'attaques de politique de porte dérobée.
Motivation
Pour illustrer l'impact des attaques par porte dérobée, on a réalisé une démonstration utilisant un environnement de labyrinthe. Dans cette démo, un bon agent essaie de naviguer dans le labyrinthe pour trouver le chemin le plus court. Dans la version porte dérobée du labyrinthe, il y a un obstacle invisible qui bloque ce chemin le plus court. L'attaque par porte dérobée fonctionne comme suit : l'obstacle n'apparaît que lorsque l'agent s'approche trop et disparaît quand l'agent s'éloigne.
Les résultats montrent deux types d'attaques par porte dérobée. L'attaque de politique de porte dérobée unique (SBPA) montre comment un agent peut injecter une porte dérobée dans la stratégie d'un bon agent. À l'inverse, l'attaque par porte dérobée coopérative (CBPA) utilise plusieurs agents pour rendre l'injection de la porte dérobée plus difficile à détecter.
Dans le cas de la CBPA, on divise l'obstacle en deux parties. Un agent nuisible a une partie de l'obstacle, tandis qu'un autre agent nuisible a l'autre partie. Cela signifie que les stratégies de porte dérobée ressemblent aux stratégies des bons agents, ce qui les rend plus susceptibles d'être acceptées.
L'efficacité de cette attaque discrète montre qu'il est possible d'injecter des connaissances nuisibles dans des bons agents sans être détecté.
Attaques par porte dérobée coopératives dans le RL décentralisé
On propose une méthode pour les attaques par porte dérobée coopératives dans le RL décentralisé. Contrairement aux méthodes précédentes qui partagent une porte dérobée complète d'un coup, notre stratégie divise la porte dérobée en plus petites parties. Chaque agent nuisible garde une partie cachée dans sa stratégie. Lorsque les bons agents apprennent ces stratégies contaminées, toute l'attaque par porte dérobée s'assemble dans leurs stratégies.
Notre approche se concentre sur la décomposition d'une attaque par porte dérobée en plusieurs cibles plus petites. La stratégie globale de porte dérobée est divisée en sous-espaces non connectés. Cette division garantit que la porte dérobée reste efficace tout en étant discrète.
La politique de porte dérobée coopérative contient des parties qui n'affectent que des zones spécifiques de l'environnement. Cela facilite l'intégration des stratégies nuisibles avec celles des bons agents.
Dans notre cadre, on montre que s'il existe une politique de porte dérobée globale unique, on peut trouver un moyen de la décomposer en parties. Ces parties peuvent être apprises et combinées à travers le processus de RL décentralisé, garantissant qu'on peut atteindre notre objectif.
Analyse théorique
Dans notre méthode coopérative, le but est de faire fonctionner l'attaque par porte dérobée efficacement même dans un cadre décentralisé. En divisant l'attaque par porte dérobée globale en parties locales et en faisant exécuter ces parties locales par plusieurs agents, on peut maintenir un profil bas tout en atteignant l'efficacité.
On établit une méthode pour que les agents travaillent ensemble dans ce cadre. Les agents peuvent partager leurs expériences, et leur entraînement local aidera à atteindre un objectif commun. La stratégie de chaque agent est mise à jour en fonction de ses interactions, et les résultats peuvent être combinés pour former une meilleure stratégie globale.
On met en place une structure dans laquelle les stratégies des agents convergent vers une stratégie optimale. Cela signifie que même l'entraînement distribué peut être efficace pour atteindre les résultats souhaités.
Configuration expérimentale
Pour tester notre méthode d'attaque par porte dérobée coopérative, on a choisi deux jeux vidéo Atari : Breakout et Seaquest. On a entraîné les agents individuels dans un cadre décentralisé en utilisant le cadre d'advantage actor-critic parallèle.
Environnement Breakout
Dans le jeu Breakout, les joueurs utilisent une balle pour détruire des briques sans laisser passer la balle au-delà de leur palette. On a programmé des actions spécifiques qui déclenchent des portes dérobées, provoquant que la palette rate la balle. Les Politiques contaminées ont été mises en œuvre dans un système d'agents décentralisé, permettant de diviser les déclencheurs parmi plusieurs agents nuisibles.
Environnement Seaquest
Dans Seaquest, les joueurs contrôlent un sous-marin pour sauver des plongeurs tout en évitant des ennemis. On a introduit des déclencheurs de porte dérobée qui conduisent le sous-marin à plonger de manière incontrôlable lorsque des conditions spécifiques sont remplies. Comme pour Breakout, les politiques de porte dérobée ont été entraînées de manière décentralisée, avec les déclencheurs distribués parmi des agents nuisibles.
Le processus d'entraînement comprenait l'entraînement local, le partage de politiques, l'agrégation de politiques et l'inférence. Pendant l'entraînement local, les agents mettaient à jour leurs stratégies en fonction de leurs expériences. Dans le partage de politiques, tous les agents échangeaient leurs politiques, les agents nuisibles partageant des stratégies contaminées contenant des parties du déclencheur de porte dérobée. Dans l'agrégation de politiques, ces stratégies étaient combinées pour un entraînement supplémentaire. Enfin, pendant l'inférence, la politique complète de porte dérobée montrait ses effets dans les environnements de Breakout et Seaquest.
Résultats dans Breakout
Nos tests dans le jeu Breakout ont montré que les agents avec des stratégies de porte dérobée rataient souvent la balle à des moments critiques, confirmant l'efficacité de l'attaque. On a analysé comment différentes conditions de contamination affectaient la performance des stratégies de porte dérobée.
Les résultats ont indiqué que les récompenses moyennes pour les agents avec des politiques de porte dérobée étaient significativement plus basses lorsque les portes dérobées étaient activées. Cela a confirmé que notre attaque de politique de porte dérobée coopérative fonctionnait efficacement. En comparant notre méthode avec des attaques standard, on a trouvé des conséquences similaires, prouvant l'exactitude de notre approche coopérative.
Résultats dans Seaquest
Dans Seaquest, le sous-marin plongeait souvent de manière incontrôlable à des points clés du jeu, illustrant l'impact de la porte dérobée. Les résultats pour diverses conditions de contamination ont de nouveau démontré que les récompenses moyennes pour les agents avec des politiques de porte dérobée étaient plus basses lorsque la porte dérobée était activée, confirmant l'efficacité de notre approche coopérative.
En comparant la performance de notre méthode avec les approches précédentes, il est devenu clair que notre attaque était tout aussi efficace, validant la force de la stratégie coopérative.
Conclusion
Cet article présente une nouvelle manière de gérer les attaques par porte dérobée dans l'apprentissage par renforcement décentralisé. On a introduit une méthode appelée Co-Trojan qui utilise l'environnement pour décomposer les attaques par porte dérobée en plus petites parties, cachées par différents agents nuisibles. Lorsque ces parties se rassemblent à travers des processus d'apprentissage, elles forment une attaque par porte dérobée complète sans être reconnues.
En répartissant la porte dérobée entre divers agents, notre méthode améliore les chances de réussir une attaque tout en réduisant les risques d'être repéré. Les résultats de nos expériences confirment l'efficacité de cette approche dans des environnements décentralisés.
Pour les travaux futurs, on vise à explorer comment développer des mécanismes de défense robustes contre ce type d'attaques dans des environnements d'apprentissage par renforcement décentralisé. Nos découvertes démontrent la faisabilité d'injecter des stratégies nuisibles dans de bons agents de manière discrète, mettant en lumière le besoin d'une meilleure sécurité dans les systèmes de RL décentralisés.
Titre: Cooperative Backdoor Attack in Decentralized Reinforcement Learning with Theoretical Guarantee
Résumé: The safety of decentralized reinforcement learning (RL) is a challenging problem since malicious agents can share their poisoned policies with benign agents. The paper investigates a cooperative backdoor attack in a decentralized reinforcement learning scenario. Differing from the existing methods that hide a whole backdoor attack behind their shared policies, our method decomposes the backdoor behavior into multiple components according to the state space of RL. Each malicious agent hides one component in its policy and shares its policy with the benign agents. When a benign agent learns all the poisoned policies, the backdoor attack is assembled in its policy. The theoretical proof is given to show that our cooperative method can successfully inject the backdoor into the RL policies of benign agents. Compared with the existing backdoor attacks, our cooperative method is more covert since the policy from each attacker only contains a component of the backdoor attack and is harder to detect. Extensive simulations are conducted based on Atari environments to demonstrate the efficiency and covertness of our method. To the best of our knowledge, this is the first paper presenting a provable cooperative backdoor attack in decentralized reinforcement learning.
Auteurs: Mengtong Gao, Yifei Zou, Zuyuan Zhang, Xiuzhen Cheng, Dongxiao Yu
Dernière mise à jour: 2024-05-24 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2405.15245
Source PDF: https://arxiv.org/pdf/2405.15245
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.