Simple Science

La science de pointe expliquée simplement

# Informatique# Intelligence artificielle# Cryptographie et sécurité# Apprentissage automatique

Améliorer les tests de pénétration automatisés avec l'apprentissage par renforcement

Un nouveau cadre améliore l'efficacité des tests de pénétration automatisés en utilisant l'apprentissage par renforcement.

― 10 min lire


Apprentissage parApprentissage parrenforcement encybersécuritétests de pénétration automatisés.Nouveau cadre booste l'efficacité des
Table des matières

Dans le monde numérique d'aujourd'hui, garder les systèmes d'information sécurisés est super important. Une façon efficace de vérifier la sécurité d'un système informatique, c'est le test d'intrusion (TI). Ce processus aide à identifier les faiblesses potentielles que des acteurs malveillants pourraient exploiter. Le TI traditionnel nécessite des professionnels qualifiés, ce qui le rend long et fatigant, parfois ça prend des jours, voire des semaines. En plus, les tests manuels peuvent entraîner un temps d'arrêt considérable des systèmes. Du coup, il y a une forte demande pour des techniques de test d'intrusion automatisées (TIA).

Plusieurs outils et cadres avancés pour le TIA ont été créés pour améliorer l'efficacité des tests. Par exemple, Metasploit est un outil largement utilisé qui aide à recueillir des infos et à exploiter des vulnérabilités. Malgré ces avancées, beaucoup d'outils actuels ont des capacités limitées, se concentrant uniquement sur des tâches spécifiques et ne pouvant pas réaliser des évaluations complètes de manière autonome, contrairement aux testeurs humains.

Une voie prometteuse pour améliorer le TI, c'est l'utilisation de l'Apprentissage par renforcement (APR), une branche de l'intelligence artificielle (IA). L'APR implique un programme ou un agent qui prend des décisions dans un environnement pour atteindre des objectifs spécifiques. L'agent apprend de ses actions et s'ajuste en fonction des récompenses qu'il reçoit, un peu comme les humains apprennent par l'expérience. L'APR a déjà montré du succès dans diverses applications, y compris les voitures autonomes, la robotique et les IA de jeux.

Ces dernières années, la recherche sur l'utilisation de l'APR dans le TI pour les systèmes d'information s'est intensifiée. Certaines études ont reformaté le processus de TI en problèmes de prise de décision, permettant aux agents d'apprendre des stratégies optimales grâce à des algorithmes. Par exemple, une approche a utilisé l'apprentissage profond par Q pour automatiser les tâches post-exploitation. D'autres ont intégré l'APR avec des cadres de TI industriels existants pour minimiser le travail manuel.

Défis rencontrés dans les tests d'intrusion automatisés

Malgré les progrès, les approches de TI basées sur l'APR rencontrent plusieurs défis. Un gros problème est l'efficacité de l'échantillonnage, où l'agent a besoin de nombreuses interactions avec l'environnement pour apprendre les meilleures stratégies. Ce besoin provient du grand espace d'actions, où un testeur a plusieurs actions à choisir pour chaque scénario.

Un autre défi est la complexité de la définition des récompenses pour l'agent. Les actions réussies reçoivent généralement des récompenses positives, tandis que les actions invalides subissent des pénalités. Cependant, créer une seule fonction de récompense qui capture toutes les règles nécessaires peut devenir compliqué, rendant plus difficile pour l'agent d'apprendre efficacement.

De plus, le TI basé sur l'APR a souvent du mal avec l'interprétabilité. Après l'entraînement, les agents peuvent ne pas indiquer clairement leur phase actuelle ou les prochaines étapes du processus de test. Ce manque de clarté peut saper la confiance dans les décisions et la performance de l'agent.

Introduction d'une approche informée par les connaissances

Pour faire face à ces défis, nous proposons un nouveau cadre appelé DRLRM-TI, qui combine des connaissances en cybersécurité avec l'APR. Cette approche aide l'agent à décomposer des tâches complexes en sous-tâches plus petites et gérables, améliorant l'efficacité de l'apprentissage.

Le cadre utilise une "machine de récompense" (MR) pour encoder les connaissances du domaine provenant de bases de données de cybersécurité reconnues. La MR décrit un ensemble d'événements durant le TI et décompose le processus en sous-tâches distinctes. Elle fournit également des fonctions de récompense adaptées en fonction de la phase actuelle du TI, améliorant la flexibilité des récompenses attribuées à l'agent pendant l'entraînement.

Dans cette étude, nous nous concentrons sur le Mouvement latéral comme étude de cas. Le mouvement latéral fait référence aux actions prises après avoir obtenu un accès initial à un réseau, se déplaçant plus profondément pour prendre le contrôle d'actifs précieux. Pour guider ce processus, nous le formulons comme un problème de prise de décision partiellement observable en utilisant des MR.

Explication du cadre DRLRM-TI

Notre cadre proposé, DRLRM-TI, implique un agent agissant en tant que testeur, interagissant avec un système de réseau cible. L'environnement cible se compose de divers composants, y compris des hôtes, des pare-feux et des routeurs. L'agent peut choisir parmi une gamme d'actions de TI, telles que scanner des vulnérabilités et tenter des exploitations.

Au fur et à mesure que l'agent interagit avec l'environnement, il fait des observations basées sur le résultat de ses actions. Les récompenses immédiates reflètent comment l'agent atteint ses objectifs, en particulier en prenant possession de ressources critiques dans le réseau. L'agent vise à maximiser les récompenses globales par ses expériences d'apprentissage.

Dans ce cadre, l'agent est soutenu par la MR qui encode les connaissances en cybersécurité. La MR agit comme une machine d'état, aidant à définir des sous-tâches et à spécifier des fonctions de récompense pour chaque action que l'agent prend. En suivant les événements détectés durant le TI, la MR fait évoluer son état, guidant efficacement le processus d'apprentissage de l'agent.

Espaces d'action et d'observation dans le mouvement latéral

Dans notre étude, nous considérons trois types principaux d'actions liées au mouvement latéral :

  1. Scan: Cela implique de collecter des informations essentielles sur le réseau en découvrant des machines, leurs connexions et des données de vulnérabilité.

  2. Exploitation des vulnérabilités: Cela peut être classé en exploitation locale et distante. L'exploitation locale se produit lorsque l'agent opère sur un nœud connecté, tandis que l'exploitation distante cible des nœuds découverts mais non encore accessibles par l'agent.

  3. Connexion: Cela permet à l'agent de se connecter à un nœud en utilisant des identifiants et des ports spécifiques.

Les observations faites par l'agent sont obtenues grâce aux opérations de scan après l'exécution des actions. L'espace d'observation se compose de plusieurs sous-espaces, y compris le nombre de nœuds découverts, les niveaux de privilège des nœuds, les propriétés découvertes, les identifiants divulgués et si l'agent a réussi à effectuer des mouvements latéraux.

Conception de machines de récompense pour un apprentissage amélioré

Nous utilisons les MR pour guider les actions de l'agent et l'aider à apprendre plus efficacement. Une MR simplifiée se concentre sur trois sous-tâches principales :

  1. Découvrir de nouveaux identifiants.
  2. Se connecter à de nouveaux nœuds en utilisant ces identifiants.
  3. Élever les privilèges des nœuds connectés.

Cette phase du processus se répétera jusqu'à ce que l'agent atteigne des objectifs spécifiques, comme accéder à des données critiques.

Nous examinons également une MR plus détaillée qui inclut un ensemble de tâches plus large. Dans cette MR, l'agent est d'abord guidé pour découvrir de nouveaux nœuds avant de chercher des identifiants, puis de se connecter à de nouveaux nœuds, et enfin d'élever les privilèges. La complexité accrue de cette MR permet une guidance plus précise et un soutien pendant le processus d'apprentissage.

Objectifs et méthodologie dans les tests

Le principal objectif du mouvement latéral est de contrôler le plus de nœuds possible dans le réseau. En maximisant les récompenses accumulées liées à la MR pendant le TI, nous pouvons guider l'agent vers l'atteinte de cet objectif efficacement.

Pour entraîner l'agent et améliorer le processus d'apprentissage, nous adoptons l'algorithme d'apprentissage profond par Q avec des MR (DQRM). Cette approche permet à l'agent de peaufiner sa stratégie et d'améliorer sa performance globale au fil du temps.

La plateforme de simulation et le cadre expérimental

Pour nos expériences, nous utilisons CyberBattleSim, un simulateur open-source développé pour tester et évaluer des stratégies de mouvement latéral au sein de réseaux. Cette plateforme crée des réseaux simulés modélisés par des graphes avec des nœuds interconnectés et des vulnérabilités.

Deux environnements de réseau sont mis en place pour les tests : CyberBattleChain (une structure séquentielle) et CyberBattleToyCtf (une structure maillée plus complexe). Chaque nœud est conçu avec des propriétés spécifiques, y compris des vulnérabilités qui peuvent conduire à une exposition d'identifiants ou à une élévation de privilèges.

L'objectif de l'agent dans la simulation est de capturer le plus de ressources importantes, appelées "drapeaux", tout en utilisant le moins d'actions possible.

Analyse expérimentale et résultats

Nous avons conçu des expériences pour valider notre cadre et répondre à deux questions de recherche :

  1. L'agent guidé par la MR peut-il améliorer l'efficacité d'apprentissage du TI par rapport à l'agent sans MR ?
  2. Comment différents designs de MR affecteront-ils la performance du TI ?

Pour évaluer ces questions, nous avons comparé quatre configurations d'agents : deux utilisant l'algorithme DQRM avec des MR distinctes et deux utilisant une approche traditionnelle sans MR. Les agents ont été formés dans les deux environnements pour évaluer leur performance à travers différentes phases.

Résultats de l'efficacité de l'entraînement

Dans les deux environnements, les agents utilisant le cadre DQRM ont montré une efficacité d'entraînement améliorée par rapport à ceux utilisant des méthodes traditionnelles. Les résultats ont indiqué que les agents guidés par la MR pouvaient atteindre de plus grandes récompenses moyennes avec moins d'actions effectuées.

Conclusions sur la performance d'évaluation

Les tests ont révélé que les agents DQRM ont surpassé les agents traditionnels en termes de capture efficace des drapeaux et d'atteinte des objectifs. Les différences dans le nombre moyen d'étapes prises par les agents ont montré que les MR ont effectivement fourni un avantage précieux durant le processus de test.

Impact des designs de MR sur la performance

Analyser la performance des agents guidés par différentes MR a montré que ceux avec des directives plus détaillées et structurées ont mieux performé que ceux avec des designs plus simples. Les agents avec des MR nuancées ont pu naviguer dans le processus de TI plus efficacement et atteindre des objectifs avec moins d'actions.

Conclusion et futures directions

En résumé, notre cadre de TIA informé par les connaissances, DRLRM-TI, intègre efficacement les connaissances du domaine dans le processus d'apprentissage par renforcement, améliorant les capacités des tests d'intrusion automatisés. Notre étude souligne l'importance d'utiliser une guidance structurée à travers des MR pour améliorer l'efficacité d'apprentissage et la performance des agents durant les tests.

Les travaux futurs impliqueront l'examen de MR plus sophistiquées informées par des bases de données de cybersécurité supplémentaires, visant à augmenter l'adaptabilité et l'efficacité du système dans divers scénarios de TI. L'objectif est d'élargir le champ d'application du TIA au-delà du mouvement latéral pour englober d'autres applications critiques dans les tests d'intrusion.

Source originale

Titre: Knowledge-Informed Auto-Penetration Testing Based on Reinforcement Learning with Reward Machine

Résumé: Automated penetration testing (AutoPT) based on reinforcement learning (RL) has proven its ability to improve the efficiency of vulnerability identification in information systems. However, RL-based PT encounters several challenges, including poor sampling efficiency, intricate reward specification, and limited interpretability. To address these issues, we propose a knowledge-informed AutoPT framework called DRLRM-PT, which leverages reward machines (RMs) to encode domain knowledge as guidelines for training a PT policy. In our study, we specifically focus on lateral movement as a PT case study and formulate it as a partially observable Markov decision process (POMDP) guided by RMs. We design two RMs based on the MITRE ATT\&CK knowledge base for lateral movement. To solve the POMDP and optimize the PT policy, we employ the deep Q-learning algorithm with RM (DQRM). The experimental results demonstrate that the DQRM agent exhibits higher training efficiency in PT compared to agents without knowledge embedding. Moreover, RMs encoding more detailed domain knowledge demonstrated better PT performance compared to RMs with simpler knowledge.

Auteurs: Yuanliang Li, Hanzheng Dai, Jun Yan

Dernière mise à jour: 2024-05-24 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2405.15908

Source PDF: https://arxiv.org/pdf/2405.15908

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires