Automatisiertes Penetrationstesten mit Verstärkungslernen verbessern
Ein neues Framework verbessert die Effizienz von automatisierten Penetrationstests mithilfe von Reinforcement Learning.
― 8 min Lesedauer
Inhaltsverzeichnis
- Herausforderungen im automatisierten Penetration Testing
- Einführung eines wissensinformierten Ansatzes
- Das DRLRM-PT-Framework erklärt
- Aktions- und Beobachtungsräume in lateralen Bewegungen
- Gestaltung von Belohnungsmaschinen für verbesserte Lernprozesse
- Ziele und Methodologie im Testen
- Die Simulationsplattform und das experimentelle Setup
- Experimentelle Analyse und Ergebnisse
- Fazit und zukünftige Richtungen
- Originalquelle
In der heutigen digitalen Welt ist es super wichtig, Informationssysteme sicher zu halten. Eine effektive Methode, um die Sicherheit eines Computersystems zu überprüfen, ist das Penetration Testing (PT). Dieser Prozess hilft, potenzielle Schwächen zu identifizieren, die von schädlichen Akteuren ausgenutzt werden könnten. Traditionelles PT erfordert qualifizierte Fachleute, was es zeitaufwendig und arbeitsintensiv macht, manchmal dauert es Tage oder sogar Wochen. Ausserdem kann manuelles Testen zu erheblichen Ausfallzeiten der Systeme führen. Daher gibt es eine grosse Nachfrage nach automatisierten Penetration Testing-Techniken (AutoPT).
Es wurden mehrere fortschrittliche Tools und Frameworks für AutoPT entwickelt, um die Testeffizienz zu verbessern. Zum Beispiel ist Metasploit ein weit verbreitetes Tool, das hilft, Informationen zu sammeln und Schwachstellen auszunutzen. Trotz dieser Fortschritte haben viele aktuelle Tools begrenzte Fähigkeiten, die sich nur auf spezifische Aufgaben konzentrieren und nicht in der Lage sind, umfassende Bewertungen unabhängig durchzuführen, im Gegensatz zu menschlichen Testern.
Ein vielversprechender Ansatz zur Verbesserung von PT ist die Verwendung von Reinforcement Learning (RL), einem Bereich der künstlichen Intelligenz (KI). RL beinhaltet ein Computerprogramm oder einen Agenten, der Entscheidungen innerhalb einer Umgebung trifft, um spezifische Ziele zu erreichen. Der Agent lernt aus seinen Handlungen und passt sich basierend auf den Belohnungen an, die er erhält, ähnlich wie Menschen durch Erfahrung lernen. RL hat bereits in verschiedenen Anwendungen Erfolge gezeigt, darunter selbstfahrende Autos, Robotik und KI-Spiele.
In den letzten Jahren hat die Forschung zur Verwendung von RL in PT für Informationssysteme zugenommen. Einige Studien formulierten den PT-Prozess als Entscheidungsprobleme, was es den Agenten ermöglicht, optimale Strategien mittels Algorithmen zu lernen. Zum Beispiel wurde ein Ansatz verwendet, um post-exploitation Aufgaben mit Deep Q-Learning zu automatisieren. Andere haben RL mit bestehenden industriellen PT-Frameworks integriert, um die manuelle Arbeit zu minimieren.
Herausforderungen im automatisierten Penetration Testing
Trotz Fortschritten stossen bestehende RL-basierte PT-Ansätze auf mehrere Herausforderungen. Ein wesentliches Problem ist die Effizienz der Probenahme, bei der der Agent viele Interaktionen mit der Umgebung benötigt, um die besten Strategien zu lernen. Diese Notwendigkeit entsteht aus dem grossen Aktionsraum, in dem ein Pen-Tester mehrere Aktionen für jedes Szenario auswählen kann.
Eine weitere Herausforderung ist die Komplexität, Belohnungen für den Agenten zu definieren. Erfolgreiche Aktionen erhalten typischerweise positive Belohnungen, während ungültige Aktionen bestraft werden. Es kann jedoch kompliziert werden, eine einzige Belohnungsfunktion zu erstellen, die alle nötigen Regeln erfasst, was es dem Agenten erschwert, effektiv zu lernen.
Darüber hinaus hat RL-basiertes PT oft Probleme mit der Interpretierbarkeit. Nach dem Training können Agenten möglicherweise nicht klar angeben, in welcher Phase sie sich gerade befinden oder welche nächsten Schritte im Testprozess folgen. Diese Unklarheit kann das Vertrauen in die Entscheidungen und Leistungen des Agenten untergraben.
Einführung eines wissensinformierten Ansatzes
Um diese Herausforderungen anzugehen, schlagen wir ein neues Framework namens DRLRM-PT vor, das Wissen aus der Cybersicherheit mit RL kombiniert. Dieser Ansatz hilft dem Agenten, komplexe Aufgaben in kleinere, handhabbare Teilaufgaben zu zerlegen, was die Lerneffizienz verbessert.
Das Framework verwendet eine "Belohnungsmaschine" (RM), um Fachwissen aus anerkannten Wissensdatenbanken zur Cybersicherheit zu kodieren. Die RM skizziert eine Reihe von Ereignissen während PT und unterteilt den Prozess in verschiedene Teilaufgaben. Sie bietet auch massgeschneiderte Belohnungsfunktionen, die auf der aktuellen Phase des PT basieren, wodurch die Flexibilität der Belohnungen, die dem Agenten während des Trainings zugewiesen werden, erhöht wird.
In dieser Studie konzentrieren wir uns auf laterale Bewegungen als Fallstudie. Laterale Bewegung bezieht sich auf die Aktionen, die nach dem ersten Zugang zu einem Netzwerk vorgenommen werden, um tiefer vorzudringen und die Kontrolle über wertvolle Ressourcen zu übernehmen. Um diesen Prozess zu steuern, formulieren wir ihn als teilweise beobachtbares Entscheidungsproblem unter Verwendung von RMs.
Das DRLRM-PT-Framework erklärt
Unser vorgeschlagenes Framework DRLRM-PT beinhaltet einen Agenten, der als Pen-Tester fungiert und mit einem Zielnetzwerksystem interagiert. Die Zielumgebung besteht aus verschiedenen Komponenten, einschliesslich Hosts, Firewalls und Routern. Der Agent kann aus einer Reihe von PT-Aktionen wählen, wie z.B. nach Schwachstellen zu scannen und Exploits zu versuchen.
Während der Agent mit der Umgebung interagiert, macht er Beobachtungen basierend auf dem Ergebnis seiner Aktionen. Die unmittelbaren Belohnungen spiegeln wider, wie gut der Agent seine Ziele erreicht, insbesondere die Übernahme kritischer Ressourcen im Netzwerk. Der Agent zielt darauf ab, die Gesamterträge durch seine Lernerfahrungen zu maximieren.
In diesem Framework wird der Agent durch die RM unterstützt, die Cybersecurity-Wissen kodiert. Die RM funktioniert als Zustandsmaschine und hilft, Teilaufgaben zu skizzieren und Belohnungsfunktionen für jede Aktion des Agenten anzugeben. Indem sie Ereignisse verfolgt, die während des PT erkannt werden, wechselt die RM ihren Zustand und leitet den Lernprozess des Agenten effektiv.
Aktions- und Beobachtungsräume in lateralen Bewegungen
In unserer Studie betrachten wir drei Hauptarten von Aktionen, die mit lateralen Bewegungen zusammenhängen:
Scannen: Dabei wird essentielle Informationen über das Netzwerk gesammelt, indem Maschinen, ihre Verbindungen und Schwachstellendaten entdeckt werden.
Ausnutzung von Schwachstellen: Dies lässt sich weiter unterteilen in lokale und entfernte Ausnutzung. Lokale Ausnutzung erfolgt, wenn der Agent auf einem verbundenen Knoten operiert, während sich die entfernte Ausnutzung auf Knoten bezieht, die bereits entdeckt, aber noch nicht vom Agenten erreicht wurden.
Verbindung: Hiermit kann der Agent eine Verbindung zu einem Knoten unter Verwendung spezifischer Anmeldeinformationen und Ports herstellen.
Die Beobachtungen, die der Agent macht, werden durch Scanning-Operationen nach der Ausführung von Aktionen erhalten. Der Beobachtungsraum besteht aus mehreren Unterräumen, einschliesslich der Anzahl entdeckter Knoten, der Berechtigungsstufen der Knoten, entdeckten Eigenschaften, geleakter Anmeldeinformationen und ob der Agent erfolgreich laterale Bewegungen durchgeführt hat.
Belohnungsmaschinen für verbesserte Lernprozesse
Gestaltung vonWir nutzen RMs, um die Aktionen des Agenten zu leiten und ihm zu helfen, effizienter zu lernen. Eine vereinfachte RM konzentriert sich auf drei Hauptteilaufgaben:
- Neue Anmeldeinformationen entdecken.
- Mit diesen Anmeldeinformationen zu neuen Knoten verbinden.
- Die Berechtigungen der verbundenen Knoten erhöhen.
Diese Phase des Prozesses wird so lange wiederholt, bis der Agent spezifische Ziele erreicht, wie z.B. auf kritische Daten zuzugreifen.
Wir betrachten auch eine detailliertere RM, die ein breiteres Set von Aufgaben umfasst. In dieser RM wird der Agent zuerst dazu angeleitet, neue Knoten zu entdecken, bevor er nach Anmeldeinformationen sucht, dann zu neuen Knoten verbindet und schliesslich die Berechtigungen erhöht. Die erhöhte Komplexität dieser RM ermöglicht eine präzisere Anleitung und Unterstützung während des Lernprozesses.
Ziele und Methodologie im Testen
Das Hauptziel der lateralen Bewegung besteht darin, die Kontrolle über so viele Knoten wie möglich im Netzwerk zu erlangen. Indem wir die angesammelten Belohnungen, die mit der RM während PT verbunden sind, maximieren, können wir den Agenten effektiv auf dieses Ziel hinführen.
Um den Agenten zu trainieren und den Lernprozess zu verbessern, verwenden wir den Deep Q-Learning-Algorithmus mit RMs (DQRM). Dieser Ansatz ermöglicht es dem Agenten, seine Strategie zu verfeinern und seine Gesamtleistung im Laufe der Zeit zu verbessern.
Die Simulationsplattform und das experimentelle Setup
Für unsere Experimente verwenden wir CyberBattleSim, einen Open-Source-Simulator, der entwickelt wurde, um laterale Bewegungsstrategien innerhalb von Netzwerken zu testen und zu bewerten. Diese Plattform erstellt simulierte Netzwerke, die von Graphen mit miteinander verbundenen Knoten und Schwachstellen modelliert werden.
Zwei Netzwerktopologien werden für Tests eingerichtet: CyberBattleChain (eine sequentielle Struktur) und CyberBattleToyCtf (eine komplexere Mesh-Struktur). Jeder Knoten ist mit spezifischen Eigenschaften ausgestattet, darunter Schwachstellen, die zu einer Offenlegung von Anmeldeinformationen oder einer Erhöhung der Berechtigungen führen können.
Das Ziel des Agenten in der Simulation ist es, so viele wichtige Ressourcen, die als „Flags“ bezeichnet werden, mit so wenigen Aktionen wie möglich zu erfassen.
Experimentelle Analyse und Ergebnisse
Wir haben Experimente entworfen, um unser Framework zu validieren und zwei Forschungsfragen zu beantworten:
- Kann der Agent, der von RM geleitet wird, die Lerneffizienz von PT im Vergleich zu einem Agenten ohne RM verbessern?
- Wie wirken sich unterschiedliche RM-Designs auf die PT-Leistung aus?
Um diese Fragen zu bewerten, verglichen wir vier Konfigurationen von Agenten – zwei, die den DQRM-Algorithmus mit unterschiedlichen RMs verwenden, und zwei, die einen traditionellen Ansatz ohne RMs nutzen. Agenten wurden in beiden Umgebungen trainiert, um ihre Leistungen in verschiedenen Phasen zu bewerten.
Ergebnisse zur Trainingseffizienz
In beiden Umgebungen zeigten Agenten, die das DQRM-Framework nutzen, eine verbesserte Trainingseffizienz im Vergleich zu denen, die traditionelle Methoden verwendeten. Die Ergebnisse zeigten, dass die von RM geleiteten Agenten höhere durchschnittliche Belohnungen mit weniger durchgeführten Aktionen erzielen konnten.
Ergebnisse zur Evaluationsleistung
Die Tests ergaben, dass DQRM-Agenten traditionelle Agenten hinsichtlich der effizienten Erfassung von Flags und der Erreichung von Zielen übertreffen. Die Unterschiede in der durchschnittlichen Anzahl an Schritten, die die Agenten unternommen haben, zeigten, dass die RMs tatsächlich einen wertvollen Vorteil während des Testprozesses bieten.
Auswirkung von RM-Designs auf die Leistung
Die Analyse der Leistung von Agenten, die von unterschiedlichen RMs geleitet wurden, zeigte, dass diejenigen mit detaillierteren und strukturierten Richtlinien besser abschnitten als diejenigen mit einfacheren Designs. Die Agenten mit nuancierten RMs konnten den PT-Prozess effektiver navigieren und Ziele mit weniger Aktionen erreichen.
Fazit und zukünftige Richtungen
Zusammenfassend lässt sich sagen, dass unser vorgeschlagenes wissensinformiertes AutoPT-Framework DRLRM-PT effektiv Fachwissen in den Reinforcement-Learning-Prozess integriert und die Fähigkeiten des automatisierten Penetration Testings verbessert. Unsere Studie hebt die Bedeutung der Verwendung strukturierter Anleitung durch RMs hervor, um die Lerneffizienz und Leistung von Agenten während des Testens zu verbessern.
Zukünftige Arbeiten werden sich mit der Untersuchung anspruchsvollerer RMs befassen, die durch zusätzliche Wissensdatenbanken zur Cybersicherheit informiert sind, mit dem Ziel, die Anpassungsfähigkeit und Wirksamkeit des Systems in verschiedenen PT-Szenarien zu erhöhen. Das Ziel ist es, den Anwendungsbereich von AutoPT über laterale Bewegungen hinaus zu erweitern, um andere wichtige Anwendungen im Penetration Testing abzudecken.
Titel: Knowledge-Informed Auto-Penetration Testing Based on Reinforcement Learning with Reward Machine
Zusammenfassung: Automated penetration testing (AutoPT) based on reinforcement learning (RL) has proven its ability to improve the efficiency of vulnerability identification in information systems. However, RL-based PT encounters several challenges, including poor sampling efficiency, intricate reward specification, and limited interpretability. To address these issues, we propose a knowledge-informed AutoPT framework called DRLRM-PT, which leverages reward machines (RMs) to encode domain knowledge as guidelines for training a PT policy. In our study, we specifically focus on lateral movement as a PT case study and formulate it as a partially observable Markov decision process (POMDP) guided by RMs. We design two RMs based on the MITRE ATT\&CK knowledge base for lateral movement. To solve the POMDP and optimize the PT policy, we employ the deep Q-learning algorithm with RM (DQRM). The experimental results demonstrate that the DQRM agent exhibits higher training efficiency in PT compared to agents without knowledge embedding. Moreover, RMs encoding more detailed domain knowledge demonstrated better PT performance compared to RMs with simpler knowledge.
Autoren: Yuanliang Li, Hanzheng Dai, Jun Yan
Letzte Aktualisierung: 2024-05-24 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2405.15908
Quell-PDF: https://arxiv.org/pdf/2405.15908
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.