Sichere Verstärkendes Lernen für reale Anwendungen
Ein neuer Ansatz verbessert die Sicherheit bei Aufgaben im Reinforcement Learning ohne vorherige Belohnungen.
― 12 min Lesedauer
Inhaltsverzeichnis
- Die Herausforderung der Sicherheit im Reinforcement Learning
- Unser Ansatz zur sicheren Exploration
- Schritte in unserem Verfahren
- Verwandte Arbeiten
- Eingeschränkte Markov-Entscheidungsprozesse
- Maximum Entropy Reinforcement Learning
- Sicherheitsmetriken im Transfer Learning
- Problematik
- Exploration mit dem sicheren Guide
- Politiken-Destillation
- Zusammengesetztes Sampling für verbessertes Lernen
- Empirische Analyse unseres Ansatzes
- Ablationsstudie der Schlüsselfaktoren
- Vergleich mit anderen Methoden
- Fazit
- Originalquelle
- Referenz Links
Sicherheit ist ein grosses Thema, wenn es darum geht, Reinforcement Learning (RL) in der realen Welt anzuwenden. Normalerweise bringen wir RL-Agenten zuerst in sicheren, kontrollierten Umgebungen bei, bevor wir sie zu echten Aufgaben schicken, wo Sicherheit wichtiger ist. Aber manchmal wissen wir nicht genau, welche Aufgabe auf uns zukommt, was RL herausfordernd macht.
Um das zu lösen, schauen wir uns eine Methode namens reward-free RL an. Bei reward-free RL lernen Agenten, sich schnell anzupassen, wenn Belohnungen eingeführt werden, ohne auf sofortiges Feedback angewiesen zu sein. Wir konzentrieren uns auf einen eingeschränkten Ansatz, was bedeutet, dass die Agenten lernen, Sicher zu erkunden, selbst wenn sie keine Belohnungssignale bekommen. Dieses Training findet in einem sicheren Raum statt, in dem einige riskante Interaktionen erlaubt sind, solange wir die Sicherheit im Blick behalten.
Wenn es an der Zeit ist, die reale Aufgabe bekannt zu geben, müssen strenge Sicherheitsrichtlinien befolgt werden. Der Agent, der so trainiert wurde, kann dann eine sichere Strategie für seine Handlungen entwickeln. Wir übernehmen Ideen aus einem anderen Bereich, dem Transfer Learning, das den Agenten hilft, Wissen von einer Aufgabe auf eine andere zu übertragen. In unserem Fall nutzen wir eine Methode, die eine Politik, die in einem sicheren Umfeld gelernt wurde, in Richtung einer neuen Aufgabe lenkt, während sie lernt und sich anpasst.
Die Notwendigkeit von Sicherheit ist besonders wichtig in Bereichen wie automatisierten Fahrzeugen oder Empfehlungssystemen, wo Fehler zu ernsthaften Problemen führen können. Wir besprechen einen Problemtyp, der als Eingeschränkte Markov-Entscheidungsprozesse (CMDPs) bekannt ist, der uns hilft, diese Sicherheitsbedenken zu modellieren. CMDPs ermöglichen es uns, die Kosten unsicherer Handlungen von den Belohnungen für das Erreichen von Aufgaben zu trennen, was dazu beitragen kann, sicherere Lernumgebungen zu schaffen.
Die Herausforderung der Sicherheit im Reinforcement Learning
Obwohl RL in vielen Bereichen vielversprechend ist, haben Sicherheitsbedenken die breitere Nutzung eingeschränkt. Standardagenten verlassen sich oft auf Trial-and-Error-Lernen, was in risikoreichen Situationen riskant ist. Ein Beispiel ist ein Empfehlungssystem, das schädliche Inhalte vermeiden sollte.
Um die Sicherheit zu managen, sind CMDPs nützlich, da sie Einschränkungen skizzieren, die unsichere Aktionen verhindern. Diese Einschränkungen werden durch ein Kostensignal ausgedrückt, das dem Agenten zeigt, welche Handlungen zu unsicheren Szenarien führen könnten. Die Kosten sind von den Belohnungen getrennt, was dem Agenten hilft, im Laufe der Zeit sicherere Verhaltensweisen zu lernen.
Neueste Fortschritte im sicheren RL haben es möglich gemacht, sichere Politiken in CMDPs zu lernen. Eine Methode namens SAC-Lagrangian kombiniert einen beliebten RL-Algorithmus, Soft Actor-Critic (SAC), mit Lagrange-Techniken, um Politiken abzuleiten, die während des Off-Policy-Lernens die Sicherheit aufrechterhalten. Allerdings bestätigt diese Methode die Sicherheit oft erst nach Abschluss des vollständigen Trainings, was während des Lernprozesses nicht immer sicher ist.
Statt sich auf jeden einzelnen Schritt zu konzentrieren, kann es von Vorteil sein, die Sicherheit über ganze Episoden hinweg zu betrachten, was ein paar unsichere Aktionen im grösseren Kontext erlaubt. Das Verständnis der Sicherheitsdynamik ermöglicht es den Agenten, sicher zu lernen.
Eine Methode zur Gewährleistung der Sicherheit ist die Verwendung eines Schutzschirms, der unsichere Aktionen maskiert oder mit einer sicheren Politik zu beginnen, die der Agent verbessern kann. Allerdings können diese Methoden viele Interaktionen mit der Umgebung erfordern, bevor sie geeignete Politiken finden. Ausserdem kann die Wiederverwendung einer bereits trainierten Politik kontraproduktiv sein, da sich die Agenten an neue Situationen anpassen müssen.
Unser Ziel ist es, Wege zu finden, um Aufgaben erfolgreich zu erledigen und dabei die Sicherheitsvorgaben einzuhalten.
Unser Ansatz zur sicheren Exploration
Wir haben zwei wichtige Beobachtungen, die unsere Arbeit leiten. Erstens lernen RL-Agenten normalerweise in kontrollierten Umgebungen, bevor sie in der realen Welt eingesetzt werden. Zweitens können Agenten enorm von Expertenrat profitieren, anstatt sich nur auf ihre eigene Exploration zu verlassen.
Beispielsweise kann ein Agent beim autonomen Fahren besser lernen, indem er einem erfahrenen Fahrer zusieht, wie er mit riskanten Situationen umgeht. Dieser Prozess wird als Politiken-Destillation bezeichnet. Diese Methode ermöglicht es den Agenten, Sicherheit und Taktiken zu lernen, indem sie einem Guide folgen.
Als Nächstes schauen wir uns den Einsatz von Transfer Learning an, bei dem Wissen von einer Aufgabe das Lernen bei einer anderen beschleunigen kann. Die kontrollierte Umgebung dient als Quellaufgabe, während die reale Situation die Zielaufgabe ist. In diesem Setup bietet der kontrollierte Raum Sicherheitssignale, aber keine Belohnungen.
Das Hauptziel wird, Sicherheitsverletzungen zu vermeiden, sobald die Zielaufgabe bekannt gegeben wird. Unser Ansatz basiert darauf, Wissen von einer in der Quellaufgabe gelernten sicheren Guide-Politik zu übertragen, um der Schülerpolitik zu helfen, sich an die Zielaufgabe anzupassen.
Schritte in unserem Verfahren
Das Verfahren besteht aus drei Hauptschritten:
- Trainiere eine sichere Guide-Politik in einer belohnungsfreien eingeschränkten RL-Umgebung.
- Destilliere das Wissen dieses Guides in eine Schülerpolitik, die speziell für die Zielaufgabe entwickelt wurde.
- Erstelle eine Verhaltenspolitik, die das richtige Gleichgewicht zwischen sicherer Exploration (unter Verwendung des Guides) und dem Ausnutzen von Wissen (unter Verwendung des Schülers) findet.
Während des Trainings der Guide-Politik konzentriert sich der Agent nur auf sicherheitsbezogene Kosten und ignoriert die tatsächlichen Belohnungen der Zielaufgabe. So kann der Guide lernen, sicher zu handeln, unabhängig von der spezifischen Aufgabe.
Sobald die Zielaufgabe definiert ist, kann der Guide helfen, erste Trajektorien auf sichere Weise zu sammeln, sodass der Schüler aus diesen Erfahrungen lernen kann. Wir verwenden einen Destillationsansatz, um das Lernen des Schülers darauf zu konzentrieren, den Guide zu imitieren.
Zu unseren Beiträgen gehören:
- Präsentation von Transfer Learning im RL aus einer Sicherheitsansicht.
- Vorschlag zur Verwendung von aufgabenagnostischen Agenten, die das Lernen durch Exploration verbessern.
- Regularisierung der Schülerpolitik zur Guide-Politik basierend auf der aktuellen Sicherheit des Schülers.
- Finden von Momenten, um Verhalten entweder vom Guide oder Schüler abzuleiten, um Sicherheit zu gewährleisten.
Verwandte Arbeiten
Der Bereich des sicheren RL hat viele Dimensionen, von alternativen Optimierungsstrategien bis zur sicheren Exploration basierend auf Vorabinformationen. Verschiedene Techniken wurden entwickelt, um Wissen aus vortrainierten Politiken in neuen Aufgaben zu nutzen.
Die meisten bestehenden Forschungen konzentrieren sich auf einfachere Szenarien, wie lineare Umgebungen, während unsere Arbeit komplexere RL-Probleme angeht. Wir verbinden uns auch mit der Idee des Curriculum-Lernens, bei dem ein Agent zuerst für Sicherheit trainiert wird, bevor er eine Aufgabe löst. Dennoch bleibt unser Fokus auf sicherer Exploration und der Anpassungsfähigkeit des Guides.
Eingeschränkte Markov-Entscheidungsprozesse
Wir definieren einen CMDP als Rahmen für unsere Aufgaben, bestehend aus:
- Einem Zustandsraum,
- einem Aktionsraum,
- einer Übergangsfunktion,
- einer Belohnungsfunktion,
- einer Kostenfunktion,
- einer Sicherheitsgrenze und
- einem Rabattfaktor.
Im CMDP-Setup interagiert ein Agent mit dem System, ohne vorherige Kenntnisse über seine Übergänge, Belohnungen oder Kosten, und erzeugt Trajektorien durch Trial and Error.
Das Hauptziel besteht darin, eine Politik zu lernen, die die erwarteten Rückflüsse maximiert und gleichzeitig sicherstellt, dass die Kosten unter der Sicherheitsgrenze bleiben. Eine Politik wird als sicher klassifiziert, wenn ihre erwarteten Kosten innerhalb der zulässigen Grenzen bleiben.
Maximum Entropy Reinforcement Learning
Um die Exploration zu unterstützen und die Robustheit des RL zu verbessern, bevorzugen wir im Allgemeinen Politiken, die vielfältige Aktionen anbieten. Dies kann erreicht werden, indem ein Begriff in das Hauptziel aufgenommen wird, der die Entropie der Politik maximiert.
Dies ermutigt den Agenten, stochastische Aktionen anzunehmen und die Exploration zu fördern. Alternativ können wir eine Anforderung für ein minimales Mass an Zufälligkeit hinzufügen, um sicherzustellen, dass die Politik variabel bleibt, während sie auf ein bestimmtes Verhalten hinarbeitet.
Die Einbeziehung eines Entropiebegriffs ermöglicht es dem Agenten, ein passendes Gleichgewicht zwischen Zufälligkeit und dem Erreichen von Belohnungen zu finden.
Sicherheitsmetriken im Transfer Learning
Bei der Bewertung unseres sicheren Transfer-RL-Ansatzes betrachten wir spezifische Sicherheitsmetriken, wie den Sicherheits-Jumpstart, der darstellt, wie nah ein Agent, der mit vorherigem Wissen lernt, daran ist, Sicherheit zu erreichen, im Vergleich zu einem, der ohne solches Wissen lernt.
Wir verfolgen auch die Zeit, die der Agent benötigt, um Sicherheit zu erreichen. Wenn ein Agent unterhalb der Sicherheitsgrenze beginnt, können wir seinen Sicherheits-Jumpstart mit dem eines vollständig untrainierten Agenten vergleichen, um Verbesserungen zu messen.
Der Erfolg unseres Ansatzes kann durch die Analyse dieser Sicherheitsmetriken und die Gesamtleistung des Agenten während des Lernprozesses bestimmt werden.
Problematik
Unser Ansatz verwendet ein Transfer-Learning-Rahmenwerk. Das Ziel ist es, RL-Agenten zu ermöglichen, von Wissen zu profitieren, das in einer in einer Aufgabe gelernten Politik kodiert ist, wenn sie eine andere angehen. Die Quellaufgabe bietet keine Belohnungen, sondern nur Sicherheitshinweise.
Wir gehen davon aus, dass sowohl die Quell- als auch die Zielaufgabe denselben Aktionsraum teilen. Diese Grundlage ermöglicht es dem Agenten, das Gelernte aus der Quellaufgabe direkt auf die Zielaufgabe anzuwenden.
Exploration mit dem sicheren Guide
In diesem Rahmen diskutieren wir, wie man die sichere Guide-Politik trainiert. Der erste Schritt besteht darin, die belohnungsfreie Explorationsmethode zu nutzen, um sicherzustellen, dass der Guide effektiv lernt.
Die Verwendung von Hilfsbelohnungen ermutigt den Agenten, neue Zustände zu erkunden, ohne die Sicherheit zu gefährden. Die Hilfsbelohnungen basieren auf der zurückgelegten Strecke im Zustandsraum, während sich der Agent hindurchbewegt. So lernt der Guide, mehr Boden sicher abzudecken.
Sobald der Guide ausreichend trainiert wurde, wird eine Schülerpolitik entwickelt, die speziell für die Zielaufgabe ist und vom Wissen des sicheren Guides geleitet wird.
Politiken-Destillation
Wenn Agenten neue Aufgaben lernen, wird die Generalisierung zu einer Herausforderung. Statt die Guide-Politik zu zwingen, alle Situationen zu bewältigen, wird die Schülerpolitik speziell für ihre Aufgabe entworfen.
Der Schüler kann dann das Wissen des Guides nutzen, um seine Handlungen und Entscheidungen anzupassen. Durch die Verwendung einer Kartierungstechnik wird die Guide-Politik zu einem Referenzpunkt für den Schüler, sodass dieser während des Lernens sicher bleibt.
In dieser Lernphase verbessert sich die Leistung des Schülers, während er die sichereren Verhaltensweisen imitiert, die der Guide zeigt. Dieser Prozess des Imitierens des Guides wird als Politiken-Destillation bezeichnet.
Zusammengesetztes Sampling für verbessertes Lernen
Um während des Trainings Sicherheit zu gewährleisten, verwenden wir eine Strategie des zusammengesetzten Samplings, bei der die Verhaltenspolitik eine Mischung aus dem ist, was der Guide und der Schüler vorschlagen.
Zwei Hauptstrategien steuern das zusammengesetzte Sampling: lineares Abfallen und Kontrollwechsel. Bei der Methode des linearen Abfalls ändert sich schrittweise die Wahrscheinlichkeit, von dem Guide zum Schüler zu sampeln. Im Gegensatz dazu verwendet die Kontrollwechselmethode die Schülerpolitik, bis eine unsichere Aktion auftritt; dann wird vorübergehend auf den Guide zurückgegriffen, um Sicherheit zu gewährleisten.
Beide Ansätze zielen darauf ab, den Trainingsprozess zu verbessern und dabei strikte Sicherheitsprotokolle einzuhalten.
Empirische Analyse unseres Ansatzes
Wir bewerten unsere Methode anhand eines Roboters, der eine 2D-Karte navigiert, um Zielpunkte zu erreichen und dabei Gefahren zu vermeiden. Verschiedene Umgebungen werden mit unterschiedlicher Komplexität gestaltet, um die Wirksamkeit unserer sicheren Explorationsstrategie zu testen.
Der Guide-Agent sammelt erste Trajektorien ohne Ziele und verlassen sich auf Hilfsbelohnungen, um sicherzustellen, dass er mehr Boden abdeckt. Danach lernt der Schüleragent unter Verwendung der ursprünglichen Belohnungssignale der Umgebung.
Bei den Bewertungen verfolgen wir sowohl die Sicherheit als auch die Leistung der Verhaltens- und Zielpolitiken, um Fortschritte im Trainingsprozess zu messen.
Ablationsstudie der Schlüsselfaktoren
Um Einblicke in die Wirksamkeit unseres Ansatzes zu gewinnen, führen wir eine Ablationsstudie durch. Dabei testen wir jede Komponente unseres Algorithmus separat, um ihren Einfluss zu bewerten.
- Wir untersuchen, ob die Hilfsbelohnungen die Explorationsfähigkeiten verbessert haben.
- Wir erforschen, ob ein effektiverer Guide zu einem besser abschneidenden Schüler beiträgt.
- Die adaptive Stärke der KL-Regularisierung wird getestet, um ihre Auswirkung auf die Leistung zu sehen.
- Schliesslich bewerten wir, wie das zusammengesetzte Sampling den Lernprozess unterstützt.
Durch diese Bewertungen stellen wir fest, dass Hilfsbelohnungen die Exploration erheblich verbessern und zu einer breiteren Abdeckung von Zuständen führen. Ein stärkerer Guide führt zu einem schneller lernenden Schüler, während die adaptive Regularisierung die Konvergenzraten verbessert. Darüber hinaus stellt das zusammengesetzte Sampling erfolgreich die Sicherheit sicher und hilft dabei, optimale Politiken zu finden.
Vergleich mit anderen Methoden
Zuletzt vergleichen wir unsere Methode mit mehreren Baselines, um ihre Stärken hervorzuheben. Wir betrachten verschiedene Reinforcement-Learning-Algorithmen, einschliesslich solcher, die von Grund auf neu beginnen oder Vorwissen nutzen.
Unsere Strategie des zusammengesetzten Samplings und die Fähigkeit, während des gesamten Trainings Sicherheit zu gewährleisten, heben unsere Methode hervor und ermöglichen es ihr, optimale Leistungen auch in komplexen Umgebungen zu erbringen, während sie innerhalb der Sicherheitsvorgaben bleibt.
Fazit
Dieses Framework adressiert effektiv mehrere Herausforderungen, denen sich das Reinforcement Learning mit Sicherheitsvorgaben gegenübersieht. Es zeigt, wie man eine sichere Explorationspolitik während der Datensammlung nutzt und zu einer dedizierten Zielaufgaben-Politik übergeht.
Indem wir es den Agenten ermöglichen, Wissen von einem Guide zu ziehen, gewährleisten wir schnelleres Lernen, während wir Sicherheitsprotokolle einhalten. Unsere Ergebnisse zeigen, dass die blosse Initialisierung eines Agenten mit einer sicheren Politik nicht für Effektivität garantiert. Stattdessen kann eine dedizierte Politik, die Anleitung von einer zuverlässigen Quelle integriert, die Lernergebnisse erheblich verbessern.
Die vorgeschlagene Methode ist ein sicherer und effizienter Weg, um Agenten zu trainieren, sodass sie sich an eine Vielzahl von Aufgaben anpassen können und dabei die Sicherheit priorisieren. Zukünftige Forschungen könnten verschiedene Strategien für Exploration und Wiederherstellungsmechanismen untersuchen, um den Lernprozess weiter zu verbessern.
Titel: Reinforcement Learning by Guided Safe Exploration
Zusammenfassung: Safety is critical to broadening the application of reinforcement learning (RL). Often, we train RL agents in a controlled environment, such as a laboratory, before deploying them in the real world. However, the real-world target task might be unknown prior to deployment. Reward-free RL trains an agent without the reward to adapt quickly once the reward is revealed. We consider the constrained reward-free setting, where an agent (the guide) learns to explore safely without the reward signal. This agent is trained in a controlled environment, which allows unsafe interactions and still provides the safety signal. After the target task is revealed, safety violations are not allowed anymore. Thus, the guide is leveraged to compose a safe behaviour policy. Drawing from transfer learning, we also regularize a target policy (the student) towards the guide while the student is unreliable and gradually eliminate the influence of the guide as training progresses. The empirical analysis shows that this method can achieve safe transfer learning and helps the student solve the target task faster.
Autoren: Qisong Yang, Thiago D. Simão, Nils Jansen, Simon H. Tindemans, Matthijs T. J. Spaan
Letzte Aktualisierung: 2023-07-26 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2307.14316
Quell-PDF: https://arxiv.org/pdf/2307.14316
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.