Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Künstliche Intelligenz

Fortschritt beim Verhaltensklonen mit suchbasierten Methoden

Neuer Ansatz verbessert die Anpassungsfähigkeit von Agenten in komplexen Umgebungen.

― 8 min Lesedauer


Verbesserung vonVerbesserung vonVerhaltensklon-TechnikenAgenten bei dynamischen Aufgaben.Neue Methoden steigern die Leistung von
Inhaltsverzeichnis

Verhaltensklonung ist eine Methode, bei der ein Agent Aufgaben lernt, indem er von Experten-Demonstrationen beobachtet. Dabei nutzt er einen Datensatz dieser Demonstrationen, um eine Verhaltenspolitik zu entwickeln. Allerdings gibt es Herausforderungen beim Lernen und Anpassen der Politik, besonders wenn neue Situationen auftreten. Dieser Artikel spricht über einen neuen Ansatz namens suchbasierte Verhaltensklonung (S-BC), der einem Agenten hilft, effektiver aus vergangenen Erfahrungen zu lernen.

Problemstellung

Verhaltensklonung hat oft Probleme wegen einiger Dinge. Zuerst braucht es normalerweise viel Rechenleistung, um Modelle zu trainieren. Zweitens muss ein Agent bei neuen Situationen oft neu trainiert werden, was zeitaufwendig ist. Drittens gibt es ein Anpassungsproblem – Agenten können sich meistens nicht schnell auf neue Aufgaben einstellen, ohne zusätzliches Training. Viele Studien untersuchen diese Herausforderungen in Bereichen wie Sprachverarbeitung und Bilderkennung, aber es gibt noch viel zu tun. Neue Wege zu finden, um Agenten zu trainieren, könnte helfen, diese Probleme zu lösen, besonders in spezifischen Situationen.

Latenter Raum

Ein multimodaler latenter Raum kann Ähnlichkeit zwischen verschiedenen Situationen messen. Eine gängige Methode zur Erstellung dieses Raums sind Techniken wie kontrastives Lernen und überwachtes Lernen. Beim überwachten Lernen können die letzten Schichten eines Modells verwendet werden, um diesen multimodalen latenten Raum zu bilden. Für Kontrollaufgaben verbindet so ein Raum die visuellen Erfahrungen mit den Aktionen, die von Experten demonstriert werden. Das Suchen innerhalb dieses Raumes kann dem Agenten die Aktionen geben, die er in realen Situationen ausführen muss. Diese Methode kann helfen, die Haupt Herausforderungen der Verhaltensklonung anzugehen.

Motivation für die Studie

Diese Studie wird durch eine Herausforderung motiviert, die ein Spiel namens Minecraft betrifft. Bei dieser Herausforderung muss ein Agent vier Aufgaben erledigen: eine Höhle finden, einen Tierstall bauen, ein Dorfhaus konstruieren und einen Wasserfall erstellen. Die Aufgaben haben keine Belohnungsfunktion, was eine Bewertung auf Grundlage menschlichen Urteils notwendig macht. Menschliche Auftragnehmer bewerten den Erfolg des Agenten und wie nah er dem menschlichen Verhalten nacheifert. Die Teilnehmer hatten Zugang zu Experten-Demonstrationen dieser Aufgaben.

Der einfachste Weg, die Aufgaben zu lösen, wäre durch Verhaltensklonung. Dieser Ansatz ist jedoch durch die verfügbaren Experten-Demonstrationen, die für das Training genutzt werden, begrenzt. Agenten stehen während des Spiels unterschiedlichen Situationen gegenüber, bei denen einige das Vermeiden von Hindernissen erfordern, während andere die Suche nach bestimmten Orten verlangen. Verschiedene Situationen verlangen verschiedene Aktionen für den Erfolg.

Suchbasierte Verhaltensklonung (S-BC)

Um die Einschränkungen der traditionellen Verhaltensklonung anzugehen, führen wir die suchbasierte Verhaltensklonung ein. Dieser Ansatz erstellt einen latenten Raum mit den Experten-Trajektorien, der sowohl aktuelle als auch vergangene Erfahrungen erfasst und reformuliert die Aufgabe als Suchproblem. Indem man nach der nächsten Situation im Set der Experten-Trajektorien sucht, ermöglicht S-BC dem Agenten, sich an die Bedingungen anzupassen, denen er während der Bewertung gegenübersteht.

Das Modell, das wir für diese Studie verwendet haben, verarbeitet visuelle Eingaben durch ein IMPALA CNN, das die Informationen durch Transformator-Köpfe leitet, um Aktionen basierend auf dem aktuellen Zustand des Agenten vorherzusagen. Der Suchmechanismus hält die Distanz zwischen der aktuellen Situation und einer Referenzsituation im Auge. Wenn die Distanz einen Schwellenwert überschreitet, erfolgt eine neue Suche, um eine geeignetere Referenzsituation zu finden.

Verwandte Arbeiten

Verhaltensklonung war in verschiedenen Kontrollaufgaben, einschliesslich autonomem Fahren und Gaming, effektiv. Trotz ihrer Popularität wegen der Einfachheit hat sie mehrere Probleme, wie Verwirrung zwischen Ursache und Wirkung und Änderungen in der Verteilung von Situationen. Andere Methoden wie inverse Verstärkungslernen und generative adversarielle Imitationslernmuster wurden vorgeschlagen, um diese Bedenken anzugehen, erfordern jedoch oft erhebliche Rechenressourcen und sind schwer zu trainieren für komplexe Probleme.

Ein neu eingeführtes Video Pre-Training (VPT) Modell dient als Grundlage für die Verhaltensklonung. Dieses Modell wurde mit einer grossen Menge an online verfügbaren Videoinhalten trainiert, was es ihm ermöglicht, einfache Aufgaben ohne umfangreiche Feinabstimmung oder Verstärkungslernen durchzuführen.

Unser Ansatz

Unser Ziel ist es, ein herausforderndes Problem innerhalb von Minecraft anzugehen, bei dem keine expliziten Belohnungen bereitgestellt werden. Die einzigen verfügbaren Daten sind eine Reihe von Experten-Trajektorien, die zeigen, wie eine spezifische Aufgabe erledigt wird. Die zentrale Idee hinter unserer Methode ist es, das Kontrollproblem als Suchproblem über diese Demonstrationen zu behandeln.

Wir nutzen ein vortrainiertes VPT-Modell, um Situationen in einen latenten Raum zu kodieren. Das für diese Studie verwendete Modell ist über ein öffentliches Repository zugänglich und kommt in drei Versionen mit unterschiedlichen Gewichten.

Suchbasierte Verhaltensklonung erklärt

S-BC ruft relevante vergangene Erfahrungen aus den Experten-Demonstrationen ab, um Kontrollprobleme zu lösen. Eine Situation wird als eine Reihe von aufeinanderfolgenden Beobachtungen-Aktionen-Paaren definiert. Mithilfe von VPT extrahieren wir Einbettungen aus einer Teilmenge des Demonstrationsdatensatzes. Diese Einbettungen schaffen einen mehrdimensionalen latenten Raum, den S-BC erkundet. Die Annahme, dass Experten in ihren Situationen optimal gehandelt haben, hilft sicherzustellen, dass der Agent von effektiven Aktionen lernt.

Während des Tests wird die aktuelle Situation auch durch VPT geleitet, und S-BC sucht nach der nächstgelegenen Einbettung im latenten Raum. Ähnlichkeit wird mit L1-Distanz gemessen. Aktionen aus der ausgewählten Situation werden kopiert. Während der Agent Fortschritte macht, werden die Distanzen zwischen aktuellen und Referenzsituationen neu berechnet. Divergieren sie über die Zeit, wird eine neue Suche ausgelöst.

S-BC ist so konzipiert, dass es schneller arbeitet als traditionelle Methoden wie das Feinabstimmen eines VPT-basierten Agenten oder das Anwenden von Verstärkungslernen-Techniken. Jede Beobachtung aus der Minecraft-Umgebung wird durch VPT kodiert, und wenn die aktuelle Situation von der Referenz abweicht, wird eine neue geeignete Situation ausgewählt.

Experiment Übersicht

Der Datensatz, der für unsere Experimente verwendet wurde, besteht aus 5466 Experten-Trajektorien aus dem MineRL BASALT-Wettbewerb. Jede Trajektorie umfasst Bild-Aktions-Paare, die eine einzelne Episode darstellen, in der ein menschlicher Experte eine Aufgabe abgeschlossen hat. Unser Fokus liegt auf einer kleinen Teilmenge dieser Demonstrationen. Wir haben auch zusätzliche Experten-Trajektorien für die MineDojo-Aufgaben gesammelt.

Die Bewertung von S-BC beinhaltet den Vergleich mit anderen modernen Modellen im Minecraft-Bereich. Jedes Modell wird auf den gesammelten Daten feinabgestimmt, und wir trainieren auch ein generatives adversariales Imitationslernmodell (GAIL), um die Effizienz des Trainings zu steigern, indem wir die Komplexität des Beobachtungsraums reduzieren. Verschiedene Aufgaben aus dem MineDojo-Rahmenwerk dienen als Benchmarks für die Leistung unseres Modells.

Bewertung der Leistung

Wir bewerten S-BC im Vergleich zu mehreren Modellen unter Verwendung der numerischen Ergebnisse aus dem MineDojo-Rahmenwerk. Aufgaben fallen in zwei Kategorien: echte Aufgaben, die klar definierte Ziele haben, und kreative Aufgaben, die das nicht tun. Der Bewertungsprozess umfasst die Messung von Erfolgsraten und der Zeiten für den Abschluss von Aufgaben.

Für spezifische Aufgaben, wie Kämpfe und Ernten, schneidet S-BC konstant auf oder über dem Niveau anderer Modelle ab. Besonders bemerkenswert war, dass S-BC Kämpfe erfolgreich absolvieren konnte, während andere Modelle Schwierigkeiten hatten. Beim Abschluss der Ernteaufgaben zeigt S-BC nur einen geringfügigen Leistungsabfall im Vergleich zu deutlich grösseren Lernmodellen. In Situationen, in denen GAIL keine der Aufgaben erfüllen konnte, zeigte S-BC klare Vorteile.

Einzigartige Situationen und Leistungsvariabilität

Der Bewertungsprozess berücksichtigt auch einzigartige Situationen, die während des Spiels auftreten können. Zum Beispiel könnten Agenten in eine Höhle eintreten, aber nicht genug Zeit dort verbringen, um als erfolgreich zu gelten. Manuelle Bewertungen identifizieren diese nicht standardmässigen Fälle.

Darüber hinaus untersuchen wir, wie sich die Anzahl der Experten-Trajektorien auf die Leistung von S-BC auswirkt. Diese Analyse zeigt, wie das Modell mit wenigen Trajektorien Schwierigkeiten haben kann, aufgrund unzureichender Daten und Wissens, um sich in Komplexitäten zurechtzufinden. Die Erhöhung der Anzahl der Trajektorien verbessert die Fähigkeiten von S-BC erheblich.

Visualisierung des latenten Raums

Um unseren Ansatz weiter zu verstehen, visualisieren wir den latenten Raum, der von S-BC verwendet wird. Die t-SNE-Darstellung erlaubt es uns, die Position verschiedener Frames zu beobachten und zu analysieren, insbesondere solche, die Höhlen versus Erkundungsframes anzeigen. Diese Visualisierung zeigt, wie der Agent den Raum navigiert und auf verschiedene Situationen reagiert.

Fazit

Wir haben die suchbasierte Verhaltensklonung eingeführt, eine innovative Methode, die vergangene Expertenerfahrungen nutzt, um Kontrollprobleme zu lösen, mit denen Agenten konfrontiert sind. Unsere Experimente zeigen, dass S-BC ähnlich oder besser abschneidet als bestehende Modelle. Diese Methode erfordert weniger Trainingszeit und ermöglicht Few-Shot-Lernen, während sie die Fähigkeit erhält, mehrfähigkeitsaufgaben effektiv zu bewältigen.

Durch S-BC sind Agenten in der Lage, menschliches Verhalten nachzuahmen, während sie komplexe Aufgaben in Umgebungen wie Minecraft abschliessen. Die Bewertungsergebnisse zeigen, dass unser Ansatz die Leistung etablierter Methoden erreichen oder übertreffen kann, ohne umfangreiche Neu- oder Feinabstimmung erforderlich zu machen.

Während wir diese Methode weiter verbessern, wird das Potenzial für praktische Anwendungen in verschiedenen Bereichen immer deutlicher, was den Weg für effizientere und anpassungsfähigere Agenten in simulierten und realen Umgebungen ebnet.

Originalquelle

Titel: Behavioral Cloning via Search in Embedded Demonstration Dataset

Zusammenfassung: Behavioural cloning uses a dataset of demonstrations to learn a behavioural policy. To overcome various learning and policy adaptation problems, we propose to use latent space to index a demonstration dataset, instantly access similar relevant experiences, and copy behavior from these situations. Actions from a selected similar situation can be performed by the agent until representations of the agent's current situation and the selected experience diverge in the latent space. Thus, we formulate our control problem as a search problem over a dataset of experts' demonstrations. We test our approach on BASALT MineRL-dataset in the latent representation of a Video PreTraining model. We compare our model to state-of-the-art Minecraft agents. Our approach can effectively recover meaningful demonstrations and show human-like behavior of an agent in the Minecraft environment in a wide variety of scenarios. Experimental results reveal that performance of our search-based approach is comparable to trained models, while allowing zero-shot task adaptation by changing the demonstration examples.

Autoren: Federico Malato, Florian Leopold, Ville Hautamaki, Andrew Melnik

Letzte Aktualisierung: 2023-06-15 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2306.09082

Quell-PDF: https://arxiv.org/pdf/2306.09082

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel