Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Mensch-Computer-Interaktion# Künstliche Intelligenz# Maschinelles Lernen# Robotik

Verbesserung der Zusammenarbeit zwischen Mensch und KI mit interventionaler Diffusionshilfe

Ein neues System verbessert die gemeinsame Kontrolle zwischen Menschen und KI für eine bessere Performance.

― 8 min Lesedauer


KI-Unterstützung fürKI-Unterstützung fürmenschliche BetreiberAufgaben.menschliche Kontrolle bei komplexenEin neuer Ansatz verbessert die
Inhaltsverzeichnis

Das Feld der künstlichen Intelligenz (KI) wächst schnell und öffnet neue Türen, um Menschen zu helfen, fortgeschrittene Technologien zu kontrollieren. Ein Ansatz namens Shared Autonomy (SA) ermöglicht es einem menschlichen Bediener und einem KI-Assistenten, zusammenzuarbeiten und die Kontrolle über eine Aufgabe zu teilen. In vielen früheren Studien war der KI-Assistent die ganze Zeit aktiv und hat die Aktionen in jedem Moment kontrolliert. Das hat oft eingeschränkt, was der Mensch tun konnte, und das konnte ihre Leistung beeinträchtigen.

Der Grad der Unterstützung durch die KI kann je nach spezifischer Aufgabe variieren. Unsere Idee ist, dass es zu besserer Leistung führen kann, wenn Menschen mehr Kontrolle haben, während die KI in den richtigen Momenten hilft. Wir haben ein System namens Interventional Diffusion Assistance (IDA) entwickelt, bei dem die KI nur dann eingreift, wenn ihre Unterstützung benötigt wird. Dies wird bestimmt, indem geschaut wird, ob die Aktion der KI voraussichtlich besser ist als die des Menschen für ein mögliches Ziel.

Um das zu ermöglichen, haben wir eine spezielle KI verwendet, die anhand von Beispielen von Expertenbedienern trainiert wurde, während die Ziele verborgen blieben. Wir konnten zeigen, dass diese Methode die Leistung der Menschen bei Aufgaben im Vergleich zu Methoden verbessern kann, die entweder nur auf den Menschen setzen oder traditionelle Shared-Control-Methoden verwenden.

Der ständige Technologiewandel zwingt die Menschen dazu, mit immer ausgeklügelteren und komplexeren Geräten zu arbeiten. Aber die Bedienung dieser Geräte kann schwierig sein. Eine vollständig autonome KI könnte darauf trainiert werden, diese Aufgaben zu übernehmen, aber dieser Ansatz hat seine eigenen Herausforderungen. Zum einen sind die Ziele eines Benutzers oft persönlich und nicht leicht erkennbar. Den menschlichen Bediener aus dem Kontrollkreis zu nehmen, verringert oft ihre Autonomie, was zu schlechteren Ergebnissen führen kann. Es wirft auch die Frage auf, wie man Technologien entwickeln kann, die Menschen helfen, anstatt sie zu ersetzen.

Shared Autonomy geht diese Herausforderungen an, indem es menschliche Handlungen mit denen der KI in einem kontrollierten Umfeld mischt. Frühere Studien haben gezeigt, dass diese Mischung die menschliche Leistung in unterschiedlichen Aufgaben verbessern kann, wie z.B. beim Steuern von Roboterarmen, beim Fliegen von Drohnen und beim Navigieren in Umgebungen. Ein wichtiger Teil dieser vorherigen Arbeiten war die Verwendung eines festen Parameters, der ausbalanciert, wie viel Hilfe die KI bietet, und wie viel Kontrolle der Mensch behält. Zu viel Hilfe kann den Benutzer daran hindern, seine Ziele zu erreichen, während zu wenig zu Fehlern führen kann.

In früheren Forschungen wurden verschiedene Methoden des Kontrollteilens vorgeschlagen, aber sie haben immer noch ihre Einschränkungen. Zum Beispiel erfordern sie oft, dass die Hilfseinstellungen durch Ausprobieren angepasst werden oder geben der KI eine breite, unspezifische Rolle.

Stell dir vor, du fährst ein Auto mit einem KI-Beifahrer. Meistens sollte der menschliche Fahrer das Steuer übernehmen, aber die KI sollte in bestimmten Situationen eingreifen, um Unfälle zu vermeiden und Sicherheit zu gewährleisten. Dieses Setup spiegelt eine zentrale Frage wider: Wie schaffen wir ein System, das die Aktionen von Mensch und KI kombiniert?

Diese Frage ähnelt einer Lehrmethode, bei der ein Agent (der Lehrer) einem anderen (dem Schüler) beim Lernen hilft. Jüngste Forschungen haben intelligentere Wege hervorgebracht, wie der Lehrer entscheiden kann, wann er während des Lernens des Schülers eingreifen soll. Wir schlagen vor, ähnliche Methoden zu verwenden, um zu entscheiden, wann die KI eingreifen sollte, um den menschlichen Bediener zu unterstützen.

Unser IDA-System schätzt den Wert der von sowohl dem menschlichen Piloten als auch der KI vorgenommenen Aktionen auf eine Weise, die nicht von spezifischen Zielen abhängt. Dadurch können wir das System auf eine Vielzahl von Aufgaben anwenden und dem menschlichen Bediener mehr Flexibilität geben. Die Grundidee ist, ein System zu schaffen, das die Zusammenarbeit zwischen KI und Menschen verbessert, ohne die grundlegenden Rollen zu verändern, die sie spielen.

Überblick über den Interventional Assist Framework

In früheren Studien funktionierte Shared Control normalerweise, indem menschliche Aktionen an die KI weitergeleitet wurden, die dann eine Aktion auswählte, die sie ausführen sollte. Unser Ansatz ist anders. Wir haben ein Interventionssystem entwickelt, das zwischen der Aktion des Menschen oder der KI basierend auf ihren relativen Vorteilen wählt.

Verwandte Arbeiten

Einige andere Ansätze sind relevant für unsere Arbeit. Eine Methode konzentriert sich darauf, Menschen zu ermächtigen, ihre Umgebung zu kontrollieren, ohne ihre Ziele erraten zu müssen. Diese Methode definiert eine Grösse, die erfasst, wie viele zukünftige Zustände für den Menschen vom aktuellen Zustand aus zugänglich sind. Eine KI wird dann trainiert, um diese Grösse zu maximieren, während der Mensch seiner Aufgabe nachgeht. Allerdings führt diese Methode, obwohl sie der KI hilft, ohne Ziele wissen zu müssen, in der Regel zu einer geringeren Leistung im Vergleich zu Methoden, die Ziele berücksichtigen.

Ein weiterer Ansatz verwendete Diffusionstechniken, um der KI zu helfen, menschliche Aktionen in Richtung Expertenaktionen zu kartieren. Die KI würde darauf trainiert, Rauschen in menschliche Aktionen einzuführen und diese dann in etwas näher am Experten zu verfeinern. Während diese Methode einige Hilfe bietet, erfordert sie ein festes Hilfsniveau während der gesamten Aufgabe. Unser System verbessert dies, indem es dynamische Unterstützung ermöglicht, die in Echtzeit auf die Aktionen des Menschen reagiert.

Eine Methode, die die KI für das Eingreifen bestraft, wurde ebenfalls vorgeschlagen. Diese Methode ermutigt die KI, ihre Hilfe zu begrenzen, während sie dennoch Parameter festlegen muss, wie viel Hilfe im Vergleich zur menschlichen Kontrolle gegeben werden sollte. Unser Ansatz hingegen basiert auf einer Interventionsfunktion, die bewertet, wann man eingreifen sollte, basierend allein auf der erwarteten Qualität der Aktionen.

Training einer Expertenpolitik

Zuerst haben wir einen kompetenten Agenten trainiert, der die Umgebung mit einer beliebten Trainingsmethode handhabt, da sie es uns ermöglicht, leicht zu testen, wie gut unser System funktioniert und Demonstrationen für zusätzliches Training zu sammeln. Dieser Agent, genannt Experte, lernt, die bestmöglichen Ergebnisse zu erzielen, während er die Umgebung vollständig beobachtet.

Training eines Diffusionskopiloten

Als Nächstes haben wir unseren KI-Assistenten trainiert, der einen spezifischen Diffusionsprozess verwendet, der aus echten Expertenaktionen gelernt wurde. Der KI-Assistent lernt, Aktionen zu übernehmen, die zu besseren Ergebnissen führen können, während er ziel-spezifische Details ignoriert. Dies geschieht, indem kontinuierlich Rauschen zu den Aktionen hinzugefügt und entfernt wird, um sie im Laufe der Zeit zu verfeinern.

Trajektorie-basierte zielagnostische Wertintervention

IDA ermöglicht es der KI, nur dann einzugreifen, wenn der menschliche Bediener schlechte Entscheidungen trifft, wobei es sich um Aktionen handelt, die wahrscheinlich zu schlechten Ergebnissen führen. Die KI bestimmt, ob sie übernehmen sollte, indem sie ihre erwartete Rendite im Vergleich zur Rendite des Menschen bewertet.

Experimentelle Einrichtung

Wir haben unser System in Simulationen getestet, um zu vergleichen, wie gut es gegen andere Methoden abschneidet. Wir haben uns zwei spezifische Umgebungen genau angesehen: Reacher und Lunar Lander. In Reacher muss ein Roboterarm seinen Fingerspitze an verschiedenen Zielorten positionieren. Im Lunar Lander muss eine Rakete sicher an einem bestimmten Punkt auf dem Boden landen.

Die Erfolgsquote in diesen Experimenten misst, wie oft die Aufgaben erfolgreich abgeschlossen werden, während die Crash-Rate angibt, wie oft Misserfolge auftreten. Wir verwendeten simulierte Piloten, um die menschliche Leistung zu emulieren, und schlossen eine Gruppe von echten menschlichen Teilnehmern für praktische Tests ein.

Ergebnisse in der Reacher-Umgebung

Wir verglichen unseren Ansatz mit anderen in Bezug darauf, wie oft die Aufgaben in der Reacher-Umgebung erfolgreich abgeschlossen wurden. Wir fanden heraus, dass unsere IDA-Methode konstant sowohl den Pilot-Only-Control als auch die traditionelle KI-Kontrolle übertraf. Selbst als die Ziele während des Trainingsprozesses unbekannt waren, hielt IDA die Leistung aufrecht oder verbesserte sie.

Ergebnisse im Lunar Lander

In der Lunar Lander-Umgebung sahen wir ähnliche positive Ergebnisse. IDA übertraf konstant sowohl den Pilot-Only- als auch die Standard-KI-Hilfe. Die verbesserte Leistung resultierte aus besseren Landungserfolgsraten und weniger Abstürzen. Darüber hinaus berichteten die menschlichen Teilnehmer in den Experimenten, dass sie sich mit IDA mehr in Kontrolle fühlten und die Aufgabe einfacher fanden als mit anderen Methoden.

Analyse der Vorteile des Kopiloten

Wir analysierten, wann und wie die KI angemessen während dieser Aufgaben intervenierte. Es wurde deutlich, dass die KI eher eingriff, wenn menschliche Aktionen nicht optimal waren, was ihre Rolle bei der Stabilisierung und Führung des menschlichen Bedieners bei Bedarf zeigte.

Mensch-in-der-Schleife-Kontrollexperimente

Wir führten reale Tests mit menschlichen Teilnehmern durch, um zu bewerten, wie gut das IDA-System in der Praxis funktionierte. Die Teilnehmer erhielten die Kontrolle über die Lunar Lander-Aufgabe. Sie spielten verschiedene Szenarien mit Pilot-Only-, KI-Kopilot- und IDA-Modi durch, was es uns ermöglichte, subjektive Bewertungen zur Benutzerfreundlichkeit und zur allgemeinen Zufriedenheit zu erfassen.

Fazit und Diskussionen

Die wichtigste Erkenntnis dieser Arbeit ist die Effektivität von IDA als robustes Verfahren zur Verbesserung der gemeinsamen Kontrolle zwischen KI und Menschen. Die Ergebnisse zeigen, dass unser System nicht nur die menschliche Leistung bewahrt, sondern auch zu erheblichen Verbesserungen führen kann. Während es Herausforderungen in der erforderlichen Expertenausbildungsphase gibt, liegt der Weg nach vorne in der Erkundung von Methoden zur weiteren Verbesserung des Systems und dessen Anwendung in einer breiteren Palette von realen Aufgaben.

Durch diese Forschung zeigen wir das Potenzial für eine bessere Zusammenarbeit zwischen Menschen und Maschinen, um komplexe Aufgaben zu bewältigen und die Ergebnisse zu verbessern.

Originalquelle

Titel: Shared Autonomy with IDA: Interventional Diffusion Assistance

Zusammenfassung: The rapid development of artificial intelligence (AI) has unearthed the potential to assist humans in controlling advanced technologies. Shared autonomy (SA) facilitates control by combining inputs from a human pilot and an AI copilot. In prior SA studies, the copilot is constantly active in determining the action played at each time step. This limits human autonomy and may have deleterious effects on performance. In general, the amount of helpful copilot assistance can vary greatly depending on the task dynamics. We therefore hypothesize that human autonomy and SA performance improve through dynamic and selective copilot intervention. To address this, we develop a goal-agnostic intervention assistance (IA) that dynamically shares control by having the copilot intervene only when the expected value of the copilot's action exceeds that of the human's action across all possible goals. We implement IA with a diffusion copilot (termed IDA) trained on expert demonstrations with goal masking. We prove a lower bound on the performance of IA that depends on pilot and copilot performance. Experiments with simulated human pilots show that IDA achieves higher performance than pilot-only and traditional SA control in variants of the Reacher environment and Lunar Lander. We then demonstrate that IDA achieves better control in Lunar Lander with human-in-the-loop experiments. Human participants report greater autonomy with IDA and prefer IDA over pilot-only and traditional SA control. We attribute the success of IDA to preserving human autonomy while simultaneously offering assistance to prevent the human pilot from entering universally bad states.

Autoren: Brandon J. McMahan, Zhenghao Peng, Bolei Zhou, Jonathan C. Kao

Letzte Aktualisierung: 2024-09-05 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2409.15317

Quell-PDF: https://arxiv.org/pdf/2409.15317

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel