Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Maschinelles Lernen# Rechnen und Sprache

Verbesserung des Präferenzlernens durch feature-basierte Abfragen

Eine neue Methode, um Präferenzen durch Vergleiche auf Merkmalsebene zu verstehen.

― 5 min Lesedauer


FortschrittlicheFortschrittlichePräferenzlerntechnikenVerständnis von Nutzerpräferenzen.Neue Methoden verbessern unser
Inhaltsverzeichnis

Menschen nutzen oft soziale Hinweise, um auszudrücken, was sie mögen und was nicht. Das hilft uns, ihre Vorlieben zu verstehen, die man als ihre "Belohnungsfunktionen" betrachten kann. Diese Vorlieben können leiten, wie wir Entscheidungen treffen, aber die aktuellen Methoden, um diese Präferenzdaten von Menschen zu sammeln, übersehen oft den Kontext des sozialen Lernens.

In dieser Arbeit schauen wir, wie wir besser herausfinden können, warum jemand eine Option einer anderen vorzieht. Wir wollen Fragen stellen, die uns mehr über die spezifischen Merkmale lernen lassen, die diese Präferenzen beeinflussen. Statt nur zu fragen, welche Option besser ist, wollen wir auch wissen, welche spezifischen Eigenschaften dieser Optionen wichtig sind.

Dafür schlagen wir eine neue Art vor, Fragen zu stellen, die einfache Ja-oder-Nein-Fragen zu Beispielen mit Fragen zu den Merkmalen dieser Beispiele kombiniert. Wir nutzen dann diese detaillierten Eingaben, um ein genaueres Verständnis davon zu bekommen, nach welchen Belohnungen die Menschen suchen.

Die Bedeutung von menschlichem Feedback

Zu lernen, was die Menschen wollen, kann helfen, Technologie zu verbessern, zum Beispiel Roboter besser arbeiten zu lassen oder sicherere Software zu erstellen. Traditionelle Methoden, die die Leute bitten, zwischen zwei Optionen zu wählen, können manchmal wertvolle Einblicke ignorieren. Zum Beispiel, wenn jemand einen Pilz dem anderen vorzieht, könnte es wegen seines Geschmacks sein, aber dieses wichtige Detail geht oft verloren.

Die Menschen haben unterschiedliche Vorstellungen davon, was eine Option gut macht. Ein Koch könnte sich auf den Geschmack konzentrieren, während ein Sammler auf die visuelle Anziehung achtet. Diese unterschiedlichen Vorlieben bedeuten, dass jeder Einzelne eine einzigartige Reihe von Eigenschaften hat, die für ihn wichtig sind.

Wenn wir die Leute als Lehrer sehen, die Lernmaterial bereitstellen, anstatt nur als Etikettenlieferanten, können wir reichhaltigere Informationen über ihre Vorlieben sammeln. Diese Perspektive ermöglicht es uns, bessere Trainingsmodelle für Algorithmen zu erstellen.

Ein neuer Ansatz zum Lernen von Präferenzen

Wir führen ein Rahmenwerk ein, um Präferenzen zu sammeln, das sich sowohl auf Merkmale als auch auf Beispiele konzentriert. Unser Ansatz basiert auf zwei Hauptideen:

  1. Merkmalsvergleiche: Statt nur zu fragen, welches Beispiel bevorzugt wird, können wir die Leute bitten, spezifische Eigenschaften zu vergleichen. Zum Beispiel, statt nur zu fragen, ob Pilz A besser als Pilz B ist, können wir fragen, ob sie die Farbe oder die Grösse von Pilz A bevorzugen.

  2. Pragatische Datenaugmentation: Wenn Nutzer uns ihre Präferenzen mitteilen, können wir auch erfahren, welche Merkmale ihnen nicht wichtig sind. Das hilft, neue Datenpunkte zu erstellen, sodass wir unseren Trainingsdatensatz erweitern und unsere Modelle weiter verfeinern können.

Testen unseres Ansatzes

Um zu sehen, ob unsere neue Methode funktioniert, haben wir Experimente in zwei Bereichen durchgeführt: einer Pilzsuche und einer Flugbuchungsaufgabe. Wir wollten herausfinden, wie effektiv Merkmalsanfragen waren, um die Belohnungen der Menschen mit weniger Beispielen genau zu definieren.

Pilzsuche

Bei der Pilzsuche wurden Pilze durch verschiedene Merkmale wie Farbe, Geruch und Grösse definiert. Wir haben verschiedene Möglichkeiten geschaffen, um Vorlieben darzustellen, indem wir die Teilnehmer gebeten haben, verschiedene Vergleiche zwischen den Pilzen anzustellen.

Die Teilnehmer waren erleichtert, dass sie ihre Vorlieben mit unserer Methode immer noch effektiv beschreiben konnten. Die Ergebnisse zeigten, dass Merkmalsanfragen dazu beitrugen, ein genaueres Verständnis für die Vorlieben der Menschen in weniger Schritten als traditionelle nur-beispielbasierte Vergleiche zu erreichen.

Flugbuchungsaufgabe

Als Nächstes wandten wir uns der Buchung von Flügen zu, wo der Vergleich weniger visuell und mehr basierend auf verschiedenen Merkmalen wie Preis, Ankunftszeit und Anzahl der Stopps war. Wir nutzten echte Benutzerfeedbacks, um zu sehen, wie gut unser Rahmenwerk mit komplexeren sprachlichen Beschreibungen klarkam.

Selbst mit imperfectem und weniger strukturiertem Feedback von Nutzern hat unsere Methode immer noch gut funktioniert, um die Vorlieben der Nutzer zu verstehen. Sie zeigte ihre Stärke, wenn sie mit spezifischen Merkmalen verknüpft war, die den Menschen wichtig waren.

Nutzerstudie

Wir haben auch eine Nutzerstudie durchgeführt, um die Bemühungen, die in unsere neuen Merkmalsanfragen gesteckt wurden, mit traditionellen paarweisen Vergleichen zu vergleichen. Die Teilnehmer übernahmen die Rolle von Pilzsuchenden und verwendeten die gleichen Belohnungsfunktionen wie in unseren früheren Experimenten.

Während der Studie haben wir den Teilnehmern verschiedene Fragen zu ihren Vorlieben bezüglich Pilzbeispielen und spezifischen Merkmalen gestellt. Danach haben wir Feedback gesammelt, wie sie über die Aufgabe dachten. Die Nutzer fanden unsere Methode nicht wesentlich belastender als traditionelle Methoden.

Fazit

Zusammenfassend haben wir einen neuen Weg erkundet, um mehr über die Vorlieben der Menschen durch den Einsatz von merkmalsbasierten Anfragen zu erfahren. Indem wir berücksichtigen, was Nutzer über ihre Vorlieben sagen und welche Eigenschaften sie wertschätzen, können wir bessere Modelle erstellen, die individuelle Bedürfnisse widerspiegeln.

Dieses tiefere Verständnis kann helfen, verschiedene Technologien zu verbessern, indem sie sich näher an den menschlichen Wünschen ausrichten. Zukünftige Arbeiten könnten untersuchen, wie dieser Prozess weiter verbessert werden kann, um sicherzustellen, dass wir die richtigen Fragen stellen, während wir mit den Benutzer Eingaben arbeiten.

Originalquelle

Titel: Pragmatic Feature Preferences: Learning Reward-Relevant Preferences from Human Input

Zusammenfassung: Humans use social context to specify preferences over behaviors, i.e. their reward functions. Yet, algorithms for inferring reward models from preference data do not take this social learning view into account. Inspired by pragmatic human communication, we study how to extract fine-grained data regarding why an example is preferred that is useful for learning more accurate reward models. We propose to enrich binary preference queries to ask both (1) which features of a given example are preferable in addition to (2) comparisons between examples themselves. We derive an approach for learning from these feature-level preferences, both for cases where users specify which features are reward-relevant, and when users do not. We evaluate our approach on linear bandit settings in both vision- and language-based domains. Results support the efficiency of our approach in quickly converging to accurate rewards with fewer comparisons vs. example-only labels. Finally, we validate the real-world applicability with a behavioral experiment on a mushroom foraging task. Our findings suggest that incorporating pragmatic feature preferences is a promising approach for more efficient user-aligned reward learning.

Autoren: Andi Peng, Yuying Sun, Tianmin Shu, David Abel

Letzte Aktualisierung: 2024-05-23 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2405.14769

Quell-PDF: https://arxiv.org/pdf/2405.14769

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel