Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Künstliche Intelligenz

iWISDM: Ein Tool zum Testen von Maschineninstruktionsbefolgung

Hier ist iWISDM, ein neuer Massstab für die Bewertung von Maschinenanweisungen mit visuellen Elementen und Sprache.

― 7 min Lesedauer


iWISDM: Anweisungen zuriWISDM: Anweisungen zurTestmaschineMaschinen bei komplexen Aufgaben.Ein neues Werkzeug zur Bewertung von
Inhaltsverzeichnis

Es ist wichtig, dass sowohl Menschen als auch Maschinen Anweisungen folgen können. Menschen machen das gut und erledigen jeden Tag viele Aufgaben, ohne darüber nachzudenken. Aber es ist schwierig, Maschinen beizubringen, Anweisungen für komplexe Aufgaben zu befolgen. Dieser Artikel spricht über ein neues Werkzeug, um zu testen, wie gut Maschinen Anweisungen mit Bildern und Sprache folgen können. Dieses Werkzeug heisst iWISDM.

Die Herausforderung, Anweisungen zu befolgen

Jeden Tag führen Menschen eine Vielzahl von Aufgaben aus. Zum Beispiel kann es beim Fertigmachen am Morgen viele Schritte geben, wie Duschen, Zähneputzen und Frühstück machen. Die meisten dieser Aufgaben passieren ohne viel Nachdenken; sie sind Teil der täglichen Routine. Maschinen, besonders künstliche Intelligenz (KI), haben mit diesen einfachen Handlungen Probleme. Sogar Aufgaben, die einfach erscheinen, wie Kaffee machen, erfordern mehrere Schritte, die Dinge wie Kaffeebohnen mahlen, Kaffee brühen und in eine Tasse giessen beinhalten.

Je komplexer die Aufgaben werden, wie Möbel zusammenbauen oder Haushaltsgeräte benutzen, desto schwieriger wird es. Menschen meistern solche Aufgaben in der Regel gut, während Maschinen oft versagen.

Der Aufstieg grosser Sprach- und multimodaler Modelle

Grosse Sprachmodelle (LLMs) haben sich erheblich verbessert, wenn es darum geht, menschliche Sprache in verschiedenen Themen zu verstehen. Sie können Gespräche führen, Ratschläge geben und Daten analysieren. Multimodale Modelle (LMMs) kommen jetzt auf, die mit verschiedenen Arten von Eingaben, wie Text und Bildern, arbeiten können. Zum Beispiel akzeptieren Modelle wie Gemini-Ultra Text, Bilder und Audio und antworten mit einer Mischung aus Text und Bildern.

Trotz der Fortschritte konzentrieren sich viele bestehende Tests für diese Modelle hauptsächlich auf einzelne Eingabetypen wie Text oder Bilder. Das schränkt unser Verständnis dafür ein, wie gut sie verschiedene Informationsarten integrieren können.

Vorstellung von iWISDM

Um diese Lücke zu schliessen, haben wir das instructed-Virtual VISual Decision Making (iWISDM) Werkzeug entwickelt. Diese virtuelle Umgebung generiert eine Vielzahl von Aufgaben, die visuelle und sprachliche Elemente kombinieren. Mit iWISDM können wir drei Arten von Benchmarks erstellen, die die Fähigkeit von Maschinen testen, Anweisungen auf verschiedenen Komplexitätsstufen zu befolgen.

Unsere Ergebnisse zeigen, dass, obwohl iWISDM ein solides Benchmark ist, immer noch eine grosse Lücke zwischen dem ist, wie Maschinen und Menschen Anweisungen befolgen.

Verständnis von alltäglichen Aufgaben

Ein typischer Tag beinhaltet das Management zahlreicher Aufgaben. Zum Beispiel kann eine Person zwischen dem Aufwachen und dem Arbeitsbeginn 10 bis 20 Aufgaben erledigen, ohne es überhaupt zu merken. Diese Aufgaben sind einfach, erfordern aber mehrere Schritte. Maschinen solche Aufgaben beizubringen, ist komplex. Selbst etwas so Einfaches wie Kaffee machen umfasst mehrere Schritte, vom Mahlen der Bohnen bis zum Einschenken des Getränks.

Komplexe Aufgaben, wie die Benutzung eines Geräts mit mehreren Einstellungen, sind sogar noch schwerer für Maschinen zu meistern. Die meisten Menschen können diese Aufgaben kompetent ausführen, während Maschinen Schwierigkeiten haben.

Das Problem mit bestehenden Benchmarks

Aktuelle Benchmark-Tests sind oft aus verschiedenen Gründen unzureichend:

  1. Viele multimodale Tests bewerten nicht wirklich, wie gut Modelle verschiedene Eingaben kombinieren.
  2. Datensätze für visuelles Denken fehlen oft eine Möglichkeit, zu messen, wie Maschinen Zeit und sequentielle Entscheidungen integrieren.
  3. Lernumgebungen, die für die Schulung von Verstärkungslernagenten verwendet werden, sind nicht immer geeignet, um LMMs zu testen.
  4. Wenige Benchmarks konzentrieren sich auf die Fähigkeit eines Modells, Anweisungen während entscheidungsrelevanter Aufgaben zu befolgen, ein wesentliches Mass für Zuverlässigkeit.
  5. Neuere Benchmarks, die kognitive Aufgaben abdecken, können schwer zu skalieren sein, was sie weniger nützlich für das Studium von LMMs macht.

Diese Mängel machen es schwierig zu beurteilen, wie gut Modelle spezifische Anweisungen, insbesondere mehrstufige Aufgaben, genau befolgen können.

Die Struktur von iWISDM

Um diese Probleme anzugehen, generiert iWISDM mehrstufige Aufgaben, die auf dem natürlichen Verhalten von Menschen basieren und komplexe Aufgaben in einfachere Handlungen aufbrechen. Dieses Werkzeug nutzt Grafiken, um die Aufgaben darzustellen, was nahezu unbegrenzte Aufgabenerstellung mit unterschiedlichen Schwierigkeitsgraden ermöglicht.

Hauptmerkmale von iWISDM

  1. Aufgabengenerierung: iWISDM ermöglicht die Erstellung einer grossen Anzahl von Aufgaben, indem einfachere Aufgaben logisch kombiniert werden.
  2. Natürliche Sprach-Anweisungen: Jede Aufgabe kommt mit klaren Anweisungen, die erklären, was zu tun ist.
  3. Flexibilität: Benutzer können Aufgaben erstellen, die reale Szenarien nachahmen, was es zu einem vielseitigen Werkzeug macht.
  4. Fokussierte Bewertung: Die Benchmarks, die in iWISDM erstellt wurden, können bewerten, wie gut Modelle Anweisungen befolgen.

Die Komponenten von iWISDM

Aufgabenstrukturierung

In iWISDM werden Aufgaben mithilfe eines strukturierten Prozesses unter Verwendung eines Aufgaben-Grafen erstellt. Jede Aufgabe besteht aus Knoten und Kanten:

  • Knoten repräsentieren Aktionen oder Entscheidungen.
  • Kanten verbinden die Knoten, um die Beziehung zu zeigen.

Dieser strukturierte Ansatz ermöglicht es den Benutzern, komplexe Aufgaben aus einfacheren Komponenten zu erstellen.

Knoteninitialisierung

Jeder Knoten erhält spezifische Werte, die definieren, wie Aufgaben funktionieren. Bei der Initialisierung einer Aufgabe wird ein rückwärtsgerichteter Ansatz verwendet, um sicherzustellen, dass der Fluss der Informationen logisch und konsistent ist.

Aufgabenversuch-Instanziierung

Wenn eine Aufgabe bereit ist, erstellt iWISDM eine Reihe von Frames, die die visuellen Informationen bei jedem Schritt darstellen. Jede Aufgabe wird mit:

  • Einer Reihe von Bildern, die den Fortschritt der Aufgabe zeigen.
  • Anweisungen, die beschreiben, was der Benutzer tun muss.
  • Einer Abfolge von erwarteten Aktionen.

Störfaktoren

Um Aufgaben herausfordernder zu machen, können Störfaktoren hinzugefügt werden. Dies sind irrelevante Elemente, die das Modell dazu zwingen, sich auf das Wesentliche zu konzentrieren, um Verwirrung zu vermeiden.

Modelle mit iWISDM bewerten

Wir haben mehrere fortgeschrittene LMMs mit den iWISDM-Benchmarks getestet. Dazu gehörten Modelle wie GPT-4V und andere, bei denen wir ihre Leistung im Vergleich zu menschlichen Probanden bei mehrstufigen Aufgaben mit zunehmender Komplexität verglichen haben.

Ergebnisse

Unsere Bewertungen zeigten erhebliche Leistungsunterschiede zwischen Modellen und menschlichen Teilnehmern. Menschliche Probanden erzielten in allen Aufgaben bemerkenswert hohe Ergebnisse, während die Modelle Schwierigkeiten hatten, insbesondere bei Aufgaben mit mehreren Bildern oder Schritten.

Analyse der Modellleistung

Wir haben uns genau angesehen, wie verschiedene Modelle bei Aufgaben mit verschiedenen Merkmalen abschnitten. Bestimmte Modelle schnitten schlecht ab bei Aufgaben, die erforderten, dass sie tracken, wo sich Objekte befinden oder Objekte korrekt kategorisieren.

Zukünftige Richtungen

iWISDM hat das Potenzial, ein essentielles Benchmark in vielen Bereichen zu sein:

  • Bewertung multimodaler Modelle: Es kann Lücken schliessen, die von vorherigen Tests hinterlassen wurden, und umfassendere Bewertungen bieten.
  • Kontinuierliches Lernen: Zukünftige Rahmen könnten iWISDM nutzen, um zu bewerten, wie gut Modelle sich im Laufe der Zeit an neue Aufgaben anpassen.
  • Erweiterung der Aufgabenschwere: Forscher könnten neue Funktionen und Aufgaben basierend auf der Struktur von iWISDM hinzufügen, um die Fähigkeiten von Modellen weiter zu erkunden.

Adressierung von Einschränkungen

Einige bestehende Einschränkungen könnten durch die Einführung neuer Operatoren und Datensätze adressiert werden, die breitere Bewertungen ermöglichen und potenzielle Datenlecks reduzieren.

Fazit

iWISDM bietet eine wertvolle Ressource, um zu beurteilen, wie gut Maschinen komplexen Anweisungen folgen können. Durch die Schaffung eines vielfältigen Aufgabenraums eröffnet es Möglichkeiten für weitere Forschung und hilft, die Lücke zwischen den Fähigkeiten von Menschen und Maschinen im Verstehen und Ausführen von Anweisungen zu schliessen. Die Erkenntnisse, die durch die Verwendung dieses Werkzeugs gewonnen werden, können zukünftige Entwicklungen in der KI informieren und die Erstellung von Modellen ermöglichen, die menschliche Aufgaben besser verstehen und erfüllen können.

Originalquelle

Titel: IWISDM: Assessing instruction following in multimodal models at scale

Zusammenfassung: The ability to perform complex tasks from detailed instructions is a key to many remarkable achievements of our species. As humans, we are not only capable of performing a wide variety of tasks but also very complex ones that may entail hundreds or thousands of steps to complete. Large language models and their more recent multimodal counterparts that integrate textual and visual inputs have achieved unprecedented success in performing complex tasks. Yet, most existing benchmarks are largely confined to single-modality inputs (either text or vision), narrowing the scope of multimodal assessments, particularly for instruction-following in multimodal contexts. To bridge this gap, we introduce the instructed-Virtual VISual Decision Making (iWISDM) environment engineered to generate a limitless array of vision-language tasks of varying complexity. Using iWISDM, we compiled three distinct benchmarks of instruction following visual tasks across varying complexity levels and evaluated several newly developed multimodal models on these benchmarks. Our findings establish iWISDM as a robust benchmark for assessing the instructional adherence of both existing and emergent multimodal models and highlight a large gap between these models' ability to precisely follow instructions with that of humans.The code of iWISDM is available on GitHub at https://github.com/BashivanLab/iWISDM.

Autoren: Xiaoxuan Lei, Lucas Gomez, Hao Yuan Bai, Pouya Bashivan

Letzte Aktualisierung: 2024-07-21 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2406.14343

Quell-PDF: https://arxiv.org/pdf/2406.14343

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel