Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Künstliche Intelligenz# Computer Vision und Mustererkennung# Maschinelles Lernen

Neuer Ansatz für abstraktes Denken bei Maschinen

Eine neue Methode verbessert das maschinelle Denken bei visuellen Rätseln mit RPM.

― 8 min Lesedauer


Maschinelles visuellesMaschinelles visuellesDenken voranbringenRätsel zu lösen.Fähigkeiten von Maschinen, visuelleNeue Methoden verbessern die
Inhaltsverzeichnis

Eine Herausforderung, Maschinen abstrakt denken zu lehren, ist, dass Probleme oft als ganze Aufgaben ohne kleinere Schritte kommen, die beim Lernen helfen. Ein beliebter Test für diese Art des Denkens heisst Raven Progressive Matrices (RPM). Bei RPM besteht die Aufgabe darin, die richtige Antwort aus mehreren Optionen basierend auf einem bestimmten Satz von Bildern auszuwählen. Diese Bilder sind komplex und enthalten verschiedene Objekte in unterschiedlichen Anordnungen, was die Aufgabe ziemlich knifflig macht. Dieses eine hochgradige Ziel kann das Lernen erschweren, und viele aktuelle Maschinen, die versuchen, diese Rätsel zu lösen, geben nicht viel Auskunft darüber, wie sie zu ihren Antworten kommen.

In dieser Studie präsentieren wir eine neue Methode, wie Maschinen mit diesen visuellen Rätseln umgehen können, indem wir die Aufgabe in zwei kleinere Teile aufteilen. Anstatt direkt eine Antwort auszuwählen, betrachtet unser Ansatz zuerst die einzelnen Elemente in den Bildern und sagt deren Merkmale und Anordnung voraus. Danach werden diese Vorhersagen genutzt, um zu bestimmen, welche Antwort am besten passt. Wir haben verschiedene Methoden untersucht, um die Bilder in Teile zu zerlegen und wie man Segmente der Eingabedaten ohne viele beschriftete Beispiele behandelt.

Die experimentellen Ergebnisse zeigten, dass unsere Modelle nicht nur besser abschnitten als bestehende Methoden, sondern auch einige interessante Einblicke darüber gaben, wie die Maschinen diese Rätsel durchdenken. Wir glauben, dass das Design unserer Methode hilft, Vorurteile zu vermeiden, die bei bestimmten RPM-Tests auftreten können.

Was ist abstraktes Denken?

Abstraktes Denken ist ein Schlüsselelement von allgemeiner Intelligenz. Es umfasst die Fähigkeit, Muster zu erkennen und Sequenzen zu vervollständigen. Um zu messen, wie gut Menschen dies tun können, entwickelte John C. Raven in den 1930er-Jahren einen visuellen Test, der jetzt als Raven Progressive Matrices (RPM) bekannt ist. Ein RPM-Rätsel besteht aus einem Gitter von Bildern, die normalerweise in einem 3x3-Format angeordnet sind, wobei jedes Bild geometrische Formen enthält, die bestimmten Regeln über ihre Anordnung folgen. Die Aufgabe besteht darin, das fehlende Bild im Gitter basierend auf den Mustern in den anderen Bildern auszufüllen.

In den letzten Jahren wurden RPM-Aufgaben von der KI-Community als Massstab zur Testung ähnlicher Denkfähigkeiten in Maschinen übernommen. Obwohl RPMs traditionell auf 60 Aufgaben beschränkt sind, sind neue Methoden entstanden, um grössere Datensätze zu generieren, um KI-Systeme zu trainieren. Allerdings hat sich die Erstellung eines abwechslungsreichen und repräsentativen Sets von Aufgaben als schwierig erwiesen und kann zu verschiedenen Vorurteilen führen, wie etwa wenn ein Modell den Kontext der Bilder ignoriert.

Die Aufgabe aufteilen

Um das Problem, dass RPM-Aufgaben als ein einzelnes Rätsel präsentiert werden, anzugehen, schlagen wir vor, sie in zwei Teile zu zerlegen. Der erste Teil besteht darin, die Eigenschaften des fehlenden Bildes basierend auf den anderen Bildern im Gitter vorherzusagen. Der zweite Teil findet das Antwortfeld, das am besten zu diesen Vorhersagen passt. Dieser schrittweise Ansatz hilft der Maschine, das Rätsel gründlicher zu verstehen.

Unsere Methode nutzt einen speziellen Typ von maschinellem Lernmodell namens Transformer, der normalerweise in der Verarbeitung natürlicher Sprache vorkommt. Dieses Modell kann einzelne Merkmale der Bilder vorhersagen, ohne explizite Informationen über ihre räumliche Struktur zu benötigen.

Der erste Schritt in unserem Modell ist ein Bild-Tokenisierer, der die 2D-Darstellung der Bilder in eine Sequenz von Tokens umwandelt. Diese Tokens sind im Wesentlichen komprimierte Darstellungen der Bilder und ermöglichen es dem Modell, sie effizienter zu verarbeiten.

Der Tokenisierer kann auf verschiedene Weise arbeiten, abhängig davon, wie er die Bilder wahrnimmt. Es gibt drei Varianten: eine betrachtet jedes Bildfeld einzeln, eine andere untersucht die gesamte Aufgabe auf einmal, und die dritte verarbeitet die Felder in Reihen. Jeder Ansatz hat seine eigenen Vorteile und beeinflusst die Ergebnisse unterschiedlich.

Der Transformer nimmt dann diese Tokens und verarbeitet sie in Sequenz, wodurch das Modell lernt, wie es die Merkmale und Beziehungen, die in den Bildern vorhanden sind, verknüpfen kann. Sobald der Transformer Ausgabetokens generiert hat, mappt ein weiteres Modul, das sogenannte Eigenschaftsprognosemodul, diese Ausgabetokens auf die Eigenschaften der einzelnen Bilder.

Eigenschaften verstehen und ihre Relevanz

Unser Modell definiert einen Eigenschaftsvektor für jedes Bild, der Informationen über die Objekte, deren Grössen, Farben und Typen enthält. Dieser Eigenschaftsvektor soll die wichtigen Merkmale erfassen, die für die Lösung der RPM-Rätsel relevant sind. Die Herausforderung besteht darin, herauszufinden, welche Aspekte des Eigenschaftsvektors basierend auf dem Kontext der Aufgabe relevant sind.

Zum Beispiel diktieren bestimmte Anordnungen, welche Eigenschaften wichtig sind, wie die Anzahl der vorhandenen Formen oder wie sie angeordnet sind. Die Ausgabe des Modells kann angepasst werden, um nur die relevanten Eigenschaften bei der Berechnung der Leistung zu berücksichtigen.

Um diese Eigenschaften darzustellen und sie dem Modell leicht zugänglich zu machen, verwenden wir One-Hot-Encoding, sodass die vorhergesagten Ausgaben Wahrscheinlichkeiten sind, die sich auf eins summieren. Das macht es einfach zu beurteilen, wie gut die Vorhersagen des Modells mit den tatsächlichen Eigenschaften der Bilder übereinstimmen.

Das Modell trainieren

Der Trainingsprozess für unser Modell erfolgt in zwei Phasen. In der ersten Phase lernt das Modell, die Eigenschaften der Bilder vorherzusagen, indem es zufällig eines der Felder maskiert, um sich auf die anderen zu konzentrieren. Dies hilft dem Modell, die Muster und Beziehungen zu lernen, die über alle Bilder hinweg bestehen.

In der zweiten Phase wird das Modell an dem tatsächlichen Abfragefeld getestet, während die anderen Felder sichtbar bleiben. Durch die Verwendung dieses zweiphasigen Ansatzes kann das Modell den grösseren Kontext der Aufgabe besser verstehen und dieses Wissen effektiv anwenden.

Wir haben auch mit verschiedenen Arten von Masken experimentiert. Anstatt einfach Bilder zu entfernen, haben wir trainierbare Masken verwendet, die sich während des Trainingsprozesses ändern. Diese zusätzliche Flexibilität hilft dem Modell, sich anzupassen und seine Vorhersagefähigkeiten im Laufe der Zeit zu verbessern.

Experimentelle Ergebnisse

Bei der Bewertung der Modelle basierend auf ihrer Fähigkeit, die Eigenschaften der Bilder vorherzusagen, beeinflussten verschiedene Faktoren wie die verwendete Tokenisiererart und die Maskierungsstrategie die Ergebnisse erheblich. Jede Konfiguration zeigte ein unterschiedliches Mass an Effektivität in der Eigenschaftsvorhersage.

Das Modell, das die gesamte Aufgabe auf einmal tokenisierte, schnitt besser ab als diejenigen, die jedes Feld einzeln tokenisierten. Allerdings übertraf das Modell, das den Reihen-Tokenisierer verwendete, konstant die anderen, was darauf hindeutet, dass das schichtweise Stapeln der Felder eine bessere Mustererkennung ermöglicht.

Unsere Modelle schnitten auch besser ab als andere beliebte RPM-Methoden und zeigten damit ihre Effektivität beim Umgang mit Vorurteilen in gängigen Datensätzen.

Entscheidungen treffen

Nach der Phase der Eigenschaftsprognose besteht der nächste Schritt darin, die RPM-Aufgabe zu lösen. Wir haben einen Algorithmus namens Direct Choice Maker (DCM) entwickelt, der dem Modell hilft, die beste Antwort basierend auf den vorhergesagten Eigenschaften zu bestimmen.

In diesem Prozess sagt das Modell zuerst die Eigenschaften für das Abfragefeld voraus. Dann bewertet es jedes Antwortfeld, indem es seine Eigenschaften mit denen des vorhergesagten Abfragefeldes vergleicht. Durch die Verwendung einer Distanzfunktion wird das Antwortfeld ausgewählt, das den vorhergesagten Eigenschaften am ähnlichsten ist.

Wir haben mehrere Metriken definiert, um die Leistung unseres DCM-Ansatzes zu bewerten, wobei der Fokus darauf lag, wie oft es die richtige Antwort korrekt identifizierte, indem es die übereinstimmenden Eigenschaften analysierte.

Ergebnisse aus Entscheidungstests

Die Ergebnisse der Entscheidungstests zeigten, dass die Qualität der Eigenschaftsvorhersagen die Fähigkeit des Modells beeinflusste, das richtige Antwortfeld auszuwählen. Modelle, die in der Vorhersage von Eigenschaften besser abschnitten, waren erfolgreicher bei der Lösung der RPM-Aufgaben.

Insbesondere übertrafen die Modelle, die mit einer kombinierten Maskierungsstrategie trainiert wurden, diejenigen, die nur mit zufälliger oder Abfraagemaskierung trainiert wurden. Das deutet auf die Vorteile eines umfassenderen Lernansatzes hin, der dem Modell hilft, ein breiteres Verständnis der RPM-Muster zu entwickeln.

Wir verglichen unsere Modelle mit anderen führenden RPM-Lösern und stellten fest, dass unsere einige der besten bis dato berichteten Ergebnisse erzielten. Mehrere Konfigurationen übertrafen die menschliche Leistung bei den RPM-Tests und zeigten die Effektivität unseres zweistufigen Ansatzes.

Visuelle Einblicke und Fehleranalyse

Ein interessanter Aspekt unserer Befunde war, wie die Modelle mit verschiedenen Arten von Eigenschaften umgingen. Obwohl die Modelle mit ungeordneten kategorialen Variablen trainiert wurden, schienen sie die ordinale Natur von Eigenschaften wie Grösse und Form zu erfassen. Das deutet darauf hin, dass sie nicht nur die Eigenschaften gelernt haben, sondern auch ein besseres Verständnis dafür entwickelt haben, wie bestimmte Merkmale visuell miteinander in Beziehung stehen.

Diese Fähigkeit, visuelle Eigenschaften zu interpretieren, hilft der insgesamt Denkfähigkeit des Modells. Durch die Analyse der Arten von Fehlern, die während der Eigenschaftsvorhersagen gemacht wurden, entdeckten wir, dass die Modelle eher kleine Fehler als grosse machen. Das deutet auf ein nuanciertes Verständnis der Beziehungen unter den Eigenschaften hin, obwohl sie nicht explizit auf die ordinale Natur der Attribute trainiert wurden.

Fazit und zukünftige Richtungen

Diese Arbeit hat gezeigt, dass das Zerlegen von RPM-Aufgaben in kleinere, handhabbare Komponenten die Fähigkeit der Maschinen, diese visuellen Rätsel zu lösen, erheblich verbessern kann. Unsere Modelle haben viele bestehende Methoden übertroffen und zeigen einen transparenten Ansatz für das Durchdenken komplexer visueller Aufgaben.

In Zukunft planen wir, den Entscheidungsprozess des Modells weiter zu verfeinern und zusätzliche Informationsquellen zu integrieren, um die Leistung weiter zu verbessern.

Die in dieser Studie entwickelten Methoden eröffnen neue Möglichkeiten, wie Maschinen lernen und über abstrakte visuelle Konzepte nachdenken können. Indem wir in diesem Bereich weiterhin innovativ sind, hoffen wir, die Fähigkeiten der künstlichen Intelligenz im Verständnis und in der Lösung komplexer visueller Denkaufgaben voranzutreiben.

Originalquelle

Titel: Learning Abstract Visual Reasoning via Task Decomposition: A Case Study in Raven Progressive Matrices

Zusammenfassung: Learning to perform abstract reasoning often requires decomposing the task in question into intermediate subgoals that are not specified upfront, but need to be autonomously devised by the learner. In Raven Progressive Matrices (RPM), the task is to choose one of the available answers given a context, where both the context and answers are composite images featuring multiple objects in various spatial arrangements. As this high-level goal is the only guidance available, learning to solve RPMs is challenging. In this study, we propose a deep learning architecture based on the transformer blueprint which, rather than directly making the above choice, addresses the subgoal of predicting the visual properties of individual objects and their arrangements. The multidimensional predictions obtained in this way are then directly juxtaposed to choose the answer. We consider a few ways in which the model parses the visual input into tokens and several regimes of masking parts of the input in self-supervised training. In experimental assessment, the models not only outperform state-of-the-art methods but also provide interesting insights and partial explanations about the inference. The design of the method also makes it immune to biases that are known to be present in some RPM benchmarks.

Autoren: Jakub Kwiatkowski, Krzysztof Krawiec

Letzte Aktualisierung: 2024-03-07 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2308.06528

Quell-PDF: https://arxiv.org/pdf/2308.06528

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel