Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Künstliche Intelligenz# Computer Vision und Mustererkennung

Visionsprache-Modelle haben Schwierigkeiten mit grundlegenden visuellen Aufgaben

Forschungen zeigen, dass VLMs bei einfachen visuellen Aufgaben im Vergleich zu Menschen eine schwache Genauigkeit haben.

― 5 min Lesedauer


VLMs scheitern anVLMs scheitern angrundlegenden visuellenAufgabenZählen.einfachen Formenidentifikation und demModelle haben Schwierigkeiten mit der
Inhaltsverzeichnis

Grosse Sprachmodelle, die auch Bilder verarbeiten können, werden immer beliebter. Diese Modelle können Aufgaben bewältigen, die sowohl Text als auch Bilder umfassen. Unsere Forschung zeigt jedoch, dass diese Modelle bei grundlegenden visuellen Aufgaben, die Menschen leicht erledigen können, Schwierigkeiten haben.

Wir haben uns vier fortgeschrittene Vision-Language-Modelle (VLMs) angesehen und ihre Fähigkeiten bei sieben einfachen visuellen Aufgaben getestet. Diese Aufgaben umfassten das Erkennen, ob Formen überlappen, das Zählen bestimmter Formen und das Identifizieren von umkreisten Buchstaben. Trotz ihrer Fähigkeit, in komplexen Umgebungen gut abzuschneiden, zeigten die VLMs bei diesen grundlegenden Aufgaben eine schwache Leistung.

Aufgabenübersicht

Wir haben eine Reihe von Aufgaben erstellt, um zu bewerten, wie gut VLMs visuelle Informationen sehen und verstehen können. Unsere Aufgaben beinhalteten einfache Formen wie Kreise und Linien, die in menschlichen Sichttests häufig vorkommen. Wir wollten sehen, ob VLMs diese Formen erkennen können, wenn sie nah beieinander oder Überlappend sind.

Die Aufgaben umfassten:

  1. Zählen von Schnittpunkten zwischen zwei Linien.
  2. Bestimmen, ob zwei Kreise überlappen oder sich berühren.
  3. Herausfinden, welcher Buchstabe in einem Wort umkreist ist.
  4. Zählen überlappender Formen, wie Kreise oder Fünfecke.
  5. Zählen von ineinander liegenden Quadraten, wo ein Quadrat in einem anderen enthalten ist.
  6. Zählen von Reihen und Spalten in einem Gitter.
  7. Folgen von einfarbigen Wegen in einem U-Bahn-Plan.

Zusammenfassung der Ergebnisse

In allen Aufgaben erreichten die VLMs eine durchschnittliche Genauigkeit von 58,57 %. Diese Leistung ist deutlich niedriger als das erwartete Genauigkeitsniveau für Menschen, das nahe 100 % liegt. Das bestperformende Modell erzielte nur 74,94 % Genauigkeit.

Aufgabe 1: Zählen von Linienstiche

In dieser Aufgabe haben wir getestet, ob VLMs zählen können, wie oft sich zwei Linien schneiden. Wir haben eine Vielzahl von Bildern mit zwei Liniensegmenten erstellt und die Modelle gebeten, ihre Schnittpunkte zu zählen. Die Ergebnisse zeigten, dass die VLMs eine durchschnittliche Genauigkeit von nur 56,84 % hatten, was weit von perfekt entfernt ist.

Aufgabe 2: Zwei Kreise

Als nächstes haben wir überprüft, ob die Modelle sagen konnten, ob zwei Kreise überlappen oder sich berühren. Wieder hatten die VLMs Schwierigkeiten, die beste Genauigkeit lag nur bei 92,78 %. Sie haben oft falsch geraten, besonders wenn die Kreise nah beieinander waren.

Aufgabe 3: Der umkreiste Buchstabe

In dieser Aufgabe haben wir getestet, ob VLMs erkennen können, welcher Buchstabe in einem Wort umkreist wurde. Während die Modelle die Buchstaben genau lesen konnten, wenn sie alleine präsentiert wurden, hatten sie Schwierigkeiten, wenn ein Kreis einen Buchstaben verdeckte. Die durchschnittliche Genauigkeit betrug nur 81,39 %. Die Modelle haben oft Buchstaben geraten, die neben dem umkreisten Buchstaben lagen.

Aufgabe 4: Zählen überlappender Formen

VLMs wurden auch getestet, um überlappende Formen wie Kreise und Fünfecke zu zählen. Die Genauigkeit fiel erheblich, die Modelle erreichten nur 30,99 % beim Zählen überlappender Fünfecke. Das zeigte, dass es für diese Modelle schwierig ist, Formen zu erkennen, wenn sie überlappen.

Aufgabe 5: Zählen von ineinander liegenden Quadraten

Bei der Aufgabe, ineinander liegende Quadrate zu zählen, schnitten die VLMs etwas besser ab, hatten aber immer noch eine durchschnittliche Genauigkeit von 73,29 %. Diese Aufgabe verdeutlichte, wie schwierig es für die Modelle war, Formen zu verfolgen, wenn ihre Ränder sehr nah beieinander lagen, selbst wenn sie sich nicht überlappten.

Aufgabe 6: Zählen von Reihen und Spalten in einem Gitter

Als nächstes haben wir die VLMs gefragt, wie viele Reihen und Spalten in einem Gitter vorhanden sind. Die durchschnittliche Genauigkeit beim Zählen der Reihen lag bei 60,83 %, während sie beim Zählen der Spalten mit 70,53 % besser war. Beide Werte lagen jedoch immer noch unter dem, was wir von einem Menschen erwarten würden, der leicht Reihen und Spalten zählen könnte.

Aufgabe 7: Folgen von einfarbigen Wegen

Die letzte Aufgabe bestand darin, die Wege zwischen Stationen auf einem U-Bahn-Plan zu zählen. Diese Aufgabe bewertet die Fähigkeit, verschiedene Wege zu erkennen und zu verfolgen. Die VLMs hatten eine durchschnittliche Genauigkeit von nur 42,06 % und hatten erhebliche Schwierigkeiten, als die Anzahl der Wege zunahm.

Diskussion

Unsere Ergebnisse zeigen eine klare Lücke zwischen der Wahrnehmung und Verarbeitung einfacher visueller Aufgaben durch Menschen und den Fähigkeiten aktueller VLMs. Diese Modelle glänzen bei komplexen sprachlichen Aufgaben und können komplexe Bilder analysieren. Sie versagen jedoch beim genauen Identifizieren und Zählen grundlegender Formen.

Das deutet darauf hin, dass VLMs möglicherweise nicht wirklich „sehen“, wie Menschen es tun. Ihre Leistung deutet darauf hin, dass sie oft auf einen Prozess zurückgreifen, um visuelle Merkmale zu extrahieren, bevor sie den Textbefehl verstehen, was zu Verwirrung führen kann, wenn Formen eng gepackt oder überlappend sind.

Um VLMs zu verbessern, könnte es notwendig sein, Methoden zu entwickeln, die eine „frühe Fusion“ visueller und textueller Informationen ermöglichen, anstatt der derzeitigen „späten Fusion“-Methode. Die spezifische Schulung von VLMs bei grundlegenden visuellen Aufgaben könnte helfen, ihre gesamten visuellen Fähigkeiten zu verbessern.

Fazit

Zusammenfassend lässt sich sagen, dass VLMs zwar bemerkenswerte Potenziale für die Verarbeitung komplexer Bild-Text-Aufgaben zeigen, ihre Leistung bei grundlegenden visuellen Aufgaben jedoch besorgniserregend ist. Sie haben Schwierigkeiten mit einfachen Identifikations- und Zählaufgaben, die jeder Mensch, sogar ein Kind, leicht bewältigen könnte.

Unsere Ergebnisse werfen wichtige Fragen darüber auf, wie VLMs visuelle Informationen verarbeiten, und betonen den Bedarf an weiterer Forschung in diesem Bereich. Eine Verbesserung ihrer visuellen Fähigkeiten könnte entscheidend sein, um die Leistung dieser Modelle in realen Anwendungen zu steigern.

Originalquelle

Titel: Vision language models are blind

Zusammenfassung: While large language models with vision capabilities (VLMs), e.g., GPT-4o and Gemini 1.5 Pro, are powering various image-text applications and scoring high on many vision-understanding benchmarks, we find that they are surprisingly still struggling with low-level vision tasks that are easy to humans. Specifically, on BlindTest, our suite of 7 very simple tasks such as identifying (a) whether two circles overlap; (b) whether two lines intersect; (c) which letter is being circled in a word; and (d) counting circles in an Olympic-like logo, four state-of-the-art VLMs are only 58.57% accurate on average. Claude 3.5 Sonnet performs the best at 74.94% accuracy, but this is still far from the human expected accuracy of 100%. Across different image resolutions and line widths, VLMs consistently struggle with tasks that require precise spatial information and recognizing geometric primitives that overlap or are close together. Code and data are available at: https://vlmsareblind.github.io

Autoren: Pooyan Rahmanzadehgervi, Logan Bolton, Mohammad Reza Taesiri, Anh Totti Nguyen

Letzte Aktualisierung: 2024-07-25 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2407.06581

Quell-PDF: https://arxiv.org/pdf/2407.06581

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel