Bewertung von Sprachmodellen mit Diagrammdaten

Inhaltsverzeichnis

Faktenüberprüfung mit Diagrammen
Diagramm-Zusammenfassungsstudie
Offene Diagramm-Fragen-Antworten-Aufgabe
Vier Ebenen der Semantik
Evaluierungsergebnisse
Prompt-Konstruktion
Zusätzliche experimentelle Ergebnisse
Semantische Bewertungsergebnisse
Häufige Fehler und Halluzinationen
Fazit
Originalquelle
Referenz Links

In unserer Forschung nutzen wir das ChartQA-Dataset, besonders dessen Testset. Dieses Testset hat zwei Haupttypen von Fragen: solche, die von Menschen erstellt wurden, und solche, die von Modellen generiert wurden. Es gibt 625 verschiedene Diagramme mit insgesamt 1250 Frage-Antwort-Paaren, die von Menschen erstellt wurden. Das von Modellen erstellte Set besteht aus 987 einzigartigen Diagrammen mit ebenfalls 1250 Frage-Antwort-Paaren.

Wir ändern dieses Dataset ein wenig. In unserer Version haben die Diagramme keine Datenlabels, die genaue Werte neben den Elemente des Diagramms, wie Balken oder Linien, anzeigen. Stattdessen muss das Modell diese Werte ermitteln, indem es sich die Diagramme ansieht und Hinweise wie die Höhe der Balken und die Beschriftungen auf den Achsen nutzt. Wir machen das, um zu testen, ob die Leistung von Sprachmodellen davon abhängt, ob es klare Labels gibt, oder ob sie auch mit visuellen Hinweisen arbeiten können. Für diese Version haben wir ein Tool namens Matplotlib verwendet und die Datenlabels entfernt, während alles andere unverändert blieb. Von den 1509 Diagrammbildern, die wir uns angesehen haben, wurden 1340 erfolgreich modifiziert, während 169 Bilder nicht verwendet wurden, da sie wichtige Metadaten fehlten.

Faktenüberprüfung mit Diagrammen

Für einen anderen Teil unserer Studie haben wir das ChartFC-Dataset genutzt. Dieses Dataset ist so gestaltet, dass jede Eintragung eine klar formulierte Behauptung in Worten, ein dazugehöriges Diagrammbild und ein Label enthält, das angibt, ob das Diagramm die Behauptung "unterstützt" oder "widerspricht". Wir schauen uns Sprachmodelle im Testset dieses Datasets an, das 885 Beispiele enthält, die die Behauptungen unterstützen, und 706, die ihnen widersprechen. Das Dataset besteht hauptsächlich aus Balkendiagrammen, die entweder horizontal oder vertikal sein können.

Diagramm-Zusammenfassungsstudie

In unserer Arbeit zur Zusammenfassung von Diagrammen verwenden wir den Chart-to-Text-Benchmark. Dieser Benchmark besteht aus zwei Haupt-Datasets: Statista und Pew. Jedes Beispiel in beiden Datasets hat ein Diagrammbild, eine zugrunde liegende Datentabelle, einen Diagrammtitel und eine von einer Person verfasste Zusammenfassung. Für unsere Experimente nutzen wir das gesamte Testset aus beiden Datasets, das 1.393 Proben von Pew und 5.222 Proben von Statista umfasst.

Offene Diagramm-Fragen-Antworten-Aufgabe

Um zu sehen, wie gut Sprachmodelle bei offenen Diagrammfragen abschneiden, verwenden wir das OpenCQA-Dataset. Dieses Dataset enthält fünf Diagrammtypen: Balken, Linien, Flächen, Streu- und Tortendiagramme. In unseren Experimenten nehmen wir das Testset, das 1159 Diagramme sowie 1159 Frage-Antwort-Paare umfasst.

Vier Ebenen der Semantik

Um die Modelle auf vier semantischen Ebenen zu bewerten, verwenden wir Diagramme aus dem ChartQA-Dataset und wählen 50 Beispiele für die Ebenen 1, 2 und 3 und 150 Beispiele für die Ebene 4 aus.

Evaluierungsergebnisse

Leistungskennzahlen

Wir bewerten verschiedene Modelle auf dem OpenCQA-Dataset. Höhere Werte sind besser, während niedrigere Werte für bestimmte Kennzahlen besser sind.

Modell	Kennzahl 1	Kennzahl 2	Kennzahl 3	Kennzahl 4
Gemini	52.04	38.53	13.51%
GPT-4V	57.51	20.52	36.99%

Entspannte Genauigkeit

Die ChartQA-Ergebnisse zeigen, wie die Modelle auf den regulären und modifizierten ChartQA-Testsets abgeschnitten haben. Der Rückgang der Leistung im Vergleich zu den Standard-ChartQA-Daten wird ebenfalls erwähnt.

Dataset	Modell	Leistung 1	Leistung 2
Pew	Gemini	-0.3	1.79
Statista	GPT-4V	-0.3	1.34

Prompt-Konstruktion

Um die besten Prompts für die Modelle zu finden, haben wir viele Strategien ausprobiert und diejenige ausgewählt, die konstante Ergebnisse geliefert hat. Im Zero-Shot-PAL-Experiment haben wir einen Prompt erstellt, der das Modell auffordert, ein Python-Skript zu schreiben, das bei Ausführung die endgültige Antwort erzeugt. Für den 4-Level-Semantik-Test haben wir spezifische Fragen für jede semantische Ebene formuliert, um zu sehen, wie gut die Modelle verschiedene Bedeutungslevels im Diagrammbild erkennen können.

Beispiele für verwendete Prompts

Aufgabenbeispiele:

ChartQA
- CoT-Prompt: Gib das Diagrammbild und eine Frage an, um eine Antwort zu generieren.
- PAL-Prompt: Erstelle ein Python-Skript für die Eingangsfrage.
4-Level Semantik
- Ebene 1: Fragen zum Diagrammtyp, zu Achsenbeschriftungen, Farbbedeutungen usw.
- Ebene 2: Fragen zu maximalen und minimalen Werten, Ausreissern usw.
- Ebene 3: Fragen zu Trends oder Mustern im Diagramm.
- Ebene 4: Analysiere das Diagramm in einem Absatz.
Offene Diagramm QA-Prompt: Gib eine Antwort auf die folgende Frage basierend auf dem bereitgestellten Diagramm.
Diagramm-Zusammenfassungs-Prompt: Fasse das Diagramm zusammen und betone Trends und wichtige Datenpunkte.
Faktenüberprüfung mit Diagrammen-Prompt: Bestimme, ob die Eingangsbehauptung durch das Diagramm unterstützt wird.

Zusätzliche experimentelle Ergebnisse

Hier zeigen wir weitere Details aus unseren automatischen Bewertungen über drei Datasets: Chart-to-Text, OpenCQA und das modifizierte ChartQA-Benchmark.

Leistungstabellen

Wir fügen Tabellen bei, die die Leistung der Modelle in verschiedenen Kennzahlen für verschiedene Datasets darstellen. Ein Beispiel würde zeigen, wie gut jedes Modell im Chart-to-Text-Dataset abgeschnitten hat.

Beispielausgaben

Wir präsentieren auch Beispiele für Antworten von verschiedenen Modellen auf spezifische Fragen aus dem ChartQA-Testset, sowohl richtige als auch falsche Antworten.

Semantische Bewertungsergebnisse

Bewertung der Ebene 1

In der Ebene 1 beantworten Modelle einfache Fragen wie, um welchen Diagrammtyp es sich handelt und welche Werte die Achsen haben. Wenn beispielsweise nach dem Diagrammtyp gefragt wird, könnte ein Modell einfach "Balkendiagramm" sagen, während ein anderes es ausführlicher beschreiben könnte.

Bewertung der Ebene 2

In der Ebene 2 müssen die Modelle numerische Bereiche und Werte identifizieren. Sie könnten beispielsweise angeben, welche Achse die maximalen Werte hat und was diese Werte sind.

Bewertung der Ebene 3

In den Bewertungen der Ebene 3 beschreiben die Modelle Trends, die in den Diagrammen zu sehen sind. Sie sollten in der Lage sein, aufsteigende oder fallende Trends basierend auf den in den Diagrammen dargestellten Daten zu erkennen.

Bewertung der Ebene 4

Schliesslich geben die Modelle in der Ebene 4 eine tiefere Analyse der Diagramme. Sie sollten in der Lage sein, die Auswirkungen der Daten zu diskutieren, Regionen oder Gruppen zu vergleichen und möglicherweise Gründe für das, was sie sehen, zu nennen.

Häufige Fehler und Halluzinationen

Während der Tests vermerken wir häufige Fehler und Halluzinationen in den Ausgaben der Modelle. Manchmal machen Modelle Fehler bei Farben, Trends oder spezifischen Datenpunkten. Wir kategorisieren diese Fehler in subjektive Antworten, Widersprüche und erfundene Informationen.

Fazit

Zusammenfassend haben wir analysiert, wie Sprachmodelle Diagrammdaten auf verschiedene Arten interpretieren können, von einfacher Identifizierung bis hin zu detaillierter Analyse. Diese Studie ermöglicht es uns, ihre Fähigkeiten und Bereiche, die Verbesserungsbedarf haben, besonders im Kontext der visuellen Dateninterpretation, zu bewerten.

Zukünftige Arbeit

In Zukunft wollen wir verfeinern, wie Modelle Diagrammdaten verarbeiten und analysieren, uns auf eine klarere Kommunikation von Ergebnissen konzentrieren und ihre Genauigkeit bei der Erstellung von Zusammenfassungen und Antworten basierend auf visuellen Informationen verbessern.

Bewertung von Sprachmodellen mit Diagrammdaten

Diese Studie untersucht, wie Modelle Diagrammdaten interpretieren und ihre Leistung bei verschiedenen Aufgaben.

Faktenüberprüfung mit Diagrammen

Diagramm-Zusammenfassungsstudie

Offene Diagramm-Fragen-Antworten-Aufgabe

Vier Ebenen der Semantik

Evaluierungsergebnisse

Leistungskennzahlen

Entspannte Genauigkeit

Prompt-Konstruktion

Beispiele für verwendete Prompts

Zusätzliche experimentelle Ergebnisse

Leistungstabellen

Beispielausgaben

Semantische Bewertungsergebnisse

Bewertung der Ebene 1

Bewertung der Ebene 2

Bewertung der Ebene 3

Bewertung der Ebene 4

Häufige Fehler und Halluzinationen

Fazit

Zukünftige Arbeit

Referenz Links

Referenzierte Themen

Bewertung von Sprachmodellen mit Diagrammdaten

Diese Studie untersucht, wie Modelle Diagrammdaten interpretieren und ihre Leistung bei verschiedenen Aufgaben.

#Faktenüberprüfung mit Diagrammen

#Diagramm-Zusammenfassungsstudie

#Offene Diagramm-Fragen-Antworten-Aufgabe

#Vier Ebenen der Semantik

#Evaluierungsergebnisse

#Leistungskennzahlen

#Entspannte Genauigkeit

#Prompt-Konstruktion

#Beispiele für verwendete Prompts

#Zusätzliche experimentelle Ergebnisse

#Leistungstabellen

#Beispielausgaben

#Semantische Bewertungsergebnisse

#Bewertung der Ebene 1

#Bewertung der Ebene 2

#Bewertung der Ebene 3

#Bewertung der Ebene 4

#Häufige Fehler und Halluzinationen

#Fazit

#Zukünftige Arbeit

Referenz Links

Referenzierte Themen

Faktenüberprüfung mit Diagrammen

Diagramm-Zusammenfassungsstudie

Offene Diagramm-Fragen-Antworten-Aufgabe

Vier Ebenen der Semantik

Evaluierungsergebnisse

Leistungskennzahlen

Entspannte Genauigkeit

Prompt-Konstruktion

Beispiele für verwendete Prompts

Zusätzliche experimentelle Ergebnisse

Leistungstabellen

Beispielausgaben

Semantische Bewertungsergebnisse

Bewertung der Ebene 1

Bewertung der Ebene 2

Bewertung der Ebene 3

Bewertung der Ebene 4

Häufige Fehler und Halluzinationen

Fazit

Zukünftige Arbeit