Bewertung von maschinell-generierten visuellen Geschichten
Eine neue Methode zur Bewertung der Erzählqualität bei Maschinen wird vorgestellt.
― 8 min Lesedauer
Inhaltsverzeichnis
- Was ist visuelles Geschichtenerzählen?
- Einschränkungen der aktuellen Bewertungsmethoden
- Visuelle Verankerung
- Kohärenz
- Wiederholung
- Vergleich von Maschinen- und menschlichen Geschichten
- Bewertung von Modellen
- Verwendete Datensätze
- Maschinenlernmodelle
- Beliebte Modelle
- Experimentelle Einrichtung
- Modellleistung
- Erkenntnisse
- Menschliche Bewertung
- Fazit
- Zukünftige Arbeiten
- Originalquelle
- Referenz Links
Visuelles Geschichtenerzählen bedeutet, eine Geschichte basierend auf einer Reihe von Bildern zu kreieren. Diese Aufgabe kann für Menschen und Maschinen schwierig sein. Für Maschinen ist es noch härter zu erkennen, wie gut sie Geschichten erzählen, weil es keine klare Einigung darüber gibt, was eine gute Geschichte ausmacht.
In dieser Erkundung wird eine neue Methode zur Bewertung der Story-Qualität vorgestellt. Diese Methode konzentriert sich darauf, wie sehr die generierten Geschichten denen ähneln, die von Menschen erstellt wurden. Es gibt drei Hauptpunkte: wie gut die Bilder in die Geschichte passen (Visuelle Verankerung), wie konsistent die Geschichte ist (Kohärenz) und wie wiederholend sie ist (Wiederholung).
Nachdem diese Bewertung auf verschiedene Geschichtenerzählmodelle angewandt wurde, stellte sich heraus, dass ein Modell namens LLaVA insgesamt am besten abschneidet. Ein anderes, kleineres Modell namens TAPM, das viel leichter ist, schneidet fast genauso gut ab. Als die visuellen und sprachlichen Merkmale von TAPM verbessert wurden, erzielte es Ergebnisse, die LLaVA ziemlich ähnlich waren, obwohl es kleiner ist.
Es wurde auch eine menschliche Bewertung durchgeführt, die zeigte, dass es nicht ausreicht, einfach die Ebenen von visueller Verankerung, Kohärenz und Wiederholung abzugleichen, um eine Geschichte grossartig zu machen. Die Leute bevorzugten immer noch menschlich geschriebene Geschichten gegenüber denen, die von Maschinen erstellt wurden.
Was ist visuelles Geschichtenerzählen?
Visuelles Geschichtenerzählen beinhaltet die Schaffung einer Erzählung aus einer Reihe von Bildern oder Videobildern. Es geht nicht nur darum, zu beschreiben, was in den Bildern passiert; es geht darum, sie zu einer Geschichte zu verweben, die Sinn macht. Sowohl für Menschen als auch für Maschinen ist das Verknüpfen des visuellen Inhalts entscheidend für das Geschichtenerzählen.
Eine der grössten Herausforderungen bei der Bewertung von maschinell generierten Geschichten ist ihre kreative Natur. Üblicherweise werden menschlich geschriebene Geschichten verwendet, um diese Maschinenmodelle zu trainieren, in der Annahme, dass sie einen Qualitätsstandard bieten. Der direkte Vergleich von Maschinen-Geschichten mit menschlichen fällt jedoch oft kurz. Dies liegt daran, dass wichtige Aspekte übersehen werden, wie gut die Bilder mit der Geschichte verbunden sind, wie kohärent die Geschichte insgesamt ist und wie hoch die Wiederholung ist.
Jüngste Bemühungen zielen darauf ab, diese Einschränkungen zu überwinden, indem neue Metriken vorgeschlagen werden. Diese Metriken bewerten Geschichten basierend auf ihren eigenen Verdiensten, anstatt einfach nach Ähnlichkeiten mit einer Referenzgeschichte zu suchen. Da eine Bildsequenz viele plausible Geschichten inspirieren kann, ist diese höherstufige Bewertung entscheidend.
Einschränkungen der aktuellen Bewertungsmethoden
Obwohl Kohärenz und visuelle Verankerung wichtig sind, reicht es nicht aus, sich nur auf diese Massnahmen zu verlassen, um genügend Einblick in die Story-Qualität zu erhalten. Es gibt keine festen Regeln, die die idealen Ebenen für diese Elemente bestimmen, was es schwierig macht zu wissen, wann eine Geschichte "gut" ist.
Um dies zu beheben, wird eine neue Bewertungsmethode vorgeschlagen, die misst, wie nah eine maschinell generierte Geschichte an menschlich geschriebenen ist. Dies geschieht, indem verschiedene wichtige Dimensionen mithilfe von Metriken bewertet werden, die nicht auf direkten Vergleichen mit menschlichen Geschichten basieren.
Visuelle Verankerung
Visuelle Verankerung bewertet, wie gut eine Geschichte mit den Bildern verbunden ist. Die Technik, die dafür verwendet wird, vergleicht die Substantivphrasen in der Geschichte mit den Objekten, die in den Bildern zu sehen sind. Durch die Verwendung spezifischer Bewertungen kann die Verbindung zwischen dem Text und den visuellen Elementen quantifiziert werden. Eine höhere Punktzahl zeigt eine stärkere Bindung zwischen der Geschichte und den Bildern an.
Kohärenz
Kohärenz bewertet, wie logisch verbunden die Sätze in einer Geschichte sind. Eine gängige Methode zur Bestimmung der Kohärenz besteht darin, zu berechnen, wie wahrscheinlich jeder Satz den vorherigen folgt. Dies geschieht mit Modellen, die darauf trainiert sind, Satzordnungen vorherzusagen. Eine höhere Punktzahl bedeutet, dass die Sätze gut zusammenpassen, was auf einen flüssigeren Erzählfluss hindeutet.
Wiederholung
Wiederholung überprüft auf unnötige Wiederholungen in der Geschichte. Es ist wichtig, dass Geschichten vermeiden, dieselben Phrasen oder Ideen zu oft zu wiederholen. Diese Massnahme wird berechnet, indem verschiedene Teile des Textes verglichen und nach überlappenden Wörtern gesucht werden. Eine niedrigere Punktzahl zeigt an, dass eine Geschichte weniger repetitiv ist, was im Allgemeinen als besser angesehen wird.
Vergleich von Maschinen- und menschlichen Geschichten
Um zu sehen, wie maschinell generierte Geschichten im Vergleich zu menschlichen abschneiden, werden die drei Metriken Kohärenz, visuelle Verankerung und Wiederholung angewendet. Die absoluten Unterschiede zwischen den maschinell generierten und menschlichen Geschichten werden für jede Metrik berechnet. Dann wird eine Gesamtnote bestimmt, indem diese Unterschiede gemittelt werden. Eine niedrigere Punktzahl deutet darauf hin, dass die maschinell generierte Geschichte näher an den menschlichen Standards ist.
Bewertung von Modellen
Verschiedene Maschinenmodelle, die für visuelles Geschichtenerzählen entwickelt wurden, wurden mit dieser Bewertungsmethode verglichen. Das beliebte VIST-Dataset, das Bilder und entsprechende menschlich geschriebene Geschichten enthält, diente als Benchmark.
Verwendete Datensätze
Das VIST-Dataset ist der erste grosse Datensatz, der für visuelles Geschichtenerzählen erstellt wurde. Es umfasst geordnete Bildsequenzen zusammen mit Geschichten, die von Menschen verfasst wurden. Jede Sequenz besteht typischerweise aus fünf Bildern mit einer passenden Geschichte. Dieser Datensatz hat im Laufe der Zeit viele Modelle inspiriert.
Im Gegensatz dazu sind andere Datensätze entstanden, um die Herausforderungen des Geschichtenerzählens in der realen Welt zu vereinfachen. Einige Datensätze verwenden synthetische Bilder, um die Komplexität zu begrenzen, während andere eine konsistente Charakterdarstellung durch die Verwendung von Filmszenen gewährleisten.
Maschinenlernmodelle
Es wurden mehrere computerbasierte Methoden verwendet, um Geschichten aus visuellen Daten zu generieren. Dazu gehören neuronale Netzwerke und Transformatoren. Trotz der Unterschiede in der Architektur stehen viele Modelle vor ähnlichen Herausforderungen, wenn es um die Bewertung geht.
Beliebte Modelle
GLAC Net: Dieses Modell verwendet ein Standard-Encoder-Decoder-Layout, um den globalen Kontext aus Bildsequenzen zu erfassen und Geschichten zu generieren.
AREL: Dieses Modell implementiert einen adversarialen Ansatz, bei dem ein Politikmodell, das Geschichten generiert, mit einem Belohnungsmodell gepaart wird, das diese Geschichten anhand von Referenzpunkten bewertet.
TAPM: Dieses neuere Modell kombiniert vortrainierte Sprach- und Visionselemente, um kohärente Erzählungen zu generieren.
BLIP-2 und LLaVA: Diese sind Fundamentmodelle, die für breitere Sprach- und Vision-Aufgaben entwickelt wurden. Sie können auch Geschichten generieren, wenn sie entsprechend angestossen werden.
Experimentelle Einrichtung
Geschichten wurden für den VIST-Testdatensatz mit verschiedenen Modellen generiert. Jedes Modell verwendete unterschiedliche Strategien und Einstellungen, um Erzählungen zu erstellen. Die Effektivität jedes Modells wurde basierend auf den Distanzwerten bewertet, die aus den vorgeschlagenen Bewertungsmetriken abgeleitet wurden.
Modellleistung
Die Punktzahlen zeigten, dass LLaVA Geschichten produzierte, die den menschlichen Kreationen am nächsten kamen, gefolgt von TAPM. Interessanterweise schnitt TAPM trotz seiner geringeren Grösse in Bezug auf die Qualität vergleichbar gut ab.
Erkenntnisse
Die Leistungen zeigten, wie die Verbesserung der Sprach- und visuellen Komponenten von TAPM zu besseren Geschichtenerzählfähigkeiten führte. Diese Verbesserungen machten TAPM ähnlich leistungsfähig wie LLaVA, was beweist, dass selbst kleinere Modelle mit den richtigen Upgrades starke Ergebnisse erzielen können.
Menschliche Bewertung
Um zu verstehen, ob die numerischen Punktzahlen den Wahrnehmungen der Menschen entsprachen, wurde eine menschliche Bewertung durchgeführt, bei der die beiden besten Modelle-TAPM und LLaVA-verglichen wurden. Die Teilnehmer analysierten zufällig ausgewählte, modellgenerierte Geschichten neben menschlichen Geschichten.
Die Ergebnisse der Bewertung zeigten eine klare Präferenz für menschliche Geschichten und verdeutlichten, dass maschinell generierte Erzählungen, selbst wenn sie hohe Metrikpunkte erzielen, oft bestimmte Elemente vermissen, die von menschlichen Bewertern geschätzt werden. Diese Elemente könnten emotionale Tiefe oder eine klare übergreifende Erzählung umfassen.
Fazit
Die geleistete Arbeit bietet eine neue Möglichkeit, modellgenerierte Geschichten zu bewerten, indem sie sich auf ihre Ähnlichkeiten mit menschlichen Geschichten konzentriert. Durch das Testen verschiedener Modelle wurde festgestellt, dass selbst fortschrittliche Maschinenlernmodelle weiterhin Raum zur Verbesserung in ihren Geschichtenerzählfähigkeiten haben. Obwohl die Technologie weit fortgeschritten ist, bleibt die menschliche Note in der Narrativkonstruktion einzigartig.
Zukünftige Arbeiten
Während diese Forschung wertvolle Erkenntnisse liefert, könnte der Umfang der Studie erweitert werden. Vielfältigere Datensätze und eine breitere Palette von Modellen könnten ein noch tieferes Verständnis des maschinellen Geschichtenerzählens liefern. Die Gemeinschaft wird ermutigt, Datensätze zu erstellen, die verschiedene kulturelle Perspektiven einbeziehen.
Die hier gewonnenen Erkenntnisse legen die Grundlage für zukünftige Fortschritte im visuellen Geschichtenerzählen und helfen, die Elemente zu identifizieren, die für wirklich fesselnde Erzählungen notwendig sind. Während sich das Geschichtenerzählen weiterentwickelt, können sowohl Maschinen als auch Menschen voneinander lernen, um ihre Erzählungen zu verbessern.
Titel: Not (yet) the whole story: Evaluating Visual Storytelling Requires More than Measuring Coherence, Grounding, and Repetition
Zusammenfassung: Visual storytelling consists in generating a natural language story given a temporally ordered sequence of images. This task is not only challenging for models, but also very difficult to evaluate with automatic metrics since there is no consensus about what makes a story 'good'. In this paper, we introduce a novel method that measures story quality in terms of human likeness regarding three key aspects highlighted in previous work: visual grounding, coherence, and repetitiveness. We then use this method to evaluate the stories generated by several models, showing that the foundation model LLaVA obtains the best result, but only slightly so compared to TAPM, a 50-times smaller visual storytelling model. Upgrading the visual and language components of TAPM results in a model that yields competitive performance with a relatively low number of parameters. Finally, we carry out a human evaluation study, whose results suggest that a 'good' story may require more than a human-like level of visual grounding, coherence, and repetition.
Autoren: Aditya K Surikuchi, Raquel Fernández, Sandro Pezzelle
Letzte Aktualisierung: 2024-10-25 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2407.04559
Quell-PDF: https://arxiv.org/pdf/2407.04559
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.