Bewertung der Fähigkeiten von LLMs im narrativen Denken
Diese Studie bewertet, wie gut LLMs narrative Tropen in Filmbeschreibungen verstehen.
Hung-Ting Su, Ya-Ching Hsu, Xudong Lin, Xiang-Qian Shi, Yulei Niu, Han-Yuan Hsu, Hung-yi Lee, Winston H. Hsu
― 4 min Lesedauer
Inhaltsverzeichnis
Grosse Sprachmodelle (LLMs) haben bei Denkaufgaben enorme Fortschritte gemacht. Sie schlagen sich gut in Bereichen wie Mathe, Alltagswissen und Logik, wenn man sie mit strukturierten Aufforderungen namens Chain-of-Thought (CoT) anleitet. Ihre Fähigkeiten im narrativen Denken, das mehr abstraktes Denken erfordert, sind jedoch weniger klar. Diese Studie untersucht, wie gut LLMs narrative Tropen in Filmzusammenfassungen verstehen. Wir stellen fest, dass die Leistung der LLMs in diesem Bereich ziemlich niedrig ist.
Forschungsüberblick
Wir konzentrieren uns auf Tropen, die wiederkehrende Themen oder Motive im Geschichtenerzählen sind, und bewerten die Fähigkeiten der LLMs, diese Tropen in Film-Synopsen zu erkennen. Wir verwenden eine Methode namens tropenweises Abfragen, bei der die LLMs jeweils nach einer einzelnen Tropen gefragt werden. Dieser Ansatz hat die Leistung um 11,8 Punkte im F1-Score verbessert. Während frühere Forschungen behaupteten, dass CoT bei Denkaufgaben hilft, zeigt unsere Studie, dass es in narrativen Kontexten zu Ungenauigkeiten führen kann, was die Leistung von Modellen wie GPT-4 verringert.
Herausforderungen im narrativen Denken
Narratives Denken unterscheidet sich vom faktischen Denken, das auf klaren Daten und logischen Schlussfolgerungen beruht. Narrativen zu verstehen, bedeutet, komplexe Themen, Charaktermotivationen und Ereignisse jenseits direkter Beobachtung zu erfassen. Zum Beispiel beinhaltet eine Tropen wie "Heroischer Opfertod" nicht nur, dass ein Charakter alles für eine grössere Sache opfert, sondern erfordert auch das Bewusstsein für tiefere thematische Elemente wie Selbstlosigkeit und den Wert des Lebens.
Abstrakte Konzepte
Tropen erfordern oft, dass LLMs Ideen verbinden, die nicht sofort verknüpft sind, was es ihnen schwerer macht, sinnvolle Schlussfolgerungen zu ziehen. Wenn ein Charakter auf subtile Weise Liebe zur Freiheit ausdrückt, könnte das später mit einem Opfer, das er bringt, verbunden sein. Wenn LLMs Ideen zufällig zusammenziehen, ohne angemessen zu argumentieren, kann das zu Halluzinationen oder falschen Schlussfolgerungen führen.
Vergleich mit bestehenden Aufgaben
Traditionelle Aufgaben wie mathematisches Denken und natürliche Sprachinferenz (NLI) erfordern logisches Denken, verlangen jedoch nicht das gleiche Mass an thematischer Analyse und symbolischem Denken wie das Verständnis von Tropen. Die Komplexität des narrativen Denkens hebt die Lücken in den Fähigkeiten der LLMs hervor.
Ergebnisse
Als wir die LLMs mit dem Trope in Movie Synopses (TiMoS) Datensatz neu bewerteten, hatten selbst fortschrittliche Modelle wie GPT-4 Schwierigkeiten und lagen oft auf dem Niveau von Zufallsguessungen, trotz CoT-Aufforderungen. Unsere Ergebnisse betonen die Unzulänglichkeiten der LLMs, Tropen effektiv zu erfassen.
Tropenweises Abfragen
Durch die Neugestaltung der Aufgabe, um sich jeweils auf eine Tropen zu konzentrieren, beobachteten wir einen signifikanten Leistungsanstieg. Das deutet darauf hin, dass LLMs Schwierigkeiten haben, mehrere Konzepte gleichzeitig zu verarbeiten. Unsere Ergebnisse zeigen, dass gezieltere Aufforderungen notwendig sind, um eine bessere Tropenerkennung in LLMs zu erreichen.
Einschränkungen von Chain-of-Thought
Obwohl CoT als hilfreich für das Denken gilt, fanden wir heraus, dass es in bestimmten Kontexten, insbesondere im narrativen Denken, die Leistung tatsächlich verringern kann. In unserer Analyse stellten wir fest, dass CoT manchmal zu Halluzinationen führt und die Anfälligkeit für irreführende Eingaben erhöht.
Adversarielle Injektion
Um diese Tendenz weiter zu untersuchen, führten wir eine Methode der adversarielle Injektion ein. Dabei werden verwandte Texttokens in eine Synopsis eingebettet, ohne die Tropen explizit zu nennen. Unsere Ergebnisse zeigten, dass LLMs manchmal richtige Antworten generieren können, dies aber oft mit fehlerhaftem Denken tun.
Implikationen für zukünftige Forschung
Unsere Studie hebt wichtige Herausforderungen bei der Verbesserung der LLM-Leistung in Bezug auf narrativen Denken hervor. Durch die Fokussierung auf Tropen in Filmzusammenfassungen sehen wir einen klaren Bedarf, das Verständnis narrativer Strukturen innerhalb der LLMs zu verbessern. Es gibt viel Raum für weitere Erkundung, wie LLMs verfeinert werden können, um komplexe Geschichten besser zu verstehen.
Fazit
Diese Arbeit hebt die kritischen Lücken in den aktuellen LLMs hervor, wenn es um narratives Denken geht, insbesondere in Bezug auf Tropen. Die Integration von fokussierten Abfragemethoden und die Verfeinerung der CoT-Anwendungen könnten den Weg für eine verbesserte Leistung in zukünftigen Modellen ebnen. Diese Erkenntnisse eröffnen Möglichkeiten für zuverlässigere LLM-Anwendungen und beleuchten, wie man die komplexen Herausforderungen des narrativen Denkens angehen kann.
Titel: Unveiling Narrative Reasoning Limits of Large Language Models with Trope in Movie Synopses
Zusammenfassung: Large language models (LLMs) equipped with chain-of-thoughts (CoT) prompting have shown significant multi-step reasoning capabilities in factual content like mathematics, commonsense, and logic. However, their performance in narrative reasoning, which demands greater abstraction capabilities, remains unexplored. This study utilizes tropes in movie synopses to assess the abstract reasoning abilities of state-of-the-art LLMs and uncovers their low performance. We introduce a trope-wise querying approach to address these challenges and boost the F1 score by 11.8 points. Moreover, while prior studies suggest that CoT enhances multi-step reasoning, this study shows CoT can cause hallucinations in narrative content, reducing GPT-4's performance. We also introduce an Adversarial Injection method to embed trope-related text tokens into movie synopses without explicit tropes, revealing CoT's heightened sensitivity to such injections. Our comprehensive analysis provides insights for future research directions.
Autoren: Hung-Ting Su, Ya-Ching Hsu, Xudong Lin, Xiang-Qian Shi, Yulei Niu, Han-Yuan Hsu, Hung-yi Lee, Winston H. Hsu
Letzte Aktualisierung: 2024-09-22 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2409.14324
Quell-PDF: https://arxiv.org/pdf/2409.14324
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.