Kreativität in Sprachmodellen vs. menschlichen Autoren bewerten
Eine Studie, die die Kreativität in Texten von Sprachmodellen und menschlichen Autoren vergleicht.
― 6 min Lesedauer
Inhaltsverzeichnis
- Was sind grosse Sprachmodelle?
- Die Herausforderung der Kreativitätsbewertung
- Einführung des Torrance-Tests für kreatives Schreiben
- Wie der Bewertungsprozess funktioniert
- Ergebnisse der Bewertung
- Expertenurteile zu KI- und Menschenwriting
- Grenzen von LLMs in der Kreativitätsbewertung
- Die Wichtigkeit der Expertenbeteiligung
- Zukünftige Forschungsrichtungen
- Fazit
- Originalquelle
- Referenz Links
Grosse Sprachmodelle (LLMs) sind mittlerweile beliebte Werkzeuge für Schreibaufgaben, darunter Geschichten und andere kreative Werke. Auch wenn diese Modelle Texte erzeugen können, die menschlichem Schreiben ähneln, bleibt die Frage, ob sie wirklich kreative Werke produzieren können. Dieser Artikel untersucht, wie man Kreativität in von LLMs generierten Texten bewertet und vergleicht diese mit von menschlichen Autoren verfassten Werken.
Was sind grosse Sprachmodelle?
LLMs sind Computerprogramme, die künstliche Intelligenz nutzen, um Sprache zu verstehen und zu generieren. Sie werden mit riesigen Mengen an Textdaten trainiert, was es ihnen ermöglicht, kohärente und kontextuell relevante Sätze zu bilden. Zu den bekannten LLMs gehören GPT-3.5, GPT-4 und Claude. Diese Modelle können Essays schreiben, Fragen beantworten und sogar Gedichte oder Geschichten erstellen, aber ihre Kreativität ist umstritten.
Die Herausforderung der Kreativitätsbewertung
Kreativität ist schwer zu definieren und noch schwieriger zu messen. Während viele Modelle Texte generieren können, die auf den ersten Blick gut aussehen, erfordert die Beurteilung, wie kreativ dieser Text ist, einen sorgfältigen Bewertungsprozess. Kreativität umfasst oft Faktoren wie Originalität, Tiefe und emotionalen Einfluss – Qualitäten, die schwer quantifizierbar sind.
Eine Methode zur Bewertung von Kreativität ist der Torrance Test of Creative Thinking (TTCT). Dieser Test wird häufig verwendet, um die kreative Fähigkeit zu messen, indem man untersucht, wie gut Individuen divergentes Denken praktizieren – also mehrere Ideen oder Lösungen für ein Problem entwickeln. Die Anpassung dieses Tests zur Bewertung schriftlicher Texte, insbesondere Kurzgeschichten, bringt jedoch besondere Herausforderungen mit sich.
Einführung des Torrance-Tests für kreatives Schreiben
Um die Kreativität schriftlicher Texte besser zu bewerten, haben Forscher einen neuen Rahmen entwickelt, den Torrance Test for Creative Writing (TTCW). Dieser Test basiert auf dem ursprünglichen TTCT, konzentriert sich jedoch auf spezifische Aspekte des kreativen Schreibens. Der TTCW bewertet Kreativität in vier Dimensionen:
- Flüssigkeit: Die Fähigkeit, eine breite Palette von Ideen als Antwort auf einen Impuls zu generieren.
- Flexibilität: Die Vielfalt der produzierten Ideen, einschliesslich der Fähigkeit, Perspektiven zu wechseln.
- Originalität: Die Neuheit der präsentierten Ideen oder Konzepte.
- Ausarbeitung: Die Detailgenauigkeit und Tiefe, die in der Geschichte enthalten sind.
Durch die Verwendung dieser Dimensionen bietet der TTCW einen strukturierten Ansatz zur Bewertung der Kreativität in sowohl menschlichen als auch modellgenerierten Texten.
Wie der Bewertungsprozess funktioniert
Um den TTCW umzusetzen, haben Forscher eine Reihe von 14 binären Tests erstellt, die jede der vier Dimensionen bewerten. Diese Tests sind so konzipiert, dass sie leicht anzuwenden sind, sodass Experten Geschichten bewerten und Begründungen für ihre Urteile abgeben können.
Der Bewertungsprozess umfasst mehrere Schritte:
Auswahl der Geschichten: Eine Gruppe von Geschichten wird ausgewählt, darunter Texte von erfahrenen Autoren und mehrere generierte von LLMs. Dies ermöglicht einen direkten Vergleich.
Expertenbewertung: Kreativschreiber-Experten bewerten jede Geschichte anhand des TTCW-Rahmens. Jede Geschichte wird nach mehreren Kriterien bewertet, wobei die Experten eine einfache „Ja“- oder „Nein“-Antwort auf jede Frage geben und eine kurze Erklärung abgeben.
Datenanalyse: Die Bewertungen werden gesammelt und analysiert, um die Erfolgsquoten von menschlich verfassten versus von LLMs generierten Geschichten über die verschiedenen TTCW-Dimensionen zu bestimmen.
Ergebnisse der Bewertung
Forscher haben eine Studie mit 48 Geschichten durchgeführt – 12 von Menschen geschriebene Geschichten aus renommierten Quellen und 36 Geschichten, die von verschiedenen LLMs generiert wurden. Die Ergebnisse der Bewertung zeigten mehrere wichtige Erkenntnisse.
Leistung menschlich verfasster Geschichten
Menschliche Autoren, insbesondere solche, die in angesehenen Medien veröffentlicht sind, hatten eine hohe Erfolgsquote beim Bestehen der TTCW-Tests. Im Durchschnitt bestanden diese Geschichten etwa 84,7 % der Gesamttests, was ihre Fähigkeit zeigt, die Kriterien für Kreativität effektiv zu erfüllen. Diese hohe Bestehensquote deutet darauf hin, dass erfahrene Schriftsteller im Allgemeinen gut entwickelte und kreative Arbeiten produzieren.
Leistung von LLM-generierten Geschichten
Im Gegensatz dazu wiesen LLM-generierte Geschichten bemerkenswerte Defizite beim Bestehen der TTCW-Tests auf. Abhängig vom Modell bestanden diese Geschichten zwischen 9 % und 30 % der Tests. Insgesamt erwies es sich, dass LLMs drei bis zehnmal weniger wahrscheinlich einzelne TTCW-Tests bestanden als menschlich verfasste Geschichten.
Detaillierte Analyse der Ergebnisse
Bei der Analyse, welche LLMs am besten abgeschnitten haben, wurde festgestellt, dass GPT-4 eine etwas höhere Wahrscheinlichkeit aufwies, bei Tests, die sich auf Originalität konzentrierten, zu bestehen, während Claude in Bereichen wie Flüssigkeit und Flexibilität besser abschnitt. Dennoch lagen alle Modelle hinter menschlichen Autoren zurück, was die kreative Lücke deutlich macht.
Expertenurteile zu KI- und Menschenwriting
Zusätzlich zur Bewertung der Geschichten wurden die Experten auch gebeten, ihre Präferenzen unter den Geschichten zu bewerten und ihre Ursprünge zu schätzen. Die Ergebnisse zeigten eine starke Präferenz für von Menschen geschriebene Geschichten im Vergleich zu denen, die von LLMs generiert wurden. Die meisten menschlich verfassten Geschichten wurden bevorzugt, während LLM-generierte Geschichten oft als weniger beeindruckend oder als Werke von Amateurautoren betrachtet wurden.
Grenzen von LLMs in der Kreativitätsbewertung
Eine Untersuchung der Fähigkeit von LLMs zur Bewertung von Kreativität ergab, dass diese Modelle oft nicht mit den Bewertungen von Experten übereinstimmen. Trotz Fortschritten in der LLM-Technologie produzierten sie nicht signifikante Bewertungen, die mit den Expertenbewertungen übereinstimmten. Das deutet darauf hin, dass, während LLMs ansprechende Texte generieren können, ihnen das nuancierte Verständnis fehlt, das erforderlich ist, um Kreativität effektiv zu bewerten.
Die Wichtigkeit der Expertenbeteiligung
Die Einbeziehung von Experten für kreatives Schreiben in den Bewertungsprozess ist entscheidend. Ihre Einsichten helfen sicherzustellen, dass die Bewertungen gültig und zuverlässig sind. Experten können Feinheiten im Schreiben identifizieren, die LLMs möglicherweise übersehen, wie Charakterentwicklung, Erzählgeschwindigkeit und den Einsatz literarischer Mittel.
Zukünftige Forschungsrichtungen
Während LLMs sich weiterentwickeln, gibt es Potenzial, dass sie sowohl in der Generierung kreativer Inhalte als auch in der Bewertung von Kreativität besser werden. Forscher hoffen, dass sie durch die Verfeinerung des TTCW-Rahmens und die Erkundung interaktiver Werkzeuge LLMs letztendlich in die Lage versetzen können, Autoren wertvollere Rückmeldungen zu geben.
Dieser Rahmen kann eine effektivere Zusammenarbeit zwischen menschlichen Schriftstellern und KI-Tools ermöglichen, indem er sich auf spezifische Bereiche der Kreativität konzentriert. Indem LLMs gezielte Rückmeldungen geben, können sie den kreativen Schreibprozess unterstützen und Autoren helfen, ihr Handwerk zu verbessern.
Fazit
Zusammenfassend zeigt die Untersuchung der Kreativität im Kontext von LLMs und traditionellem menschlichen Schreiben signifikante Unterschiede in der Leistung. Während LLMs Texte erzeugen können, die menschlichem Schreiben ähneln, bleibt ihre kreative Fähigkeit, wie durch den TTCW-Rahmen gezeigt, immer noch hinter den Erwartungen zurück. Laufende Forschung auf diesem Gebiet könnte zu Fortschritten führen, die die Lücke schliessen und sowohl die Fähigkeit von LLMs, ansprechende Inhalte zu generieren, als auch ihre Fähigkeit zur effektiven Bewertung von Kreativität verbessern.
Durch ein tieferes Verständnis kreativer Prozesse können Forscher dazu beitragen, innovative Werkzeuge zu entwickeln, die Schriftsteller in ihren künstlerischen Bestrebungen unterstützen und letztendlich die Landschaft des kreativen Schreibens im digitalen Zeitalter bereichern.
Titel: Art or Artifice? Large Language Models and the False Promise of Creativity
Zusammenfassung: Researchers have argued that large language models (LLMs) exhibit high-quality writing capabilities from blogs to stories. However, evaluating objectively the creativity of a piece of writing is challenging. Inspired by the Torrance Test of Creative Thinking (TTCT), which measures creativity as a process, we use the Consensual Assessment Technique [3] and propose the Torrance Test of Creative Writing (TTCW) to evaluate creativity as a product. TTCW consists of 14 binary tests organized into the original dimensions of Fluency, Flexibility, Originality, and Elaboration. We recruit 10 creative writers and implement a human assessment of 48 stories written either by professional authors or LLMs using TTCW. Our analysis shows that LLM-generated stories pass 3-10X less TTCW tests than stories written by professionals. In addition, we explore the use of LLMs as assessors to automate the TTCW evaluation, revealing that none of the LLMs positively correlate with the expert assessments.
Autoren: Tuhin Chakrabarty, Philippe Laban, Divyansh Agarwal, Smaranda Muresan, Chien-Sheng Wu
Letzte Aktualisierung: 2024-03-08 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2309.14556
Quell-PDF: https://arxiv.org/pdf/2309.14556
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://www.newyorker.com/books/flash-fiction/a-triangle
- https://www.newyorker.com/books/flash-fiction/barbara-detroit-1966
- https://www.newyorker.com/books/flash-fiction/beyond-nature
- https://www.newyorker.com/books/flash-fiction/certain-european-movies
- https://www.newyorker.com/books/flash-fiction/keys
- https://www.newyorker.com/books/flash-fiction/listening-for-the-click
- https://www.newyorker.com/magazine/2023/05/15/maintenance-hvidovre-fiction-olga-ravn
- https://www.newyorker.com/magazine/2022/11/14/returns
- https://www.newyorker.com/books/flash-fiction/the-facade-renovation-thats-going-well
- https://www.newyorker.com/books/flash-fiction/the-kingdom-that-failed
- https://www.newyorker.com/magazine/2022/06/13/trash
- https://www.newyorker.com/culture/personal-history/the-last-dance-with-my-dad
- https://the-decoder.com/gpt-4-architecture-datasets-costs-and-more-leaked/
- https://github.com/salesforce/creativity_eval
- https://www.sudowrite.com/
- https://openai.com
- https://www.anthropic.com
- https://www.writingclasses.com/toolbox/articles/stretching-and-shrinking-time
- https://creativenonfiction.org/syllabus/scene-summary/
- https://en.wikipedia.org/wiki/Narrative
- https://dl.acm.org/ccs.cfm
- https://www.newyorker.com/culture/cultural-comment/the-computers-are-getting-better-at-writing
- https://www.acm.org/publications/proceedings-template
- https://capitalizemytitle.com/
- https://www.acm.org/publications/class-2012
- https://dl.acm.org/ccs/ccs.cfm
- https://ctan.org/pkg/booktabs
- https://goo.gl/VLCRBB
- https://www.acm.org/publications/taps/describing-figures/
- https://www.newyorker.com/tag/short-stories
- https://www.userinterviews.com
- https://www.newyorker.com/books/flash-fiction/the-mirror