Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Rechnen und Sprache# Künstliche Intelligenz

Können LLMs mit menschlichen Schriftstellern konkurrieren?

Eine Studie vergleicht grosse Sprachmodelle und die besten menschlichen Autoren im kreativen Schreiben.

― 5 min Lesedauer


LLMs vs. MenschlicheLLMs vs. MenschlicheAutorenkreativen Schreibfähigkeiten.Ein Wettbewerb zeigt die Lücke in den
Inhaltsverzeichnis

Mit den Fortschritten in der Technologie haben grosse Sprachmodelle (LLMs) starke Fähigkeiten gezeigt, Texte zu erstellen, die menschlichem Schreiben ähneln. Dazu gehören auch kreative Schreibaufgaben. Die Hauptfrage hier ist: Sind diese Modelle bereit, mit aussergewöhnlichen menschlichen Autoren, wie preisgekrönten Schriftstellern, zu konkurrieren?

Um diese Frage zu erforschen, wurde ein Wettbewerb zwischen einem bekannten Schriftsteller und einem fortgeschrittenen LLM organisiert. Der Autor gab 30 Titel vor und schrieb Geschichten basierend auf diesen Titeln, während das LLM dasselbe tat. Eine Bewertung wurde durch Experten vorgenommen, um zu verstehen, wie gut jeder abgeschnitten hat.

Leistungvergleich

Es ist inzwischen gang und gäbe, Berichte zu sehen, in denen LLMs besser abschneiden als durchschnittliche Menschen in verschiedenen Sprachaufgaben. Es ist jedoch wichtig, nicht nur auf die durchschnittlichen Fähigkeiten zu schauen, sondern darauf, ob LLMs mit den besten menschlichen Autoren in kreativen Aufgaben mithalten können. Ziel dieser Studie war es, zu sehen, ob LLMs solche hohen Standards erreichen können.

Der Wettbewerb umfasste einen bemerkenswerten Schriftsteller und ein führendes LLM. beiden wurden die gleichen Aufgaben gegeben und ihre Ergebnisse wurden gemäss einem definierten Bewertungsrahmen bewertet. Die Analyse ergab, dass LLMs noch einen langen Weg vor sich haben, bevor sie die besten menschlichen Schriftsteller effektiv herausfordern können.

Die Rolle von Eingaben

Die Art und Weise, wie Eingaben gestaltet werden, kann die Kreativität des generierten Textes stark beeinflussen. Frühere Studien haben gezeigt, dass verschiedene Eingaben LLMs dazu führen können, kreativere Inhalte zu produzieren. In diesem Experiment wurden die Titel sowohl vom LLM als auch vom menschlichen Schriftsteller erstellt. Das erlaubte es, einen Vergleich zu ziehen, um zu sehen, wie die Quelle der Eingabe die Qualität der resultierenden Texte beeinflusste.

Die Ergebnisse zeigten, dass die Qualität des Outputs signifikant besser wurde, wenn das LLM Titel verwendete, die vom menschlichen Autor erstellt wurden. Im Gegensatz dazu waren die Ergebnisse tendenziell weniger beeindruckend, wenn das LLM seine eigenen Titel erstellte. Das deutet darauf hin, dass Eingaben eine entscheidende Rolle dabei spielen, wie effektiv LLMs kreatives Schreiben produzieren können.

Sprachfähigkeiten und Leistung

Ein weiteres Untersuchungsfeld war, ob LLMs in anderen Sprachen als Englisch weniger effektiv sind. Die meisten grossen Modelle werden hauptsächlich mit englischen Daten trainiert, was zu unausgewogenen Leistungen in verschiedenen Sprachen führen kann. Diese Studie bewertete die Leistung eines LLMs sowohl in Englisch als auch in Spanisch, um festzustellen, ob es bemerkbare Unterschiede gibt.

Die Ergebnisse zeigten, dass das LLM in Englisch deutlich besser abschnitt als in Spanisch. Das deutet darauf hin, dass es mehr umfassende Trainingsdaten in verschiedenen Sprachen braucht, um die kreativen Schreibfähigkeiten von LLMs in unterschiedlichen sprachlichen Umgebungen zu verbessern.

Erkennbare Stile im LLM-Output

Ein interessantes Ergebnis der Studie war, ob Experten Texte, die vom LLM generiert wurden, von denen, die von einem Menschen geschrieben wurden, unterscheiden konnten. Die Bewerter zeigten einen Lernprozess und wurden im Laufe der Zeit besser darin, die einzigartigen Eigenschaften des Schreibens des LLM zu erkennen. Das deutet darauf hin, dass LLMs zwar menschliches Schreiben nachahmen können, es aber trotzdem konsistente Muster gibt, die von erfahrenen Lesern erkannt werden können.

Kreativität messen

Die Studie hatte zum Ziel, die Kreativität in den von sowohl dem LLM als auch dem menschlichen Autor produzierten Texten zu messen. Ein auf Kreativitätsprinzipien basierender Rahmen wurde angewendet, der sich auf Elemente wie Neuheit, Überraschung und Wert konzentrierte. Die Ergebnisse bestätigten, dass Attraktivität und Originalität eng mit der wahrgenommenen Kreativität verbunden sind, wobei Originalität eine besonders starke Rolle spielt.

Wichtige Ergebnisse

Die wichtigsten Ergebnisse der Forschung sind wie folgt:

  1. LLMs wie GPT-4 erreichen derzeit nicht die kreativen Schreibfähigkeiten der besten menschlichen Autoren. Expertenbewertungen favorisierten durchweg den menschlichen Schriftsteller in allen untersuchten Qualitätsdimensionen.

  2. Die verwendeten Eingaben beeinflussen signifikant die Kreativität des Outputs. Titel vom menschlichen Autor führten zu deutlich besseren Ergebnissen für das LLM.

  3. Das LLM hatte mehr Schwierigkeiten in Spanisch im Vergleich zu Englisch, was auf eine Vorliebe für die Dominanz englischer Trainingsdaten hinweist.

  4. Bewerter konnten im Laufe der Zeit den Schreibstil des LLM erkennen, was darauf hindeutet, dass dessen Outputs distincte Merkmale haben.

  5. Der vorgeschlagene Rahmen zur Messung von Kreativität erwies sich als effektiv und hob die Bedeutung von Originalität und Attraktivität bei der Bewertung kreativer Outputs hervor.

Implikationen für zukünftige Forschung

Anstatt zu schlussfolgern, dass LLMs menschliche Schriftsteller ersetzen können, ist es wichtig, ihre Grenzen anzuerkennen. Die Modelle sind in spezifischen Aufgaben hervorragend, scheitern jedoch oft daran, die tiefere Bedeutung und den originalen Gedanken zu liefern, die aus menschlicher Kreativität kommen können. Diese Ergebnisse ebnen den Weg für weitere Studien, die untersuchen könnten, wie LLMs in kreativem Schreiben besser genutzt werden könnten.

Zukünftige Forschung könnte mehrere Richtungen einschlagen:

  • Experimente mit verschiedenen kreativen Aufgaben durchführen und untersuchen, wie Eingaben optimiert werden können, um die Textqualität zu verbessern.
  • Publikumsreaktionen neben Expertenbewertungen einbeziehen, um das breitere Echo kreativer Texte besser zu verstehen.
  • Verschiedene Modelle und Architekturen erforschen, um zu sehen, wie sie in kreativen Kontexten abschneiden.

Fazit

Zusammenfassend lässt sich sagen, dass, obwohl LLMs erhebliche Fortschritte bei der Erzeugung menschenähnlicher Texte gemacht haben, sie noch nicht in der Lage sind, die kreativen Prozesse der besten menschlichen Autoren vollständig zu replizieren. Sie können wertvolle Werkzeuge zur Unterstützung beim Schreiben sein, aber die Einzigartigkeit, Tiefe und Absicht, die in menschlicher Autorschaft zu finden sind, bleiben für selbst die besten LLMs eine Herausforderung. Während die Technologie weiterentwickelt wird, wird es spannend sein zu sehen, wie sich diese Interaktionen zwischen Mensch und Maschine im Bereich des kreativen Schreibens weiter entwickeln.

Originalquelle

Titel: Pron vs Prompt: Can Large Language Models already Challenge a World-Class Fiction Author at Creative Text Writing?

Zusammenfassung: It has become routine to report research results where Large Language Models (LLMs) outperform average humans in a wide range of language-related tasks, and creative text writing is no exception. It seems natural, then, to raise the bid: Are LLMs ready to compete in creative writing skills with a top (rather than average) novelist? To provide an initial answer for this question, we have carried out a contest between Patricio Pron (an awarded novelist, considered one of the best of his generation) and GPT-4 (one of the top performing LLMs), in the spirit of AI-human duels such as DeepBlue vs Kasparov and AlphaGo vs Lee Sidol. We asked Pron and GPT-4 to provide thirty titles each, and then to write short stories for both their titles and their opponent's. Then, we prepared an evaluation rubric inspired by Boden's definition of creativity, and we collected 5,400 manual assessments provided by literature critics and scholars. The results of our experimentation indicate that LLMs are still far from challenging a top human creative writer, and that reaching such level of autonomous creative writing skills probably cannot be reached simply with larger language models.

Autoren: Guillermo Marco, Julio Gonzalo, Ramón del Castillo, María Teresa Mateo Girona

Letzte Aktualisierung: 2024-07-01 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2407.01119

Quell-PDF: https://arxiv.org/pdf/2407.01119

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Ähnliche Artikel