Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage# Intelligence artificielle

Les LLM peuvent-ils rivaliser avec les écrivains humains ?

Une étude compare les grands modèles de langage et les meilleurs auteurs humains en écriture créative.

― 6 min lire


LLMs vs. ÉcrivainsLLMs vs. ÉcrivainsHumainscompétences en écriture créative.Un concours révèle le fossé dans les
Table des matières

Avec les avancées technologiques, les Grands Modèles de Langage (LLMs) ont montré de solides compétences pour créer des Textes qui ressemblent à l'écriture humaine. Ça inclut aussi la rédaction créative. La question principale ici est : ces modèles sont-ils prêts à rivaliser avec des écrivains humains exceptionnels, comme des auteurs primés ?

Pour explorer cette question, un concours a été organisé entre un écrivain bien connu et un LLM avancé. L'écrivain a proposé 30 titres et a écrit des histoires basées sur ces titres, pendant que le LLM faisait la même chose. Une évaluation a été faite par des experts pour comprendre comment chacun a performé.

Comparaison des Performances

Il est maintenant courant de voir des rapports où les LLMs performent mieux que l'humain moyen dans divers tâches linguistiques. Cependant, il est important de se concentrer non seulement sur les compétences moyennes, mais aussi sur si les LLMs peuvent égaler les meilleurs écrivains humains dans des tâches créatives. L'objectif de cette étude était de voir si les LLMs pouvaient atteindre de tels standards.

Le concours impliquait un écrivain notable et un LLM de pointe. Les deux ont reçu le même ensemble de tâches et leurs résultats ont été évalués selon une grille définie. L'analyse a révélé que les LLMs ont encore du chemin à parcourir avant de pouvoir réellement défier les meilleurs écrivains humains.

Le rôle des prompts

La manière dont les prompts sont conçus peut grandement influencer la Créativité du texte généré. Des études précédentes ont montré que différents prompts pouvaient guider les LLMs à produire un contenu plus créatif. Dans cette expérience, les titres ont été fournis tant par le LLM que par l'écrivain humain. Cela a permis de comparer comment la source du prompt affectait la qualité des textes résultants.

Les résultats ont montré que lorsque le LLM utilisait des titres créés par l'écrivain humain, la qualité de la sortie s'améliorait considérablement sur divers aspects créatifs. En revanche, lorsque le LLM créait ses propres titres, les résultats avaient tendance à être moins impressionnants. Cela suggère que les prompts jouent un rôle crucial dans l'efficacité des LLMs à produire de l'écriture créative.

Compétences linguistiques et performance

Une autre zone d'exploration était de savoir si les LLMs sont moins efficaces dans les langues autres que l'anglais. La plupart des grands modèles sont principalement formés sur des données en anglais, ce qui peut mener à une performance déséquilibrée entre différentes langues. Cette étude a évalué la performance d'un LLM en anglais et en espagnol pour déterminer s'il y avait des différences notables.

Les résultats ont indiqué que le LLM performait beaucoup mieux en anglais qu'en espagnol. Cela souligne le besoin de données d'entraînement plus complètes dans différentes langues pour améliorer les capacités d'écriture créative des LLMs dans divers environnements linguistiques.

Style reconnaissable dans la sortie des LLM

Une découverte intéressante de l'étude était de savoir si les experts pouvaient identifier des textes générés par le LLM par rapport à ceux écrits par un humain. Les évaluateurs ont montré une courbe d'apprentissage, devenant meilleurs pour reconnaître les traits uniques de l'écriture du LLM au fil du temps. Cela suggère que, bien que les LLMs puissent imiter l'écriture humaine, il existe encore des motifs constants qui peuvent être repérés par des lecteurs expérimentés.

Mesurer la créativité

L'étude visait à mesurer la créativité dans les textes produits par le LLM et l'écrivain humain. Un cadre basé sur des principes de créativité a été appliqué, se concentrant sur des éléments comme la nouveauté, la surprise et la valeur. Les résultats ont confirmé que l'attractivité et l'originalité sont étroitement liées à la créativité perçue, l'originalité jouant un rôle particulièrement fort.

Résultats clés

Les principaux résultats de la recherche sont les suivants :

  1. Les LLMs comme GPT-4 ne correspondent pas encore aux compétences d'écriture créative des meilleurs écrivains humains. Les évaluations des experts ont systématiquement favorisé l'écrivain humain sur toutes les dimensions de qualité examinées.

  2. Les prompts utilisés influencent significativement la créativité de la sortie. Les titres de l'écrivain humain ont conduit à des résultats beaucoup améliorés pour le LLM.

  3. Le LLM a eu plus de difficultés en espagnol par rapport à l'anglais, indiquant un biais vers la prédominance des données d'entraînement en anglais.

  4. Les évaluateurs ont pu reconnaître le style d'écriture du LLM au fil du temps, suggérant que ses sorties ont des caractéristiques distinctes.

  5. Le cadre proposé pour mesurer la créativité a prouvé son efficacité, soulignant l'importance de l'originalité et de l'attractivité dans l'évaluation de la production créative.

Implications pour la recherche future

Plutôt que de conclure que les LLMs peuvent remplacer les écrivains humains, il est essentiel de reconnaître leurs limites. Les modèles excellent dans des tâches spécifiques mais échouent souvent à livrer la profondeur et la pensée originale qui peuvent venir de la créativité humaine. Ces découvertes ouvrent la voie à d'autres études qui pourraient explorer comment les LLMs pourraient être mieux utilisés dans l'écriture créative.

Les recherches futures pourraient prendre plusieurs directions :

  • Expérimenter avec différentes tâches créatives et explorer comment les prompts peuvent être optimisés pour améliorer la qualité des textes.
  • Inclure les réactions du public aux côtés des évaluations des experts pour mieux comprendre la réception plus large des textes créatifs.
  • Enquêter sur différents modèles et architectures pour voir comment ils performent dans des contextes créatifs.

Conclusion

En résumé, bien que les LLMs aient fait des progrès significatifs dans la génération de textes semblables à ceux des humains, ils ne sont pas encore capables de reproduire entièrement les processus créatifs des meilleurs écrivains humains. Ils peuvent être des outils précieux pour aider à l'écriture, mais l'unicité, la profondeur et l'intention trouvées dans l'auteur humain restent un défi même pour les meilleurs LLMs. Alors que la technologie continue d'évoluer, il sera fascinant de voir comment ces interactions entre l'humain et la machine continuent de se développer dans le domaine de l'écriture créative.

Source originale

Titre: Pron vs Prompt: Can Large Language Models already Challenge a World-Class Fiction Author at Creative Text Writing?

Résumé: It has become routine to report research results where Large Language Models (LLMs) outperform average humans in a wide range of language-related tasks, and creative text writing is no exception. It seems natural, then, to raise the bid: Are LLMs ready to compete in creative writing skills with a top (rather than average) novelist? To provide an initial answer for this question, we have carried out a contest between Patricio Pron (an awarded novelist, considered one of the best of his generation) and GPT-4 (one of the top performing LLMs), in the spirit of AI-human duels such as DeepBlue vs Kasparov and AlphaGo vs Lee Sidol. We asked Pron and GPT-4 to provide thirty titles each, and then to write short stories for both their titles and their opponent's. Then, we prepared an evaluation rubric inspired by Boden's definition of creativity, and we collected 5,400 manual assessments provided by literature critics and scholars. The results of our experimentation indicate that LLMs are still far from challenging a top human creative writer, and that reaching such level of autonomous creative writing skills probably cannot be reached simply with larger language models.

Auteurs: Guillermo Marco, Julio Gonzalo, Ramón del Castillo, María Teresa Mateo Girona

Dernière mise à jour: 2024-07-01 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2407.01119

Source PDF: https://arxiv.org/pdf/2407.01119

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Articles similaires