Mesurer la qualité émotionnelle dans les histoires
Présentation d'une nouvelle échelle pour évaluer la profondeur émotionnelle dans la narration.
― 11 min lire
Table des matières
- L'Échelle de Profondeur Psychologique
- Le Jeu de Données PsychDepth
- Stratégies de Prompt
- Étude Humaine
- Cohérence des Jugements Humains
- LLM-en-Juge pour Mesurer la Profondeur Psychologique
- Comparaison de la Profondeur Psychologique dans les Histoires Humaines et LLM
- Limitations et Risques
- Mesures de Contrôle de Qualité du Jeu de Données
- Exemples d'Histoires
- Conclusion
- Source originale
- Liens de référence
Les histoires créées par de gros modèles de langage (LLMs) sont souvent évaluées sur des qualités simples comme le style, la cohérence et la sécurité. Même si ces qualités sont importantes, elles ne reflètent pas comment une histoire fait ressentir ou connecter émotionnellement avec le lecteur. Pour y remédier, on propose l'Échelle de Profondeur Psychologique (PDS). Ce nouveau cadre est basé sur des idées littéraires et examine à quel point les LLMs créent des histoires émotionnellement riches et engageantes.
On a testé notre cadre PDS pour voir si les gens pouvaient évaluer de manière fiable des histoires avec. Nos résultats montrent que ça fonctionne bien, et on a aussi exploré des moyens d'automatiser cette évaluation pour de futures recherches. Un des modèles qu'on a étudiés, GPT-4o, a montré une forte connexion avec les évaluations humaines, indiquant qu'il pouvait juger efficacement les histoires. Fait intéressant, les histoires écrites par GPT-4 étaient trouvées aussi bonnes, voire meilleures, que certaines histoires écrites par des humains sur Reddit.
Les histoires comptent beaucoup pour nous parce qu'elles nous aident à comprendre qui nous sommes et le monde. Comme les LLMs commencent à participer à la création d'histoires, c'est utile de plonger plus profondément dans leur capacité à raconter des histoires. Les méthodes actuelles pour juger les histoires se concentrent souvent sur des aspects clairs comme la structure, le style d'écriture, et les biais. Cependant, il est crucial de penser aussi à ce que les histoires font ressentir aux lecteurs. Certaines études ont effleuré des sentiments comme l'Empathie, mais elles n'ont pas vraiment exploré l'expérience complexe de la lecture.
L'Échelle de Profondeur Psychologique met en avant à la fois les forces et les faiblesses qui façonnent comment les lecteurs vivent les histoires. Elle utilise des scores de 1 à 5 pour des comparaisons plus faciles.
Pour créer la PDS, on a regardé deux idées importantes dans la théorie littéraire : la critique de la réponse du lecteur et la théorie des mondes textuels. La critique de la réponse du lecteur se concentre sur la façon dont les lecteurs interprètent les histoires, demandant ce que chaque phrase fait plutôt que ce qu'elle veut dire. Pendant ce temps, la théorie du monde textuel examine comment les lecteurs forment des images mentales des histoires qu'ils modifient en lisant. En passant en revue plein d'articles sur ces sujets, on a rassemblé une liste de 143 points d'évaluation différents et les a regroupés en cinq domaines principaux : empathie, Engagement, provocation émotionnelle, Authenticité, et complexité narrative.
Cette connexion entre auteurs et lecteurs est cruciale pour évaluer la profondeur émotionnelle des histoires.
Pour valider la PDS, on a mené une étude avec cinq étudiants de l'université qui ont analysé 97 histoires écrites par des humains et des LLMs. Ils ont noté les histoires en se basant sur la profondeur psychologique et ont spéculé si des humains ou des machines les avaient écrites, fournissant des explications pour leurs évaluations. Cette étude visait à explorer comment les LLMs peuvent comprendre les aspects psychologiques de l'écriture.
Nos résultats indiquent que la PDS réussit à mesurer comment les LLMs se connectent émotionnellement à travers le récit. Notamment, GPT-4 a montré une qualité comparable à celle des histoires bien notées sur Reddit, avec beaucoup de lecteurs pensant que ses histoires étaient écrites par des humains.
L'Échelle de Profondeur Psychologique
L'Échelle de Profondeur Psychologique vise à mesurer la qualité émotionnelle des histoires créées par des humains et des modèles de langage. La PDS s'appuie sur deux théories centrées sur le lecteur : la critique de la réponse du lecteur et la théorie du monde textuel. La critique de la réponse du lecteur met l'accent sur l'expérience du lecteur, demandant ce qu'une histoire fait plutôt que ce qu'elle dit. La théorie des mondes textuels suggère que les lecteurs créent des images mentales des récits qui évoluent pendant la lecture.
Les métriques pour la PDS proviennent d'une revue de littérature en psychologie et en études médiatiques. Notre revue a inclus 95 articles et livres et a produit 143 points d'évaluation. On a regroupé ces derniers en cinq métriques clés : provocation émotionnelle, empathie, engagement, authenticité, et complexité narrative. Ces domaines mettent en lumière des éléments essentiels de la narration, facilitant l'évaluation de l'impact psychologique sur les lecteurs.
Provocation Émotionnelle
La Provocation Émotionnelle (PROV) mesure la capacité d'un récit à déclencher de fortes émotions chez les lecteurs. Les émotions jouent un rôle vital dans la manière dont les histoires captent l'attention et l'intérêt. La recherche suggère que les histoires qui évoquent des émotions cohérentes sont plus engageantes que celles qui mélangent différentes émotions. Cela fait de la provocation émotionnelle un facteur important pour évaluer la qualité d'un récit.
Empathie
L'Empathie (EMP) mesure à quel point une histoire encourage les lecteurs à s'identifier aux personnages et à partager leurs expériences. Des études montrent que les réponses empathiques peuvent promouvoir l'intelligence émotionnelle et la compréhension des expériences humaines. Les histoires qui évoquent l'empathie reflètent souvent des expériences et émotions humaines partagées, servant d'indicateurs de profondeur psychologique.
Engagement
L'Engagement (ENG) examine à quel point une histoire retient l'attention d'un lecteur. L'engagement affecte significativement le plaisir qu'on retire d'un récit. Les lecteurs engagés sont moins susceptibles d'être distraits et ont tendance à perdre la notion du temps en lisant.
Authenticité
L'Authenticité (AUTH) évalue à quel point une histoire représente véritablement les expériences et émotions humaines. Les histoires qui semblent authentiques ont plus de chances de résonner avec les lecteurs. Des représentations réalistes améliorent l'impact d'un récit et augmentent l'intérêt des lecteurs.
Complexité Narrative
La Complexité Narrative (NCOM) implique des intrigues complexes et un développement de personnages qui éveillent la curiosité d'un lecteur. Les histoires complexes engagent les lecteurs, les incitant à penser de manière critique et à réviser leur compréhension au fur et à mesure de la lecture.
Le Jeu de Données PsychDepth
Pour analyser la profondeur psychologique dans des histoires courtes, on a développé un jeu de données de 495 histoires : 45 écrites par des humains et 450 générées par des LLMs. Chaque histoire fait en moyenne environ 450 mots. On a aussi créé un sous-ensemble plus petit de 97 histoires pour équilibrer divers facteurs comme les prémisses de prompt et l'attribution.
Histoires Humaines
On a collecté des histoires écrites par des humains depuis r/WritingPrompts sur Reddit, qui présente des thèmes et des prompts divers. Les histoires ont été catégorisées selon leur classement : Humain-Avancé pour les histoires les mieux notées, Humain-Intermédiaire pour les histoires de milieu de tableau, et Humain-Novice pour les histoires moins bien notées. Cette approche nous a permis de comparer la performance des LLMs avec différents niveaux de qualité d'écriture humaine.
Histoires LLM
Pour les histoires générées par LLM, on a utilisé cinq modèles de différentes tailles et approches. On s'est concentré sur la famille Llama-2 et on a inclus GPT-4 comme un modèle performant.
Stratégies de Prompt
On a développé deux stratégies de prompt pour améliorer la qualité des histoires générées par les LLMs.
ProfilAuteur (PA)
Cette approche consiste à créer un profil d'un écrivain expérimenté, guidant le LLM pour produire des histoires émotionnellement riches.
Plan+Écrire (P+É)
Cette méthode divise le processus d'écriture en deux phases. La première phase se concentre sur le développement des personnages, tandis que la seconde phase construit le récit complet. Cette structure a permis une exploration plus profonde des personnages et de leurs émotions, menant à des histoires plus engageantes.
Étude Humaine
Recrutement des Participants
On a invité des étudiants de première année en anglais et en psychologie à participer à notre étude. On visait des personnes ayant une certaine expérience en analyse littéraire et psychologique pour fournir des insights précieux sur le processus d'évaluation.
Protocole d'Évaluation
Les participants ont reçu une introduction à la PDS et une session d'apprentissage. Ils ont ensuite évalué les cinq composants de la profondeur psychologique pour chaque histoire sur une échelle de 1 à 5, ont évalué la probabilité d'attribution, et ont offert des justifications pour leurs notes.
Cohérence des Jugements Humains
On a mesuré la cohérence avec laquelle les participants ont noté les histoires en utilisant l'alpha de Krippendorff. Nos résultats ont montré un fort accord parmi les évaluateurs sur les cinq composants de la profondeur psychologique. Cette cohérence renforce l'utilité de la PDS pour évaluer des histoires.
LLM-en-Juge pour Mesurer la Profondeur Psychologique
Utiliser des annotations humaines peut être coûteux et long. Pour y remédier, on a examiné comment les LLMs pouvaient évaluer la profondeur psychologique en utilisant une approche zéro-shot. On a découvert que les LLMs, surtout lorsqu'ils étaient incités avec des personas divers, étaient capables de refléter efficacement le jugement humain.
Comparaison de la Profondeur Psychologique dans les Histoires Humaines et LLM
En comparant les histoires des humains et des LLMs, on a découvert que GPT-4 marquait souvent plus haut en profondeur psychologique, particulièrement en empathie et en complexité narrative. Les résultats ont indiqué que GPT-4 ressemblait de près aux récits écrits par des humains.
Limitations et Risques
Utiliser Reddit pour des contenus écrits par des humains présente des limitations. On ne peut pas confirmer entièrement que toutes les histoires sont totalement écrites par des humains. De plus, même si Reddit offre un aperçu de la qualité d'écriture, ça ne capture peut-être pas le plus haut niveau de créativité humaine.
Sélection des Composants de Profondeur Psychologique
Bien que les cinq composants de profondeur psychologique soient ancrés dans la recherche, ils ne couvrent pas tous les aspects psychologiques de la lecture. Notre objectif était de maintenir une portée gérable tout en maximisant la couverture.
Généralisation au-delà des Histoires Courtes
Notre étude s'est principalement concentrée sur un ensemble limité d'histoires courtes, ce qui signifie qu'on a besoin de plus d'évaluations pour déterminer si le cadre de la PDS peut s'appliquer à d'autres formes d'écriture, comme des scénarios ou des discours.
Conception de Prompt
On est conscient que créer des prompts efficaces est une tâche complexe, et nos modèles peuvent ne pas être les meilleurs. Les travaux futurs pourraient bénéficier de l'affinement de ces prompts.
Risques Potentiels
Les techniques qu'on a développées pour améliorer la profondeur psychologique dans les récits pourraient être mal utilisées. Par exemple, des messages émotionnellement impactants peuvent propager des désinformations si ce n'est pas géré de manière responsable.
Mesures de Contrôle de Qualité du Jeu de Données
Pour garantir la qualité des histoires générées, on a maintenu des critères stricts. On a limité la longueur des histoires et effectué un nettoyage post-génération pour supprimer le texte superflu.
Détection de Plagiat
On a utilisé un outil de détection de plagiat pour garantir l'originalité du contenu généré par le LLM, obtenant de faibles probabilités de plagiat par rapport aux histoires humaines.
Exemples d'Histoires
Pour illustrer les différences de qualité, on présente diverses évaluations d'histoires. Certaines histoires ont été très bien notées, tandis que d'autres ont reçu des critiques mitigées, montrant l'influence de chaque composant sur l'expérience de lecture.
Exemple d'Histoire Humaine
Un exemple illustre comment une histoire écrite par un humain a été bien notée dans la plupart des catégories, notamment dans la provocation émotionnelle et l'empathie, bien qu'elle manquait de complexité narrative.
Exemples d'Histoires LLM
On présente aussi des histoires générées par LLM qui mettent en avant des forces et faiblesses dans divers aspects, démontrant la gamme d'engagement émotionnel et de complexité.
Conclusion
Cette étude introduit avec succès l'Échelle de Profondeur Psychologique (PDS) comme cadre pour mesurer la qualité émotionnelle dans les histoires générées tant par des humains que par des LLMs. On a validé la PDS à travers des évaluations humaines et montré que les LLMs, surtout GPT-4, peuvent créer des récits qui rivalisent avec les auteurs humains en profondeur psychologique. Les résultats soulignent le potentiel significatif des LLMs dans la narration et suggèrent un avenir prometteur pour la collaboration entre humains et machines dans l'écriture créative. Les recherches futures devraient examiner comment ces modèles peuvent maintenir la profondeur psychologique dans des récits plus longs et plus complexes.
Titre: Measuring Psychological Depth in Language Models
Résumé: Evaluations of creative stories generated by large language models (LLMs) often focus on objective properties of the text, such as its style, coherence, and diversity. While these metrics are indispensable, they do not speak to a story's subjective, psychological impact from a reader's perspective. We introduce the Psychological Depth Scale (PDS), a novel framework rooted in literary theory that measures an LLM's ability to produce authentic and narratively complex stories that provoke emotion, empathy, and engagement. We empirically validate our framework by showing that humans can consistently evaluate stories based on PDS (0.72 Krippendorff's alpha). We also explore techniques for automating the PDS to easily scale future analyses. GPT-4o, combined with a novel Mixture-of-Personas (MoP) prompting strategy, achieves an average Spearman correlation of 0.51 with human judgment while Llama-3-70B with constrained decoding scores as high as 0.68 for empathy. Finally, we compared the depth of stories authored by both humans and LLMs. Surprisingly, GPT-4 stories either surpassed or were statistically indistinguishable from highly-rated human-written stories sourced from Reddit. By shifting the focus from text to reader, the Psychological Depth Scale is a validated, automated, and systematic means of measuring the capacity of LLMs to connect with humans through the stories they tell.
Auteurs: Fabrice Harel-Canada, Hanyu Zhou, Sreya Muppalla, Zeynep Yildiz, Miryung Kim, Amit Sahai, Nanyun Peng
Dernière mise à jour: 2024-10-04 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2406.12680
Source PDF: https://arxiv.org/pdf/2406.12680
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.