Évaluer la résumé de récits avec le jeu de données StorySumm
Un nouveau jeu de données améliore la précision dans l'évaluation des résumés d'histoires générés par des modèles de langage.
― 6 min lire
Table des matières
- L'Importance de la Fidélité dans la Résumation
- Le Jeu de Données StorySumm
- Défis de l'Évaluation Humaine
- Méthodes d'Évaluation
- Évaluateurs Humains
- Erreurs dans les Résumés des Modèles de Langage
- Trouver la Vérité de Base
- Établir la Vérité de Base
- Métriques Automatiques pour l'Évaluation
- Performance des Métriques Automatiques
- Recommandations pour le Futur
- Conclusion
- Source originale
- Liens de référence
En résumant des histoires, c'est important que le résumé reflète vraiment l'histoire originale. Ça garantit qu'aucun détail n'est raté et qu'il n'y a pas d'Erreurs qui pourraient induire les lecteurs en erreur. Une étude récente parle d'un nouveau jeu de données appelé StorySumm qui vise à évaluer la précision des Résumés faits par des modèles de langage. Ce jeu de données aide à identifier les erreurs qui pourraient ne pas être évidentes au premier coup d'œil mais qui peuvent mener à des malentendus.
Fidélité dans la Résumation
L'Importance de laQuand les gens créent des résumés, ils devraient garder l'intégrité de l'histoire originale. Si les résumés déforment les faits ou laissent de côté des infos clés, ça peut répandre des informations incorrectes. C'est super crucial quand on résume des récits, où le contexte et les émotions sont tout aussi importants que les faits. Évaluer la fidélité, c'est-à-dire s'assurer que le résumé représente avec précision l'histoire originale, peut être une tâche qui demande beaucoup de travail.
Le Jeu de Données StorySumm
StorySumm contient des résumés de nouvelles générés par des modèles de langage. Chaque résumé est vérifié pour des erreurs et étiqueté selon la facilité ou la difficulté de trouver ces erreurs. Le jeu de données se compose de 96 nouvelles. Chaque histoire a des résumés associés qui sont examinés pour leur précision. L'étude souligne que l'évaluation humaine est souvent considérée comme le meilleur moyen de vérifier la fidélité, mais elle peut parfois négliger des détails importants.
Défis de l'Évaluation Humaine
Quand différentes personnes examinent un résumé, elles peuvent être d'accord pour dire qu'il est précis sans reconnaître des erreurs subtiles. Cette incohérence signifie que se fier uniquement au jugement d'une personne peut entraîner des inexactitudes manquées. Donc, utiliser une variété de méthodes d'évaluation peut aider à créer une compréhension plus précise de la manière dont un résumé reflète son matériel source.
Méthodes d'Évaluation
Il y a deux manières principales de vérifier la précision des résumés : des modèles entraînés et des évaluateurs humains. Les méthodes basées sur des modèles peuvent poser des questions sur le résumé et comparer les réponses à l'histoire originale. Les approches impliquant des évaluateurs humains se concentrent souvent sur des phrases spécifiques ou des détails pour améliorer la précision de leurs Évaluations.
Évaluateurs Humains
Les évaluateurs humains peuvent fournir des éclairages précieux, mais en évaluant des résumés plus longs, leurs jugements peuvent varier considérablement. Décomposer les résumés en phrases individuelles conduit généralement à des résultats plus fiables. Les recherches précédentes ont montré que le jugement humain est moins fiable lorsqu'il s'agit de textes plus longs, car le contexte plus large exige des interprétations plus nuancées.
Erreurs dans les Résumés des Modèles de Langage
L'étude souligne que les résumés générés par les modèles de langage contiennent souvent des erreurs qui peuvent mener à des interprétations différentes de l'histoire originale. La nature nuancée du texte narratif peut conduire à des erreurs subtiles difficiles à repérer. Pour cette raison, le jeu de données StorySumm est particulièrement précieux, car il met en avant ces défis dans la reconnaissance des erreurs.
Trouver la Vérité de Base
Pour créer une base fiable pour évaluer les résumés, les chercheurs ont comparé différentes méthodes d'annotation humaine. Ils ont découvert que divers protocoles mettent en lumière différents aspects d'incohérence et se contredisent parfois. Pour améliorer le processus d'évaluation, les auteurs suggèrent de fusionner les résultats de différentes méthodes d'annotation pour créer une vue plus complète des erreurs.
Établir la Vérité de Base
Les chercheurs ont réalisé des examens manuels pour fusionner les étiquettes de différents protocoles d'évaluation. Cette approche a abouti à un nouvel ensemble d'étiquettes qui capturent mieux les erreurs dans les résumés. En analysant les différences entre les différentes méthodes, ils ont pu affiner leur approche pour évaluer la résumation narrative.
Métriques Automatiques pour l'Évaluation
Après avoir établi une solide fondation d'évaluation humaine, les chercheurs ont testé plusieurs métriques automatiques pour voir comment elles se situaient par rapport à la norme d'or créée par l'examen humain. Ils ont découvert qu'aucune des méthodes automatiques actuelles n'a obtenu de résultats satisfaisants. Les métriques conçues pour la détection de cohérence ont donné des scores décevants, soulignant encore plus le besoin d'outils d'évaluation améliorés.
Performance des Métriques Automatiques
Bien que les métriques automatiques offrent un moyen plus rapide d'évaluer les résumés, elles manquent souvent beaucoup de résumés infidèles. Les meilleures métriques n'ont atteint qu'environ 70 % de précision, manquant un nombre significatif d'incohérences pertinentes. Cette constatation souligne le besoin de développement continu dans ce domaine pour s'assurer que les méthodes d'évaluation automatiques peuvent suivre le rythme du jugement humain.
Recommandations pour le Futur
Basé sur leurs constats, les chercheurs ont fourni plusieurs recommandations pour améliorer l'évaluation de la résumation d'histoires :
Utiliser des Protocoles Multiples : Se fier à différents protocoles et annotateurs aide à couvrir un plus large éventail d'erreurs, améliorant l'exactitude globale de l'évaluation.
Améliorer la Qualité des Annotateurs : S'assurer que les évaluateurs sont bien qualifiés peut avoir une influence significative sur la détection des incohérences.
Approches Fines : Une analyse détaillée au niveau des phrases est plus susceptible de produire des résultats fiables que des évaluations basées sur le résumé global.
Méthodes Hybrides pour la Couverture : Utiliser une combinaison de méthodes humaines et automatiques peut fournir une compréhension plus large des erreurs, même si un filtrage supplémentaire peut être nécessaire pour garantir l'exactitude.
Conclusion
L'étude souligne l'importance de la fidélité dans la résumation d'histoires et les défis posés par les modèles de langage. En introduisant le jeu de données StorySumm, ils fournissent un nouvel outil pour les chercheurs cherchant à développer de meilleures méthodes d'évaluation. Les résultats révèlent que bien que les évaluations humaines puissent être efficaces, elles manquent souvent d'erreurs critiques. Une recherche continue est essentielle pour soutenir le développement de méthodes de résumation précises, fiables et complètes.
Titre: STORYSUMM: Evaluating Faithfulness in Story Summarization
Résumé: Human evaluation has been the gold standard for checking faithfulness in abstractive summarization. However, with a challenging source domain like narrative, multiple annotators can agree a summary is faithful, while missing details that are obvious errors only once pointed out. We therefore introduce a new dataset, STORYSUMM, comprising LLM summaries of short stories with localized faithfulness labels and error explanations. This benchmark is for evaluation methods, testing whether a given method can detect challenging inconsistencies. Using this dataset, we first show that any one human annotation protocol is likely to miss inconsistencies, and we advocate for pursuing a range of methods when establishing ground truth for a summarization dataset. We finally test recent automatic metrics and find that none of them achieve more than 70% balanced accuracy on this task, demonstrating that it is a challenging benchmark for future work in faithfulness evaluation.
Auteurs: Melanie Subbiah, Faisal Ladhak, Akankshya Mishra, Griffin Adams, Lydia B. Chilton, Kathleen McKeown
Dernière mise à jour: 2024-11-08 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2407.06501
Source PDF: https://arxiv.org/pdf/2407.06501
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://github.com/melaniesubbiah/storysumm
- https://www.reddit.com/r/shortstories/
- https://www.reddit.com/r/shortscarystories/
- https://platform.openai.com/playground
- https://console.anthropic.com/
- https://www.mturk.com
- https://www.upwork.com
- https://www.anthropic.com/news/claude-3-family
- https://mistral.ai/news/mixtral-of-experts/
- https://api-inference.huggingface.co/models/mistralai/Mixtral-8x7B-Instruct-v0.1