Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage

Améliorer la synthèse avec des citations dans AQFS

Un nouveau jeu de données améliore la précision des résumés en s'assurant de bonnes citations.

― 5 min lire


Citer des sources dansCiter des sources dansles modèles de résuméde résumé.précision des citations dans les tâchesNouveau jeu de données améliore la
Table des matières

Dans le monde d'aujourd'hui, les gens cherchent constamment un accès rapide à l'information. Quand ils cherchent en ligne, les utilisateurs doivent souvent rassembler des données provenant de plusieurs sources, ce qui peut prendre du temps et devenir accablant. La Résumé Axé sur la Requête Attribuée (AQFS) est une tâche qui vise à aider les utilisateurs en résumant des infos provenant de divers documents et en fournissant des citations appropriées pour les affirmations faites dans les résumés. De cette façon, les utilisateurs peuvent facilement vérifier les sources et accéder à des informations fiables.

Le Besoin de Citations dans les Résumés

Quand les grands modèles de langage (LLMs) génèrent des résumés, il est important qu'ils citent les sources des informations qu'ils présentent. Les citations ajoutent de la crédibilité et permettent aux utilisateurs de vérifier la véracité des infos. Cependant, la plupart des méthodes de résumé existantes ne répondent pas correctement au besoin de citation. Beaucoup de modèles ne fournissent pas de citations ou le font de manière incohérente, ce qui entraîne confusion et désinformation.

Introduction au Dataset WebCiteS

Pour relever ces défis, un nouveau dataset appelé WebCiteS a été créé. Ce dataset contient 7 000 résumés annotés par des humains en chinois, complets avec des citations. Il est basé sur de vraies requêtes d'utilisateurs et des résultats de recherche d'un moteur de recherche chinois populaire, Sogou. L'objectif de WebCiteS est de fournir une ressource fiable pour former et évaluer des modèles axés sur l'AQFS.

Défis dans l'Évaluation de l'Attribution

Évaluer à quel point les modèles attribuent correctement l'information est complexe. Beaucoup de travaux existants ne différencient pas entre les erreurs de fondement (si l'information est précise) et les erreurs de citation (si le modèle cite correctement les sources). Ce manque de clarté rend difficile l'amélioration des modèles. La nouvelle approche adoptée dans le dataset WebCiteS utilise des métriques détaillées qui permettent une évaluation plus nuancée.

Méthodologie de WebCiteS

Le dataset WebCiteS est construit à travers un processus en trois étapes :

  1. Sélection Manuelle et Extraction d'Information : Des annotateurs humains lisent les requêtes et les documents pour extraire des informations utiles à inclure dans les résumés.

  2. Génération de Résumés Candidats Basée sur LLM : Les informations extraites sont utilisées pour créer des résumés candidats avec des modèles de langage comme ChatGPT. Cette étape se concentre sur l'évitement de données non pertinentes en générant des résumés basés uniquement sur des informations précieuses.

  3. Affinage Manuel et Annotation des Citations : Les annotateurs examinent les résumés candidats, choisissent les versions préférées, affinent la qualité et annotent les informations de citation pour garantir l'exactitude.

Cadre d'Évaluation

Pour évaluer les performances des modèles utilisant le dataset WebCiteS, un cadre d'évaluation complet a été établi. Ce cadre se concentre sur deux dimensions importantes : l'utilité du résumé et l'attribution.

Métriques d'Utilité de Résumé

  1. Longueur : La longueur moyenne du résumé est rapportée.

  2. Self-BLEU : Cette métrique mesure la diversité du texte généré, aidant à évaluer la cohérence dans des réponses plus longues.

  3. Précision et Rappel des Affirmations : Ces métriques évaluent à quel point le système capture avec précision les informations pertinentes des résumés de référence.

Métriques d'Évaluation de l'Attribution

  1. Fondement : Cela vérifie si les affirmations du résumé sont soutenues par les documents d'entrée.

  2. Qualité des Citations : Évalue à quel point les citations soutiennent avec précision et de manière exhaustive les affirmations dans le résumé. Cela inclut l'évaluation de la précision et du rappel des citations.

Résultats des Évaluations WebCiteS

L'évaluation des modèles sur le dataset WebCiteS révèle plusieurs points :

  1. Des Erreurs de Citation Existent dans Tous les Modèles : Même quand un modèle génère des informations précises basées sur le contexte, les erreurs de citation sont courantes.

  2. Le Fine-Tuning Améliore les Performances : Les modèles qui subissent un fine-tuning supervisé montrent des améliorations en fondement et qualité de citation.

  3. Les Contextes Longs Challengent les Modèles : Quand les modèles résument des documents plus longs, ils performent moins bien, indiquant des difficultés à synthétiser et citer correctement l'information.

  4. La Granularité des Documents Compte : Diviser les documents en portions plus petites et plus ciblées peut mener à une pire performance d'attribution, car les modèles ont du mal à identifier les preuves de soutien requises.

Conclusion

Le dataset WebCiteS et son cadre d'évaluation associé fournissent une ressource précieuse pour améliorer la manière dont les modèles gèrent l'attribution dans les tâches de résumé. Alors que la demande d'informations fiables continue de croître, améliorer la capacité des modèles à générer des résumés précis avec des citations appropriées est crucial. Ce travail met en évidence les défis persistants dans le domaine et établit une base pour des recherches futures visant à affiner les processus d'AQFS et à augmenter la fiabilité du contenu généré.

Avec des efforts continus dans ce domaine, l'objectif ultime est de créer des outils qui permettent aux utilisateurs d'accéder rapidement à des informations précises et dignes de confiance, réduisant ainsi le fardeau de la vérification manuelle des données. L'avenir de la recherche et du traitement d'information réside dans des techniques de résumé efficaces qui priorisent à la fois la clarté et la crédibilité.

Source originale

Titre: WebCiteS: Attributed Query-Focused Summarization on Chinese Web Search Results with Citations

Résumé: Enhancing the attribution in large language models (LLMs) is a crucial task. One feasible approach is to enable LLMs to cite external sources that support their generations. However, existing datasets and evaluation methods in this domain still exhibit notable limitations. In this work, we formulate the task of attributed query-focused summarization (AQFS) and present WebCiteS, a Chinese dataset featuring 7k human-annotated summaries with citations. WebCiteS derives from real-world user queries and web search results, offering a valuable resource for model training and evaluation. Prior works in attribution evaluation do not differentiate between groundedness errors and citation errors. They also fall short in automatically verifying sentences that draw partial support from multiple sources. We tackle these issues by developing detailed metrics and enabling the automatic evaluator to decompose the sentences into sub-claims for fine-grained verification. Our comprehensive evaluation of both open-source and proprietary models on WebCiteS highlights the challenge LLMs face in correctly citing sources, underscoring the necessity for further improvement. The dataset and code will be open-sourced to facilitate further research in this crucial field.

Auteurs: Haolin Deng, Chang Wang, Xin Li, Dezhang Yuan, Junlang Zhan, Tianhua Zhou, Jin Ma, Jun Gao, Ruifeng Xu

Dernière mise à jour: 2024-05-28 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2403.01774

Source PDF: https://arxiv.org/pdf/2403.01774

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires