Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage# Intelligence artificielle

Améliorer la vérification des faits scientifiques avec un nouveau dataset

Un nouveau jeu de données améliore la vérification des revendications scientifiques avec des données réelles.

― 9 min lire


Jeu de données pour laJeu de données pour lavérification des faitsscientifiquesscientifiques.vérif’ complexe des revendicationsNouveau jeu de données s’attaque à la
Table des matières

Vérifier les affirmations scientifiques, c'est super important pour s'assurer que les infos dans la recherche sont exactes et fiables. Malheureusement, les systèmes actuels de vérification ne sont pas ouf. Ils reposent souvent sur des affirmations simples qui ne capturent pas vraiment la complexité du travail scientifique. Cet article présente un nouveau jeu de données conçu pour améliorer la vérification en utilisant de vraies affirmations scientifiques et des données présentées sous forme de tableaux.

L'Importance de la Vérification Scientifique

La vérification scientifique, c'est le processus qui consiste à confirmer si les affirmations faites dans la recherche sont correctes. Ce processus aide à maintenir la crédibilité du travail scientifique et empêche la désinformation de se répandre. En plus, ça aide le public à faire confiance aux résultats scientifiques. Mais avec la quantité énorme de données de recherche disponibles, c'est galère pour les gens de tout vérifier à la main. Donc, créer des systèmes automatiques pour la vérification scientifique est un domaine de recherche important dans le traitement du langage naturel (NLP).

Défis Existants

Bien que la vérification se soit améliorée ces dernières années avec des Jeux de données comme Sci-Fact et COVID-Fact, il y a encore des problèmes. Beaucoup d'affirmations viennent d'infos collectées par le public plutôt que de vrais articles scientifiques, ce qui mène à des biais et un manque de variété. De plus, les jeux de données précédents surestiment souvent les affirmations, les rendant plus faciles à vérifier avec des réponses courtes au lieu d'un Raisonnement complexe requis pour la vraie recherche scientifique.

Par exemple, dans Sci-Fact, beaucoup d'affirmations peuvent être confirmées avec une seule phrase du résumé d'un article de recherche. Ça ne reflète pas comment les affirmations scientifiques devraient être évaluées. Beaucoup d'affirmations nécessitent d'examiner des données expérimentales détaillées souvent montrées dans des tableaux et des figures. Donc, il y a clairement un besoin pour un jeu de données qui collecte de vraies affirmations de la littérature scientifique et inclut les données originales nécessaires pour une vérification précise.

Présentation du Nouveau Jeu de Données

Cet article présente un nouveau jeu de données contenant plus de 1 200 affirmations scientifiques qui nécessitent un raisonnement et une vérification soignés en utilisant des données de tableaux. Les affirmations sont basées sur des déclarations réelles faites dans des recherches et nécessitent un processus de vérification beaucoup plus approfondi que ce qui était proposé dans les jeux de données précédents.

Le nouveau jeu de données a été créé en filtrant les affirmations significatives du jeu de données SciGen, qui contient divers tableaux scientifiques compilés à partir d'articles de recherche. Après avoir identifié ces affirmations, une méthode impliquant à la fois des humains et des ordinateurs a été utilisée pour générer des affirmations qui pouvaient être fausses ou non vérifiables selon le contenu du tableau.

Le jeu de données est unique car il combine de vraies affirmations d'articles de recherche avec leurs données correspondantes sous forme de tableau. Cette configuration le rend beaucoup plus proche de la vérification dans le monde réel et permet un processus de vérification plus compliqué.

Construction du Jeu de Données

Préparation des Données

Le jeu de données commence avec le jeu de données SciGen, qui contient des articles académiques et leurs tableaux associés. L'objectif était d'extraire des affirmations significatives qui peuvent être vérifiées. Pour ce faire, les descriptions du jeu de données ont été décomposées en phrases individuelles pour identifier les affirmations valables à vérifier.

Une tâche de classification à trois classes a été effectuée pour étiqueter chaque phrase comme étant une description, un contexte, ou une affirmation. Les descriptions et les phrases de contexte fournissent du contexte mais ne sont pas ce que nous voulons vérifier. Les affirmations sont des phrases qui présentent des déclarations scientifiques spécifiques qui peuvent être vérifiées.

Génération d'Affirmations

Après avoir extrait les affirmations, l'étape suivante était de générer des affirmations qui pouvaient être fausses (réfutées) ou incertaines (pas assez d'informations, ou NEI). Pour s'assurer d'avoir une variété de ces affirmations, une stratégie de réécriture automatique a été développée. Les affirmations initialement soutenues ont été entrées dans un modèle de langage appelé InstructGPT, qui a été chargé de réécrire ces affirmations pour avoir des significations opposées.

Les affirmations NEI ont aussi été générées en demandant au modèle de créer des déclarations basées sur les données du tableau mais sans chemin de vérification clair. Cela a ajouté de la diversité et de la profondeur au jeu de données parce que ces affirmations sont souvent rencontrées dans la recherche scientifique réelle.

Vérification Manuelle

Pour garantir l'exactitude, des étapes de vérification manuelle ont été prises par des experts du domaine. Les affirmations générées ont été évaluées par rapport aux tableaux pour déterminer si elles étaient soutenues, réfutées, ou non vérifiables. Des annotateurs, spécifiquement des étudiants en informatique, ont été recrutés pour effectuer cette tâche. Après une formation approfondie, ils ont vérifié les affirmations, garantissant que le jeu de données maintenait des standards de haute qualité.

Analyse des Affirmations

Pour mieux comprendre la complexité du jeu de données, plusieurs analyses ont été menées. Les affirmations ont été classées selon les types de raisonnement nécessaires pour les vérifier, et la profondeur du raisonnement a été mesurée. La plupart des affirmations nécessitaient un long processus de réflexion, beaucoup tombant dans la catégorie du raisonnement profond qui implique plusieurs étapes pour arriver à une conclusion.

Types de Raisonnement et Profondeur

Une classification des types de raisonnement a été établie, incluant la recherche simple, le raisonnement numérique, et les Vérifications sur les valeurs. De nouvelles catégories ont également été introduites pour tenir compte des connaissances qui se trouvent en dehors du contexte immédiat des tableaux présentés. Cela souligne que vérifier des affirmations nécessite souvent une expertise au-delà de ce qui se trouve dans l'article lui-même.

La profondeur du raisonnement a aussi été évaluée, révélant que beaucoup d'affirmations nécessitaient plusieurs opérations pour arriver à une conclusion. La plupart des affirmations étaient considérées comme profondes, ce qui indique que le jeu de données défie significativement les modèles existants.

Comparaison avec les Jeux de Données Existants

Comparé à d'autres jeux de données de vérification basés sur des tableaux, ce jeu de données se démarque de plusieurs manières. Il se concentre spécifiquement sur les tableaux scientifiques plutôt que sur des connaissances générales, ce qui augmente sa pertinence pour des applications réelles. De plus, il a été annoté par des experts qui comprennent les sujets plutôt que par des travailleurs crowdsourcés, menant à une qualité d'affirmations plus élevée.

Évaluation des Modèles

Le jeu de données a été utilisé pour évaluer divers modèles à la pointe de la technologie, y compris différents types de modèles de langage. Ces évaluations ont montré que les modèles avaient du mal à atteindre une haute précision sur ce jeu de données, surtout sur les affirmations NEI. La complexité des affirmations rendait la tâche très difficile, comme le montre les résultats de performance.

Résultats et Observations des Modèles

Les résultats ont montré que la plupart des modèles ne fonctionnaient pas bien, la majorité étant juste légèrement meilleure qu'un tirage au sort. Certains modèles, en particulier ceux conçus pour le raisonnement basé sur des tableaux, n'ont pas surpassé ceux formés uniquement sur des données textuelles. Les résultats suggèrent que les caractéristiques uniques des tableaux scientifiques présentent des défis que les modèles n'ont pas encore maîtrisés.

Analyse des Erreurs

Une analyse des erreurs a été réalisée pour identifier les raisons communes des prédictions incorrectes par les modèles. Par exemple, beaucoup de modèles ont classé à tort des affirmations soutenues comme NEI à cause d'incertitudes dans des scénarios complexes. Cela a montré que distinguer les affirmations vérifiées et non vérifiées est un obstacle significatif.

De nouvelles stratégies doivent être développées pour relever ces défis, y compris améliorer la compréhension des affirmations ambiguës et intégrer un contexte et des connaissances plus larges.

Directions Futures

Le jeu de données ouvre de nouvelles voies pour la recherche sur la vérification scientifique automatisée. Les travaux futurs pourraient impliquer la construction de modèles spécifiquement conçus pour gérer la complexité des affirmations et des tableaux scientifiques. De plus, aborder l'ambiguïté des affirmations sera crucial pour améliorer la précision. Cela pourrait impliquer d'intégrer plus d'informations contextuelles ou d'utiliser des sources de connaissances spécialisées pour aider à clarifier les affirmations.

Conclusion

Cet article présente un pas en avant significatif dans le domaine de la vérification scientifique en introduisant un jeu de données qui capture les défis de la vérification des affirmations scientifiques. En se concentrant sur de vraies affirmations et les données qui les accompagnent sous forme de tableau, le jeu de données représente un environnement plus réaliste et exigeant pour tester les modèles de vérification. Des efforts continus pour construire de meilleurs modèles et aborder les défis uniques du raisonnement scientifique sont essentiels pour faire progresser ce domaine de recherche important.

Source originale

Titre: SCITAB: A Challenging Benchmark for Compositional Reasoning and Claim Verification on Scientific Tables

Résumé: Current scientific fact-checking benchmarks exhibit several shortcomings, such as biases arising from crowd-sourced claims and an over-reliance on text-based evidence. We present SCITAB, a challenging evaluation dataset consisting of 1.2K expert-verified scientific claims that 1) originate from authentic scientific publications and 2) require compositional reasoning for verification. The claims are paired with evidence-containing scientific tables annotated with labels. Through extensive evaluations, we demonstrate that SCITAB poses a significant challenge to state-of-the-art models, including table-based pretraining models and large language models. All models except GPT-4 achieved performance barely above random guessing. Popular prompting techniques, such as Chain-of-Thought, do not achieve much performance gains on SCITAB. Our analysis uncovers several unique challenges posed by SCITAB, including table grounding, claim ambiguity, and compositional reasoning. Our codes and data are publicly available at https://github.com/XinyuanLu00/SciTab.

Auteurs: Xinyuan Lu, Liangming Pan, Qian Liu, Preslav Nakov, Min-Yen Kan

Dernière mise à jour: 2023-10-23 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2305.13186

Source PDF: https://arxiv.org/pdf/2305.13186

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires