Simple Science

La science de pointe expliquée simplement

# Informatique# Intelligence artificielle# Calcul et langage

Faire avancer la reconnaissance d'entités nommées avec le jeu de données Wiki-TabNER

Un nouveau jeu de données améliore l'interprétation des tables et les tâches de reconnaissance d'entités nommées.

― 10 min lire


Le dataset Wiki-TabNERLe dataset Wiki-TabNERbooste les tâches de NER.dans des tableaux complexes.les modèles de reconnaître des entitésNouveau jeu de données qui met au défi
Table des matières

Les tableaux sur le web regorgent d'infos utiles. Ils organisent les données de manière claire, ce qui les rend plus faciles à lire et à comprendre. Récemment, des chercheurs ont développé des modèles spéciaux pour mieux interpréter ces tableaux, en se concentrant sur des tâches comme comprendre ce que chaque donnée représente. Cet article discute d'une tâche particulière appelée Reconnaissance d'entités nommées (NER), qui vise à identifier des types d'infos spécifiques dans les cellules d'un tableau.

Dans ce travail, on examine de près un ensemble de données couramment utilisé pour évaluer les tâches d'interprétation de tableaux. On constate que cet ensemble simplifie trop le problème et ne reflète pas à quoi ressemblent les tableaux dans la vraie vie. Pour améliorer les méthodes d'évaluation, on a créé un nouvel ensemble de données plus difficile qui offre une meilleure représentation des tableaux du monde réel.

Problèmes existants avec les ensembles de données actuels

L'ensemble de données utilisé auparavant pour les tâches d'interprétation de tableaux est limité en complexité. Il suppose que chaque cellule d'un tableau ne peut contenir qu'une seule info, ce qui réduit considérablement le défi de l'interprétation des données. En réalité, beaucoup de cellules contiennent plusieurs infos, rendant la tâche plus difficile. Cette limitation a rendu difficile pour les chercheurs de créer des modèles efficaces capables de travailler avec des tableaux complexes.

En regardant les tableaux web de près, on a trouvé plein d'exemples où une seule cellule contenait plusieurs points de données. Cela veut dire que les modèles existants, qui sont conçus pour ne gérer que des tableaux simples, pourraient ne pas bien fonctionner en pratique. Cette réalisation nous a amenés à conclure qu'une nouvelle approche est nécessaire pour améliorer l'évaluation de l'interprétation des tableaux, surtout en termes de Liaison d'entités.

Introduction du nouvel ensemble de données

Pour pallier les limitations de l'ensemble de données actuel, on a créé un nouveau qui s'appelle Wiki-TabNER. Cet ensemble reflète la structure réelle des tableaux trouvés sur Wikipedia. On a soigneusement annoté les entités dans les cellules, les liant à des catégories spécifiques pour aider à l'évaluation des tâches de reconnaissance d'entités nommées.

Le but du nouvel ensemble est de fournir un ensemble de tableaux plus réaliste qui contient plusieurs points de données dans chaque cellule. Ce faisant, on vise à améliorer l'évaluation de la NER dans les tableaux, permettant ainsi aux chercheurs de construire des modèles qui peuvent mieux performer.

Décomposition des tâches d'interprétation des tableaux

L'interprétation des tableaux comprend plusieurs tâches. L'une des principales tâches est la liaison d'entités, qui consiste à relier les mentions d'entités dans un tableau à leurs entités de référence correspondantes. Une autre tâche est l'Annotation de type de colonne, où le sens de chaque colonne est identifié. On examine également l'Extraction de relations, qui identifie comment les colonnes se rapportent les unes aux autres.

L'ensemble de données existant, connu sous le nom de TURL, a été largement utilisé pour ces tâches. Il a été extrait de tableaux web mais a été simplifié lors du traitement. Beaucoup de tableaux complexes dans le corpus original de WikiTables ont été réduits à une seule entité par cellule, ignorant les structures plus riches présentes dans ces tableaux. Notre analyse clarifie qu'il faut repenser notre approche de la reconnaissance d'entités nommées et créer des modèles capables de gérer plus de complexité.

L'importance de la reconnaissance d'entités nommées

La reconnaissance d'entités nommées dans les tableaux est essentielle pour comprendre les données efficacement. Le défi clé est d'identifier toutes les entités mentionnées dans une cellule et de les classer dans leurs types respectifs. Cette tâche n'a pas été efficacement évaluée par le passé, ce qui a entraîné un manque de standards communs pour l'évaluation.

En étendant la NER à tous les tableaux relationnels, on espère mettre en lumière les limites de l'approche une-entité-par-cellule et la nécessité d'une compréhension plus nuancée des données dans les tableaux. On présente l'ensemble de données Wiki-TabNER comme une solution, visant à combler le fossé entre les évaluations simples et les scénarios du monde réel.

Construction de l'ensemble de données Wiki-TabNER

Pour créer l'ensemble de données Wiki-TabNER, on s'est concentré sur la collecte de tableaux relationnels de haute qualité. On a identifié des tableaux contenant une colonne sujet, s'assurant qu'ils avaient plusieurs entités et une moyenne de deux liens par cellule. Cela a abouti à un ensemble de données contenant des tableaux complexes qui reflètent mieux les données du monde réel que les ensembles précédents.

L'ensemble final contient plus de 51 000 tableaux, avec une moyenne de lignes et de colonnes. Cette riche collection de données est conçue pour faciliter l'évaluation des tâches de NER dans les tableaux sur une large gamme de complexités.

Étiquetage et annotation des données

Pour notre nouvel ensemble de données, on a appliqué un processus d'annotation minutieux. Chaque entité trouvée dans les cellules des tableaux est liée à des types d'entités spécifiques. On a utilisé un schéma d'étiquetage dual, qui comprend des étiquettes BIO pour les modèles d'étiquetage de séquence et des étiquettes basées sur des spans pour des modèles plus complexes. Cette méthode aide à identifier avec précision les entités et leurs types au sein des données structurées.

On reconnaît que certaines entités n'ont pas d'entrées correspondantes dans les bases de données. Donc, on exclut toutes les entités non liées de notre évaluation, se concentrant uniquement sur celles qui peuvent être efficacement classées. Ce processus d'étiquetage nous permet de créer un ensemble de données complet et réutilisable qui a le potentiel d'applications larges dans divers modèles.

Évaluation des LLM avec le nouvel ensemble de données

Avec l'ensemble de données Wiki-TabNER prêt, on a voulu tester son efficacité en évaluant des modèles de langage de grande taille (LLMs) dans la tâche de NER spécifiquement axée sur les données de tableaux. Notre évaluation implique d'utiliser des invites d'entrée qui décrivent la structure attendue pour la sortie.

Ces invites consistent en des instructions claires sur comment extraire des entités des tableaux et les classer correctement. On effectue des expériences avec divers modèles pour évaluer leur performance lorsqu'ils reçoivent à la fois aucun exemple et quelques exemples. L'objectif est de voir à quel point ils peuvent généraliser et s'adapter à la tâche de reconnaissance d'entités nommées dans des tableaux complexes.

Résultats et observations

À travers notre évaluation de différents modèles, on a trouvé des niveaux d'efficacité variés en ce qui concerne la reconnaissance d'entités dans les tableaux. Certains modèles ont particulièrement bien performé, tandis que d'autres ont eu du mal. Notamment, les modèles optimisés pour le suivi d'instructions, comme le modèle GPT-instruct, ont montré des scores de performance plus élevés par rapport à des modèles plus récents comme GPT-4.

Nos résultats ont également indiqué que fournir des exemples à faible nombre d'exemples a significativement amélioré la performance des modèles. L'amélioration était particulièrement évidente lors de l'utilisation de techniques de sélection basées sur la similarité pour choisir ces exemples, entraînant des scores plus élevés dans l'ensemble.

Défis rencontrés lors de l'évaluation

Malgré nos efforts, on a rencontré plusieurs défis lors du processus d'évaluation. Un problème majeur était la longueur des sorties générées, qui dépassait parfois les limites de traitement. Cela a rendu difficile l'analyse précise de l'information. De plus, les modèles produisaient souvent des sorties inattendues, un phénomène connu sous le nom d’hallucination, qui nécessitait des mesures supplémentaires pour une évaluation correcte.

Les erreurs dans le positionnement des cellules et des spans étaient également courantes, en particulier lorsque les tableaux étaient représentés dans des formats qui confondaient les modèles. Passer à une représentation plus simple a amélioré certains résultats, mais le défi de localiser avec précision les entités est resté un obstacle dans le processus d'évaluation.

Limitations de l'approche actuelle

Notre analyse du nouvel ensemble de données et l'évaluation des modèles ont révélé des limitations critiques. Premièrement, la présence d'entités ambiguës a souvent conduit à des difficultés de classification. Il pouvait être difficile de trouver une étiquette adaptée pour certaines entités qui correspondaient à plusieurs catégories. De plus, notre choix de classes générales signifiait que des opportunités pour des distinctions plus fines étaient perdues.

Ces limitations rappellent que même si l'ensemble de données Wiki-TabNER représente un avancement dans l'évaluation des tâches de NER, il reste encore un long chemin à parcourir pour affiner à la fois la qualité des données et les capacités des modèles. Des améliorations supplémentaires sont nécessaires pour renforcer la robustesse des modèles dans la gestion de structures de données complexes.

Directions futures

En regardant vers l'avenir, il y a plusieurs avenues pour l'exploration future. Parmi elles, il y a l'extension de notre évaluation pour inclure la tâche de liaison d'entités en utilisant l'ensemble de données Wiki-TabNER. Les efforts pour enrichir l'ensemble de données et améliorer les annotations d'entités sont également importants.

On cherche aussi à comprendre davantage si les modèles ont déjà rencontré des tableaux similaires à ceux de notre ensemble de données lors de leur entraînement, ce qui pourrait influencer leur performance. En s'attaquant à ces défis de front, on vise à élever à la fois l'ensemble de données et les modèles pour fournir de meilleurs résultats à long terme.

Conclusion

En résumé, l'ensemble de données Wiki-TabNER représente un progrès significatif dans l'évaluation de la reconnaissance d'entités nommées dans les tableaux. Les limitations des ensembles de données précédents ont incité à créer un cadre plus difficile qui reflète plus étroitement les scénarios de la vie réelle. Notre évaluation des modèles de langage indique que reconnaître des entités dans des tableaux complexes reste une tâche difficile.

En fournissant l'ensemble de données Wiki-TabNER et des insights de notre évaluation, on espère inspirer des recherches supplémentaires dans l'interprétation des tableaux et la reconnaissance d'entités nommées. Les défis présentés par des données complexes nécessitent une amélioration continue et une adaptation, et on est excité de voir où le domaine va aller ensuite.

Source originale

Titre: Wiki-TabNER:Advancing Table Interpretation Through Named Entity Recognition

Résumé: Web tables contain a large amount of valuable knowledge and have inspired tabular language models aimed at tackling table interpretation (TI) tasks. In this paper, we analyse a widely used benchmark dataset for evaluation of TI tasks, particularly focusing on the entity linking task. Our analysis reveals that this dataset is overly simplified, potentially reducing its effectiveness for thorough evaluation and failing to accurately represent tables as they appear in the real-world. To overcome this drawback, we construct and annotate a new more challenging dataset. In addition to introducing the new dataset, we also introduce a novel problem aimed at addressing the entity linking task: named entity recognition within cells. Finally, we propose a prompting framework for evaluating the newly developed large language models (LLMs) on this novel TI task. We conduct experiments on prompting LLMs under various settings, where we use both random and similarity-based selection to choose the examples presented to the models. Our ablation study helps us gain insights into the impact of the few-shot examples. Additionally, we perform qualitative analysis to gain insights into the challenges encountered by the models and to understand the limitations of the proposed dataset.

Auteurs: Aneta Koleva, Martin Ringsquandl, Ahmed Hatem, Thomas Runkler, Volker Tresp

Dernière mise à jour: 2024-03-07 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2403.04577

Source PDF: https://arxiv.org/pdf/2403.04577

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires