WebIE : Améliorer l'extraction d'infos du Web
WebIE s'attaque aux défis d'extraction de données structurées à partir de contenus web.
― 8 min lire
Table des matières
- Le Défi de l'Extraction d'Informations
- Présentation de WebIE
- Importance des Exemples Négatifs
- Stratégies d'entraînement
- Collecte de Données pour WebIE
- Aspect Multilingue de WebIE
- Extraction d'Informations Génératives
- Amélioration de l'Exactitude d'Extraction avec des Contraintes
- Résultats et Performance
- Défis et Travaux Futurs
- Conclusion
- Source originale
- Liens de référence
L'Extraction d'informations, souvent abrégée en IE, c'est le processus qui consiste à tirer des infos structurées à partir de textes non structurés. Un moyen courant de représenter ces infos extraites, c'est sous forme de triples, qui se composent généralement d'un sujet, d'une relation et d'un objet. Par exemple, dans la phrase "La capitale de la France est Paris", on peut extraire le triple (France, capitale, Paris).
Cette tâche est super importante pour de nombreuses applications dans le domaine du traitement du langage naturel (NLP). Les applications incluent la création de bases de connaissances, la réponse à des questions, le résumé de textes de manière précise, et la détection de désinformation.
Le Défi de l'Extraction d'Informations
Traditionnellement, les jeux de données utilisés pour entraîner les systèmes d'IE proviennent principalement d'articles de Wikipedia. Ces articles ont des hyperliens qui relient des entités à une base de connaissances, comme Wikidata, ce qui simplifie le processus de collecte d'infos. Cependant, les modèles qui n'utilisent que Wikipedia pour l'entraînement ont souvent du mal à traiter des textes provenant d'autres domaines du web. C'est surtout parce que le web est rempli de textes bruyants et d'infos qui ne sont pas toujours factuelles.
Par exemple, si on regarde le dataset C4 d'AllenAI, qui provient de données web, on constate que moins de 15 % des phrases contiennent des triples utiles. Cela met en avant l'inadéquation de se fier uniquement à Wikipedia pour entraîner des modèles d'IE face à la complexité des données web.
Présentation de WebIE
Pour faire face à ces défis, on présente WebIE, un jeu de données à grande échelle conçu spécifiquement pour extraire des infos structurées du web. WebIE est composé de 1,6 million de phrases collectées sur diverses sources web, en ciblant spécifiquement les 200 domaines URL les plus fréquents identifiés dans le dataset C4. Important, WebIE inclut non seulement des exemples positifs (phrases contenant des triples) mais aussi des Exemples négatifs (phrases sans triples) pour mieux refléter la diversité des infos disponibles sur le web.
Dans le processus de création de WebIE, on a utilisé une méthode de crowdsourcing pour annoter environ 21 000 triples spécifiques trouvés dans le dataset. De plus, on a créé une version multilingue appelée m WebIE, qui propose des traductions des données annotées en quatre langues : français, espagnol, portugais et hindi.
Importance des Exemples Négatifs
Inclure des exemples négatifs dans le dataset est crucial. Ça aide à entraîner les modèles à reconnaître quand l'info est absente, ce qui est essentiel pour réduire les faux positifs. Les faux positifs se produisent quand un modèle génère des infos qu'il suppose vraies mais qui ne sont pas soutenues par le texte. En entraînant les modèles sur des exemples positifs et négatifs, on peut améliorer leur performance sur des données réelles, les rendant plus fiables.
Stratégies d'entraînement
Pour améliorer la performance des modèles sur WebIE, on a utilisé plusieurs stratégies d'entraînement qui exploitent le processus de Liaison d'entités comme une tâche supplémentaire. Voici les principales stratégies :
Entraînement Standard : L'approche de base où les modèles sont entraînés en utilisant uniquement les triples linéarisés des phrases.
Entity-Prompt : Dans cette méthode, le modèle identifie d'abord les entités liées dans le texte et génère ensuite les triples.
Artificial-Prompt : Ici, on utilise des tokens spéciaux dans l'entrée pour indiquer le type de sortie attendue du modèle, que ce soit des liens d'entités ou des triples.
2LM-Heads : Cette stratégie implique l'utilisation de deux têtes de modèle de langage différentes au sein du même modèle. Une tête se concentre sur la génération de triples, tandis que l'autre se spécialise dans la liaison d'entités.
Des expériences montrent que les modèles utilisant ces stratégies performent mieux et produisent des sorties plus précises.
Collecte de Données pour WebIE
Le développement de WebIE a impliqué plusieurs étapes :
Sélection des Sources de Données : On a commencé avec le segment anglais du dataset C4 d'AllenAI, en filtrant pour les 200 principaux domaines URL. De là, on a sélectionné au hasard un million de documents.
Segmentation des Phrases : On a traité les textes pour créer des phrases, en éliminant celles qui faisaient moins de dix mots. Cela a donné environ 20 millions de phrases.
Liaison d'Entités : En utilisant un modèle à la pointe, on a identifié les entités dans les phrases et les a liées à leurs entrées correspondantes dans Wikidata.
Extraction de Triples : En appliquant l'approche de supervision distante, on a extrait des triples potentiels. Cependant, tous les triples extraits n'étaient pas exprimés de manière précise dans les phrases, donc on a utilisé un modèle d'inférence en langage naturel pour filtrer ceux qui n'étaient pas valides.
Génération d'Exemples Négatifs : Comme moins de 10 % des phrases contenaient des triples, on a inclus des phrases qui n'avaient pas d'entités ou qui ne transmettaient pas d'infos factuelles sur les entités. Cela a porté le total de phrases dans WebIE à 1,6 million, avec la moitié servant d'exemples négatifs.
Annotation Humaine : Pour garantir la fiabilité, on a échantillonné au hasard 21 000 triples du dataset pour une annotation humaine, s'assurant que les triples extraits étaient effectivement présents dans les phrases.
Aspect Multilingue de WebIE
Dans notre effort pour rendre WebIE plus accessible, on a traduit l'ensemble annoté en plusieurs autres langues. Cela a impliqué l'utilisation d'un modèle de traduction neuronale pour produire des traductions, suivie d'une vérification par des annotateurs humains. Le WebIE multilingue, ou m WebIE, inclut des exemples en français, espagnol, portugais et hindi. Chaque langue comprend environ 9 000 exemples, élargissant ainsi l'utilité du dataset au-delà de l'anglais.
Extraction d'Informations Génératives
Pour la phase de test de WebIE, on a utilisé deux modèles génératifs, BART et mBART. Ces modèles ont été entraînés pour prendre une phrase comme entrée et générer les triples correspondants. L'entraînement visait à maximiser la probabilité de produire les bons triples en fonction des phrases d'entrée.
En employant les diverses stratégies d'entraînement décrites plus haut, on visait à améliorer la capacité des modèles à extraire des infos avec précision et à produire des sorties qui pouvaient être reliées à des parties spécifiques du texte d'entrée.
Amélioration de l'Exactitude d'Extraction avec des Contraintes
Pour améliorer encore l'exactitude de nos modèles, on a expérimenté des méthodes de décodage avec contraintes. Cela implique de restreindre les sorties des modèles pour qu'elles soient valides selon les entrées de Wikidata. On a construit deux types de Tries de contrainte : une pour les entités et une autre pour les relations. Ces Tries guident le processus de décodage, garantissant que le modèle génère des sorties qui sont faisables et précises.
Résultats et Performance
La performance de nos modèles a été évaluée sur plusieurs jeux de données, y compris WebIE et le dataset REBEL. Les modèles entraînés sur les deux datasets ensemble ont obtenu les meilleurs résultats globaux, montrant une meilleure généralisabilité. Cela indique que s'entraîner sur des datasets divers aide à gérer les complexités d'extraction d'infos à partir de diverses sources web.
Par exemple, les modèles entraînés uniquement sur des données Wikipedia ont souvent eu du mal face à du contenu web réel, entraînant un taux élevé de faux positifs. En revanche, les modèles entraînés sur WebIE ont démontré la capacité de reconnaître quand ne pas produire de triples, évitant ainsi les hallucinations.
Défis et Travaux Futurs
Malgré les progrès réalisés, plusieurs défis subsistent :
Gérer les Faux Négatifs : Certains triples pourraient ne pas être représentés avec précision dans le dataset. Donc, les modèles doivent être assez robustes pour découvrir de nouvelles infos qui ne sont pas explicitement listées dans la base de connaissances.
Relations Limitées dans l'Annotation : L'annotation humaine s'est concentrée sur les relations les plus courantes. Des relations plus complètes pourraient améliorer l'utilité du dataset.
Restrictions Linguistiques : Bien qu'on ait ciblé des langues spécifiques pour nos traductions, il y a beaucoup d'autres langues qui pourraient bénéficier d'une approche similaire.
Mise à Jour du Dataset : Les informations changent avec le temps, et garder le dataset à jour est essentiel pour maintenir sa pertinence.
Conclusion
WebIE est un pas en avant significatif dans le domaine de l'extraction d'infos, surtout pour le contenu en ligne. En intégrant à la fois des exemples positifs et négatifs, en utilisant des stratégies d'entraînement innovantes, et en s'étendant à des datasets Multilingues, on pose une base pour des modèles d'extraction d'infos plus robustes. Les efforts futurs pourraient explorer de nouvelles architectures et cadres pour améliorer encore les capacités des modèles génératifs à traiter des données web diverses et bruyantes.
Titre: WebIE: Faithful and Robust Information Extraction on the Web
Résumé: Extracting structured and grounded fact triples from raw text is a fundamental task in Information Extraction (IE). Existing IE datasets are typically collected from Wikipedia articles, using hyperlinks to link entities to the Wikidata knowledge base. However, models trained only on Wikipedia have limitations when applied to web domains, which often contain noisy text or text that does not have any factual information. We present WebIE, the first large-scale, entity-linked closed IE dataset consisting of 1.6M sentences automatically collected from the English Common Crawl corpus. WebIE also includes negative examples, i.e. sentences without fact triples, to better reflect the data on the web. We annotate ~21K triples from WebIE through crowdsourcing and introduce mWebIE, a translation of the annotated set in four other languages: French, Spanish, Portuguese, and Hindi. We evaluate the in-domain, out-of-domain, and zero-shot cross-lingual performance of generative IE models and find models trained on WebIE show better generalisability. We also propose three training strategies that use entity linking as an auxiliary task. Our experiments show that adding Entity-Linking objectives improves the faithfulness of our generative IE models.
Auteurs: Chenxi Whitehouse, Clara Vania, Alham Fikri Aji, Christos Christodoulopoulos, Andrea Pierleoni
Dernière mise à jour: 2023-06-15 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2305.14293
Source PDF: https://arxiv.org/pdf/2305.14293
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://ctan.org/pkg/amssymb
- https://ctan.org/pkg/pifont
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://github.com/amazon-science/WebIE
- https://huggingface.co/datasets/allenai/c4
- https://spacy.io/
- https://huggingface.co/cross-encoder/nli-deberta-v3-large
- https://huggingface.co/facebook/nllb-200-distilled-1.3B
- https://huggingface.co/facebook/bart-large
- https://huggingface.co/facebook/mbart-large-50
- https://docs.aws.amazon.com/AWSMechTurk/latest/AWSMturkAPI/ApiReference_LocaleDataStructureArticle.html