Évaluation des modèles de langue pour la complétion de bases de connaissances
De nouveaux benchmarks révèlent le potentiel des modèles de langage pour combler les lacunes des bases de connaissances.
― 12 min lire
Table des matières
- L'Importance des Bases de Connaissances
- Analyse Systématique des Modèles de Langage
- Construction et Complétion de la base de connaissances
- Tâches de Complétion de Base de Connaissances
- Utilisation de Modèles de Langage pour la Prédiction de Faits
- Mise en Place de la Procédure d'Analyse
- Création du Dataset
- Potentiel pour la Prédiction de Faits Existants
- Analyse Qualitative pour l'Amélioration de la Performance
- Résumé des Découvertes
- Conclusion
- Source originale
- Liens de référence
Les bases de données structurées (KB) sont super importantes pour plein d'applis intelligentes, mais souvent, elles sont pas complètes. Récemment, des chercheurs se sont penchés sur l'utilisation des modèles de langage (LM) pour combler ces lacunes dans les Bases de connaissances. Les premiers résultats étaient prometteurs, mais y'a encore des doutes sur la vraie efficacité de ces modèles pour ce taf. Beaucoup d'évaluations existantes se concentrent juste sur des sujets populaires ou utilisent des infos déjà présentes dans les KB, ce qui ne donne pas une vue d'ensemble sur le potentiel des modèles.
Dans ce travail, on propose un nouveau dataset de benchmark plus exigeant et une méthode pour évaluer de manière réaliste à quel point les LM peuvent compléter les bases de connaissances. On a créé un dataset appelé "Wikidata Sample," qui échantillonne aléatoirement plus de 3,9 millions de faits de Wikidata. Ce dataset est impartial et vise à évaluer les LM sur des prédictions qui n’ont jamais été documentées dans aucune base de connaissances.
Une de nos principales découvertes est que les benchmarks précédents présentaient des biais qui ont conduit à une exagération des performances des modèles de langage. Cependant, on a aussi trouvé des domaines où les modèles de langage montrent un vrai potentiel. Par exemple, on a réussi à élargir les connaissances dans Wikidata pour plusieurs relations, augmentant considérablement le nombre de faits tout en maintenant une grande précision.
L'Importance des Bases de Connaissances
Les bases de connaissances comme Wikidata, DBpedia et Yago sont des éléments essentiels du web sémantique. Elles jouent un rôle crucial dans des applis comme les moteurs de recherche, les systèmes de questions-réponses et les dialogues. Construire et maintenir ces KB à un niveau élevé et à grande échelle est un défi qui dure depuis longtemps dans la recherche. Il y a plusieurs benchmarks existants pour construire des bases de connaissances, comme FB15k, CoDEx et LM-KBC22.
Les méthodes traditionnelles pour construire des KB impliquent souvent l’extraction de texte et l'utilisation d'embeddings de graphes de connaissances. Le paysage de la construction des bases de données évolue constamment, et les avancées récentes soulignent souvent la vitesse et des méthodes attrayantes. Cependant, la complétion pratique des bases de connaissances (KBC) exige un focus intense sur la précision et implique un effort manuel considérable.
Les travaux précédents dans ce domaine oublient souvent trois aspects critiques :
Focus sur la Haute Précision : Beaucoup de modèles privilégient un équilibre entre précision et rappel, ce qui peut mener à des attentes irréalistes. Par exemple, des systèmes comme Yago et Google Knowledge Vault ne sont pas déployés à cause de l'incapacité à atteindre la précision requise.
Évaluation du Potentiel de Complétion : Les benchmarks actuels se concentrent souvent sur des sujets bien connus, ce qui n'est pas utile pour la KBC. Par exemple, prédire les capitales des pays peut avoir une haute précision, mais ces faits sont déjà capturés dans des bases de connaissances établies.
Prédiction de Faits Manquants : Les recherches actuelles testent souvent les modèles sur des informations déjà incluses dans les bases de données, ce qui ne reflète pas leur véritable potentiel de complétion. Il faut prédire des objets pour des paires sujet-relation que la KB n’a pas encore documentées.
Sachant que Wikidata compte environ 100 millions d'entités et 1,2 milliard d'énoncés, même de petites augmentations dans le savoir factual peuvent signifier des gains significatifs en chiffres absolus. Par exemple, ajouter une info à juste 1 % de Wikidata pourrait coûter autour de 100 000 USD, montrant la valeur de l'efficacité dans ce processus.
Analyse Systématique des Modèles de Langage
Dans notre étude, on a analysé systématiquement les modèles de langage pour la complétion des bases de connaissances. On s'est concentrés sur une haute précision, surtout autour de 90 %. Notre processus d'évaluation incluait :
- Créer un nouveau dataset de benchmark qui échantillonne aléatoirement des faits de Wikidata.
- Réaliser une évaluation manuelle des prédictions où la valeur de l'objet est inconnue.
Pour notre analyse, on s'est concentrés sur le modèle de langage BERT et la base de connaissances Wikidata. Même si des modèles plus récents ont émergé, BERT reste populaire et sert de point d'évaluation solide par rapport à la vaste base de données de Wikidata.
Nos principales découvertes incluent :
- Les modèles de langage, quand on les évalue de manière réaliste, performent en dessous des attentes mais réussissent quand même à obtenir de bons résultats pour des types d'infos spécifiques, comme les relations socio-démographiques.
- Des ajustements simples, comme l'élargissement du vocabulaire et l'amélioration de la manière dont les prompts sont structurés, peuvent considérablement améliorer la capacité du modèle à générer des connaissances précises.
Par exemple, on a élargi les connaissances dans Wikidata dans trois domaines : la relation "nativeLanguage" est passée de 260 000 à 5,8 millions de faits, "usedLanguage" de 2,1 millions à 6,6 millions, et "citizenOf" de 4,2 millions à 5,3 millions de faits, tout en maintenant de hauts niveaux de précision.
Construction et Complétion de la base de connaissances
La construction de bases de connaissances a une riche histoire. Une approche courante s'appuie sur la supervision humaine, comme on le voit dans des projets comme CYC, et cette curation continue de soutenir les KB publiques modernes comme Wikidata. D'autres stratégies incluent l'extraction de données à partir de ressources semi-structurées ou de texte libre.
La prédiction de liens basée sur les embeddings a gagné en popularité, mais un défi majeur reste l'équilibre entre précision et rappel. Les études académiques peuvent échanger librement entre ces métriques, tandis que dans les applis réelles, la précision prime. Par exemple, Wikidata décourage l'utilisation d'hypothèses statistiques dans les modifications.
La plage de haute précision est encore peu explorée. La plupart des benchmarks existants, y compris FB15k et WN18, se concentrent sur des entités populaires qui ont déjà des données substantielles associées. Le problème avec ces benchmarks est qu'ils ne peuvent pas évaluer la vraie capacité d'un modèle à compléter les bases de connaissances à cause de leur dépendance à des données existantes.
Tâches de Complétion de Base de Connaissances
La complétion de bases de connaissances (KBC) traite des lacunes dans les KB. L'objectif est de prédire des faits manquants, généralement formulés comme des paires sujet-relation. Combler ces lacunes peut aider à créer une base de connaissances plus complète et utile.
Cette tâche peut être divisée en sous-tâches comme prédire des objets manquants pour des paires existantes ou identifier des paires sujet-relation valides. Dans notre étude, on se concentre sur la tâche la plus pressante : prédire des objets qui vont avec une paire sujet-relation où l'objet est actuellement inconnu.
On catégorise les faits déjà inclus dans une KB comme "faits existants." En revanche, les "faits manquants" font référence à ceux qui ne sont pas encore enregistrés. Notre objectif est d'améliorer les bases de connaissances en prédisant efficacement ces faits manquants.
Utilisation de Modèles de Langage pour la Prédiction de Faits
Pour interroger le modèle de langage pour des faits manquants, on masque l'objet dans les triples existants et les utilise pour former des prompts. Le LM fournit alors une distribution de probabilité sur son vocabulaire. On sélectionne les meilleures prédictions parmi ces résultats.
La capacité de combler ces blancs est vitale pour la KBC. On utilise des requêtes de type cloze comme "La capitale de la France est [MASK]." Le modèle de langage fonctionne pour prédire le mot manquant, qui sert d'objet.
On analyse la capacité de BERT à prédire des faits en utilisant ces masques, en se concentrant sur sa capacité à gérer des prompts spécifiques aux relations. Notre analyse en deux étapes nous permet d'abord d'évaluer les prédictions des faits existants, puis d'explorer le potentiel du modèle à combler ceux qui manquent via une évaluation humaine.
Mise en Place de la Procédure d'Analyse
Notre évaluation comprend une approche duale :
- Évaluer les prédictions de faits existants via un processus automatisé qui calcule le rappel à 90 % de précision.
- Explorer le potentiel de complétion des bases de connaissances en prédisant des faits manquants, vérifiés par une évaluation humaine.
On compare nos résultats avec le benchmark LAMA-T-REx pour jauger les capacités du LM de manière plus réaliste. Les résultats de notre analyse nous ont aidés à établir des seuils pertinents pour la prédiction de faits.
Pour vraiment évaluer les capacités des LM pour la KBC, on a créé un dataset à grande échelle de faits aléatoires de Wikidata, visant à éviter les biais vers des sujets populaires. Bien que notre dataset soit aléatoire, il reste ancré dans la réalité.
Création du Dataset
On a compilé des faits de Wikidata pour les mêmes relations que le dataset LAMA-T-REx, en extrayant des paires sujet-relation. Cette extraction englobe tous les objets valides associés à chaque paire pour garantir l'exactitude des données de vérité de base.
Un aspect essentiel de notre dataset est sa capacité à gérer des objets multi-token, ce qui nous aide à évaluer la performance du LM dans diverses conditions. L'entropie moyenne des objets est enregistrée avec le total des triples, les sujets distincts et d'autres statistiques pertinentes.
Potentiel pour la Prédiction de Faits Existants
En analysant les faits existants, on évalue la capacité de BERT à prédire des objets liés à des paires sujet-relation connues. On calcule le niveau de prédictions correctes en utilisant une métrique basée sur le rang, en calculant le rappel et la précision.
En comparant BERT avec des méthodes de base, on peut voir sa capacité à aller au-delà de simples prédictions d'objets communs. Notre analyse montre comment différentes distributions d'objets impactent le niveau de précision atteint.
Les résultats indiquent que, bien que la méthode de base majoritaire fournisse une solide fondation, BERT peut surpasser cela, montrant la valeur ajoutée du modèle.
Analyse Qualitative pour l'Amélioration de la Performance
Pour booster le succès de BERT dans la complétion des bases de connaissances, on a effectué une analyse qualitative pour identifier les erreurs courantes dans les prédictions. En choisissant un sous-ensemble représentatif de relations, on a identifié des catégories d'erreurs, y compris des erreurs hiérarchiques ou des prompts ambigus.
Nos ajustements se concentrent sur trois domaines principaux :
- Optimisation de l'Entrée : Améliorer les prompts grâce à des techniques comme la génération AutoPrompt.
- Optimisation du Modèle : Affiner le modèle et élargir son vocabulaire, augmentant ainsi la précision des prédictions.
- Ajustement de la Sortie : Utiliser des dictionnaires manuellement élaborés qui aident à mapper les prédictions à la vérité de base.
Grâce à ces optimisations, on voit des améliorations notables dans les prédictions pour diverses relations, menant à une meilleure extraction de connaissances.
Résumé des Découvertes
L'étude souligne l'importance d'utiliser des datasets impartiaux pour obtenir des évaluations précises des capacités des modèles de langage pour la complétion des bases de connaissances. Nos découvertes suggèrent que, lorsque les LM reçoivent l'approche adaptée, ils peuvent contribuer significativement à combler les lacunes des bases de connaissances.
On a aussi appris que les limitations de vocabulaire peuvent restreindre la performance. En élargissant le vocabulaire et en raffinant les modèles, on peut réaliser des améliorations notables dans les prédictions de connaissances.
L'analyse des faits manquants-ceux qui ne sont pas actuellement enregistrés dans une KB-démontre le potentiel des modèles de langage à générer efficacement de nouvelles connaissances. Les évaluations humaines ont confirmé la viabilité des prédictions du modèle.
Conclusion
Ce travail met en avant les capacités de complétion automatisée des bases de connaissances à l'aide de modèles de langage. En introduisant un dataset de benchmark difficile, on fournit une évaluation plus réaliste du potentiel des modèles de langage à améliorer les bases de connaissances.
Notre analyse illustre l'efficacité variée des LM dans différentes relations, notamment dans des domaines liés à la langue et socio-démographiques. Les stratégies d'affinage et d'expansion du vocabulaire que nous avons mises en œuvre ont conduit à des améliorations significatives.
En avançant, le développement de modèles de langage spécifiquement conçus pour les bases de connaissances pourrait s'avérer bénéfique. De tels modèles pourraient permettre des prédictions de faits encore plus précises et une extraction de connaissances améliorée, ouvrant la voie à une construction de bases de connaissances enrichie.
Titre: Evaluating Language Models for Knowledge Base Completion
Résumé: Structured knowledge bases (KBs) are a foundation of many intelligent applications, yet are notoriously incomplete. Language models (LMs) have recently been proposed for unsupervised knowledge base completion (KBC), yet, despite encouraging initial results, questions regarding their suitability remain open. Existing evaluations often fall short because they only evaluate on popular subjects, or sample already existing facts from KBs. In this work, we introduce a novel, more challenging benchmark dataset, and a methodology tailored for a realistic assessment of the KBC potential of LMs. For automated assessment, we curate a dataset called WD-KNOWN, which provides an unbiased random sample of Wikidata, containing over 3.9 million facts. In a second step, we perform a human evaluation on predictions that are not yet in the KB, as only this provides real insights into the added value over existing KBs. Our key finding is that biases in dataset conception of previous benchmarks lead to a systematic overestimate of LM performance for KBC. However, our results also reveal strong areas of LMs. We could, for example, perform a significant completion of Wikidata on the relations nativeLanguage, by a factor of ~21 (from 260k to 5.8M) at 82% precision, usedLanguage, by a factor of ~2.1 (from 2.1M to 6.6M) at 82% precision, and citizenOf by a factor of ~0.3 (from 4.2M to 5.3M) at 90% precision. Moreover, we find that LMs possess surprisingly strong generalization capabilities: even on relations where most facts were not directly observed in LM training, prediction quality can be high.
Auteurs: Blerta Veseli, Sneha Singhania, Simon Razniewski, Gerhard Weikum
Dernière mise à jour: 2023-03-20 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2303.11082
Source PDF: https://arxiv.org/pdf/2303.11082
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.