S'attaquer aux raccourcis dans les ensembles de données KGC inductifs
Cette étude souligne le besoin de meilleurs jeux de données KGC inductifs.
― 10 min lire
Table des matières
- Problèmes avec les ensembles de données KGC inductifs actuels
- Pourquoi PPR fonctionne bien
- Construire de meilleurs ensembles de données inductifs
- Analyser les nouveaux ensembles de données
- Performance des méthodes KGC
- Évaluation de ULTRA
- Importance des bons ensembles de données
- Conclusion
- Source originale
- Liens de référence
La Complétion de Graphes de Connaissance (KGC) est une méthode qui vise à prédire les infos manquantes dans un graphe de connaissance. Un graphe de connaissance, c'est une manière de représenter les connaissances de façon structurée, en détectant les connexions et les relations entre différentes entités. Ça a plein d'applis comme la découverte de médicaments, la médecine personnalisée, et les recommandations.
Traditionnellement, la recherche KGC s'est concentrée sur ce qu'on appelle le cadre transductif, où les mêmes entités et relations sont utilisées pour l'entraînement et les tests des modèles. La plupart des méthodes fonctionnent en apprenant des représentations pour toutes les entités et relations afin de faire des prédictions sur de nouveaux faits. Récemment, l'intérêt s'est tourné vers une nouvelle approche appelée KGC inductif. Dans ce cadre, le modèle est entraîné sur un graphe et ensuite testé sur un autre graphe qui peut contenir de nouvelles entités ou relations jamais vues pendant l'entraînement. Ça nécessite des techniques plus flexibles qui peuvent apprendre selon le graphe présenté au moment de l'inférence.
Pour évaluer à quel point ces méthodes inductives fonctionnent bien, de nouveaux ensembles de données ont été créés. Ces ensembles de données sont formés en échantillonnant deux graphes de façon à ce qu'ils aient des entités disjointes, c'est-à-dire que le graphe d'entraînement et le graphe de test ne partagent pas les mêmes entités. Les ensembles de données inductives existants proviennent principalement d'anciens ensembles de données transductifs. Différentes méthodes ont montré des promesses sur ces nouveaux ensembles de référence, mais il y a un problème.
On a remarqué qu'une méthode simple connue sous le nom de Personalized PageRank (PPR) peut performer étonnamment bien sur la plupart des ensembles de données inductives. PPR est une approche heuristique qui ne prend pas en compte les informations relationnelles dans le graphe. Ça soulève une question cruciale : pourquoi PPR fonctionne bien sur ces ensembles de données ?
Un examen plus approfondi révèle que la façon dont sont construits les ensembles de données inductives joue un rôle clé. Quand les graphes d'entraînement et de test sont formés, la distance entre les échantillons de test positifs (les bonnes réponses) tend à être beaucoup plus courte que celle des échantillons négatifs (les mauvaises réponses). Ça permet à PPR, qui favorise les chemins plus courts, d'identifier facilement les échantillons positifs juste en se basant sur la distance plutôt que sur des informations relationnelles réelles.
Pour s'attaquer à ce problème, une nouvelle approche pour l'échantillonnage des ensembles de données inductives a été proposée. En utilisant la partition de graphe, l'objectif est de créer des graphes d'entraînement et d'inférence qui conservent mieux les caractéristiques du graphe original. Ça devrait aider à limiter la performance de PPR, rendant l'évaluation des méthodes KGC plus avancées plus équitable.
KGC inductifs actuels
Problèmes avec les ensembles de donnéesEn regardant de plus près les ensembles de données existants pour le KGC inductif, un schéma préoccupant émerge. On peut souvent obtenir des résultats compétitifs juste en utilisant le score PPR. Un problème majeur avec ça, c'est que PPR ignore les relations entre les entités. En conséquence, cette trop grande dépendance au score PPR pourrait fausser l'efficacité réelle des méthodes KGC plus complexes.
Le processus de construction des ensembles de données inductifs actuels semble encourager un raccourci pour des méthodes comme PPR. La manière dont ces ensembles de données ont été créés permet à PPR d'exploiter les distances entre échantillons positifs et négatifs. Cette méthode commune facilite la bonne performance de PPR, nous induisant souvent en erreur sur la véritable capacité des méthodes KGC plus avancées.
Pourquoi PPR fonctionne bien
Le succès de PPR dans le KGC inductif peut être expliqué en examinant la distance moyenne du chemin le plus court (SPD) entre les échantillons positifs et négatifs. Les échantillons positifs ont tendance à avoir une distance moyenne plus courte entre eux comparée aux échantillons négatifs. Cette caractéristique permet à PPR d'avoir un meilleur score parce qu'il pèse beaucoup sur les chemins plus courts. Donc, quand il s'agit d'évaluer quelles entités classer, PPR peut souvent faire la distinction entre échantillons positifs et négatifs uniquement en se basant sur ces distances.
D'un autre côté, en regardant les ensembles de données transductifs, ce phénomène n'est pas aussi courant. Les distances moyennes des chemins les plus courts pour les échantillons positifs et négatifs ne diverge pas autant, ce qui mène à une performance PPR moins bonne. De plus, les différences de connectivité entre échantillons positifs et négatifs jouent aussi un rôle. Les échantillons positifs ont souvent des connexions plus fortes dans le graphe, tandis que les échantillons négatifs pourraient être plus isolés. Cette disparité facilite les meilleures performances de PPR sur les ensembles de données inductives.
Construire de meilleurs ensembles de données inductifs
Pour aborder les problèmes des ensembles de données actuels, une nouvelle stratégie est proposée qui implique la partition de graphe. Au lieu d'utiliser des méthodes précédentes d'échantillonnage, on cherche à créer deux partitions non superposées à partir d'un seul graphe. L'objectif ici est de s'assurer que les graphes d'entraînement et d'inférence conservent leur structure originale afin que les distances et relations entre les entités soient préservées.
En partitionnant le graphe, on peut garantir que les propriétés du graphe original restent intactes. Quand les partitions sont créées, les connexions entre les entités dans chaque partition devraient être denses tout en étant faiblement connectées aux entités dans l'autre partition. Ça minimise l'impact que la suppression d'une partition a sur l'autre. En faisant cela, on peut éviter d'échantillonner des échantillons négatifs non liés qui peuvent fausser les résultats.
Il existe plusieurs techniques pour partitionner efficacement les graphes, y compris le clustering spectral ou la méthode Louvain, selon l'ensemble de données. Une fois le graphe partitionné, on échantillonnera certaines de ces partitions pour créer les graphes d'entraînement et d'inférence. Le but est d'assurer que ces nouveaux ensembles de données inductifs reflètent les caractéristiques de leurs ensembles de données transductifs originaux.
Analyser les nouveaux ensembles de données
Un certain nombre de nouveaux ensembles de données inductifs ont été créés en utilisant cette méthodologie de partition de graphe. Ces ensembles de données ont été évalués par rapport à leurs parents transductifs originaux. Les résultats montrent que les performances de méthodes comme PPR ont significativement chuté lorsqu'évaluées sur les nouveaux ensembles de données. Ça indique que la nouvelle stratégie d'échantillonnage a réussi à réduire le raccourci que PPR pouvait exploiter.
Ces nouveaux ensembles de données ont aussi démontré des tendances de performance similaires à leurs homologues transductifs originaux. Ça indique que les nouveaux ensembles de données inductifs n'introduisent pas de biais significatif, fournissant une évaluation plus précise de la manière dont les méthodes KGC peuvent performer.
Performance des méthodes KGC
Lors de l'évaluation des méthodes KGC populaires sur ces nouveaux ensembles de données, plusieurs observations importantes peuvent être faites. Les méthodes qui montraient des promesses sur les anciens ensembles de données ne performent pas aussi bien sur les nouveaux ensembles. Ça indique que la suppression du raccourci PPR a significativement impacté la performance de ces méthodes.
Chaque méthode KGC a aussi été comparée aux scores PPR. Notamment, des méthodes comme NBFNet et RED-GNN ont mieux performé comparé à des méthodes d'état de l'art précédentes lorsqu'elles ont été testées sur les nouveaux ensembles de données. Cependant, des méthodes comme InGram ont eu du mal dans certains contextes par rapport à leur performance sur les anciens ensembles de données.
Les résultats des benchmarks suggèrent que bien que certaines méthodes supervisées soient capables de bien performer, leur efficacité globale est réduite lorsque les raccourcis dans les données sont supprimés. Ça souligne l'importance d'ensembles de données robustes pour tester correctement les capacités des méthodes KGC.
Évaluation de ULTRA
En plus des méthodes KGC traditionnelles, un modèle de base connu sous le nom de ULTRA a été évalué dans un cadre zéro-shot. L'objectif était de comparer sa performance à des méthodes supervisées sur les nouveaux ensembles de données inductifs. Les résultats indiquent que ULTRA a performé de manière comparable sur la tâche (E) et a significativement surpassé d'autres méthodes sur la tâche (E, R).
Ça suggère que ULTRA a une plus grande capacité à se généraliser à des relations non vues que les méthodes supervisées existantes. Néanmoins, il y avait encore une baisse de performance par rapport aux anciens ensembles de données. Ça souligne le besoin pour les méthodes KGC, y compris des modèles avancés comme ULTRA, d'être soigneusement évaluées contre des ensembles de données inductifs réalistes.
Importance des bons ensembles de données
Le principal enseignement de ce travail est que la construction de meilleurs ensembles de données inductifs est cruciale pour l'avenir du raisonnement sur les graphes de connaissance. Les nouveaux ensembles de données introduits sont plus proches des applications réelles, permettant de meilleures évaluations des méthodes KGC et contribuant à stimuler le développement de techniques encore plus efficaces.
Dans le domaine du KGC, la demande de solutions précises et pratiques est évidente, étant donné ses applications dans divers domaines comme les systèmes de questions-réponses, l'analyse de données biologiques, et les systèmes de recommandation. L'introduction d'ensembles de données plus réalistes offre une base solide pour de futures recherches dans ces domaines importants.
Conclusion
L'étude du KGC inductif révèle des défis significatifs dans les ensembles de données et méthodes existants. Bien que des techniques comme le Personalized PageRank montrent des résultats prometteurs, les raccourcis qu'elles exploitent peuvent mener à des conclusions trompeuses sur leur efficacité.
En adoptant une approche de partition de graphe pour la construction des ensembles de données, on peut créer des ensembles de données inductifs plus précis qui reflètent mieux les structures des graphes originaux. Cela fournit non seulement un terrain d'essai plus équitable pour les méthodes existantes, mais prépare également le terrain pour des avancées dans les techniques KGC qui améliorent réellement notre compréhension et notre traitement des graphes de connaissance.
En résumé, alors que le domaine continue d'évoluer, l'accent mis sur la meilleure construction d'ensembles de données garantira que les méthodes KGC sont robustes et capables de résoudre des problèmes du monde réel de manière plus efficace. Sans aucun doute, l'avenir du KGC inductif est prometteur, à condition que les chercheurs restent engagés dans la recherche de méthodologies et d'ensembles de données améliorés.
Titre: Towards Better Benchmark Datasets for Inductive Knowledge Graph Completion
Résumé: Knowledge Graph Completion (KGC) attempts to predict missing facts in a Knowledge Graph (KG). Recently, there's been an increased focus on designing KGC methods that can excel in the {\it inductive setting}, where a portion or all of the entities and relations seen in inference are unobserved during training. Numerous benchmark datasets have been proposed for inductive KGC, all of which are subsets of existing KGs used for transductive KGC. However, we find that the current procedure for constructing inductive KGC datasets inadvertently creates a shortcut that can be exploited even while disregarding the relational information. Specifically, we observe that the Personalized PageRank (PPR) score can achieve strong or near SOTA performance on most inductive datasets. In this paper, we study the root cause of this problem. Using these insights, we propose an alternative strategy for constructing inductive KGC datasets that helps mitigate the PPR shortcut. We then benchmark multiple popular methods using the newly constructed datasets and analyze their performance. The new benchmark datasets help promote a better understanding of the capabilities and challenges of inductive KGC by removing any shortcuts that obfuscate performance.
Auteurs: Harry Shomer, Jay Revolinsky, Jiliang Tang
Dernière mise à jour: 2024-10-06 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2406.11898
Source PDF: https://arxiv.org/pdf/2406.11898
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://github.com/HarryShomer/Better-Inductive-KGC/tree/master/new
- https://github.com/HarryShomer/Better-Inductive-KGC/blob/master/README.md
- https://github.com/HarryShomer/Better-Inductive-KGC/tree/master/metadata.json
- https://github.com/HarryShomer/Better-Inductive-KGC
- https://github.com/HarryShomer/KGC-Inductive-PPR
- https://github.com/mlcommons/croissant