Amélioration de la complétion des graphes de connaissances avec de nouvelles méthodes de sous-échantillonnage
Deux méthodes de sous-échantillonnage innovantes améliorent la performance de la complétion de graphes de connaissances.
― 7 min lire
Table des matières
Les Graphes de Connaissances (KGs) sont des outils super utiles qui relient des entités, comme des gens ou des lieux, pour montrer leurs relations. On les utilise beaucoup dans plein d'applis, comme les chatbots, les moteurs de recherche et les systèmes de recommandation. Mais construire et maintenir ces graphes, c’est pas simple et ça peut coûter cher, car ça demande d’ajouter manuellement les relations entre les entités. La Complétion de Graphe de Connaissance (KGC) essaie de résoudre ce problème en prédisant automatiquement les relations manquantes d’après ce qu’on sait déjà.
Dans la KGC, les modèles regardent des paires d’entités et essaient de prédire si une relation existe entre elles. Par exemple, si on sait que “Alice est amie avec Bob,” le modèle pourrait aussi prédire que “Bob est ami avec Alice.” Pour faire ça efficacement, les modèles KGC utilisent souvent une méthode appelée Encastrement de Graphe de Connaissance (KGE), qui représente les entités et les relations sous forme de vecteurs numériques. Ça aide le modèle à mieux comprendre et traiter les données.
Le Besoin d’un Échantillonnage Efficace
Dans beaucoup de KGs, les données peuvent être éparses, ce qui signifie qu’il y a plein d’entités mais pas assez de relations. Cette raréfaction peut amener les modèles à faire du surapprentissage, où ils apprennent le bruit dans les données au lieu des vrais motifs. Pour lutter contre ça, on utilise des méthodes de sous-échantillonnage pour réduire la quantité de données que le modèle doit ingérer. Ces méthodes cherchent à limiter le nombre de requêtes fréquentes, permettant au modèle de se concentrer davantage sur des relations moins courantes mais importantes.
Mais, les méthodes de sous-échantillonnage traditionnelles ignorent souvent les requêtes moins fréquentes, même si leurs entités associées sont fréquentes. Ça peut conduire à sous-estimer les chances que ces relations rares existent vraiment, ce qui n'est pas top pour améliorer la performance de la KGC.
Solutions Proposées
Pour surmonter ce défi, deux nouvelles méthodes de sous-échantillonnage, le Sous-échantillonnage Basé sur le Modèle (MBS) et le Sous-échantillonnage Mixte (MIX), ont été introduites. Le MBS améliore la fréquence d’estimation de chaque requête en se basant sur les prédictions des modèles KGE. Au lieu de juste se fier aux données observées, le MBS utilise ce que le modèle a appris pour fournir une meilleure estimation des probabilités d’apparition pour les requêtes peu fréquentes.
D’un autre côté, le MIX combine les forces des méthodes de sous-échantillonnage basées sur le comptage et des prédictions basées sur le modèle. En fusionnant ces approches, le MIX vise à améliorer la performance globale tout en minimisant leurs faiblesses. Cette combinaison permet d’avoir une vue plus équilibrée des données, ce qui est bénéfique pour le processus de KGC.
Évaluation des Méthodes
Pour démontrer l’efficacité du MBS et du MIX, des évaluations ont été menées en utilisant trois ensembles de données standard : FB15k-237, WN18RR et YAGO3-10. Différents modèles KGE, comme RotatE, TransE, HAKE, ComplEx, et DistMult, ont été testés avec ces nouvelles méthodes de sous-échantillonnage.
Les résultats ont montré que le MBS et le MIX amélioraient significativement la performance de ces modèles KGE dans les tâches de complétion des KG. En particulier, les modèles utilisant soit le MBS soit le MIX ont obtenu des taux de Classement Réciproque Moyen (MRR) et des taux de Réussite plus élevés sur les ensembles de données, prouvant que ces nouvelles méthodes peuvent vraiment booster la précision de la KGC.
Importance de l’Approche de Sous-échantillonnage
Le MBS et le MIX ciblent tous les deux les défis posés par des ensembles de données rares. Dans les KGs, avoir une distribution de fréquence bien équilibrée pour différentes requêtes est essentiel pour des prédictions précises. Les méthodes traditionnelles se concentrent souvent énormément sur les requêtes fréquentes, ce qui peut conduire à des biais et à manquer des occasions d’apprendre des relations importantes qui sont moins communes.
En utilisant le MBS, le pouvoir prédictif des modèles KGE est renforcé car ils prennent en compte les fréquences estimées des requêtes basées sur leurs représentations apprises. En revanche, le MIX permet au modèle d'utiliser à la fois des fréquences estimées et comptées, ce qui fournit une stratégie double qui capte un éventail plus large de relations.
Analyse des Résultats
Les expériences ont révélé des insights intéressants sur la performance des différents modèles KGE. Dans les ensembles de données où les relations étaient plus rares, le MBS et le MIX ont brillé, donnant de meilleurs résultats que les méthodes traditionnelles. Cela a montré que ces nouvelles méthodes sont particulièrement bénéfiques pour relever les défis posés par des ensembles de données qui manquent de points de données suffisants.
Par exemple, dans l’ensemble de données FB15k-237, connu pour sa rareté, les modèles utilisant le MBS et le MIX ont obtenu les meilleurs résultats comparés aux autres modèles qui se basaient uniquement sur le sous-échantillonnage par comptage. Les résultats ont suggéré que les avantages d’utiliser ces nouvelles méthodes deviennent plus marqués à mesure que les KGs deviennent plus rares.
Cependant, on a aussi noté qu'il y avait des cas où les méthodes basées sur le comptage existantes surpassaient le MBS et le MIX. Cette différence est attribuée à la dépendance aux sous-modèles choisis pour la méthode MBS. Dans certains cas, les performances du modèle choisi pouvaient nuire aux résultats globaux, montrant l'importance du choix du modèle pour obtenir une performance optimale.
Conclusion
L’introduction du Sous-échantillonnage Basé sur le Modèle et du Sous-échantillonnage Mixte représente un avancement prometteur dans le domaine de la Complétion de Graphe de Connaissance. En offrant de nouvelles manières d’estimer les fréquences des requêtes peu fréquentes et en combinant les avantages des méthodes précédentes, ces approches fournissent une solution plus complète pour gérer les défis des données rares.
Ces découvertes soulignent l’importance de bien choisir à la fois la méthode de sous-échantillonnage et le modèle KGE sous-jacent. La capacité à améliorer la performance de la KGC a des implications théoriques mais aussi des bénéfices pratiques dans des applications réelles.
Pour l'avenir, il sera nécessaire de déterminer comment ces méthodes se comportent sur des ensembles de données plus larges et à travers d'autres types de modèles d'apprentissage profond. À mesure que le domaine continue d'évoluer, ces nouvelles techniques offrent une étape précieuse pour tirer le meilleur parti des Graphes de Connaissances et améliorer leur utilité dans diverses applications.
Titre: Model-based Subsampling for Knowledge Graph Completion
Résumé: Subsampling is effective in Knowledge Graph Embedding (KGE) for reducing overfitting caused by the sparsity in Knowledge Graph (KG) datasets. However, current subsampling approaches consider only frequencies of queries that consist of entities and their relations. Thus, the existing subsampling potentially underestimates the appearance probabilities of infrequent queries even if the frequencies of their entities or relations are high. To address this problem, we propose Model-based Subsampling (MBS) and Mixed Subsampling (MIX) to estimate their appearance probabilities through predictions of KGE models. Evaluation results on datasets FB15k-237, WN18RR, and YAGO3-10 showed that our proposed subsampling methods actually improved the KG completion performances for popular KGE models, RotatE, TransE, HAKE, ComplEx, and DistMult.
Auteurs: Xincan Feng, Hidetaka Kamigaito, Katsuhiko Hayashi, Taro Watanabe
Dernière mise à jour: 2023-09-17 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2309.09296
Source PDF: https://arxiv.org/pdf/2309.09296
Licence: https://creativecommons.org/licenses/by-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.