Améliorer les recommandations grâce aux graphes de connaissances
Une nouvelle méthode améliore les systèmes de recommandation en combinant des infos sémantiques et structurelles.
― 11 min lire
Table des matières
- Le Rôle des Systèmes de Recommandation
- Graphes de Connaissance dans la Recommandation
- Défis des Approches Actuelles
- Cadre Proposé
- Apprentissage de Représentation Infomax
- Apprentissage de Représentation Structurelle
- Modélisation des Préférences Utilisateur
- Apprentissage Contrastif pour le Problème du Démarrage à Froid
- Évaluations Expérimentales
- Conclusion
- Source originale
- Liens de référence
Les Systèmes de recommandation aident les utilisateurs à trouver des articles qu'ils aiment, surtout dans des endroits avec plein d'infos, comme les boutiques en ligne ou les services de streaming. Avec autant d'options disponibles, ces systèmes sont super importants pour rendre l'expérience utilisateur plus fluide. À la base, ces systèmes utilisaient le filtrage collaboratif, qui se base sur les interactions entre les utilisateurs et les articles pour suggérer de nouvelles choses. Mais ce truc a ses limites. Il galère souvent quand il y a peu d'infos sur de nouveaux utilisateurs ou articles, ce qu'on appelle le problème du démarrage à froid.
Pour surmonter ces défis, les chercheurs se sont tournés vers les Graphes de connaissance (KG). Les KG organisent l'info sur les articles d'une façon qui peut donner plus de contexte et de connexions, aidant les systèmes de recommandation à faire de meilleures suggestions. Malgré leur potentiel, les méthodes existantes utilisant les KG ne profitent pas pleinement de la richesse de l'info disponible. Elles ont tendance à trop se concentrer sur la structure du KG et pas assez sur la signification derrière les connexions. Ça peut mener à des recommandations moins précises.
Dans cet article, on va explorer une nouvelle approche qui combine à la fois la structure d'un KG et les significations derrière ses connexions. Cette méthode vise à améliorer la modélisation des préférences des utilisateurs, ce qui devrait mener à de meilleures recommandations. On propose un nouveau cadre qui utilise des techniques d'Apprentissage contrastif avec des représentations sémantiques et structurelles des KG. On va montrer comment cette approche a été testée et son efficacité dans des scénarios réels.
Le Rôle des Systèmes de Recommandation
Les systèmes de recommandation aident les utilisateurs à trouver des articles pertinents selon leurs interactions passées. Ils analysent le comportement des utilisateurs, comme les clics ou les achats, pour suggérer des articles que les utilisateurs pourraient aimer. Les principales méthodes pour construire ces systèmes incluent :
- Factorisation de Matrice : Cette approche décompose les interactions utilisateur-article en plus petites parties pour identifier des motifs.
- Apprentissage Profond : En utilisant des réseaux neuronaux, ces méthodes peuvent capturer des relations complexes entre utilisateurs et articles, apprenant à partir de grandes quantités de données.
- Méthodes Basées sur les Graphes : Ces systèmes considèrent les utilisateurs et les articles comme des nœuds dans un graphe, avec des connexions représentant des interactions.
Bien que la factorisation de matrice et l'apprentissage profond aient produit de bons résultats, ils ont du mal quand il y a peu de données pour certains articles ou utilisateurs. C'est là que les KG entrent en jeu, offrant des infos plus riches en connectant les articles à leurs attributs, catégories, et relations.
Graphes de Connaissance dans la Recommandation
Un graphe de connaissance est une représentation structurée des faits et des relations concernant les articles. Par exemple, dans un KG de films, chaque film peut être lié à son réalisateur, ses acteurs, son genre, et des tags. Ce contexte supplémentaire aide les systèmes de recommandation à mieux comprendre les préférences des utilisateurs.
Les systèmes de recommandation basés sur les KG peuvent être divisés en quatre grands types :
- Méthodes Basées sur l'Interaction des Caractéristiques : Elles combinent la connaissance structurelle d'un KG avec les caractéristiques utilisateur-article.
- Méthodes Basées sur les Chemins : Elles se concentrent sur différents motifs de connexion entre les articles dans le KG pour guider les recommandations.
- Méthodes Basées sur la Régularisation : Elles régulent l'entraînement du modèle en intégrant des infos du KG, améliorant le processus d'apprentissage.
- Méthodes Basées sur la Propagation : Elles exploitent l'info de voisinage dans le KG pour améliorer les représentations des utilisateurs et des articles.
Bien que ces approches intègrent les KG, elles négligent souvent les significations plus profondes derrière les connexions, ce qui peut aboutir à des lacunes dans la modélisation des préférences des utilisateurs.
Défis des Approches Actuelles
Beaucoup de systèmes de recommandation échouent à unifier efficacement les aspects structurels et sémantiques des KG. Le manque d'un modèle complet peut créer des goulets d'étranglement dans la performance. Ce problème peut se manifester de deux façons principales :
- Suremphase sur la Structure : Certaines méthodes se concentrent trop sur les connexions dans le KG, ratant les significations sous-jacentes de ces connexions. Ça peut freiner la capacité du système à capturer totalement les préférences des utilisateurs.
- Incomplétude des KG : Les KG peuvent souvent avoir des infos manquantes, ce qui signifie qu'il peut y avoir des connexions importantes entre les articles et les utilisateurs que le système ne peut pas identifier. Cette incomplétude peut mener à des recommandations moins efficaces.
Pour faire face à ces problèmes, une nouvelle approche est nécessaire qui combine efficacement les aspects structurels et sémantiques des KG.
Cadre Proposé
L'approche proposée combine les forces des graphes de connaissance avec de nouvelles méthodes pour apprendre les préférences des utilisateurs. Elle est conçue pour optimiser le processus d'apprentissage des représentations, facilitant la connexion des utilisateurs avec des articles qu'ils pourraient apprécier. Notre cadre comprend deux composants principaux :
- Apprentissage de Représentation Infomax : Ce composant capture à la fois l'info structurelle et sémantique dans un graphe de connaissance pour améliorer la modélisation des préférences des utilisateurs.
- Apprentissage Contrastif : Cette méthode renforce la capacité du modèle à gérer le problème du démarrage à froid en se concentrant sur la maximisation de l'information mutuelle entre différentes représentations d'articles.
Apprentissage de Représentation Infomax
Dans cette partie, on apprend des représentations sémantiques à partir du graphe de connaissance via un modèle de langage. Les KG stockent des infos détaillées sur les articles, qui incluent des attributs ou des relations. En utilisant un modèle entraîné sur un grand jeu de données textuelles, on peut mieux capturer les significations de ces infos.
La représentation sémantique est apprise à partir du format triple du KG, où chaque connexion consiste en une entité principale, une relation, et une entité de fin. Idéalement, on veut que nos représentations reflètent à la fois les connexions dans le KG et les règles linguistiques qui les sous-tendent.
En utilisant un modèle de langage pré-entraîné, on peut peaufiner le processus d'apprentissage, assurant que les représentations résultantes conservent le contexte nécessaire pour des recommandations efficaces. Ce modèle ajoute de la profondeur à la structure existante et la transforme en une représentation plus expressive.
Apprentissage de Représentation Structurelle
L'aspect structurel du graphe de connaissance est tout aussi important. Les données structurées dans le KG relient les articles à leurs attributs, et ces liens aident à définir les préférences des utilisateurs. On utilise un réseau de convolution de graphes multi-relationnels (GCN) pour agréger les informations des voisins locaux de chaque article dans le graphe.
À travers cette représentation structurelle, on améliore les représentations des entités dans le KG. En maintenant l'accent non seulement sur les entités elles-mêmes mais aussi sur les relations, on construit une compréhension plus complète de la façon dont les articles se rapportent aux utilisateurs.
Modélisation des Préférences Utilisateur
Avec les deux représentations prêtes, on peut efficacement modéliser les préférences des utilisateurs. On analyse les enregistrements d'interaction pour dériver des scores de préférence pour chaque utilisateur. La modélisation des préférences nous permet de capturer non seulement les évaluations d'articles individuels mais aussi les motivations plus larges derrière les choix des utilisateurs.
En combinant les représentations sémantiques et structurelles, on produit une compréhension plus nuancée de ce qui influence les décisions d'un utilisateur. Cette approche double améliore la précision des recommandations, reliant les utilisateurs avec des articles qu'ils sont plus susceptibles d'apprécier.
Apprentissage Contrastif pour le Problème du Démarrage à Froid
Le problème du démarrage à froid se pose quand il y a peu de données d'interaction utilisateur disponibles. Pour y remédier, on intègre l'apprentissage contrastif dans le processus d'entraînement. Cette méthode met l'accent sur l'apprentissage à partir de différentes représentations du même article, aidant notre modèle à prendre des décisions plus éclairées même quand les données sont limitées.
Dans ce cadre, des paires contrastives sont formées en associant des articles du modèle de préférence avec leurs représentations infomax. En maximisant la similarité entre les représentations appariées, on aide le système à mieux comprendre les relations entre les articles et les préférences des utilisateurs malgré un historique de données limité.
Cette approche non seulement améliore la modélisation des préférences utilisateur mais favorise aussi une meilleure généralisation dans des scénarios où les interactions utilisateur-article sont rares. Du coup, on a un modèle capable d'apprentissage continu et d'ajustement basé sur les données disponibles.
Évaluations Expérimentales
On a testé notre cadre proposé sur deux ensembles de données du monde réel, en se concentrant sur plusieurs questions de recherche clés. On voulait déterminer à quel point notre modèle performait par rapport aux méthodes existantes et s'il pouvait effectivement gérer le problème du démarrage à froid.
Vue d'Ensemble des Ensembles de Données
Les ensembles de données utilisés pour cette évaluation incluaient un grand nombre d'interactions utilisateur avec des articles, comme des films et des livres. En reliant les entités de ces ensembles de données à un graphe de connaissance, on a pu améliorer notre système de recommandation avec des infos factuelles supplémentaires. Cette configuration nous a permis d'évaluer à quel point nos méthodes fonctionnaient dans des conditions réelles.
Métriques de Performance
Pour évaluer la performance de notre système, on a calculé plusieurs métriques :
- Précision@K : Cela mesure la proportion d'articles pertinents parmi les top K recommandations.
- Rappel@K : Cela indique le taux de succès pour récupérer des articles pertinents.
- Score F1@K : Combine précision et rappel en un seul score.
- Hit@K : Montre si un article pertinent apparaît dans les top K recommandations.
- nDCG@K : Mesure à quel point les articles pertinents sont bien classés dans la liste de recommandations.
Ces métriques ont fourni des aperçus sur l'efficacité de notre approche pour modéliser les préférences des utilisateurs et recommander des articles appropriés.
Comparaison avec des Baselines
Nos résultats ont montré que notre cadre proposé a surpassé diverses méthodes à la pointe de la technologie sur toutes les métriques. La combinaison de représentations sémantiques et structurelles a permis à notre système de mieux comprendre les préférences des utilisateurs, le rendant plus efficace que ses concurrents.
Scénario de Démarrage à Froid
Dans des scénarios où les données étaient limitées, notre méthode a significativement surpassé les systèmes existants. Le composant d'apprentissage contrastif a permis au modèle de prospérer même avec moins d'interactions, soulignant l'importance de cette approche dans des applications pratiques.
Conclusion
Dans ce travail, on a proposé un nouveau cadre qui unifie les représentations sémantiques et structurelles des graphes de connaissance pour améliorer la modélisation des préférences des utilisateurs pour les systèmes de recommandation. Grâce à l'apprentissage de représentation infomax et aux techniques d'apprentissage contrastif, notre approche a surpassé les méthodes existantes, même dans des situations de démarrage à froid.
Les évaluations étendues confirment l'efficacité de notre méthode proposée sur des ensembles de données du monde réel, démontrant son potentiel pour améliorer les recommandations dans diverses applications. En continuant à développer et à peaufiner les techniques pour exploiter la richesse d'information dans les graphes de connaissance, on peut avancer les capacités des systèmes de recommandation, les rendant plus utiles pour les utilisateurs dans divers contextes.
Titre: Joint Semantic and Structural Representation Learning for Enhancing User Preference Modelling
Résumé: Knowledge graphs (KGs) have become important auxiliary information for helping recommender systems obtain a good understanding of user preferences. Despite recent advances in KG-based recommender systems, existing methods are prone to suboptimal performance due to the following two drawbacks: 1) current KG-based methods over-emphasize the heterogeneous structural information within a KG and overlook the underlying semantics of its connections, hindering the recommender from distilling the explicit user preferences; and 2) the inherent incompleteness of a KG (i.e., missing facts, relations and entities) will deteriorate the information extracted from KG and weaken the representation learning of recommender systems. To tackle the aforementioned problems, we investigate the potential of jointly incorporating the structural and semantic information within a KG to model user preferences in finer granularity. A new framework for KG-based recommender systems, namely \textit{K}nowledge \textit{I}nfomax \textit{R}ecommender \textit{S}ystem with \textit{C}ontrastive \textit{L}earning (KIRS-CL) is proposed in this paper. Distinct from previous KG-based approaches, KIRS-CL utilizes structural and connectivity information with high-quality item embeddings learned by encoding KG triples with a pre-trained language model. These well-trained entity representations enable KIRS-CL to find the item to recommend via the preference connection between the user and the item. Additionally, to improve the generalizability of our framework, we introduce a contrastive warm-up learning strategy, making it capable of dealing with both warm- and cold-start recommendation scenarios. Extensive experiments on two real-world datasets demonstrate remarkable improvements over state-of-the-art baselines.
Auteurs: Xuhui Ren, Wei Yuan, Tong Chen, Chaoqun Yang, Quoc Viet Hung Nguyen, Hongzhi Yin
Dernière mise à jour: 2023-04-24 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2304.12083
Source PDF: https://arxiv.org/pdf/2304.12083
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.