Améliorer les systèmes de recommandation avec l'apprentissage profond
Nouveau modèle améliore les recommandations, règle les problèmes de démarrage à froid et utilise les attributs utilisateur-objet.
― 7 min lire
Table des matières
Ces dernières années, l'apprentissage profond a eu un gros impact dans plein de domaines, comme la reconnaissance d'images, la compréhension de la parole et le traitement du langage. Avec tout ce succès, beaucoup de chercheurs se penchent sur la manière dont l'apprentissage profond peut améliorer les systèmes de recommandation, qui aident les gens à trouver ce qu'ils veulent parmi une énorme quantité de contenu en ligne. Les méthodes traditionnelles de ces systèmes ont bien fonctionné en capturant les préférences basées sur les interactions passées entre les utilisateurs et les objets, mais elles ratent souvent des détails importants sur les utilisateurs et les objets eux-mêmes. Ça peut poser problème, surtout pour les objets moins populaires ou les nouveaux utilisateurs.
Le défi des problèmes de démarrage à froid
Un gros défi dans les systèmes de recommandation, c'est ce qu'on appelle le Problème de démarrage à froid. Ça arrive quand il n'y a pas assez de données pour faire de bonnes recommandations, soit parce qu'un nouvel utilisateur vient juste de rejoindre la plateforme, soit parce qu'un nouvel objet a été ajouté. Les modèles traditionnels peuvent avoir du mal dans ces situations, puisqu'ils s'appuient beaucoup sur les interactions utilisateur-objet. On pense qu'en utilisant les caractéristiques et qualités des utilisateurs et des objets, on peut créer une meilleure approche pour les recommandations.
Factorisation de matrice
Notre solution : Amélioration de laOn a développé un nouveau type de modèle de recommandation qui prend en compte non seulement les interactions entre utilisateurs et objets, mais aussi les attributs liés aux deux. Notre modèle utilise une méthode appelée factorisation de matrice, qui décompose les données d'interaction utilisateur-objet en parties plus simples et plus gérables. En faisant ça, notre modèle peut apprendre à fournir des recommandations plus précises, surtout dans les situations où les données sont limitées.
Une des caractéristiques clés de notre modèle est l'utilisation d'embeddings utilisateurs partagés. Ça veut dire qu'au lieu de partir de suppositions aléatoires ou de données utilisateurs mal apprises, notre modèle utilise une représentation commune d'un utilisateur qui peut soutenir les recommandations, surtout pour les nouveaux utilisateurs. Ça aide à stabiliser et améliorer la qualité des recommandations données à ces utilisateurs.
Améliorer le modèle de factorisation de matrice
On booste encore le modèle de factorisation de matrice traditionnel en incorporant des interactions entre attributs croisés. Ça veut dire que les caractéristiques de chaque utilisateur peuvent interagir avec les attributs des objets et vice versa. En faisant ça, on peut extraire des insights plus précieux des données existantes.
Par exemple, si on a un utilisateur qui aime les films d'action et qu'on sait aussi le genre d'un nouveau film, on peut faire de meilleures recommandations en combinant ces détails. Cette approche capture à la fois les traits individuels des utilisateurs et les connexions entre utilisateurs et objets, ce qui donne une image plus complète des préférences.
Tester notre modèle
Pour évaluer l'efficacité de notre modèle, on a réalisé des expériences avec deux ensembles de données bien connus : MovieLens et Pinterest. Ces ensembles de données sont populaires parce qu'ils fournissent de nombreuses interactions utilisateur-objet et une variété d'attributs. Nos tests ont montré que notre modèle surpassait constamment les méthodes existantes, surtout dans les cas où les ensembles de données avaient des informations limitées.
Comprendre les ensembles de données
Ensemble de données MovieLens
Dans l'ensemble de données MovieLens, on a utilisé une version qui comprend un million d'évaluations, s'assurant que chaque utilisateur a évalué au moins 20 films. Dans cet ensemble, les évaluations sont transformées de manière à ce que chaque évaluation d'un utilisateur corresponde à une étiquette pour un film. De plus, on a sélectionné aléatoirement 99 entrées non observées comme exemples négatifs, ce qui signifie qu'elles n'ont pas reçu d'évaluations.
Cet ensemble comprend aussi des métadonnées pour les utilisateurs, comme le sexe, l'âge et la profession. Ces détails servent d'attributs utilisateurs dans notre modèle. Pour les films, comme ils peuvent appartenir à plusieurs genres, chaque genre est traité comme un attribut séparé.
Ensemble de données Pinterest
L'ensemble de données Pinterest est vaste et a beaucoup d'utilisateurs, mais beaucoup d'entre eux n'ont épinglé que quelques objets. Pour rendre notre évaluation plus gérable, on a filtré l'ensemble de données pour inclure seulement les utilisateurs avec au moins dix épingles. Comme pour MovieLens, on a étiqueté 99 entrées non observées comme échantillons négatifs.
Cet ensemble donne un aperçu des interactions des utilisateurs avec divers épingles et catégories de pages. On a regroupé les utilisateurs en fonction de leur nombre d'épingles et simplifié les nombreuses catégories en groupes principaux pour une meilleure analyse.
Évaluation et métriques
On a utilisé une méthode de leave-one-out pour l'évaluation. Pour chaque utilisateur, on a choisi une de leurs interactions au hasard et l'a combinée avec les 99 échantillons négatifs pour créer un ensemble de test. On a classé l'élément de test parmi 100 et évalué la performance à l'aide de deux métriques clés : le Taux de Réussite (HR@10) et le Gain Cumulé Normalisé Discounté (NDCG@10). La métrique HR vérifie si l'élément recommandé est dans le top dix, tandis que NDCG attribue des scores plus élevés aux éléments classés plus haut dans la liste.
Aperçu des performances
Les résultats de nos expériences montrent clairement que notre modèle fait un meilleur boulot que les modèles existants, surtout dans les situations de données rares. Comme on l'a observé dans les ensembles de données MovieLens et Pinterest, notre modèle a constamment produit de bons résultats.
En augmentant la complexité de notre factorisation de matrice, la performance de notre modèle s'est améliorée, surtout en ce qui concerne la métrique HR@10. C'était prévu parce que notre modèle était conçu pour tirer pleinement parti des interactions utilisateur-objet et de leurs attributs inhérents.
Fait intéressant, un modèle existant connu sous le nom de CF Profond Sensible aux Attributs (AA Deep CF) ne s'est pas aussi bien comporté que prévu. Ça peut être dû à la couche de pooling qu'il utilise, qui pourrait potentiellement jeter des détails importants, conduisant à des recommandations moins efficaces. En plus, le modèle AA Deep CF a été créé principalement pour les réseaux sociaux et les tâches de recommandation de voyage, ce qui peut ne pas correspondre aux besoins de nos ensembles de données.
Conclusion
Notre recherche met en lumière des avancées significatives dans le domaine des systèmes de recommandation. L’introduction d’un embedding utilisateur partagé offre une solution solide pour les nouveaux utilisateurs confrontés à des problèmes de démarrage à froid. De plus, l’approche raffinée de la factorisation de matrice qui inclut des interactions entre attributs croisés permet de reconnaître plus profondément les relations utilisateur-objet, profitant pleinement de toutes les informations disponibles.
Dans l'ensemble, ces améliorations marquent des étapes importantes vers la livraison de recommandations plus précises et fiables. Ça ouvre la porte à de futures recherches dans ce domaine pour explorer des modèles et des stratégies encore plus efficaces.
Titre: Cross-Attribute Matrix Factorization Model with Shared User Embedding
Résumé: Over the past few years, deep learning has firmly established its prowess across various domains, including computer vision, speech recognition, and natural language processing. Motivated by its outstanding success, researchers have been directing their efforts towards applying deep learning techniques to recommender systems. Neural collaborative filtering (NCF) and Neural Matrix Factorization (NeuMF) refreshes the traditional inner product in matrix factorization with a neural architecture capable of learning complex and data-driven functions. While these models effectively capture user-item interactions, they overlook the specific attributes of both users and items. This can lead to robustness issues, especially for items and users that belong to the "long tail". Such challenges are commonly recognized in recommender systems as a part of the cold-start problem. A direct and intuitive approach to address this issue is by leveraging the features and attributes of the items and users themselves. In this paper, we introduce a refined NeuMF model that considers not only the interaction between users and items, but also acrossing associated attributes. Moreover, our proposed architecture features a shared user embedding, seamlessly integrating with user embeddings to imporve the robustness and effectively address the cold-start problem. Rigorous experiments on both the Movielens and Pinterest datasets demonstrate the superiority of our Cross-Attribute Matrix Factorization model, particularly in scenarios characterized by higher dataset sparsity.
Auteurs: Wen Liang, Zeng Fan, Youzhi Liang, Jianguo Jia
Dernière mise à jour: 2023-08-14 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2308.07284
Source PDF: https://arxiv.org/pdf/2308.07284
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.