Simple Science

La science de pointe expliquée simplement

# Informatique# Recherche d'informations# Intelligence artificielle# Apprentissage automatique

Stratégies de benchmarking pour les systèmes de recommandation

Une nouvelle approche pour évaluer et comparer les algorithmes de RecSys en utilisant des jeux de données variés.

― 21 min lire


Méthodes d'évaluation desMéthodes d'évaluation dessystèmes derecommandationrecommandation.efficacement les algos de systèmes deNouveaux repères pour comparer
Table des matières

Dans le domaine en constante évolution des Systèmes de recommandation (RecSys), de nombreux nouveaux Algorithmes affichent des performances élevées basées sur des tests réalisés sur quelques ensembles de données sélectionnés. Cependant, cette méthode pourrait ne pas donner une vue complète de l'efficacité réelle de ces algorithmes, car la nature des ensembles de données peut grandement influencer les résultats.

Pour aborder ce problème, nous présentons une nouvelle façon de benchmarker les algorithmes RecSys. Cette méthode favorise des comparaisons équitables et améliore les pratiques d'évaluation. En utilisant un large éventail d'ensembles de données ouvertes, y compris deux nouveaux discutés dans cet article, nous évaluons les algorithmes de filtrage collaboratif en nous basant sur différentes métriques. Cela nous permet d'analyser comment les caractéristiques des ensembles de données affectent les performances des algorithmes et de considérer la combinaison des résultats de divers ensembles de données en un seul classement.

À travers des tests approfondis, nous confirmons que notre méthodologie est fiable même avec différents ensembles de données. Elle fournit une approche équilibrée pour évaluer les algorithmes RecSys, offrant des informations utiles pour les recherches futures.

Importance des Systèmes de Recommandation

Les Systèmes de Recommandation jouent un rôle crucial dans la personnalisation des expériences utilisateur sur de nombreuses plateformes en ligne. Que ce soit pour suggérer des films sur des services de streaming, recommander des produits à l'achat, ou organiser des fils d'actualités personnalisés, RecSys est une technologie clé dans l'apprentissage automatique. Leur influence stimule les efforts continus tant en recherche qu'en industrie, menant au développement de nombreux algorithmes RecSys chaque année.

Alors que le nombre d'algorithmes disponibles continue de croître, il existe un besoin d'outils permettant une évaluation claire. Les chercheurs cherchent à évaluer de nouvelles méthodes aux côtés des méthodes établies, mais bien que plusieurs cadres réussissent à évaluer des algorithmes sur des ensembles de données spécifiques, trouver les modèles les plus performants sur différents problèmes reste un défi. Les résultats peuvent varier considérablement selon l'ensemble de données utilisé, certains algorithmes réussissant bien dans un contexte mais mal dans un autre. Cette incohérence peut conduire à des conclusions trompeuses provenant des études d'évaluation et met en évidence la nécessité de comparaisons à travers plusieurs ensembles de données avec des caractéristiques variées.

Réaliser des Évaluations étendues avec de nombreux ensembles de données peut nécessiter des ressources computationnelles considérables, ce qui peut nuire à l'environnement et limiter les opportunités pour les petits laboratoires de recherche. Lorsque les chercheurs cherchent des algorithmes qui fonctionnent bien sur de nombreuses tâches de recommandation, les entreprises doivent évaluer les performances sur des ensembles de données qui reflètent leurs propres caractéristiques de l'industrie afin de réduire le temps nécessaire pour produire des RecSys utilisables.

Comparé à d'autres domaines de l'apprentissage automatique comme l'analyse des séries temporelles et le traitement du langage naturel (NLP), le domaine des RecSys manque d'une méthode bien acceptée pour agréger les performances à partir de multiples ensembles de données. Il y a aussi peu de recherches axées sur la comparaison de différents ensembles de données de recommandation, la compréhension de leurs effets sur la performance des algorithmes RecSys, et la recherche d'ensembles de données présentant des traits similaires.

Pour améliorer la situation, nous avons développé une méthodologie de benchmark détaillée qui classe les méthodes RecSys en fonction de leur performance à travers de nombreux problèmes, utilisant une évaluation hors ligne et surmontant les problèmes présents dans les pratiques actuelles. Notre approche détermine si un modèle supérieur particulier peut bien performer de manière universelle ou dans des domaines spécifiques définis par les caractéristiques des ensembles de données.

Nos Contributions

Nous fournissons une méthode de benchmark qui se concentre sur le domaine des RecSys, présente un protocole d'évaluation clair, et permet une intégration rapide de nouveaux algorithmes. Pour garantir que nos résultats soient reproductibles, tout le code et les ensembles de données utilisés dans notre recherche sont disponibles ouvertement.

Dans notre processus de benchmark, nous utilisons 30 ensembles de données publiques couvrant une gamme de domaines différents. Deux de ces ensembles de données sont nouvellement introduits, concernant la musique et le commerce électronique, et seront accessibles au téléchargement après un processus d'examen par les pairs. Nous analysons également diverses méthodes d'agrégation des résultats et testons leur fiabilité pour trouver l'approche la mieux adaptée au benchmark des RecSys en utilisant plusieurs ensembles de données.

De plus, nous étudions comment des caractéristiques spécifiques des ensembles de données sont liées à la qualité des recommandations et identifions des clusters d'ensembles de données présentant des caractéristiques similaires. Nous créons une procédure de comparaison efficace qui utilise seulement six ensembles de données tout en fournissant un classement comparable, basé sur une sélection minutieuse d'ensembles de données.

Enfin, nous identifions les algorithmes les plus performants parmi un pool de 11 méthodes couramment utilisées en appliquant des stratégies d'agrégation solides à travers différents scénarios.

Travaux Connus

L'évaluation des RecSys reste un domaine clé de recherche. Les méthodes traditionnelles, comme les modèles basés sur les voisins et la factorisation matricielle, servent encore de bases fiables. Pourtant, les réseaux de neurones profonds ont notablement fait progresser le domaine, créant une richesse de nouvelles approches.

De nombreuses bibliothèques open-source fournissent maintenant des implémentations d'algorithmes de recommandation populaires. Des frameworks notables comme DeepRec, Implicit, LightFM, NeuRec, RecBole, RecPack, et Replay répondent à divers besoins d'application.

L'évaluation hors ligne est critique pour la recherche RecSys car elle permet une évaluation fiable et économique des performances des algorithmes. Cette méthode est particulièrement adaptée aux chercheurs qui développent de nouveaux modèles. Étant donné la variété dans le domaine, des méthodes d'évaluation rigoureuses et reproductibles sont essentielles.

Un certain nombre d'études, telles que Elliot, Recbole, et DaisyRec, ont introduit des cadres d'évaluation complets visant à reproduire et à benchmarker des modèles de recommandation. Ces cadres offrent des options de filtrage des données, de séparation, d'évaluation des métriques, et de réglage des hyperparamètres à travers des modèles de recommandation populaires. Le cadre d'Elliot inclut même des tests statistiques pour une analyse robuste des résultats finaux, ajoutant de la profondeur au processus d'évaluation.

Des ensembles de données publiques provenant de divers domaines sont disponibles pour construire et évaluer des systèmes de recommandation. Les recherches montrent que la plupart des études s'appuient généralement sur une poignée d'ensembles de données, avec le choix et le prétraitement ayant un impact significatif sur les résultats de l'évaluation. Différentes techniques de filtrage peuvent altérer les caractéristiques des ensembles de données, entraînant des variations dans les classements de performance.

Dans une étude, des chercheurs se sont penchés sur la façon dont les propriétés des données affectent la précision des recommandations, l'équité, et la vulnérabilité à la manipulation, soulignant l'importance de comprendre les données pour améliorer la performance des systèmes. Les résultats confirment que disposer de plusieurs ensembles de données dans l'évaluation des RecSys est vital, car la sélection des ensembles de données modifie de manière significative les résultats de l'évaluation.

Défis et Méthodes Émergentes dans l'Évaluation des RecSys

Lorsqu'une nouvelle méthode d'apprentissage automatique est proposée, il est important de comparer sa performance par rapport aux méthodes existantes sur un large éventail de tâches. Cependant, tirer des conclusions sur quel algorithme est meilleur peut être compliqué lorsqu'on examine les résultats de plusieurs ensembles de données.

De nombreuses techniques d'agrégation ont été développées pour condenser les résultats en résumés clairs. Une méthode simple est l'agrégation moyenne, qui suppose une uniformité parmi les métriques de tâches. Cela peut cependant entraîner des évaluations biaisées, surtout lorsque les métriques diffèrent considérablement.

Les profils de performance de Dolan-Moré, initialement conçus pour benchmarker des algorithmes d'optimisation, peuvent également être appliqués pour évaluer l'efficacité des algorithmes d'apprentissage automatique à travers plusieurs problèmes. Contrairement à l'agrégation moyenne, les courbes de Dolan-Moré tiennent compte de la distribution des valeurs de performance, montrant à quelle fréquence et de manière significative un algorithme surpasse les autres.

Le diagramme de Différence Critique (CD) est couramment utilisé pour comparer des algorithmes à travers diverses tâches. Cette méthode offre des comparaisons groupées et par paires basées sur le rang moyen de la performance relative pour chaque tâche.

VOTE'N'RANK est un autre système proposé pour le classement dans les benchmarks multitâches, ancré dans la théorie du choix social. Ce cadre utilise des règles de notation et de relation majoritaire telles que Plurality, Dowdall, Borda, Copeland, et Minimax pour fournir une évaluation complète.

Le benchmarking est crucial dans l'apprentissage automatique, nécessaire pour suivre les progrès à travers des ensembles de données, des métriques, et des pratiques d'agrégation pour mesurer la performance du système. Ces benchmarks aident à comparer de nouveaux algorithmes avec des algorithmes établis pour déterminer les modèles les plus efficaces pour un usage pratique.

Les benchmarks de performance sont importants dans divers domaines. Par exemple, l'ILSVRC (ImageNet Large Scale Visual Recognition Challenge) évalue la classification et la détection d'objets avec de grands ensembles de données d'images et des métriques uniques pour chaque tâche. Dans le NLP, des benchmarks tels que GLUE et ses dérivés évaluent des modèles à travers diverses tâches et les classent en fonction des scores moyens.

Il existe des initiatives comme l'AMLB dans le domaine de l'AutoML qui se concentrent sur les évaluations multitâches à travers le classement moyen. Un projet de recherche propose une évaluation approfondie et reproductible de dix algorithmes de filtrage collaboratif, utilisant une méthode de classement pour combiner les résultats de précision provenant de divers ensembles de données et métriques. Bien que cette méthode fournisse des informations utiles, elle nécessite une interprétation prudente en raison des biais en faveur des algorithmes qui réussissent bien sur des métriques corrélées.

Benchmarking pour les Algorithmes RecSys

Notre objectif principal est de présenter un classement fiable des algorithmes. Nous visons à créer une liste choisie d'ensembles de données qui permette une comparaison facile entre les modèles, ainsi que des stratégies d'agrégation qui fournissent des classements basés sur différents critères.

À notre connaissance, BARS est l'initiative de benchmarking la plus avancée spécifiquement axée sur les RecSys. Cependant, BARS a des limitations. Elle se limite à seulement trois ensembles de données pour le défi unique des recommandations top-N, produisant des classements séparés pour chaque ensemble de données. Cette méthode, qui manque d'un mécanisme de notation multi-ensembles, rend difficile la reconnaissance de modèles vraiment flexibles et universels. S'attaquer à cette lacune pourrait fournir des informations significatives pour les chercheurs.

Notre but est de présenter une méthode de benchmarking solide et efficace adaptée au domaine des RecSys. Nous avons configuré nos expériences pour s'aligner avec l'évaluation en ligne, imitant des situations de recommandation en temps réel tout en garantissant la reproductibilité de nos résultats. Nous rassemblons un ensemble diversifié d'ensembles de données open-source et établissons un pipeline complet qui inclut des étapes prédéfinies.

Nous intégrons également 11 algorithmes RecSys provenant de diverses bibliothèques et dépôts open-source. Ce pipeline sert deux objectifs : rationaliser le processus d'évaluation et améliorer la comparabilité des résultats entre différents algorithmes et ensembles de données.

Ensembles de Données et Prétraitement

Dans notre processus de benchmark, nous utilisons 30 ensembles de données publiques couvrant sept domaines différents. Ces ensembles de données couvrent une large gamme d'entreprises, y compris le commerce électronique, les réseaux sociaux et le divertissement. Aux côtés de 28 ensembles de données établis, nous introduisons deux nouveaux ensembles de données, Zvuk et SMM.

Les systèmes de recommandation basés sur le feedback implicite sont de plus en plus populaires, principalement en raison du manque d'informations d'évaluation explicites dans de nombreuses applications. Ainsi, les ensembles de données qui incluent initialement des évaluations de produits sont souvent convertis en signaux binaires, ce qui est l'approche que nous suivons aussi dans nos évaluations. Nous fixons un paramètre de seuil spécifique pour filtrer les interactions en dessous de ce point et les supprimer comme feedback négatif.

La plupart des chercheurs gèrent la rareté des ensembles de données, où les utilisateurs interagissent avec un nombre limité d'articles. Dans le cadre de notre évaluation, nous filtrons les utilisateurs et les articles inactifs. Nous utilisons une technique de filtrage qui garantit que chaque utilisateur a un minimum de cinq interactions, tandis que certains articles peuvent en avoir moins.

Modèles de Recommandation

Les cadres de recommandation actuels facilitent l'intégration de modèles de base largement utilisés et de versions plus récentes. Nous avons profité des implémentations existantes d'algorithmes populaires pour développer un pipeline d'évaluation qui gère le filtrage des ensembles de données, la division des données, le calcul des métriques, et l'optimisation des hyperparamètres.

Nous avons sélectionné plusieurs catégories d'algorithmes pour notre analyse, y compris des méthodes de base non personnalisées, des modèles basés sur les voisins, des modèles de factorisation matricielle, des modèles linéaires, et des modèles neuronaux.

Notre sélection inclut diverses approches récentes, et de nouveaux algorithmes peuvent être ajoutés à partir de différentes sources, élargissant ainsi les capacités du benchmark.

Paramètres d'Évaluation

Division des Données

Pour diviser les données en ensembles d'entraînement et de test, nous visons à ressembler de près aux conditions de déploiement. Dans le paradigme de recommandation top-N, le principal défi consiste à prédire les préférences des utilisateurs sur la base des interactions passées. Ainsi, les données d'entraînement doivent précéder les données de test dans l'ordre chronologique.

Nous adoptons une stratégie de division temporelle globale avec des ratios spécifiques pour les ensembles d'entraînement, de validation, et de test. Après la division, les utilisateurs et les articles en cold-start sans enregistrements dans l'ensemble d'entraînement sont exclus.

Échantillonnage Négatif

Dans l'évaluation des RecSys, l'échantillonnage négatif signifie prédire sur un nombre limité d'articles non pertinents et d'articles connus pertinents plutôt que de noter chaque article de la liste. Les articles non pertinents sont choisis parmi un pool de candidats. Bien que des stratégies d'échantillonnage comme l'Échantillonneur Uniforme soient utilisées, leur fiabilité a été remise en question. Notre évaluation teste tous les articles non observés.

Métriques d'Évaluation

Une interprétation claire des métriques de qualité populaires dans le domaine est cruciale, car des métriques complexes conduisent souvent à des interprétations variées. Ainsi, nous fournissons un protocole d'évaluation détaillé pour plus de clarté et de reproductibilité.

Nous définissons et calculons diverses métriques de qualité standard, y compris Precision@k, Recall@k, nDCG@k, MAP@k, HitRate@k, et MRR@k. Nous incorporons également des métriques au-delà de la précision comme Coverage@k, Diversity@k, et Novelty@k.

Réglage des Hyperparamètres

L'optimisation des hyperparamètres est essentielle pour garantir les meilleures performances des algorithmes d'apprentissage automatique et un benchmarking fiable. Nos résultats montrent que la plupart des bases RecSys peuvent atteindre des performances significatives dès les premières itérations en utilisant l'optimisation bayésienne. Ainsi, nous utilisons le cadre Optuna avec l'algorithme des Arbres d'estimateurs de Parzen pour le réglage.

Après avoir déterminé les hyperparamètres optimaux, nous effectuons un entraînement final sur les ensembles d'entraînement et de validation combinés pour intégrer toutes les interactions jusqu'à l'horodatage du test.

Approche de Comparaison des Métriques

Dans notre benchmark, nous rassemblons des métriques provenant de divers ensembles de données et appliquons plusieurs méthodes de comparaison pour analyser les données. Après avoir collecté les métriques d'évaluation, nous avons besoin d'un moyen de classer les algorithmes sur la base des scores de performance. Notre pipeline utilise des méthodes établies pour agréger la performance en un seul score de classement à travers plusieurs ensembles de données.

Les agrégateurs incluent des agrégations par moyennes arithmétiques, géométriques, et harmoniques, ainsi que des diagrammes CD mettant l'accent sur les rangs moyens, des courbes Dolan-Moré montrant les valeurs AUC, et des algorithmes basés sur les principes de la théorie du choix social.

Expériences et Résultats

Nos expériences commencent par la collecte des métriques de performance pour évaluer les algorithmes de recommandation. Celles-ci incluent la Précision de Préférence Utilisateur, la Qualité de Classement, et les métriques au-delà de la Précision. Par exemple, dans l'ensemble de données Movielens-1m, des métriques individuelles sont calculées pour différentes valeurs de k.

LightFM se démarque en obtenant le meilleur résultat pour l'une de ces métriques. Notre analyse couvre un large éventail car nous évaluons plusieurs algorithmes à travers plusieurs ensembles de données.

Nous générons des classements en utilisant ces métriques et calculons les scores de corrélation de Spearman pour chaque ensemble de données. Les scores de corrélation de classement moyens sont consolidés dans une carte thermique, représentant les relations entre toutes les paires de métriques.

La carte thermique montre que les métriques de précision et de classement sont fortement corrélées, tandis que les métriques au-delà de la précision affichent des corrélations plus faibles, soulignant qu'elles ne reflètent pas directement la qualité de recommandation.

Enfin, nous concluons que nDCG tend à mieux corréler avec les métriques de précision et de classement, renforçant son utilisation dans le benchmarking et lors de l'optimisation des hyperparamètres.

Analyse Comparative des Méthodes d'Agrégation des Métriques

Cette section se concentre sur diverses méthodes d'agrégation des métriques dérivées de différents ensembles de données. Nous détaillons les approches d'agrégation et analysons comment elles classent les modèles RecSys.

Étant donné les spécificités des RecSys, nous identifions des exigences clés pour une méthode de classement : elle devrait classer en fonction de la performance, prendre en compte les valeurs de métriques et leurs différences relatives, fournir des aperçus clairs sur les comparaisons de modèles, définir la signification des différences de performance, et rester robuste contre les influences manipulatrices.

Nous considérons plusieurs méthodes d'agrégation, y compris les rangs moyens, les agrégations moyennes, l'Aire Sous la Courbe de Dolan-Moré, et des règles basées sur la relation majoritaire telles que Copeland et Minimax.

Le classement des méthodes RecSys varie en fonction de la stratégie d'agrégation choisie. Nos résultats révèlent qu'EASE émerge systématiquement comme la méthode la plus performante à travers la plupart des agrégations. D'autres méthodes montrent moins de stabilité, indiquant la nécessité d'une interprétation prudente lors de l'examen des classements.

Fiabilité des Classements

Pour assurer une méthode d'agrégation fiable pour le benchmarking, elle doit démontrer une stabilité dans différentes conditions, y compris des variations dans les ensembles de données et les algorithmes. Nous évaluons comment les changements dans les métriques d'entrée influencent les classements finaux en utilisant le coefficient de corrélation de Spearman.

Les résultats révèlent qu'à l'exception de Minimax, la plupart des agrégations affichent un comportement stable même lorsque des ensembles de données sont supprimés. En particulier, la Moyenne Géométrique, la Moyenne Harmonique, et DM LBO se classent de manière consistante, prouvant leur efficacité dans diverses conditions.

De plus, nous explorons comment l'utilisation de seulement quelques ensembles de données peut affecter les rangs. Ici, les méthodes d'agrégation montrent une stabilité réduite, certaines ayant du mal à maintenir des résultats cohérents. Dans ces situations, les méthodes de Moyenne des Rangs et de Copeland performent le mieux.

Caractéristiques des Ensembles de Données et Leur Impact sur les Recommandations

Outre le benchmarking de performance, nous examinons également le lien entre des caractéristiques spécifiques des ensembles de données et la qualité des recommandations. Utiliser les propriétés de la matrice d'interaction utilisateur-article nous permet d'analyser différents aspects, y compris la taille, la forme, et la densité des ensembles de données, ainsi que les comptes d'interaction utilisateur et article.

Nous observons que les ensembles de données avec un grand biais de popularité et une densité élevée tendent à simplifier les tâches de prédiction, tandis que les distributions en longue queue présentent un plus grand défi pour les modèles de recommandation. Des valeurs d'information mutuelle modérées suggèrent un impact pratique de ces caractéristiques sur les performances des modèles.

Sélection des Ensembles de Données pour le Benchmarking

Utiliser 30 ensembles de données publiques pour le benchmarking offre une large gamme de domaines et de caractéristiques de données, mais n'est pas efficacement computationnel. Par conséquent, nous pouvons sélectionner des ensembles de données appartenant à des groupes similaires pour réduire cette charge tout en préservant la variabilité.

Nous employons l'approche KMeans pour regrouper les ensembles de données en fonction de leurs caractéristiques. Choisir des ensembles de données proches des centres de cluster nous aide à minimiser les ressources computationnelles tout en garantissant un benchmarking robuste.

Conclusion

Cet article présente un nouveau système de benchmarking pour les systèmes de recommandation qui incorpore un pipeline complet, utilise plusieurs ensembles de données, ajuste les hyperparamètres, et applique des procédures d'agrégation pour les métriques à travers différents ensembles de données. Notre méthodologie est interprétable et robuste pour des métriques diversifiées.

Parmi les comparaisons de méthodes, EASE se distingue comme le gagnant clair, performante de manière constante par rapport à diverses stratégies d'agrégation. D'autres méthodes montrent des résultats intéressants dans des domaines spécifiques identifiés par notre clustering.

Notre recherche offre des aperçus sur la stabilité et l'efficacité des classements, fournissant des ensembles de données précieux qui peuvent soutenir à la fois les praticiens dans le choix des méthodes et les chercheurs dans l'évaluation de nouvelles idées.

En mettant l'accent sur l'importance de la sélection et des caractéristiques des données, ainsi qu'en établissant un processus plus efficace pour le benchmarking, nous visons à faire avancer l'étude des systèmes de recommandation.

Source originale

Titre: From Variability to Stability: Advancing RecSys Benchmarking Practices

Résumé: In the rapidly evolving domain of Recommender Systems (RecSys), new algorithms frequently claim state-of-the-art performance based on evaluations over a limited set of arbitrarily selected datasets. However, this approach may fail to holistically reflect their effectiveness due to the significant impact of dataset characteristics on algorithm performance. Addressing this deficiency, this paper introduces a novel benchmarking methodology to facilitate a fair and robust comparison of RecSys algorithms, thereby advancing evaluation practices. By utilizing a diverse set of $30$ open datasets, including two introduced in this work, and evaluating $11$ collaborative filtering algorithms across $9$ metrics, we critically examine the influence of dataset characteristics on algorithm performance. We further investigate the feasibility of aggregating outcomes from multiple datasets into a unified ranking. Through rigorous experimental analysis, we validate the reliability of our methodology under the variability of datasets, offering a benchmarking strategy that balances quality and computational demands. This methodology enables a fair yet effective means of evaluating RecSys algorithms, providing valuable guidance for future research endeavors.

Auteurs: Valeriy Shevchenko, Nikita Belousov, Alexey Vasilev, Vladimir Zholobov, Artyom Sosedka, Natalia Semenova, Anna Volodkevich, Andrey Savchenko, Alexey Zaytsev

Dernière mise à jour: 2024-08-27 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2402.09766

Source PDF: https://arxiv.org/pdf/2402.09766

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires