Évaluation des systèmes de recommandation : DCG vs nDCG
Un aperçu de l'efficacité des métriques de recommandation dans les expériences utilisateur.
― 12 min lire
Table des matières
Les systèmes de recommandation sont partout et jouent un rôle clé dans ce que les gens voient en ligne, que ce soit des films, de la musique ou des produits. La grande question à laquelle ces systèmes essaient de répondre est : "Qu'est-ce qu'on devrait recommander à nos utilisateurs ?"
La recherche dans ce domaine a évolué au fil des ans. Au départ, elle se concentrait sur la façon de noter les éléments, mais elle a évolué vers la prévision des éléments que les gens aimeront. Plus récemment, il y a eu un intérêt pour comprendre comment fonctionnent les différentes Recommandations et comment elles peuvent être améliorées. Avec ces méthodes, les moyens d'évaluer leur efficacité ont également changé.
Il y a principalement deux façons de tester un système de recommandation. La première consiste à réaliser des expériences en ligne où l'on montre des recommandations à de vrais utilisateurs. Cette méthode est souvent considérée comme la meilleure pour comprendre la performance d'un système. La deuxième méthode est l'évaluation hors ligne, qui utilise des données historiques pour prévoir comment les expériences en ligne auraient fonctionné. Bien que les méthodes hors ligne soient plus faciles et moins chères à mettre en place, elles ne donnent pas toujours des résultats fiables.
Une métrique souvent utilisée pour l'évaluation s'appelle le Gain Cumulé Actualisé (DCG). Cette métrique mesure la qualité du classement des recommandations en fonction des interactions des utilisateurs. Au fil du temps, les chercheurs ont noté qu'une version normalisée de cette métrique, appelée Gain Cumulé Actualisé Normalisé (NDCG), est également souvent utilisée. Cette version normalisée essaie de prendre en compte le meilleur classement possible, rendant les comparaisons plus faciles.
Cependant, le nDCG ne fournit pas toujours des classements précis lorsque l'on compare différentes méthodes de recommandation. En fait, il y a des cas où le nDCG peut donner des résultats trompeurs. L'objectif de cet article est d'explorer ces questions en détail et de fournir des éclaircissements sur les différences entre DCG et nDCG.
L'Importance des Systèmes de Recommandation
Les systèmes de recommandation influencent de nombreux domaines aujourd'hui. Que les gens fassent défiler les réseaux sociaux ou qu'ils fassent des achats en ligne, les recommandations aident à créer des expériences personnalisées. Le principal défi consiste à décider quel contenu montrer à quels utilisateurs. Cela nécessite de comprendre les préférences et le comportement des utilisateurs.
Traditionnellement, les systèmes de recommandation utilisaient des retours explicites, où les utilisateurs notaient les éléments directement. Cependant, les systèmes plus modernes ont évolué vers la prédiction de ce que les utilisateurs pourraient aimer en fonction de leurs interactions passées avec le contenu. Ce changement a introduit de nouveaux défis et aussi de nouvelles Métriques pour l'évaluation.
Méthodes d'Évaluation
Comme mentionné, le test des méthodes de recommandation peut se faire en ligne ou hors ligne. Le test en ligne implique que de vrais utilisateurs interagissent avec le système. Cette méthode fournit un retour direct sur la performance du système dans un environnement réel. Le revers de la médaille, c'est que ces tests peuvent prendre beaucoup de temps à mettre en place et peuvent être coûteux. Ils peuvent aussi perturber l'expérience utilisateur si les recommandations ne fonctionnent pas bien.
Les Évaluations hors ligne, en revanche, utilisent des données historiques pour simuler ce qui pourrait se passer dans un test en ligne. Elles sont moins chères et plus rapides à réaliser mais peuvent avoir du mal à prédire avec précision les résultats en ligne. Un défi clé est que les métriques utilisées dans les évaluations hors ligne doivent refléter avec précision ce que les utilisateurs feraient dans la vraie vie.
Le Rôle des Métriques
Les métriques jouent un rôle crucial dans l'évaluation des systèmes de recommandation. Le DCG a été largement utilisé car il agrège la pertinence des éléments recommandés dans une liste classée. Plus les éléments pertinents apparaissent en haut de la liste, meilleur est le score.
La version normalisée, le nDCG, a été introduite pour standardiser les scores entre différents ensembles de données, rendant plus facile la comparaison des résultats. Cependant, comme le montrent les travaux de recherche, le nDCG ne fournit pas toujours des résultats cohérents lors de l'évaluation de plusieurs systèmes.
Comprendre DCG et nDCG
Qu'est-ce que le DCG ?
Le DCG est basé sur l'idée que les éléments mieux classés sont généralement plus pertinents pour les utilisateurs. Le score prend en compte la position de l'élément dans le classement. Par exemple, si un élément très pertinent apparaît en haut, il contribue davantage au score DCG que s'il apparaît plus bas dans la liste. L'idée de base est de récompenser de bons classements avec des scores plus élevés.
Qu'est-ce que le nDCG ?
Le nDCG prend le score DCG et le fournit par rapport à un classement idéal. En normalisant le score, le nDCG permet des comparaisons plus faciles entre différents algorithmes de recommandation sur divers ensembles de données. Cette normalisation prend en compte à quel point le classement pourrait potentiellement être s'il était parfait.
Pourquoi la Confusion ?
Bien que les deux métriques visent à évaluer l'efficacité des recommandations, elles ne s'alignent pas toujours parfaitement. Le processus de normalisation peut introduire des divergences. Cela signifie que deux méthodes différentes peuvent avoir des scores DCG similaires mais des scores nDCG différents, ce qui entraîne une confusion sur la méthode qui est réellement meilleure.
Le Besoin d'une Révision Critique
Étant donné les problèmes entourant le nDCG, il est essentiel de souligner qu'il peut ne pas être la meilleure métrique sur laquelle s'appuyer. Les chercheurs ont soulevé des questions sur sa fiabilité, en particulier lors de la comparaison de différents modèles de recommandation. Même lorsque les deux modèles affichent des scores nDCG élevés, ils pourraient créer des expériences utilisateur très différentes.
Il devient crucial de comprendre quand et comment ces métriques reflètent le comportement réel des utilisateurs.
Hypothèses Derrière les Métriques
Pour que le DCG évalue correctement la satisfaction des utilisateurs, certaines hypothèses doivent être vraies. Ces hypothèses incluent :
Indépendance des Récompenses à Travers les Trajectoires : Cela signifie que les récompenses pour différentes recommandations ne doivent pas s'influencer mutuellement. Si les actions dans une session affectent une autre, les évaluations deviennent complexes.
Modèle Basé sur la Position : Cette théorie suggère que l'ordre dans lequel les éléments sont présentés compte. Les utilisateurs sont plus susceptibles d'interagir avec les éléments en haut de la liste.
Indépendance des Récompenses à Travers les Rangs : Semblable à l'indépendance des trajectoires, cette hypothèse stipule que les récompenses pour les éléments montrés à différents rangs ne doivent pas interférer les uns avec les autres.
Hypothèse d'Examen : Cela suggère que le biais d'exposition - à quelle fréquence les utilisateurs voient réellement les recommandations - devrait principalement découler de leur position dans la liste.
Soutien à une Politique de Journalisation Complète : Si les données collectées ne reflètent pas toutes les actions possibles, cela complique la capacité à tirer des conclusions précises sur la performance d'une politique de recommandation.
Le Défi de la Mise en Œuvre des Métriques
Même avec ces hypothèses, mettre en œuvre le DCG et le nDCG dans des scénarios réels n'est pas simple. Les différences dans la manière dont se déroulent les interactions des utilisateurs posent des défis. Par exemple, certains utilisateurs peuvent interagir avec les recommandations de différentes manières. Un utilisateur peut cliquer sur une vidéo et la regarder entièrement, tandis qu'un autre peut simplement la survoler sans s'engager.
L'Impact des Biais
Plusieurs types de biais peuvent fausser ces métriques. Par exemple, un biais de sélection peut se produire si certains éléments sont favorisés en fonction de leur présentation ou de l'attention des utilisateurs. Cela peut fausser les résultats à la fois du DCG et du nDCG.
De même, les méthodes de collecte de données peuvent conduire à des perceptions incomplètes. Si un système de recommandation est formé sur un ensemble de données qui manque d'interactions utilisateurs complètes, ses prédictions peuvent être erronées. Ces facteurs compliquent les défis liés à l'utilisation du nDCG en tant que métrique fiable.
Exemples Concrets
Dans la pratique, les chercheurs ont étudié divers ensembles de données pour identifier les divergences entre DCG et nDCG. En particulier, la pratique courante d'agrégation des évaluations peut introduire plus d'incohérences. La nature des données du monde réel signifie souvent que les utilisateurs n'interagissent pas avec chaque élément, rendant difficile d'obtenir une évaluation complète.
En utilisant un ensemble de données public, les chercheurs ont découvert que, lors de la comparaison des deux métriques, elles n'étaient pas toujours d'accord sur quel modèle de recommandation était le meilleur. Cette divergence a mis en lumière les limites de se fier uniquement au nDCG, car cela peut conduire à des conclusions trompeuses sur l'efficacité réelle des recommandations.
Résultats des Expériences en Ligne
Pour valider les points soulevés précédemment, les chercheurs s'appuient souvent sur des expériences en ligne. En réalisant des tests A/B, où deux stratégies de recommandation différentes sont comparées, ils recueillent des données réelles d'utilisateurs. Ces données fournissent des idées sur la façon dont les utilisateurs réagissent à différents systèmes.
Le Pouvoir de la Corrélation
Dans des études impliquant de grandes populations d'utilisateurs, des corrélations ont été établies entre les métriques hors ligne et en ligne. Les versions non biaisées du DCG ont montré des corrélations fortes avec le comportement des utilisateurs en ligne, tandis que les résultats du nDCG étaient moins fiables.
Ces résultats renforcent l'idée que le DCG peut être plus avantageux pour des évaluations dans le monde réel. Bien que les deux métriques jouent des rôles importants, leurs niveaux de sensibilité différents au comportement des utilisateurs peuvent conduire à des conclusions différentes.
Exemples de Sensibilité
Les résultats de sensibilité indiquent que le DCG a souvent détecté des améliorations statistiquement significatives dans l'engagement des utilisateurs plus que le nDCG. Dans des scénarios où de réelles améliorations ont été observées, le DCG a reflété ces changements de manière plus précise.
Cette divergence pourrait être attribuée à la manière dont chaque métrique traite les données sous-jacentes. Comme mentionné plus tôt, la normalisation peut obscurcir les véritables améliorations de performance en raison de sa nature de mise à l'échelle des valeurs.
Directions Futures
Étant donné les défis avec le nDCG, la recherche dans ce domaine suggère plusieurs pistes à suivre. Les chercheurs encouragent une exploration plus approfondie d'autres méthodes et métriques d'évaluation au-delà du nDCG. En se concentrant sur des métriques qui fournissent une réflexion plus précise du comportement des utilisateurs, nous pouvons mieux évaluer les systèmes de recommandation.
Explorer d'Autres Métriques
Il existe de nombreuses autres métriques qui peuvent être explorées. Des options qui intègrent l'engagement des utilisateurs, la satisfaction et la rétention offrent des couches supplémentaires d'insights au-delà des métriques classiques basées sur le classement.
De plus, examiner les biais dans les données enregistrées peut éclairer la manière de créer des procédures d'évaluation plus précises. En abordant ces biais, les chercheurs peuvent améliorer la fiabilité de leurs conclusions.
Combler le Fossé
Un des objectifs est de combler le fossé entre les simulations hors ligne et les évaluations en ligne. En alignant ces méthodes, les chercheurs peuvent développer des systèmes plus robustes qui représentent avec précision les expériences utilisateurs. Cette synergie permettra aux praticiens de concevoir de meilleurs systèmes de recommandation qui répondent aux réels besoins des utilisateurs.
Conclusion
La discussion autour du DCG et du nDCG met en lumière les complexités impliquées dans l'évaluation des systèmes de recommandation. Bien que les deux métriques aient leur importance, les incohérences du nDCG soulèvent des questions sur sa fiabilité en pratique.
Alors que les systèmes de recommandation jouent un rôle de plus en plus important dans nos vies numériques, comprendre comment les évaluer avec précision devient essentiel. Les chercheurs doivent continuer à enquêter et à affiner ces métriques, s'assurant qu'elles correspondent au comportement réel des utilisateurs.
L'objectif ultime est de créer des systèmes de recommandation centrés sur l'utilisateur qui améliorent les expériences plutôt que de les compliquer. L'avenir de l'évaluation des recommandations réside dans l'adoption de la flexibilité, l'apprentissage des divergences et l'avancement au-delà des métriques traditionnelles.
Titre: On (Normalised) Discounted Cumulative Gain as an Off-Policy Evaluation Metric for Top-$n$ Recommendation
Résumé: Approaches to recommendation are typically evaluated in one of two ways: (1) via a (simulated) online experiment, often seen as the gold standard, or (2) via some offline evaluation procedure, where the goal is to approximate the outcome of an online experiment. Several offline evaluation metrics have been adopted in the literature, inspired by ranking metrics prevalent in the field of Information Retrieval. (Normalised) Discounted Cumulative Gain (nDCG) is one such metric that has seen widespread adoption in empirical studies, and higher (n)DCG values have been used to present new methods as the state-of-the-art in top-$n$ recommendation for many years. Our work takes a critical look at this approach, and investigates when we can expect such metrics to approximate the gold standard outcome of an online experiment. We formally present the assumptions that are necessary to consider DCG an unbiased estimator of online reward and provide a derivation for this metric from first principles, highlighting where we deviate from its traditional uses in IR. Importantly, we show that normalising the metric renders it inconsistent, in that even when DCG is unbiased, ranking competing methods by their normalised DCG can invert their relative order. Through a correlation analysis between off- and on-line experiments conducted on a large-scale recommendation platform, we show that our unbiased DCG estimates strongly correlate with online reward, even when some of the metric's inherent assumptions are violated. This statement no longer holds for its normalised variant, suggesting that nDCG's practical utility may be limited.
Auteurs: Olivier Jeunen, Ivan Potapov, Aleksei Ustimenko
Dernière mise à jour: 2024-06-12 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2307.15053
Source PDF: https://arxiv.org/pdf/2307.15053
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.