Évaluer l'équité et la pertinence des recommandations
Cette étude examine comment les mesures conjointes évaluent l'équité et la pertinence dans les systèmes de recommandation.
― 8 min lire
Table des matières
Les systèmes de recommandation (RS) aident les utilisateurs à trouver des trucs qu'ils pourraient aimer, comme de la musique, des films ou des produits. Deux objectifs clés de ces systèmes sont la Pertinence et l'équité. La pertinence garantit que les éléments recommandés correspondent aux préférences de l'utilisateur, tandis que l'équité s'assure que différents groupes de personnes sont traités de manière égale dans les recommandations.
Ces dernières années, il y a eu plus d'accent sur l'équité dans les systèmes de recommandation. Cela a conduit au développement de méthodes pour mesurer l'équité. Certaines mesures se concentrent uniquement sur l'équité, tandis que d'autres prennent en compte à la fois l'équité et la pertinence ensemble. Cependant, il y a des questions sur la fiabilité de ces mesures combinées.
Cet article se penche sur l'efficacité de ces mesures conjointes. Nous avons cherché à comprendre à quel point elles s'accordent entre elles et à quel point elles reflètent à la fois l'équité et la pertinence. Pour cela, nous avons mené une étude sur quatre ensembles de données réels et exploré différents recommandateurs.
Pertinence et Équité dans les Systèmes de Recommandation
La pertinence et l'équité sont cruciales pour le succès des systèmes de recommandation. La pertinence signifie présenter des éléments que l'utilisateur va probablement apprécier, tandis que l'équité garantit qu'aucun groupe d'utilisateurs n'est traité de manière injuste.
Un type d'équité est l'Équité de groupe, qui examine comment les groupes d'utilisateurs sont traités. Par exemple, elle évalue si différents groupes d'âge ou de sexe reçoivent des recommandations similaires. Cependant, un autre aspect important est l'Équité individuelle, qui se concentre sur le traitement de personnes similaires de manière similaire, indépendamment de l'appartenance à un groupe.
L'équité individuelle ne s'appuie pas sur des informations sensibles sur les utilisateurs, ce qui la rend plus facile à appliquer dans de nombreuses situations. Elle fournit un aperçu de la façon dont les éléments sont présentés à tous les utilisateurs, plutôt que de se concentrer uniquement sur les dynamiques de groupe.
Cette étude se concentre sur l'équité des éléments individuels, en particulier sur la façon dont les éléments sont exposés aux utilisateurs en fonction de leur pertinence.
Mesures Conjointes d'Équité et de Pertinence
Pour évaluer l'équité dans les recommandations, nous examinons différentes mesures. Certaines sont purement axées sur l'équité, tandis que d'autres prennent en compte la pertinence dans leurs calculs. Les mesures conjointes évaluent les deux aspects simultanément.
Types de Mesures Conjointes
Inequité de l'Attention Amortie (IAA) : Se concentre sur la différence entre la quantité d'exposition d'un élément et sa pertinence sur plusieurs classements.
Disparité d'Équité Individuelle (IFD) : Examine les différences d'exposition entre toutes les paires d'éléments, en tenant compte de leur pertinence.
Distance de Hellinger (HD) : Compare combien la pertinence et les taux de clics diffèrent entre les éléments les mieux classés en fonction de leur pertinence.
Envie Max Moyenne (MME) : Mesure les désavantages rencontrés par les éléments si leur exposition était échangée avec d'autres.
Éléments Mieux Lotis (IBO) et Éléments Moins Lotis (IWO) : Évaluent comment les politiques de classement actuelles affectent les éléments par rapport à un classement aléatoire.
Équité Utilisateur Individuel à Élément Individuel (II-F) : Vérifie la différence d'exposition pour chaque élément en fonction d'une politique de classement idéale.
Équité Tous Utilisateurs à Élément Individuel (AI-F) : Mesure l'exposition globale qu'un élément reçoit par rapport à ce qu'il devrait recevoir.
Malgré plusieurs mesures, il y a une incertitude sur la façon dont elles reflètent bien l'équité et la pertinence ensemble.
Configuration Expérimentale
Pour évaluer l'efficacité de ces mesures conjointes, nous avons utilisé quatre ensembles de données :
- Lastfm : Axé sur les recommandations musicales.
- Amazon Luxe Beauté : Analysé des produits de commerce électronique.
- QK-video : Axé sur les recommandations vidéo.
- ML-10M : Lié aux recommandations de films.
Nous avons utilisé quatre recommandateurs bien connus : ItemKNN, BPR, MultiVAE et NCL. Ces recommandateurs ont été formés sur les ensembles de données, et les mesures ont été évaluées en fonction de leur performance à recommander des éléments.
Résultats de l'Étude
Accord Entre les Mesures
Notre étude a révélé qu'il y a souvent un manque d'accord entre différentes mesures. Par exemple, le meilleur modèle en termes de pertinence ne s'aligne pas toujours avec le meilleur modèle en termes d'équité. Cela met en évidence une déconnexion significative entre les deux objectifs.
Dans certains cas, les mesures conjointes étaient d'accord entre elles, mais cela n'a pas été constant sur tous les ensembles de données. Les mesures qui se concentrent sur l'équité pourraient classer un modèle différemment de celles qui se concentrent sur la pertinence.
Sensibilité aux Changements
Nous avons examiné à quel point les mesures conjointes sont sensibles aux changements de classement. Traditionnellement, les scores de pertinence diminuent alors que les classements deviennent plus bas, tandis que les scores d'équité tendent à s'améliorer. Cependant, les mesures conjointes ne reflétaient pas cette sensibilité comme prévu.
En descendant dans le classement, les changements de pertinence étaient atténués, rendant difficile l'interprétation de l'efficacité globale des mesures conjointes. La plupart des mesures conjointes ne répondaient tout simplement pas de manière significative aux changements dans la pertinence ou l'équité de la recommandation.
Test d'Insertion Artificielle
Pour explorer davantage la sensibilité des mesures conjointes, nous avons réalisé une expérience où nous avons inséré artificiellement des éléments pertinents dans un classement. Comme prévu, en ajoutant des éléments pertinents, la plupart des mesures conjointes se sont légèrement améliorées. Cependant, leurs scores sont restés très bas, suggérant qu'elles n'étaient pas suffisamment réactives aux changements réels dans les dynamiques de pertinence et d'équité.
Problèmes de Plage de Scores
Un autre problème que nous avons découvert est que de nombreuses mesures conjointes avaient des plages de scores très petites. Cela a rendu difficile la distinction entre différents modèles. Par exemple, de légères différences de scores pourraient sembler négligeables même si elles indiquent des différences significatives de performance.
Les systèmes de notation pour les mesures conjointes avaient tendance à se comprimer à l'extrémité inférieure, suggérant l'équité même lorsque les scores de pertinence étaient faibles. Cela peut conduire à des interprétations trompeuses sur la façon dont une recommandation est réellement équitable ou pertinente.
Implications Pratiques
Compte tenu des résultats, il est essentiel que les praticiens abordent l'utilisation des mesures conjointes avec prudence. Voici quelques recommandations clés :
Éviter d'Utiliser des Mesures Similaires : Étant donné que de nombreuses mesures conjointes sont étroitement liées, il est conseillé de n'en sélectionner qu'une seule dans chaque groupe de mesures similaires pour éviter la redondance.
Être Conscient des Limitations : Comprendre les limitations de chaque mesure est essentiel. Certaines mesures peuvent se comporter de manière inattendue, ou elles peuvent ne pas bien répondre aux changements de pertinence et d'équité.
Séparer les Évaluations d'Équité et de Pertinence : Étant donné que de nombreuses mesures conjointes fournissent des aperçus peu clairs, mesurer la pertinence et l'équité séparément pourrait donner de meilleurs résultats et des interprétations plus claires.
Normalisation : Normaliser les scores peut aider à interpréter les résultats en donnant une meilleure idée de la façon dont un modèle se compare à un autre.
Conclusion
Cette étude met en lumière les défis d'évaluer l'équité et la pertinence dans les systèmes de recommandation en utilisant des mesures conjointes. Bien que ces mesures visent à fournir une vue équilibrée, elles échouent souvent à capturer efficacement les deux aspects. Le manque d'accord entre les mesures, leur insensibilité aux changements et les problèmes liés aux plages de scores soulignent la complexité impliquée.
Les travaux futurs devraient se concentrer sur l'amélioration de la conception et de la fiabilité de ces mesures. Il y a un potentiel significatif pour développer des moyens plus efficaces de combiner l'équité et la pertinence en un seul système de notation pratique qui fournit des aperçus clairs pour les praticiens. En attendant, il est crucial de se rappeler qu'optimiser une mesure conjointe ne mène pas nécessairement aux meilleurs résultats en termes d'équité et de pertinence.
Titre: Can We Trust Recommender System Fairness Evaluation? The Role of Fairness and Relevance
Résumé: Relevance and fairness are two major objectives of recommender systems (RSs). Recent work proposes measures of RS fairness that are either independent from relevance (fairness-only) or conditioned on relevance (joint measures). While fairness-only measures have been studied extensively, we look into whether joint measures can be trusted. We collect all joint evaluation measures of RS relevance and fairness, and ask: How much do they agree with each other? To what extent do they agree with relevance/fairness measures? How sensitive are they to changes in rank position, or to increasingly fair and relevant recommendations? We empirically study for the first time the behaviour of these measures across 4 real-world datasets and 4 recommenders. We find that most of these measures: i) correlate weakly with one another and even contradict each other at times; ii) are less sensitive to rank position changes than relevance- and fairness-only measures, meaning that they are less granular than traditional RS measures; and iii) tend to compress scores at the low end of their range, meaning that they are not very expressive. We counter the above limitations with a set of guidelines on the appropriate usage of such measures, i.e., they should be used with caution due to their tendency to contradict each other and of having a very small empirical range.
Auteurs: Theresia Veronika Rampisela, Tuukka Ruotsalo, Maria Maistro, Christina Lioma
Dernière mise à jour: 2024-05-28 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2405.18276
Source PDF: https://arxiv.org/pdf/2405.18276
Licence: https://creativecommons.org/licenses/by-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.