Réévaluer les métriques du modèle : AUPRC vs AUROC
Cette étude remet en question la préférence pour l'AUPRC plutôt que l'AUROC dans les ensembles de données déséquilibrés.
― 9 min lire
Table des matières
- Introduction
- AUROC et AUPRC sont Liés
- Choisir Quelles Erreurs Corriger
- L'AUPRC Favorise les Groupes à Haute Prévalence
- Atribuations Incorrectes dans la Littérature
- L'Importance de l'Équité dans les Métriques
- Fondements Théoriques de l'AUROC et de l'AUPRC
- Validation Expérimentale
- Examiner la Littérature
- Conclusion
- Source originale
- Liens de référence
Dans le domaine de l'apprentissage machine, il y a un dicton courant qui dit que la zone sous la courbe de précision-rappel (AUPRC) est une meilleure façon de comparer les modèles que la zone sous la courbe de caractéristiques opératoires du récepteur (AUROC) lorsqu'on traite des déséquilibres de classe. Le Déséquilibre de classe se produit quand une classe de données est beaucoup plus courante qu'une autre. Cet article remet en question cette idée par une analyse mathématique, montrant que l'AUROC et l'AUPRC sont liés de manière claire.
La croyance que l'AUPRC est meilleure dans les cas de déséquilibre de classe n'est pas soutenue par des preuves. En fait, l'AUPRC peut être trompeuse car elle a tendance à donner plus de poids aux améliorations dans les parties des données où les étiquettes positives sont plus fréquentes. Cela peut entraîner des différences injustes dans la manière dont les modèles se comportent entre différents groupes dans les données.
Pour étudier ce sujet, les auteurs ont passé en revue un grand nombre d'articles de la communauté de l'apprentissage machine. Ils ont utilisé des modèles de langage avancés pour analyser plus de 1,5 million d'articles. L'objectif était de voir à quelle fréquence l'AUPRC était revendiquée comme supérieure et à quel point ces revendications étaient bien soutenues. Les résultats ont montré qu'il y avait un manque majeur de preuves pour cette croyance et ont révélé de nombreuses citations incorrectes qui la perpétuaient.
L'étude a deux impacts principaux : elle améliore notre compréhension de la manière dont ces métriques se comportent et sert d'avertissement sur les hypothèses non examinées dans le domaine de l'apprentissage machine. Tous les expériences liées à cette étude peuvent être consultées en ligne.
Introduction
Quand on travaille avec l'apprentissage machine, surtout dans des domaines critiques comme la santé, il est essentiel de choisir soigneusement les métriques d'évaluation. Ces métriques aident à choisir le bon modèle et à déterminer des mesures de performance détaillées. Cet article se concentre sur deux principales métriques pour les tâches de classification binaire : la zone sous la courbe de précision-rappel (AUPRC) et la zone sous la courbe de caractéristiques opératives du récepteur (AUROC).
La communauté de l'apprentissage machine prétend souvent que l'AUPRC est une meilleure métrique que l'AUROC lorsque les instances positives (celles qu'on essaie de prédire) sont beaucoup plus rares que les négatives. Plusieurs raisons sont fournies pour soutenir cette revendication, et beaucoup d'entre elles seront remises en question ici :
- Les courbes de précision-rappel peuvent mieux représenter les besoins du monde réel que les courbes de caractéristiques opératives du récepteur.
- L'AUPRC n'est pas affectée par le nombre élevé de vrais négatifs, ce qui la rend moins optimiste que l'AUROC.
- Dans les cas de faible prévalence, l'AUPRC a tendance à être beaucoup plus basse comparée à l'AUROC.
- La dépendance de l'AUPRC à la prévalence est considérée comme une bonne caractéristique.
Cet article montrera, par un raisonnement soigneux et des exemples, que la croyance en la supériorité de l'AUPRC est souvent incorrecte ou mal appliquée dans des situations d'apprentissage machine courantes.
AUROC et AUPRC sont Liés
Tout d'abord, l'argument est avancé que l'AUROC et l'AUPRC sont liés d'une manière mesurable. Quand un modèle donne des scores basés sur différentes étiquettes (positives, négatives, ou arbitraires), l'AUROC et l'AUPRC diffèrent principalement dans la manière dont ils pèsent les faux positifs. L'AUROC traite tous les faux positifs de manière égale, tandis que l'AUPRC les pèse en fonction de la probabilité que le modèle donne un score supérieur à un certain seuil.
Cela signifie que l'AUROC s'améliore de manière égale pour toute correction apportée, peu importe quels faux positifs sont corrigés. Cependant, l'AUPRC a tendance à s'améliorer davantage lorsque les erreurs à score élevé sont traitées en premier.
Choisir Quelles Erreurs Corriger
Étant donné un modèle et un ensemble de données, une question clé se pose : quelles erreurs devraient être corrigées en premier ? Il y a deux stratégies :
- Traiter chaque erreur de manière égale ; toutes les améliorations sont jugées également précieuses.
- Corriger les erreurs par ordre de leurs scores attribués.
La première stratégie est la plus utile pour les tâches de classification, où un utilisateur doit décider comment agir en fonction d'un échantillon spécifique. La deuxième stratégie convient mieux dans des contextes de récupération d'informations, où l'objectif est de maximiser le nombre d'échantillons aux scores élevés, peu importe l'appartenance au groupe. Cependant, s'il y a plusieurs groupes dans les données, l'AUPRC peut favoriser le groupe qui a des échantillons positifs plus fréquents.
En comprenant comment les erreurs sont priorisées, on peut voir que corriger les erreurs en utilisant l'AUROC permet une évaluation plus juste entre différents groupes, tandis que l'AUPRC peut mener à des biais.
L'AUPRC Favorise les Groupes à Haute Prévalence
Un problème majeur avec l'AUPRC est qu'elle donne souvent la préférence à ces groupes à haute prévalence lorsqu'on optimise la Performance du Modèle. Si un ensemble de données est composé de deux sous-populations avec des taux de prévalence très différents, un modèle bien calibré obtiendra de meilleurs scores AUPRC pour le groupe avec la plus haute prévalence, tandis que l'AUROC équilibrera la performance entre les deux groupes.
Cette préoccupation est particulièrement sérieuse dans des domaines comme la santé, où nous visons à garantir une performance équitable des modèles entre divers groupes de patients. S'appuyer uniquement sur l'AUPRC dans ces cas pourrait entraîner un traitement inégal et des résultats biaisés.
Atribuations Incorrectes dans la Littérature
Les auteurs ont trouvé de nombreuses revendications mal citées dans la littérature académique qui affirmaient que l'AUPRC est supérieure à l'AUROC dans les ensembles de données déséquilibrés. De nombreux articles ont référencé d'autres travaux qui n'ont pas fait cette affirmation.
Cela met en lumière un problème plus large au sein de la communauté de l'apprentissage machine : il y a une tendance préoccupante à faire des assertions audacieuses sans citations appropriées. De nombreux articles font référence à des revendications qui n'ont aucun fondement dans le travail original.
Lorsque cette information incorrecte se propage, elle façonne des croyances répandues qui peuvent ne pas être vraies.
Équité dans les Métriques
L'Importance de l'Un des grands avantages d'utiliser l'AUROC est sa capacité à fournir une évaluation impartiale de la performance du modèle sur tous les échantillons, peu importe la prévalence des étiquettes positives. Cette flexibilité est cruciale, surtout dans des domaines comme la santé, où garantir l'équité et un traitement équitable entre différents groupes de patients est vital.
Comme l'étude le constate, la tendance de l'AUPRC à prioriser les sous-populations à haute prévalence peut entraîner de sérieuses préoccupations en matière d'équité. Cela pourrait perpétuer les disparités existantes dans les résultats de santé et d'autres applications critiques.
Fondements Théoriques de l'AUROC et de l'AUPRC
L'article examine plus en profondeur les aspects théoriques de l'AUROC et de l'AUPRC. Il souligne comment comprendre quelles erreurs nos métriques d'évaluation priorisent peut éclairer ce que ces métriques vont promouvoir pendant l'optimisation.
Les résultats affirment que l'AUPRC peut ne pas être aussi universellement applicable qu'on le pensait autrefois. Dans les contextes de récupération définis par l'utilisateur, où un modèle sélectionne les meilleurs éléments, optimiser l'AUPRC peut améliorer la pertinence. Mais pour des tâches de classification plus standard, surtout dans des domaines risqués comme la santé, utiliser l'AUROC est le meilleur choix.
Validation Expérimentale
Pour démontrer leurs affirmations, les auteurs ont mené une série d'expériences contrôlées. Celles-ci ont inclus des ensembles de données synthétiques où ils ont surveillé de près comment tant l'AUROC que l'AUPRC se comportaient lorsqu'on utilisait différentes méthodes pour les optimiser.
Les résultats ont indiqué que l'AUPRC peut entraîner des disparités marquées entre les groupes, surtout lorsqu'on optimise pour des sous-populations à haute prévalence, tandis que l'AUROC maintenait une performance plus uniforme entre les différents groupes.
Examiner la Littérature
Malgré les affirmations selon lesquelles l'AUPRC est meilleure que l'AUROC dans les cas de déséquilibre de classe, une revue approfondie de la littérature existante a révélé des défauts dans cette croyance. De nombreux articles ont fait cette affirmation sans aucune citation, indiquant une compréhension fondamentale erronée des métriques impliquées.
Ce manque de clarté et la tendance à mal citer des sources nuisent à la communauté de recherche. Les auteurs ont souligné à quel point il est important d'aborder ces évaluations avec un œil critique, en veillant à ce que les revendications soient soutenues par des preuves.
Conclusion
Cette étude remet en question le récit commun selon lequel l'AUPRC est meilleure que l'AUROC pour la comparaison des modèles dans des scénarios avec déséquilibre de classe. Les auteurs soutiennent que bien que l'AUPRC puisse être utile dans des contextes de récupération spécifiques, elle ne surpasse généralement pas l'AUROC, surtout lorsque l'équité entre différents groupes est une priorité.
Pour aller de l'avant, une approche plus équilibrée et contextuelle pour sélectionner les métriques d'évaluation est nécessaire. Ce changement contribuera non seulement à de meilleures performances des modèles, mais aussi à promouvoir l'équité et l'équité dans les applications qui dépendent de ces technologies.
En résumé, l'AUROC est montré comme une métrique plus fiable dans de nombreux scénarios, surtout lorsque l'équité est une préoccupation, et les chercheurs devraient reconsidérer les affirmations entourant l'AUPRC dans les ensembles de données déséquilibrés.
Titre: A Closer Look at AUROC and AUPRC under Class Imbalance
Résumé: In machine learning (ML), a widespread adage is that the area under the precision-recall curve (AUPRC) is a superior metric for model comparison to the area under the receiver operating characteristic (AUROC) for binary classification tasks with class imbalance. This paper challenges this notion through novel mathematical analysis, illustrating that AUROC and AUPRC can be concisely related in probabilistic terms. We demonstrate that AUPRC, contrary to popular belief, is not superior in cases of class imbalance and might even be a harmful metric, given its inclination to unduly favor model improvements in subpopulations with more frequent positive labels. This bias can inadvertently heighten algorithmic disparities. Prompted by these insights, a thorough review of existing ML literature was conducted, utilizing large language models to analyze over 1.5 million papers from arXiv. Our investigation focused on the prevalence and substantiation of the purported AUPRC superiority. The results expose a significant deficit in empirical backing and a trend of misattributions that have fuelled the widespread acceptance of AUPRC's supposed advantages. Our findings represent a dual contribution: a significant technical advancement in understanding metric behaviors and a stark warning about unchecked assumptions in the ML community. All experiments are accessible at https://github.com/mmcdermott/AUC_is_all_you_need.
Auteurs: Matthew B. A. McDermott, Lasse Hyldig Hansen, Haoran Zhang, Giovanni Angelotti, Jack Gallifant
Dernière mise à jour: 2024-04-18 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2401.06091
Source PDF: https://arxiv.org/pdf/2401.06091
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://github.com/mmcdermott/AUC_is_all_you_need
- https://github.com/Lassehhansen/Arxiv_search/blob/main/keyword_lists/keywords_auprc.py
- https://github.com/Lassehhansen/Arxiv_search/blob/main/keyword_lists/keywords_auroc.py
- https://doi.org/10.1002/stvr.1840,hall2023reliable,9207261,boyd2013area
- https://docs.google.com/spreadsheets/d/1NjDpwoj_8EkIwtGZzwM6w2nbst-LlGJPAqUcVINmPEk/edit?usp=sharing
- https://github.com/Lassehhansen/Arxiv_search/tree/main