Estimer des intervalles de confiance en AutoML
Méthodes pour estimer la fiabilité des modèles d'apprentissage automatique.
― 8 min lire
Table des matières
Quand on utilise le machine learning pour faire des prédictions, c'est pas juste important de savoir à quel point un modèle fonctionne bien, mais aussi de comprendre à quel point cette performance est certaine ou incertaine. Cette incertitude peut être exprimée sous forme d'un intervalle de confiance (IC). Un intervalle de confiance donne une plage de valeurs de performance potentielles plutôt qu'un seul chiffre. Ça aide à comprendre si la performance d'un modèle est fiable ou si c'est juste un coup de chance.
Dans le contexte de l'Automated Machine Learning (AutoML), estimer ces intervalles peut être compliqué. C'est surtout à cause d'un problème commun appelé le "malheur du gagnant". Quand on teste plein de modèles de machine learning, celui qui performe le mieux sur les données de test peut ne pas être aussi bon quand on l'applique à des données nouvelles et invisibles. Ça peut conduire à surestimer à quel point le modèle va vraiment fonctionner dans des situations réelles.
Dans cet article, on va explorer diverses méthodes pour estimer les Intervalles de confiance pour les modèles utilisés dans l'AutoML. On mettra en avant les défis rencontrés et on regardera neuf techniques à la pointe pour calculer ces intervalles.
L'Importance des Intervalles de Confiance
Dans le machine learning, fournir une estimation ponctuelle de la performance, comme l'exactitude ou l'AUC (Area Under the Curve), c'est pas suffisant. Il est aussi crucial de quantifier l'incertitude dans cette estimation. Un intervalle de confiance est une manière courante de faire ça. Un IC donne une plage où on s'attend à ce que la vraie performance du modèle se situe avec une certaine probabilité, généralement 95%. Par exemple, si un modèle a une exactitude de 80% avec un intervalle de confiance de [75%, 85%], on peut être à peu près sûr que sa vraie performance se trouve dans cette plage.
Quantifier l'incertitude est important parce que ça aide les utilisateurs à prendre des décisions éclairées. Par exemple, si deux modèles ont une performance moyenne similaire mais que leurs intervalles de confiance suggèrent que l'un est beaucoup plus fiable que l'autre, cette information peut guider les utilisateurs sur lequel modèle choisir.
Défis dans l'Estimation des IC avec AutoML
L'estimation des IC devient encore plus complexe dans les contextes d'AutoML. Les systèmes AutoML évaluent de nombreux pipelines de machine learning, sélectionnant le meilleur en fonction des métriques de performance. Le défi vient du malheur du gagnant, qui peut mener à des estimations de performance biaisées.
Quand on choisit le modèle le plus performant parmi un pool de candidats, on risque de choisir un modèle qui a bien fonctionné juste par chance. Ça peut donner l'impression que le modèle sélectionné va mieux performer que ce qu'il fait vraiment dans le monde réel.
Pour surmonter ces défis, des chercheurs ont développé diverses méthodes pour estimer avec précision les intervalles de confiance pour la performance des modèles.
Aperçu des Méthodes pour l'Estimation des IC
Dans notre examen, on regarde neuf méthodes différentes pour estimer les intervalles de confiance dans un contexte AutoML. Ces méthodes incluent des approches établies ainsi que des techniques plus récentes conçues pour atténuer le malheur du gagnant.
Les méthodes sont évaluées selon trois aspects critiques :
Pourcentage d'Inclusion : Ça vérifie à quelle fréquence l'intervalle de confiance contient vraiment la vraie performance du modèle. Pour un intervalle de confiance de 95%, on veut qu'il inclue la vraie performance au moins 95% du temps.
Tension de l'Intervalle : Des intervalles plus serrés sont plus informatifs. Un intervalle très large peut ne pas fournir d’informations utiles sur la performance du modèle.
Temps d'exécution : Le temps nécessaire pour calculer l'intervalle de confiance est aussi important, surtout dans un cadre AutoML où de nombreux modèles peuvent être évalués.
Analyse des Méthodes
Bien que les détails de chaque méthode puissent être assez techniques, notre focus sera de comparer leur performance basée sur le pourcentage d'inclusion, la tension de l'intervalle et le temps d'exécution.
Correction de Biais Bootstrap (BBC)
Une des méthodes qu'on explore est une technique appelée Correction de Biais Bootstrap (BBC). Cette méthode vise à traiter le biais introduit par le malheur du gagnant. Au lieu d'estimer directement la performance du modèle gagnant, la BBC utilise une approche bootstrap pour créer plusieurs échantillons de prédictions de modèle.
Cette approche aide à générer une estimation plus fiable de la vraie performance, car elle atténue certains des avantages injustes qui pourraient se produire pendant la sélection du modèle.
BBC-F : Une Variante Plus Efficace
On discute aussi d'une version améliorée connue sous le nom de BBC-F. Cette méthode garde les avantages de la BBC mais est conçue pour être plus efficace en termes de calcul. L'idée clé derrière BBC-F est de faire du bootstrap à travers les plis de validation croisée au lieu d'échantillons individuels. Ça réduit la charge de travail de calcul tout en visant à fournir des intervalles de confiance précis.
Configuration Expérimentale
Pour évaluer l'efficacité de ces méthodes, des expériences ont été menées en utilisant des ensembles de données réels et simulés. Les ensembles de données choisis allaient de scénarios à petit échantillon à des ensembles de données plus équilibrés, assurant une évaluation complète des méthodes dans différentes conditions.
La configuration incluait :
- Validation croisée pour générer des estimations de performance pour diverses configurations dans le système AutoML.
- Techniques de bootstrap pour créer des échantillons qui aident à estimer l'incertitude dans la performance du modèle.
- Comparaison des métriques de performance entre les différentes méthodes d'estimation des IC listées ci-dessus.
Résumé des Résultats
Les résultats de nos expériences ont révélé plusieurs résultats importants concernant les méthodes d'estimation des IC.
Pourcentages d'Inclusion et Tension
Tant la BBC que sa variante efficace, la BBC-F, ont montré de bonnes performances en termes de pourcentages d'inclusion et de tension des intervalles de confiance. Les résultats ont montré qu'ils fournissaient systématiquement des intervalles à la fois étroits et incluant les vraies valeurs de performance au taux espéré.
En comparaison, d'autres méthodes ont souvent eu du mal soit en étant trop prudentes (produisant des intervalles plus larges), soit en ne couvrant pas suffisamment les vraies valeurs de performance.
Efficacité Computational
Un des résultats marquants était l'efficacité computationnelle de la BBC-F. Tout en maintenant des qualités de performance similaires à la BBC, elle nécessitait beaucoup moins de temps de traitement. C'est important dans des applications pratiques où les coûts de calcul peuvent s'accumuler rapidement, surtout quand beaucoup de modèles sont testés dans une seule expérience.
Limitations et Directions Futures
Bien que l'étude ait produit des résultats utiles, il est essentiel de noter certaines limites.
D'abord, les méthodes se sont principalement concentrées sur des tâches de classification binaire. Des travaux futurs pourraient explorer comment ces techniques pourraient être adaptées à des tâches de classification multi-classes ou d'autres types de tâches prédictives.
Deuxièmement, les résultats soulignent que bien que la BBC et la BBC-F fournissent de fortes estimations, les défis uniques des systèmes AutoML dynamiques nécessitent une enquête plus approfondie. Les méthodes actuelles conviennent principalement à des configurations statiques, ce qui incite à des recherches futures pour explorer l'adaptation ou l'évolution de ces méthodes pour s'adapter à des contextes dynamiques.
Conclusion
Le travail réalisé sur l'estimation des intervalles de confiance dans l'AutoML a fait d'importants progrès. L'introduction de la BBC et de la BBC-F souligne l'importance de peaufiner les méthodes pour traiter les biais introduits pendant la sélection du modèle.
À mesure que le machine learning continue d'évoluer, le besoin d'estimations de performance fiables reste vital pour des décisions éclairées. En comprenant et en estimant mieux l'incertitude dans la performance des modèles, les praticiens peuvent améliorer le déploiement des solutions de machine learning, les rendant plus fiables et efficaces dans diverses applications.
En fin de compte, cette recherche ouvre la porte à une exploration et une amélioration supplémentaires dans le domaine de l'estimation des intervalles de confiance, ainsi que ses implications pour l'AutoML et le machine learning en général.
Titre: Confidence Interval Estimation of Predictive Performance in the Context of AutoML
Résumé: Any supervised machine learning analysis is required to provide an estimate of the out-of-sample predictive performance. However, it is imperative to also provide a quantification of the uncertainty of this performance in the form of a confidence or credible interval (CI) and not just a point estimate. In an AutoML setting, estimating the CI is challenging due to the ``winner's curse", i.e., the bias of estimation due to cross-validating several machine learning pipelines and selecting the winning one. In this work, we perform a comparative evaluation of 9 state-of-the-art methods and variants in CI estimation in an AutoML setting on a corpus of real and simulated datasets. The methods are compared in terms of inclusion percentage (does a 95\% CI include the true performance at least 95\% of the time), CI tightness (tighter CIs are preferable as being more informative), and execution time. The evaluation is the first one that covers most, if not all, such methods and extends previous work to imbalanced and small-sample tasks. In addition, we present a variant, called BBC-F, of an existing method (the Bootstrap Bias Correction, or BBC) that maintains the statistical properties of the BBC but is more computationally efficient. The results support that BBC-F and BBC dominate the other methods in all metrics measured.
Auteurs: Konstantinos Paraschakis, Andrea Castellani, Giorgos Borboudakis, Ioannis Tsamardinos
Dernière mise à jour: 2024-06-12 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2406.08099
Source PDF: https://arxiv.org/pdf/2406.08099
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://github.com/automl-conf/LatexTemplate
- https://github.com/automl-conf/LatexTemplate/issues
- https://github.com/pascalrink/mabt-experiments
- https://github.com/kparaschakis/BBC_algorithm
- https://neurips.cc/Conferences/2022/PaperInformation/PaperChecklist
- https://www.automl.org/wp-content/uploads/NAS/NAS_checklist.pdf
- https://2022.automl.cc/ethics-accessibility/