Simple Science

La science de pointe expliquée simplement

# Informatique# Apprentissage automatique# Intelligence artificielle

Réévaluation des évaluations des modèles de machine learning pour les données tabulaires

Une nouvelle approche pour évaluer les modèles de ML en se concentrant sur la préparation des données.

― 11 min lire


Repenser les évaluationsRepenser les évaluationsen MLdu modèle.données plutôt que sur la performanceConcentre-toi sur la préparation des
Table des matières

Les données tabulaires sont courantes dans plein de domaines où l'apprentissage automatique est utilisé, comme la santé, la finance et le commerce de détail. Les chercheurs proposent souvent de nouveaux modèles pour apprendre à partir de ce genre de données. Pour voir si ces modèles fonctionnent bien, les études les évaluent généralement en appliquant des étapes standardisées pour le traitement des données. Cependant, ces méthodes standards ne reflètent pas toujours les pratiques du monde réel. La modélisation réelle nécessite souvent des étapes spécifiques pour préparer les données et créer des caractéristiques utiles.

Cet article propose une nouvelle manière d'évaluer les modèles d'apprentissage automatique qui se concentre sur les données elles-mêmes plutôt que juste sur les modèles. On analyse dix ensembles de données pertinents provenant de compétitions Kaggle, en créant des processus de préparation des données de niveau expert pour chacun. On effectue des tests avec différentes méthodes de traitement des données et on ajuste les paramètres pour voir comment ces facteurs influencent les performances des modèles. Nos principaux résultats montrent qu'après avoir personnalisé la préparation des caractéristiques, les classements des modèles changent de manière significative, et les différences de performance deviennent moindres.

Le problème avec les méthodes d'évaluation actuelles

La plupart des études évaluent la performance des modèles sur des ensembles de données tabulaires en se basant sur des méthodes prédéfinies de découpage des données et en utilisant le même traitement standard des données pour tous les ensembles. Ces pratiques présentent deux problèmes majeurs :

  1. Les processus d'évaluation ne ressemblent pas à ce que font réellement les praticiens, qui préparent souvent les données de manière spécifique selon chaque ensemble.
  2. Il n'y a pas de référence fiable pour la meilleure performance possible pour une tâche, ce qui rend difficile de savoir à quel point un modèle se débrouille.

Pour résoudre ces problèmes, on propose de changer notre focus des modèles vers les données elles-mêmes. Les principales contributions de notre travail incluent une collection de dix ensembles de données réelles importantes, des processus de préparation des données adaptés pour chaque ensemble, et une méthode pour mesurer les meilleurs résultats possibles pour chaque ensemble.

On a choisi nos ensembles de données en examinant les compétitions sur Kaggle. À notre connaissance, notre travail offre la gamme la plus étendue de solutions de niveau expert pour les ensembles de données tabulaires actuellement disponibles.

Changements dans les classements des modèles

Dans notre analyse, on a regardé comment la comparaison des modèles change quand on utilise des processus spécifiques pour chaque ensemble au lieu des méthodes standards. Notre investigation montre que :

  1. Le classement des modèles peut changer de manière spectaculaire quand on tient compte de la préparation spécifique à chaque ensemble.
  2. Quand on applique une préparation de niveau expert, les écarts de performance entre les modèles diminuent, et beaucoup peuvent atteindre des résultats d'excellence.
  3. La force perçue de certains modèles, comme CatBoost, peut changer quand on considère une préparation de caractéristiques spécifique, car ce modèle a déjà des caractéristiques intégrées que d'autres modèles n'ont pas.

L'importance de l'ingénierie des caractéristiques

L'ingénierie des caractéristiques consiste à créer de nouvelles caractéristiques sur la base de données existantes pour améliorer la Performance du Modèle. Nos résultats suggèrent qu'améliorer les données par l'ingénierie des caractéristiques reste crucial pour obtenir des résultats optimaux, même avec des modèles d'apprentissage automatique avancés. Aucun modèle existant n'automatise complètement cette tâche, ce qui fait de la préparation des caractéristiques un facteur clé dans le succès de nombreux projets.

Quand on a comparé les modèles en utilisant des processus standards, on a trouvé que divers modèles ne surpassaient pas vraiment les autres. Ce n'est qu'en intégrant une préparation de caractéristiques spécifique qu'on a observé des améliorations de performance substantielles. Cela montre que, bien que le choix du modèle soit important, les étapes de préparation des données peuvent avoir un impact encore plus grand sur la performance.

Adaptation au moment du test

Un autre aspect intéressant qu'on a trouvé est le concept d'adaptation au moment du test (TTA). Beaucoup de modèles formés sur des données supposément statiques nécessitent encore de s'adapter aux changements au fil du temps. Les échantillons sont souvent recueillis sur des périodes, révélant qu'un ensemble de données pourrait changer, et s'adapter à ces évolutions est souvent nécessaire. Même si la plupart des ensembles de données tabulaires sont traités comme statiques, notre analyse montre des preuves solides que de nombreuses compétitions sur Kaggle ont montré des caractéristiques temporelles.

S'adapter aux changements de données est important dans les applications du monde réel. Nos résultats suggèrent que les évaluations académiques actuelles peuvent ne pas bien correspondre aux besoins des praticiens, car elles négligent souvent l'importance de ces changements.

Apprendre des compétitions Kaggle

Kaggle est une plateforme en ligne où se déroulent des compétitions d'apprentissage automatique. Les entreprises publient de vrais problèmes, et des gens du monde entier essaient de les résoudre avec leurs modèles. Beaucoup d'études ont comparé de nouvelles approches aux performances des participants dans ces compétitions. Notre cadre d'évaluation utilise ces compétitions pour identifier des solutions performantes dont les autres peuvent tirer des leçons.

On a mis en place notre méthode d'évaluation basée sur trois facteurs clés souvent négligés dans la recherche sur les données tabulaires :

  1. Évaluer sur des ensembles de données réelles sans simplifier des aspects clés, comme le traitement des caractéristiques catégorielles.
  2. Créer des processus de préparation des données spécifiques, pilotés par des experts, pour chaque ensemble.
  3. Comparer la performance des modèles par rapport aux niveaux d'experts humains sur des ensembles de données de test cachés.

Choisir les bons ensembles de données

Pour créer notre cadre d'évaluation, on a sélectionné des ensembles de données provenant de compétitions Kaggle qui répondent aux critères suivants :

  1. Ils doivent inclure des données tabulaires.
  2. Les compétitions doivent avoir un nombre significatif de participants.
  3. Il doit y avoir une incitation à participer, que ce soit financière ou autre.

Après avoir évalué les compétitions selon ces critères, on a sélectionné un total de dix ensembles de données pour notre analyse.

Création de solutions expertes et pipelines de traitement des données

Notre cadre d'évaluation inclut trois méthodes de préparation des données. L'une d'elles suit les processus couramment utilisés dans les évaluations de modèles, tandis que les deux autres sont spécifiques aux ensembles de données que nous avons analysés. Cette approche nous aide à comparer divers modèles de manière plus significative.

Prétraitement standardisé

Ce premier pipeline est crucial pour évaluer des modèles uniques avec un minimum d'interaction humaine. Dans cette méthode, on gère les valeurs manquantes et supprime les colonnes constantes tout en veillant à ce que les cibles soient log-transformées pour les tâches de régression. Ces étapes sont courantes dans les études connexes et reflètent les pratiques d'évaluation académiques actuelles.

Ingénierie de caractéristiques expertes

Pour chaque ensemble de données, on a soigneusement sélectionné une solution performante provenant de Kaggle. On s'est concentré sur la séparation de la préparation des données des autres composants du modèle. Pour la plupart des ensembles de données, ce pipeline implique uniquement des techniques d'ingénierie des caractéristiques, indépendamment des types de modèles.

Adaptation au moment du test

Ce pipeline reflète la préparation des caractéristiques expertes mais utilise des informations provenant des ensembles de test quand c'est applicable. Beaucoup d'équipes de solution ont utilisé des données de test pour préparer des caractéristiques pour six de nos ensembles de données sélectionnés. Bien que cela puisse paraître injuste, c'est pertinent dans certains scénarios du monde réel où les modèles s'adaptent déjà au moment du test.

Évaluation de la performance des modèles

Notre cadre d'évaluation nous a permis d'évaluer comment des facteurs individuels comme le choix du modèle, l'ingénierie des caractéristiques et l'adaptation au moment du test influençaient la performance. Les résultats ont clairement démontré que se fier uniquement à des configurations d'évaluation standards ne montrerait qu'une partie de la performance potentielle pour de nombreux ensembles de données.

Résultats et implications

À travers nos tests, on a observé que l'importance de l'ingénierie des caractéristiques ne peut pas être surestimée. C'est le composant le plus significatif pour améliorer la performance globale du modèle. Les modèles basés sur l'apprentissage profond n'ont pas encore automatisé cet aspect essentiel de manière efficace.

Quand on a spécifiquement examiné le rôle de l'adaptation au moment du test, cela a systématiquement conduit à des gains en performance. Cela indique que dans les ensembles de données du monde réel, les caractéristiques utilisées pour entraîner les modèles devraient également refléter les changements dans les données au fil du temps.

Notre cadre met en lumière que les évaluations actuelles dans le milieu académique sont souvent biaisées vers une approche centrée sur le modèle, négligeant le rôle vital de la préparation des caractéristiques et les implications des changements temporels dans les données. On suggère que les futures recherches devraient explorer ces aspects plus en profondeur.

Directions pour de futures recherches

Les chercheurs qui se concentrent sur l'amélioration de l'apprentissage automatique pour les données tabulaires devraient envisager les directions suivantes :

  1. Différencier entre les évaluations standard d'AutoML et celles qui prennent en compte les tâches spécifiques aux données.
  2. Créer un benchmark comprenant des ensembles de données réelles reflétant des besoins pressants dans les affaires et l'industrie.
  3. Développer des méthodes qui automatisent des techniques efficaces d'ingénierie des caractéristiques adaptées à divers modèles.
  4. Cibler des ensembles de données qui présentent des caractéristiques temporelles et développer des modèles avec les adaptations nécessaires en tête.

En s'attaquant à ces problèmes, le domaine peut progresser pour répondre aux véritables défis rencontrés lors de l'application de l'apprentissage automatique aux données tabulaires.

Conclusion

En résumé, les modèles d'apprentissage automatique pour les données tabulaires doivent être évalués d'un point de vue centré sur les données plutôt que seulement sur les modèles. Nos découvertes soulignent que des méthodes efficaces de préparation des données et d'adaptation aux changements temporels dans les données jouent des rôles cruciaux dans les résultats de performance.

Les idées fournies dans ce travail appellent à des ajustements dans la façon dont les recherches actuelles sont menées. En mettant l'accent sur l'importance de l'ingénierie des caractéristiques, la compréhension des changements temporels et l'adaptation à des ensembles de données uniques, le travail futur peut rapprocher l'apprentissage automatique des applications pratiques qui apportent des bénéfices concrets dans le monde réel.

Source originale

Titre: A Data-Centric Perspective on Evaluating Machine Learning Models for Tabular Data

Résumé: Tabular data is prevalent in real-world machine learning applications, and new models for supervised learning of tabular data are frequently proposed. Comparative studies assessing the performance of models typically consist of model-centric evaluation setups with overly standardized data preprocessing. This paper demonstrates that such model-centric evaluations are biased, as real-world modeling pipelines often require dataset-specific preprocessing and feature engineering. Therefore, we propose a data-centric evaluation framework. We select 10 relevant datasets from Kaggle competitions and implement expert-level preprocessing pipelines for each dataset. We conduct experiments with different preprocessing pipelines and hyperparameter optimization (HPO) regimes to quantify the impact of model selection, HPO, feature engineering, and test-time adaptation. Our main findings are: 1. After dataset-specific feature engineering, model rankings change considerably, performance differences decrease, and the importance of model selection reduces. 2. Recent models, despite their measurable progress, still significantly benefit from manual feature engineering. This holds true for both tree-based models and neural networks. 3. While tabular data is typically considered static, samples are often collected over time, and adapting to distribution shifts can be important even in supposedly static data. These insights suggest that research efforts should be directed toward a data-centric perspective, acknowledging that tabular data requires feature engineering and often exhibits temporal characteristics. Our framework is available under: https://github.com/atschalz/dc_tabeval.

Auteurs: Andrej Tschalzev, Sascha Marton, Stefan Lüdtke, Christian Bartelt, Heiner Stuckenschmidt

Dernière mise à jour: 2024-12-18 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2407.02112

Source PDF: https://arxiv.org/pdf/2407.02112

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Liens de référence

Plus d'auteurs

Articles similaires