Reevaluando las Evaluaciones de Modelos de Aprendizaje Automático para Datos Tabulares
Un nuevo enfoque para evaluar modelos de ML centrándose en la preparación de datos.
― 9 minilectura
Tabla de contenidos
- El Problema con los Métodos de Evaluación Actuales
- Cambios en los Rankings de Modelos
- La Importancia de la Ingeniería de características
- Adaptación en el Tiempo de Prueba
- Aprendiendo de las Competencias de Kaggle
- Elegir los Conjuntos de Datos Correctos
- Creando Soluciones de Expertos y Pipelines de Procesamiento de Datos
- Preprocesamiento Estandarizado
- Ingeniería de Características de Expertos
- Adaptación en el Tiempo de Prueba
- Evaluando el Rendimiento del Modelo
- Hallazgos e Implicaciones
- Direcciones para la Investigación Futura
- Conclusión
- Fuente original
- Enlaces de referencia
Los datos tabulares son comunes en muchas áreas donde se usa el aprendizaje automático, como la salud, finanzas y comercio. Los investigadores a menudo proponen nuevos modelos diseñados para aprender de este tipo de datos. Para ver qué tan bien funcionan estos modelos, los estudios suelen evaluarlos aplicando pasos estandarizados para el procesamiento de datos. Sin embargo, estos enfoques estándar pueden no reflejar las prácticas del mundo real. La modelación real a menudo requiere pasos específicos para preparar los datos y crear características útiles.
Este artículo propone una nueva forma de evaluar modelos de aprendizaje automático que se centra en los datos en sí, en lugar de solo en los modelos. Analizamos diez conjuntos de datos relevantes de competencias de Kaggle, creando procesos de preparación de datos a nivel experto para cada uno. Realizamos pruebas con diferentes métodos de procesamiento de datos y ajustamos configuraciones para ver cómo estos factores cambian el rendimiento de los modelos. Nuestros resultados principales muestran que después de personalizar la preparación de características, los rankings de los modelos cambian significativamente y las diferencias en rendimiento se vuelven más pequeñas.
El Problema con los Métodos de Evaluación Actuales
La mayoría de los estudios evalúan el rendimiento de los modelos en conjuntos de datos tabulares basándose en métodos predefinidos de división de datos y usando el mismo procesamiento estándar para todos los conjuntos de datos. Estas prácticas tienen dos problemas significativos:
- Los procesos de evaluación no reflejan lo que realmente hacen los profesionales, que a menudo incluye preparar los datos de maneras específicas adaptadas a cada conjunto de datos.
- No hay un punto de referencia confiable para el mejor rendimiento posible para una tarea, lo que hace difícil saber qué tan bien está funcionando un modelo.
Para solucionar estos problemas, sugerimos cambiar nuestro enfoque de los modelos hacia los datos en sí. Las principales contribuciones de nuestro trabajo incluyen una colección de diez conjuntos de datos importantes del mundo real, procesos de preparación de datos adaptados a cada conjunto de datos y una forma de medir los mejores resultados posibles para cada conjunto.
Seleccionamos nuestros conjuntos de datos revisando competencias en Kaggle. Hasta donde sabemos, nuestro trabajo ofrece la gama más extensa de soluciones a nivel experto para conjuntos de datos tabulares actualmente disponible.
Cambios en los Rankings de Modelos
En nuestro análisis, observamos cómo comparar modelos cambia cuando usamos procesos específicos para cada conjunto de datos en lugar de los métodos estándar. Nuestra investigación muestra que:
- El ranking de modelos puede cambiar drásticamente cuando consideramos la preparación específica del conjunto de datos.
- Cuando aplicamos preparación a nivel experto, las diferencias en rendimiento entre los modelos disminuyen, y muchos podrían alcanzar resultados top.
- La percepción de la fuerza de ciertos modelos, como CatBoost, puede cambiar cuando consideramos la preparación específica de características, ya que este modelo ya tiene características integradas que otros modelos no tienen.
Ingeniería de características
La Importancia de laLa ingeniería de características implica crear nuevas características basadas en los datos existentes para mejorar el Rendimiento del modelo. Nuestros hallazgos sugieren que mejorar los datos a través de la ingeniería de características sigue siendo crucial para lograr resultados óptimos, incluso con modelos avanzados de aprendizaje automático. Ningún modelo existente automatiza completamente esta tarea, lo que hace que la preparación de características sea un factor clave en el éxito de muchos proyectos.
Cuando comparamos modelos usando procesos estándar, encontramos que varios modelos no se destacaron significativamente unos sobre otros. Solo cuando incorporamos una preparación específica de características vimos mejoras sustanciales en rendimiento. Esto ilustra que, aunque la elección del modelo es importante, los pasos de preparación de datos tomados pueden tener un impacto aún mayor en el rendimiento.
Adaptación en el Tiempo de Prueba
Otro aspecto interesante que descubrimos es el concepto de adaptación en el tiempo de prueba (TTA). Muchos modelos entrenados en datos supuestamente estáticos aún requieren adaptarse a cambios con el tiempo. Las muestras a menudo se recopilan durante períodos, revelando que un conjunto de datos puede cambiar, y adaptarse a estos cambios a menudo es necesario. A pesar de que la mayoría de los conjuntos de datos tabulares se tratan como estáticos, nuestro análisis muestra una fuerte evidencia de que muchas competencias en Kaggle mostraron características temporales.
Adaptarse a los cambios de datos es importante en aplicaciones del mundo real. Nuestros resultados sugieren que las evaluaciones académicas actuales pueden no conectar bien con las necesidades de los profesionales, ya que a menudo pasan por alto la importancia de estos cambios.
Aprendiendo de las Competencias de Kaggle
Kaggle es una plataforma en línea donde tienen lugar competencias de aprendizaje automático. Las empresas publican problemas reales, y personas de todo el mundo intentan resolverlos usando sus modelos. Muchos estudios han comparado nuevos enfoques con el rendimiento de los participantes en estas competencias. Nuestro marco de evaluación usa estas competencias para identificar soluciones de alto rendimiento de las que otros pueden aprender.
Establecimos nuestro método de evaluación basado en tres factores clave que a menudo se pasan por alto en la investigación de datos tabulares:
- Evaluar en Conjuntos de Datos del Mundo Real sin simplificar aspectos clave, como el manejo de características categóricas.
- Crear procesos específicos de preparación de datos guiados por expertos para cada conjunto de datos.
- Comparar el rendimiento de los modelos contra niveles de expertos humanos en conjuntos de datos de prueba ocultos.
Elegir los Conjuntos de Datos Correctos
Para crear nuestro marco de evaluación, seleccionamos conjuntos de datos de competencias de Kaggle que cumplieran con los siguientes criterios:
- Deben incluir datos tabulares.
- Las competencias deben tener un número significativo de participantes.
- Debe haber un incentivo para participar, ya sea financiero u otro.
Después de evaluar competencias con estos criterios, seleccionamos un total de diez conjuntos de datos para nuestro análisis.
Creando Soluciones de Expertos y Pipelines de Procesamiento de Datos
Nuestro marco de evaluación incluye tres métodos de preparación de datos. Uno de estos sigue los procesos comúnmente utilizados en las evaluaciones de modelos, mientras que los otros dos son específicos para los conjuntos de datos que analizamos. Este enfoque nos ayuda a comparar varios modelos de manera más significativa.
Preprocesamiento Estandarizado
Este primer pipeline es crucial para evaluar modelos individuales con mínima intervención humana. En este método, manejamos los valores faltantes y eliminamos columnas constantes mientras nos aseguramos de que los objetivos estén transformados logarítmicamente para tareas de regresión. Estos pasos son comunes en estudios relacionados y reflejan las prácticas de evaluación académicas actuales.
Ingeniería de Características de Expertos
Para cada conjunto de datos, seleccionamos cuidadosamente una solución de alto rendimiento de Kaggle. Nos enfocamos en separar la preparación de datos de otros componentes del modelo. Para la mayoría de los conjuntos de datos, este pipeline involucra solo técnicas de ingeniería de características, independientemente de los tipos de modelo.
Adaptación en el Tiempo de Prueba
Este pipeline refleja la preparación de características de expertos pero usa información de conjuntos de datos de prueba cuando es aplicable. Muchos equipos de solución utilizaron datos de prueba para preparar características para seis de nuestros conjuntos de datos seleccionados. Aunque esto puede parecer injusto, es relevante en ciertos escenarios del mundo real donde los modelos ya se adaptan en el tiempo de prueba.
Evaluando el Rendimiento del Modelo
Nuestro marco de evaluación nos permitió evaluar cómo factores individuales como la selección del modelo, la ingeniería de características y la adaptación en el tiempo de prueba influyeron en el rendimiento. Los resultados demostraron claramente que confiar simplemente en configuraciones de evaluación estándar mostraría solo una parte del rendimiento potencial para muchos conjuntos de datos.
Hallazgos e Implicaciones
A través de nuestras pruebas, observamos que la importancia de la ingeniería de características no puede ser subestimada. Es el componente más significativo para impulsar el rendimiento general del modelo. Los modelos basados en aprendizaje profundo aún no han automatizado este aspecto esencial de manera efectiva.
Cuando miramos específicamente el papel de la adaptación en el tiempo de prueba, consistentemente condujo a ganancias de rendimiento. Esto indica que en conjuntos de datos del mundo real, las características usadas para entrenar modelos también deben reflejar cambios en los datos a lo largo del tiempo.
Nuestro marco resalta que las evaluaciones actuales en la academia a menudo están sesgadas hacia un enfoque centrado en el modelo, descuidando el papel vital de la preparación de características y las implicaciones de los cambios temporales en los datos. Sugerimos que la investigación futura explore estos aspectos más a fondo.
Direcciones para la Investigación Futura
Los investigadores enfocados en mejorar el aprendizaje automático para datos tabulares deberían considerar las siguientes direcciones:
- Diferenciar entre evaluaciones estándar de AutoML y aquellas que toman en cuenta tareas específicas de datos.
- Crear un punto de referencia que incluya conjuntos de datos del mundo real que reflejen necesidades empresariales e industriales urgentes.
- Desarrollar métodos que automaticen técnicas efectivas de ingeniería de características adecuadas para varios modelos.
- Dirigir conjuntos de datos que exhiban características temporales y desarrollar modelos con las adaptaciones necesarias en mente.
Al abordar estos problemas, el campo puede avanzar en la atención a los verdaderos desafíos que se enfrentan al aplicar el aprendizaje automático a datos tabulares.
Conclusión
En resumen, los modelos de aprendizaje automático para datos tabulares deben evaluarse desde una perspectiva centrada en los datos en lugar de solo una centrada en el modelo. Nuestros hallazgos destacan que los métodos efectivos de preparación de datos y la adaptación a cambios temporales en los datos juegan roles cruciales en los resultados de rendimiento.
Las ideas proporcionadas en este trabajo piden ajustes en cómo se lleva a cabo la investigación actual. Al enfatizar la importancia de la ingeniería de características, comprender los cambios temporales y adaptarse a conjuntos de datos únicos, el trabajo futuro puede acercar el aprendizaje automático a aplicaciones prácticas que ofrezcan beneficios reales.
Título: A Data-Centric Perspective on Evaluating Machine Learning Models for Tabular Data
Resumen: Tabular data is prevalent in real-world machine learning applications, and new models for supervised learning of tabular data are frequently proposed. Comparative studies assessing the performance of models typically consist of model-centric evaluation setups with overly standardized data preprocessing. This paper demonstrates that such model-centric evaluations are biased, as real-world modeling pipelines often require dataset-specific preprocessing and feature engineering. Therefore, we propose a data-centric evaluation framework. We select 10 relevant datasets from Kaggle competitions and implement expert-level preprocessing pipelines for each dataset. We conduct experiments with different preprocessing pipelines and hyperparameter optimization (HPO) regimes to quantify the impact of model selection, HPO, feature engineering, and test-time adaptation. Our main findings are: 1. After dataset-specific feature engineering, model rankings change considerably, performance differences decrease, and the importance of model selection reduces. 2. Recent models, despite their measurable progress, still significantly benefit from manual feature engineering. This holds true for both tree-based models and neural networks. 3. While tabular data is typically considered static, samples are often collected over time, and adapting to distribution shifts can be important even in supposedly static data. These insights suggest that research efforts should be directed toward a data-centric perspective, acknowledging that tabular data requires feature engineering and often exhibits temporal characteristics. Our framework is available under: https://github.com/atschalz/dc_tabeval.
Autores: Andrej Tschalzev, Sascha Marton, Stefan Lüdtke, Christian Bartelt, Heiner Stuckenschmidt
Última actualización: 2024-12-18 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2407.02112
Fuente PDF: https://arxiv.org/pdf/2407.02112
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://becoming-fluent-in-data.com/tabular-data.html
- https://neurips.cc/Conferences/2024/PaperInformation/FundingDisclosure
- https://www.kaggle.com/competitions/mercedes-benz-greener-manufacturing/discussion/37700
- https://www.kaggle.com/competitions/santander-value-prediction-challenge/discussion/63919
- https://www.kaggle.com/competitions/amazon-employee-access-challenge/discussion/5283
- https://www.kaggle.com/competitions/otto-group-product-classification-challenge/discussion/14295
- https://www.kaggle.com/competitions/santander-customer-satisfaction/discussion/20978
- https://www.kaggle.com/code/confirm/xfeat-catboost-cpu-only
- https://www.kaggle.com/competitions/santander-customer-transaction-prediction/discussion/89003
- https://www.kaggle.com/competitions/homesite-quote-conversion/discussion/18831
- https://www.kaggle.com/competitions/ieee-fraud-detection/discussion/111308
- https://www.kaggle.com/competitions/porto-seguro-safe-driver-prediction/discussion/44558
- https://www.kaggle.com/competitions/
- https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=7344858&casa_token=4sCZDhzhEsYAAAAA:ZeP3C9ARfwflq3Tk1H_1MnXYM2qdxShKZhpLh1aWHx75jYc9_-_Q67WanCp2Hwjxy05ZdWRo6EwQ&tag=1
- https://www.kaggle.com/c/home-credit-default-risk/discussion/64722
- https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=9458886&casa_token=YN7SH4sSdPwAAAAA:gqO7HzT1S4OXkWrVaFf_feOsmu8mRY3pYmsT5H1sBXPYujv69z7y-E-lxZR_M6om8wtU4y07KKO0
- https://epubs.siam.org/doi/pdf/10.1137/1.9781611972801.55
- https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=9101784&casa_token=3ci4kw0y3MIAAAAA:S2Xb1VLdq3ah0M_EBN0SX6jNXZVoNEvL8foP8MJfIGDwRHcsOHQlBAuPtLdwTEWy3awNzGKnqEgW&tag=1
- https://dl.acm.org/doi/pdf/10.1145/3292500.3330679?casa_token=lNhs3yodbOIAAAAA:4sAoj556Tw7qBC4uQN84Jtrs-bcTCsUCMmA5mXtpMWAWOKo353LzWyQZKXK1zwV9ugEZjR8UO_u7USY
- https://www.datascienceassn.org/sites/default/files/Learning_Feature_Engineering_for_Classification.pdf
- https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=7837936&casa_token=wBSXFPs0c2UAAAAA:mJE__H0B6r8JU9fQ5R_yf09qN1Y3aj-hox7o-1kKgZBITeoWBun4Ju4fBFXeaqN0KSkwANEDR-GJ