Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Aprendizaje automático

Abordando la post-selección en la investigación de aprendizaje profundo

Examinando el impacto de la Post-Selección en la evaluación de modelos en aprendizaje profundo.

― 6 minilectura


Arreglando laArreglando laPost-Selección en IAen la IA.de modelos para aumentar la confianzaMejorando las prácticas de evaluación
Tabla de contenidos

El Deep Learning es un método que se utiliza en la informática para crear modelos que pueden aprender de los datos. Aunque ha tenido mucho éxito, hay preocupaciones serias sobre cómo algunos estudios reportan sus resultados. Un problema importante se conoce como "Post-Selección". Esto se refiere a la práctica de elegir los modelos que mejor rendimiento tienen de un grupo basado en su desempeño en un conjunto de validación. Cuando los autores se concentran solo en los mejores resultados, puede dar una impresión engañosa de qué tan bien se desempeñará el modelo en datos nuevos y no vistos.

¿Qué es la Post-Selección?

La Post-Selección ocurre cuando los investigadores entrenan múltiples modelos y luego eligen reportar solo aquellos que tuvieron mejor rendimiento en el conjunto de validación. Esto puede sonar razonable al principio, pero puede llevar a una falta de transparencia y fiabilidad. Hay dos tipos principales de mala conducta relacionados con esta práctica:

  1. Trampa en ausencia de una prueba: En muchos casos, los investigadores pueden acceder a los datos de prueba, lo que les permite usarlos para mejorar sus modelos. Sin embargo, los datos de prueba deberían mantenerse separados, para que los modelos puedan ser evaluados de manera justa.

  2. Ocultar un mal desempeño: A menudo, los investigadores no reportan el rendimiento de los modelos que no lo hicieron bien, lo que distorsiona la percepción de cuán efectiva es la metodología.

El papel de los Errores

Al evaluar modelos, es esencial considerar los errores que cometen. Estos errores no solo deberían reflejar los modelos de mejor rendimiento, sino que también deberían incluir errores promedio de todos los modelos. Reportar solo el modelo que mejor funciona puede inflar las expectativas y tergiversar las capacidades del modelo.

Nuevos enfoques para la evaluación de modelos

Existen métodos de evaluación que pueden ofrecer una imagen más precisa del rendimiento del modelo. Un enfoque es usar la Validación Cruzada General. Este método implica evaluar los modelos no solo en su rendimiento con pesos iniciales generados aleatoriamente, sino también en parámetros ajustados manualmente.

  1. Validación Cruzada General: Esto evalúa el rendimiento promedio de todos los modelos, en lugar de solo el mejor. Requiere reportar un rango más amplio de métricas de rendimiento, incluyendo errores promedio y rangos percentuales de rendimiento específicos.

  2. Validación Cruzada Tradicional: Esta es una técnica ampliamente utilizada que busca asegurar que los modelos no se sobreajusten a los datos de entrenamiento. Sin embargo, puede seguir siendo ineficaz si los modelos son elegidos basándose en la post-selección.

  3. Validación Cruzada Anidada: Este es un enfoque más complejo que intenta involucrar múltiples validaciones dentro de cada ciclo de entrenamiento del modelo. Sin embargo, a pesar de su complejidad, no aborda de manera efectiva los problemas subyacentes con la post-selección.

Implicaciones de la mala conducta en Deep Learning

La práctica de la Post-Selección puede tener implicaciones de gran alcance más allá de las preocupaciones técnicas. Cuando los investigadores persiguen solo los modelos más afortunados e ignoran los modelos menos exitosos, están distorsionando los resultados. Esto puede llevar a una mala toma de decisiones en campos como la salud, las finanzas y la tecnología, donde los costos del fracaso pueden ser significativos.

Ejemplos prácticos de mala conducta

Para ilustrar los problemas de la Post-Selección, considera la evolución de ciertos modelos exitosos de IA. Durante concursos, como los del juego de Go, los investigadores pueden haber confiado en el reporte selectivo del rendimiento de sus algoritmos. En muchos casos, el mismo modelo fue afinado y ajustado para adaptarse a los datos que se probaron, distorsionando así la visión general de su rendimiento.

Muchas publicaciones en la comunidad de deep learning también han enfrentado críticas por no separar adecuadamente sus datos de validación y prueba. Al no mantener la integridad de sus resultados, pueden inadvertidamente engañar a futuros investigadores y profesionales.

La necesidad de mejores prácticas de reporte

Es esencial que los autores en el campo del deep learning adopten mejores prácticas de reporte. Esto significa proporcionar una imagen más completa del rendimiento de sus modelos:

  1. Reportar errores promedio de todos los modelos entrenados en lugar de solo el de mejor desempeño.

  2. Incluir métricas específicas, como los errores del 25% inferior, la mediana y el 25% superior.

  3. Asegurarse de que se usen conjuntos de prueba apropiados que no se superpongan con los datos de entrenamiento o validación.

Problemas sociales conectados a la mala conducta

Las implicaciones de estas prácticas también se extienden a problemas sociales. Resultados engañosos en IA pueden afectar sistemas sociales, decisiones gubernamentales e incluso la seguridad pública. Por ejemplo, si un sistema de IA que predice necesidades de salud se basa en datos sesgados o mal representados, podría tener serias consecuencias para el cuidado del paciente.

La metodología detrás de la toma de decisiones en políticas públicas también se ve afectada. Por ejemplo, si las decisiones políticas se basan en datos distorsionados de reportes selectivos, puede afectar todo, desde la asignación de recursos hasta la confianza del público.

Conclusión

El Deep Learning es una herramienta poderosa, pero su efectividad puede verse socavada por malas prácticas en la evaluación y reporte de modelos. Al abordar problemas como la Post-Selección y adoptar un enfoque más transparente sobre cómo se evalúan los modelos, los investigadores pueden ayudar a asegurar que el desarrollo de la IA siga siendo confiable e impactante.

En general, avanzar hacia metodologías mejoradas puede llevar a aplicaciones más confiables y éticas del deep learning en varios campos. Esto, a su vez, puede fomentar una mayor innovación y progreso mientras se minimizan los riesgos asociados con la mala representación en la investigación.

Fuente original

Título: Misconduct in Post-Selections and Deep Learning

Resumen: This is a theoretical paper on "Deep Learning" misconduct in particular and Post-Selection in general. As far as the author knows, the first peer-reviewed papers on Deep Learning misconduct are [32], [37], [36]. Regardless of learning modes, e.g., supervised, reinforcement, adversarial, and evolutional, almost all machine learning methods (except for a few methods that train a sole system) are rooted in the same misconduct -- cheating and hiding -- (1) cheating in the absence of a test and (2) hiding bad-looking data. It was reasoned in [32], [37], [36] that authors must report at least the average error of all trained networks, good and bad, on the validation set (called general cross-validation in this paper). Better, report also five percentage positions of ranked errors. From the new analysis here, we can see that the hidden culprit is Post-Selection. This is also true for Post-Selection on hand-tuned or searched hyperparameters, because they are random, depending on random observation data. Does cross-validation on data splits rescue Post-Selections from the Misconducts (1) and (2)? The new result here says: No. Specifically, this paper reveals that using cross-validation for data splits is insufficient to exonerate Post-Selections in machine learning. In general, Post-Selections of statistical learners based on their errors on the validation set are statistically invalid.

Autores: Juyang Weng

Última actualización: 2024-02-13 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2403.00773

Fuente PDF: https://arxiv.org/pdf/2403.00773

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Artículos similares

BioinformáticaEl impacto de la composición del conjunto de datos en el aprendizaje automático para la predicción de unión de anticuerpos

Explora cómo las elecciones de conjuntos de datos afectan los modelos de aprendizaje automático que predicen la unión de anticuerpos.

― 10 minilectura