El impacto de la augmentación de etiquetas en el entrenamiento del modelo
Investigando cómo la ampliación de etiquetas afecta el aprendizaje en modelos de aprendizaje automático.
― 9 minilectura
Tabla de contenidos
La augmentación de datos es un método que se usa para mejorar el entrenamiento de modelos de aprendizaje automático, especialmente en tareas como la clasificación de imágenes. Ha sido clave para hacer que los modelos de aprendizaje profundo sean más efectivos en los últimos diez años. Un tipo específico de augmentación de datos no solo altera los datos de entrada, sino también las etiquetas asociadas a esos datos en el proceso de entrenamiento. Esto incluye técnicas como el Suavizado de etiquetas y Mixup.
En esta discusión, nos enfocamos en cómo la augmentación de etiquetas impacta el entrenamiento del modelo. Demostramos que, al usar augmentación de etiquetas en datos que se pueden separar linealmente, los modelos tienden a aprender características con la menor varianza. En cambio, los modelos entrenados con métodos estándar, que incluyen la decaída de pesos, pueden aprender características con mayor varianza. Un gran inconveniente de la augmentación de etiquetas es que puede hacer que los modelos sean menos robustos ante pequeños cambios o ataques en los datos de entrenamiento en comparación con los métodos estándar. Realizamos experimentos tanto con datos falsos como con tareas de clasificación de imágenes estándar, mostrando que nuestros hallazgos se mantienen en la práctica.
Introducción
Entrenar modelos poderosos de visión por computadora implica usar diferentes técnicas de augmentación de datos. Algunos métodos solo cambian los datos de entrada, utilizando técnicas como recorte aleatorio o rotación de imágenes. Sin embargo, algunos métodos también cambian las etiquetas de los datos de entrenamiento junto con los datos de entrada.
El suavizado de etiquetas y Mixup son dos métodos muy utilizados en esta segunda categoría. El suavizado de etiquetas modifica las etiquetas tradicionales one-hot al suavizarlas, dando probabilidades distintas de cero a todas las clases posibles. Mixup lleva esto un paso más allá al mezclar diferentes puntos de datos y sus etiquetas para crear nuevos ejemplos de entrenamiento.
Estos métodos han gozado de popularidad, llevando a los investigadores a hacer preguntas importantes sobre su efectividad para mejorar el rendimiento del modelo. Muchos estudios han adoptado diferentes enfoques para investigar esto, analizando aspectos como la regularización, la robustez a ataques adversariales, la calibración del modelo, el aprendizaje de características y cuántos ejemplos se necesitan para entrenar de manera efectiva.
A pesar de tener un entendimiento parcial de las conexiones entre el suavizado de etiquetas y Mixup, nos falta una teoría unificada que explique por qué los modelos que utilizan estos enfoques se comportan de manera similar. Nuestro objetivo aquí es proporcionar esa claridad, extendiendo investigaciones anteriores sobre el aprendizaje de características para explorar específicamente la augmentación de etiquetas. Nuestra investigación revelará que tanto Mixup como el suavizado de etiquetas a menudo pasan por alto características con mayor varianza al aprender de los datos.
Contribuciones Principales
Nuestras contribuciones principales se pueden resumir en unos pocos puntos clave:
En situaciones donde los datos se pueden separar linealmente y hay múltiples características disponibles, los modelos que utilizan Mixup o suavizado de etiquetas aprenden principalmente características con varianza mínima.
Explicamos estas afirmaciones al delinear el trasfondo de las técnicas de Mixup y suavizado de etiquetas, definiendo formalmente los tipos de distribuciones de datos con las que trabajan. Esta definición simplifica una idea compleja previa, haciéndola más fácil de comprender.
Demostramos que los modelos lineales que usan Mixup o suavizado de etiquetas en este tipo de datos solo se conectan con características de varianza mínima. A la inversa, los modelos lineales entrenados usando métodos estándar con decaída de pesos pueden correlacionarse con características de mayor varianza.
Nuestro análisis destaca una diferencia distinta entre cómo funcionan Mixup y el suavizado de etiquetas en comparación con el entrenamiento estándar, mostrando que las características de mayor varianza son ignoradas por los primeros.
Sustentamos nuestra teoría con varios experimentos, demostrando que los modelos entrenados bajo nuestras suposiciones teóricas no generalizan bien en tareas que involucran características de Alta varianza.
Modelo de Datos
Nos enfocamos en problemas de clasificación binaria donde algunas dimensiones de entrada representan características de baja varianza y otras características con mayor varianza. Por ejemplo, podemos imaginar datos de entrenamiento donde ciertos píxeles ayudan constantemente a identificar una clase, mientras que otras partes de la imagen varían de forma más significativa. El objetivo es que los modelos aprendan de ambos tipos de características.
Nuestra teoría muestra que al usar técnicas de augmentación de etiquetas como el suavizado de etiquetas o Mixup en datos con características de baja y alta varianza, el modelo resultante tiende a enfocarse solo en las características de baja varianza, limitando su capacidad para generalizar de manera efectiva.
Suavizado de Etiquetas y Mixup
El suavizado de etiquetas reemplaza las etiquetas tradicionales one-hot con una Mezcla de la etiqueta original y una distribución uniforme sobre las clases. Esto significa que en lugar de decir "Esto es un gato" (1,0 para gato vs. perro), podría decir "Esto es un poco un gato y un poco un perro" (0.9 para gato, 0.1 para perro).
De manera similar, Mixup combina dos muestras de entrenamiento para crear una nueva. Por ejemplo, si tenemos una imagen de un gato y una de un perro, Mixup podría crear una nueva imagen que sea 70% gato y 30% perro, mientras también promedia sus etiquetas.
Si bien estas técnicas se usan para mejorar el entrenamiento, nuestros hallazgos sugieren que pueden llevar a los modelos a pasar por alto características importantes que podrían mejorar el rendimiento en tareas que implican datos más variados.
El Papel de la Decaída de Peso
La decaída de peso es un método que se utiliza para evitar que los modelos se vuelvan demasiado complejos al penalizar pesos más grandes. Cuando los modelos se entrenan usando decaída de peso, a menudo capturan un rango más amplio de características, incluidas aquellas con mayor varianza. Este es uno de los factores distintivos al comparar los métodos de entrenamiento estándar con aquellos que utilizan augmentación de etiquetas.
Durante nuestros experimentos, los modelos entrenados con decaída de peso mostraron una fuerte correlación con las características de mayor varianza, mientras que aquellos entrenados con suavizado de etiquetas o Mixup no.
Experimentos con Datos Sintéticos
Primero probamos nuestra teoría usando datos sintéticos que se ajustan a nuestras definiciones. En esta configuración, entrenamos modelos de regresión logística mientras variamos los parámetros para decaída de peso, suavizado de etiquetas y Mixup.
Los resultados mostraron que los modelos que usaron decaída de peso mantuvieron una conexión con tanto características de baja como de alta varianza. Por otro lado, los modelos entrenados con estrategias de augmentación de etiquetas, incluyendo Mixup y suavizado de etiquetas, rápidamente aprendieron a depender exclusivamente de las características de baja varianza.
Este hallazgo indica que depender de la augmentación de etiquetas podría llevar a una falta de diversidad en lo que el modelo aprende, afectando en última instancia su robustez y rendimiento en tareas del mundo real.
Experimentos con Datos Reales: CIFAR-10 y CIFAR-100
A continuación, aplicamos nuestros hallazgos a datos reales utilizando los conjuntos de datos CIFAR-10 y CIFAR-100. Transformamos estos conjuntos de datos en tareas de clasificación binaria, manteniendo solo dos clases y modificando los datos de entrenamiento para aislar características con alta varianza.
Los modelos resultantes fueron evaluados en sus errores de prueba. Aquí, los modelos entrenados sin augmentación se desempeñaron significativamente mejor que los entrenados con suavizado de etiquetas o Mixup. Los únicos modelos que lograron errores de prueba más bajos fueron aquellos que utilizaron decaída de peso en su proceso de entrenamiento.
Notablemente, incluso cuando ajustamos los datos de entrenamiento introduciendo varianza en las características identificativas, los efectos perjudiciales de la augmentación de etiquetas persistieron. Los resultados confirmaron que Mixup y el suavizado de etiquetas aún llevaron a los modelos a aprender principalmente de características marcadas por baja varianza.
Clasificación de Imágenes Multiclase con ResNet
Finalmente, queríamos ver si nuestros resultados se mantenían al usar modelos más complejos. Realizamos experimentos con arquitecturas ResNet en los conjuntos de datos CIFAR-10 y CIFAR-100. Nuevamente, encontramos que el entrenamiento con Mixup y el suavizado de etiquetas llevó a los modelos a ajustar demasiado las características de baja varianza.
Si bien estas técnicas ayudaron inicialmente a reducir las tasas de error al principio del proceso de entrenamiento, luego causaron que los modelos no generalizaran bien, resultando en errores de prueba significativos. En contraste, los modelos que usaron decaída de peso mejoraron consistentemente su rendimiento con el tiempo.
Conclusión
En resumen, hemos mostrado que para distribuciones de datos linealmente separables que presentan elementos tanto de alta como de baja varianza, los modelos entrenados con técnicas de augmentación como el suavizado de etiquetas o Mixup a menudo pasan por alto el aprendizaje de características importantes que tienen mayor varianza. Mientras tanto, los métodos de entrenamiento estándar que utilizan decaída de peso permiten un enfoque más equilibrado, aprendiendo con éxito de ambos tipos de características.
Estos hallazgos subrayan que, aunque el suavizado de etiquetas y Mixup se han convertido en métodos populares en el aprendizaje automático, no siempre conducen a un mejor rendimiento y podrían restar a la capacidad de los modelos para generalizar de manera efectiva. Trabajos futuros explorarán las implicaciones de estos resultados en entornos más complejos y no lineales, proporcionando potencialmente una comprensión más profunda de las sutilezas de las estrategias de entrenamiento de modelos.
Título: For Better or For Worse? Learning Minimum Variance Features With Label Augmentation
Resumen: Data augmentation has been pivotal in successfully training deep learning models on classification tasks over the past decade. An important subclass of data augmentation techniques - which includes both label smoothing and Mixup - involves modifying not only the input data but also the input label during model training. In this work, we analyze the role played by the label augmentation aspect of such methods. We first prove that linear models on binary classification data trained with label augmentation learn only the minimum variance features in the data, while standard training (which includes weight decay) can learn higher variance features. We then use our techniques to show that even for nonlinear models and general data distributions, the label smoothing and Mixup losses are lower bounded by a function of the model output variance. An important consequence of our results is negative: label smoothing and Mixup can be less robust to spurious correlations in the data. We verify that our theory reflects practice via experiments on image classification benchmarks modified to have spurious correlations.
Autores: Muthu Chidambaram, Rong Ge
Última actualización: 2024-05-27 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2402.06855
Fuente PDF: https://arxiv.org/pdf/2402.06855
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.