Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Estadística# Aprendizaje automático# Aprendizaje automático

Analizando los efectos del ruido en las salidas de Softmax

Este artículo explora el impacto del ruido en las salidas de softmax y la precisión de clasificación.

― 7 minilectura


Ruido y Perspectivas deRuido y Perspectivas deSoftmaxrendimiento de los clasificadores.Examinando el rol del ruido en el
Tabla de contenidos

Leí el documento y quiero compartir algunas ideas. Es importante mejorar este trabajo antes de empezar con nuevo. Una reunión estaría genial, pero el punto principal es que la conexión entre clustering y Softmax necesita más profundidad. Se siente desconectada de las funciones de distancia anteriores y la adición de ruido.

La idea principal es que después de entrenar una red con datos, cuando añadimos ruido a esos datos, la salida cambia en softmax. El clustering puede mostrar cuándo esos cambios se superponen con ruido de otra clase. Podemos visualizar y medir estas distancias en un espacio de alta dimensión. Necesitamos conectar esto con la divergencia KL y otras métricas del informe de transferencia.

Aunque podemos decir que hemos observado patrones similares en los casos de MNIST y CIFAR, creo que los revisores pueden no encontrar eso suficiente. En lugar de hacer más experimentos, enfocarnos en analizar los resultados relacionados con la divergencia KL y otras métricas parece ser el mejor camino.

Un buen ejemplo sería usar CARLA. Por ejemplo, si aumentamos el ruido de "lluvia", creará un perfil de softmax similar. Si aumentamos "deslumbramiento" u otro ruido, podría ayudar a visualizar los clusters. Pero solo esas métricas de distancia (como KL) proporcionarán resultados sin perder información al reducir dimensiones.

Con un simulador, probar situaciones con ruido para "choque" o "sin choque" se vuelve posible. Ahora podemos derivar resultados de softmax y tener lo que podemos llamar un "proxy de verdad fundamental". Este proxy podría ayudar a analizar el valor de usar esas métricas de distancia. Podemos comparar cualquier umbral elegido con los resultados de choque/sin choque.

No estoy seguro si ECAI proporciona un período de réplicas, pero cualquier cosa hecha antes de ese tiempo puede mejorar las posibilidades de aceptación. En general, este feedback establece un plan sólido para tu tesis.

Añadiendo Ruido y Analizando la Salida

Añadir ruido a las imágenes impacta la Precisión. La degradación de la precisión, similar a lo que pasa con imágenes que se clasifican incorrectamente, muestra una correlación negativa con la distancia softmax aumentada desde las predicciones de clase a los Centroides de clase.

Creamos el conjunto de datos PerMNIST, que es una versión modificada de MNIST, y el conjunto de datos NCIFAR-10 (CIFAR-10 ruidoso).

El Conjunto de Datos PerMNIST

En este conjunto de datos, aplicamos 12 tipos de ruido (Brillo, Contraste, Desenfoque de Enfoque, Niebla, Escarcha, Ruido Gaussiano, Ruido de Impulso, Desenfoque por Movimiento, Pixelación, Ruido de Disparo, Nieve y Desenfoque por Zoom) en 10 niveles de intensidad diferentes. Esto resulta en 120 imágenes adicionales para cada imagen original en los conjuntos de datos de entrenamiento y prueba, llevando a un total de 7,260,000 y 1,260,000 imágenes. Las imágenes originales también se mantienen en el conjunto de datos, junto con detalles sobre el tipo de ruido y su nivel de intensidad.

Visualizando Perturbaciones

Las figuras muestran el dígito 5 de MNIST con varios tipos de ruido aplicados en diferentes niveles de intensidad. Varias figuras representan cómo estas perturbaciones afectan las imágenes y proporcionan histogramas que muestran la distribución de valores de píxeles para diferentes niveles de brillo y contraste.

Analizando la Precisión

Un mapa de calor ilustra la precisión del conjunto de datos MNIST perturbado, mostrando cómo la precisión cambia con niveles crecientes de ruido.

Usando un modelo CNN entrenado con el conjunto de datos de entrenamiento MNIST de 60k, reunimos las predicciones correctas y calculamos promedios para las salidas softmax agrupadas por clase de dígito. El algoritmo K-Means nos ayudó a encontrar los centroides de clase en un espacio de 10 dimensiones.

Algunas imágenes fueron asignadas erróneamente a clusters incorrectos, que necesitamos estudiar. Nuestro objetivo es entender la salida softmax para estas imágenes y su distancia a cada centroide de cluster.

Entendiendo Salidas Softmax y Fiabilidad

La salida softmax para estas imágenes mal clasificadas muestra altas probabilidades para diferentes dígitos, indicando confusión potencial. El análisis ilustra cómo estas salidas pueden variar para imágenes que deberían clasificarse como el mismo dígito pero que están ubicadas en diferentes clusters.

También enfatizamos la necesidad de evaluar la confianza de un clasificador en sus decisiones más allá de simplemente revisar si la predicción es correcta. Los casos extremos revelan incertidumbre, especialmente en aplicaciones críticas donde la confianza en el clasificador es vital.

Preocupaciones de Seguridad en Clasificación

En entornos críticos de seguridad, las clasificaciones erróneas pueden tener implicaciones severas. Por lo tanto, la evaluación de clasificadores debe centrarse en los casos extremos e identificar fuentes de incertidumbre para asegurar la seguridad.

Método de Selección de Color para Representación de Precisión

Introdujimos un método de selección de color para representar la precisión. Dependiendo del valor de precisión, el método devuelve colores que indican baja o alta precisión. Este algoritmo ayuda a visualizar esos niveles de precisión de manera lógica.

Análisis de Distancia al Centroide

Discutimos cómo cuantificar la confianza y fiabilidad en el modelo de reconocimiento de dígitos examinando las distancias a los centroides. Cuanto más cerca esté la distancia de una predicción al centroide, más podemos confiar en el modelo.

Analizamos cómo el ruido añadido afecta las predicciones y las distancias a los centroides. A medida que aumenta el ruido, esperamos que las distancias aumenten y las imágenes que fueron clasificadas correctamente se alejen más de los centroides hasta que las predicciones se vuelvan poco fiables o cambien a otra clase.

Probabilidades de Clasificación Incorrecta

Se ha propuesto un método para analizar la probabilidad de clasificación incorrecta entre las clases de dígitos. Al calcular cómo las distancias entre los centroides de ejemplo y los ejemplos correctamente clasificados se correlacionan, podemos identificar qué dígitos son más propensos a la Clasificación errónea.

Promedios de Probabilidades de Clasificación Incorrecta

Vimos cómo la probabilidad de clasificación incorrecta varía con diferentes niveles de perturbación. Ciertos dígitos, como 1, 4 y 6, mostraron una tendencia a confundirse con dígitos como 8 o 2. Esto sugiere que algunos pares de dígitos podrían ser más desafiantes para los clasificadores.

Desviaciones Estándar

También calculamos las desviaciones estándar de estas probabilidades para medir la consistencia a través de los niveles de perturbación. Algunos pares de dígitos tenían desviaciones bajas, indicando patrones de clasificación errónea estables.

Conclusiones

Los resultados refuerzan la idea de que ciertas clasificaciones erróneas son más propensas a ocurrir. Al analizar las probabilidades de clasificación incorrecta y su consistencia a través de los niveles de ruido, arrojamos luz sobre las limitaciones de los clasificadores de reconocimiento de dígitos.

Centrarse en pares de dígitos desafiantes puede ayudar a mejorar el rendimiento. El trabajo futuro podría explorar diversas métricas de distancia para analizar clasificaciones erróneas en diferentes dominios.

Este trabajo nos lleva a una mejor comprensión del rendimiento del clasificador y fomenta la investigación destinada a reducir las clasificaciones erróneas, mejorando en última instancia la fiabilidad de los sistemas que dependen de un reconocimiento preciso de dígitos.

Fuente original

Título: When to Accept Automated Predictions and When to Defer to Human Judgment?

Resumen: Ensuring the reliability and safety of automated decision-making is crucial. It is well-known that data distribution shifts in machine learning can produce unreliable outcomes. This paper proposes a new approach for measuring the reliability of predictions under distribution shifts. We analyze how the outputs of a trained neural network change using clustering to measure distances between outputs and class centroids. We propose this distance as a metric to evaluate the confidence of predictions under distribution shifts. We assign each prediction to a cluster with centroid representing the mean softmax output for all correct predictions of a given class. We then define a safety threshold for a class as the smallest distance from an incorrect prediction to the given class centroid. We evaluate the approach on the MNIST and CIFAR-10 datasets using a Convolutional Neural Network and a Vision Transformer, respectively. The results show that our approach is consistent across these data sets and network models, and indicate that the proposed metric can offer an efficient way of determining when automated predictions are acceptable and when they should be deferred to human operators given a distribution shift.

Autores: Daniel Sikar, Artur Garcez, Tillman Weyde, Robin Bloomfield, Kaleem Peeroo

Última actualización: 2024-08-13 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2407.07821

Fuente PDF: https://arxiv.org/pdf/2407.07821

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares