Evaluando Métodos de IA Explicativa para Fiabilidad
La investigación evalúa la estabilidad de los métodos de XAI usando un conjunto de datos de diabetes.
― 7 minilectura
Tabla de contenidos
En el mundo de hoy, la inteligencia artificial (IA) se está convirtiendo en una parte importante de nuestra vida diaria. La IA puede ayudar a resolver muchos problemas, haciendo las cosas más fáciles e inteligentes. Sin embargo, algunos sistemas de IA, llamados modelos de caja negra, usan algoritmos complicados que hacen un gran trabajo al hacer predicciones pero no explican cómo llegan a esas conclusiones.
Para abordar este problema, los investigadores han desarrollado métodos de Inteligencia Artificial Explicable (XAI). Estos métodos buscan ofrecer más información sobre cómo los modelos de IA hacen sus predicciones. Algunos métodos populares de XAI incluyen Dalex, Eli5, eXirt, Lofo y Shap. Estos métodos ayudan a explicar los modelos de caja negra de diferentes maneras. Una pregunta común sobre estos métodos de XAI es: "¿Qué tan confiables y estables son?"
Para responder a esta pregunta, los investigadores realizaron experimentos utilizando un conjunto de datos de diabetes. Usaron cuatro modelos diferentes de aprendizaje automático: Light Gradient Boosting Machine (LGBM), Perceptrón Multicapa (MLP), Árbol de Decisión (DT) y K Vecinos Más Cercanos (KNN). Los investigadores añadieron diferentes niveles de cambios aleatorios, llamados perturbaciones, a los datos y luego verificaron qué tan estables y confiables eran las explicaciones para cada modelo.
El hallazgo principal de la investigación fue que eXirt podía identificar qué modelos eran los más confiables. El estudio mostró que muchos métodos actuales de XAI son sensibles a los cambios en los datos, excepto uno.
Entendiendo los Modelos de Caja Negra y la Transparencia
Los modelos de caja negra pueden lograr un alto rendimiento en la predicción de resultados pero no pueden explicar sus predicciones. Por otro lado, los modelos transparentes son más fáciles de entender ya que tienen estructuras claras que muestran cómo llegan a sus conclusiones, aunque su rendimiento general no sea tan alto.
En situaciones donde los modelos necesitan ser efectivos y explicables, hay una creciente demanda de métodos que puedan proporcionar información en dos niveles: explicaciones locales, que muestran cómo ciertas características afectan predicciones específicas, y explicaciones globales, que aclaran el comportamiento general del modelo.
Es importante notar que términos como "clasificación de relevancia de características" y "clasificación de importancia de características" se usan a menudo de manera intercambiable, pero significan cosas diferentes. La clasificación de relevancia de características se basa en la salida del modelo, mientras que la clasificación de importancia se basa en la etiqueta verdadera que queremos predecir.
Diferentes Métodos de XAI
Se han desarrollado varios métodos para producir explicaciones para modelos de IA, tanto agnósticos al modelo (no dependen de un tipo específico de modelo) como específicos del modelo (dependen de un tipo específico de modelo). El método eXirt, que se introdujo recientemente, se basa en la Teoría de Respuesta al Ítem (IRT). Genera explicaciones clasificando características según su relevancia, ayudando a los usuarios a sentirse más seguros en las predicciones del modelo.
El método Dalex utiliza una técnica llamada Leave-One-Covariate-Out (LOCO). Elimina gradualmente características del modelo para ver cómo cada una afecta el rendimiento y así determinar la importancia de cada característica. Lofo opera de manera similar pero elimina características una a una y reevaluando el rendimiento del modelo cada vez. Eli5 clasifica características midiendo cuánto disminuye la precisión cuando se elimina una característica del conjunto de datos.
Las Explicaciones Aditivas de SHapley (SHAP) utilizan la teoría de juegos para explicar predicciones calculando cómo cada característica contribuye al resultado de la predicción. Skater mide la relevancia de las características basado en la Teoría de la Información, enfocándose en cómo cambian las predicciones cuando se modifican las características.
El Papel de la Teoría de Respuesta al Ítem
La Teoría de Respuesta al Ítem (IRT) es un método utilizado principalmente en educación para evaluar el rendimiento de los estudiantes en base a sus respuestas a preguntas de prueba. A diferencia de los métodos tradicionales, que simplemente cuentan las respuestas correctas, la IRT observa qué tan bien responde un individuo a preguntas específicas según sus habilidades.
La IRT utiliza tres parámetros principales para evaluar la confiabilidad de un modelo:
- Discriminación: Qué tan bien una pregunta puede diferenciar entre individuos de alta y baja habilidad. Valores más altos indican mejor discriminación.
- Dificultad: Qué tan desafiante es una pregunta. Valores más bajos significan que la pregunta es más fácil.
- Adivinanza: La posibilidad de que un individuo con baja habilidad acierte una pregunta por pura suerte.
Un modelo confiable debe tener alta discriminación, baja dificultad, bajas tasas de adivinanza y altos niveles de habilidad.
Metodología de Investigación
En el estudio, los investigadores trabajaron con el conjunto de datos de diabetes de los indios Pima, que contiene 9 características numéricas. Dividieron los datos en conjuntos de entrenamiento y prueba. El conjunto de prueba recibió diferentes niveles de cambios aleatorios: 0% (original), 4%, 6% y 10%. Esto significaba que algunos puntos de datos tenían sus valores ligeramente alterados para probar cómo reaccionaban los modelos ante los cambios.
El equipo creó cuatro modelos de aprendizaje automático utilizando el conjunto de datos. Eligieron estos modelos porque representaban diferentes enfoques, incluyendo tanto modelos de caja negra como modelos transparentes. El rendimiento se evaluó usando varias métricas.
Después de construir los modelos, los investigadores usaron varias técnicas de XAI para generar explicaciones basadas en la relevancia de características. Luego compararon los resultados para ver qué tan estables eran las explicaciones, especialmente dado los cambios aleatorios realizados en los datos.
Resultados y Discusión
Los hallazgos mostraron que el modelo LGBM tuvo el mejor rendimiento en los datos sin perturbaciones. Sin embargo, a medida que aumentaron las perturbaciones, todos los modelos mostraron una disminución en el rendimiento. Los resultados indicaron que el método eXirt podría identificar efectivamente qué modelos eran más confiables, ya que mostró menos dificultad y tasas de discriminación más altas para los modelos de mejor rendimiento.
Un punto interesante fue que el método eXirt indicó cuáles modelos eran los más confiables, incluso al trabajar con conjuntos de datos perturbados. En particular, pudo resaltar modelos que luchaban con cambios aleatorios, sugiriendo que no todos los modelos son igualmente confiables en situaciones del mundo real.
Al observar las explicaciones generadas por diferentes métodos de XAI, el método Shap se destacó como el más estable, manteniendo clasificaciones consistentes a través de los diferentes niveles de perturbaciones. eXirt también tuvo un buen rendimiento, pero su estabilidad variaba dependiendo del modelo específico que se analizaba. Otros métodos, como Dalex, Eli5 y Lofo, demostraron menor estabilidad, lo que indica que eran más sensibles a los cambios en los datos.
Conclusión
Esta investigación destacó cuán confiables y estables son las explicaciones proporcionadas por diferentes métodos de XAI. Mostró que aunque eXirt puede ofrecer información valiosa sobre la confiabilidad del modelo, muchos métodos existentes de XAI aún requieren mejoras para manejar mejor los cambios en los datos de entrada.
Para futuras investigaciones, se sugiere desarrollar métodos que conviertan los valores de dificultad, discriminación y adivinanza en puntuaciones fáciles de entender y probar eXirt en otros escenarios de predicción. Esto ayudará a entender mejor cómo los modelos de IA se desempeñan en diversas situaciones y hacer que sus predicciones sean más interpretables para los usuarios.
En general, el estudio contribuye a la conversación continua sobre la necesidad de explicaciones confiables de los modelos de IA, ayudando a garantizar que estas tecnologías puedan ser confiables en aplicaciones del mundo real.
Título: How Reliable and Stable are Explanations of XAI Methods?
Resumen: Black box models are increasingly being used in the daily lives of human beings living in society. Along with this increase, there has been the emergence of Explainable Artificial Intelligence (XAI) methods aimed at generating additional explanations regarding how the model makes certain predictions. In this sense, methods such as Dalex, Eli5, eXirt, Lofo and Shap emerged as different proposals and methodologies for generating explanations of black box models in an agnostic way. Along with the emergence of these methods, questions arise such as "How Reliable and Stable are XAI Methods?". With the aim of shedding light on this main question, this research creates a pipeline that performs experiments using the diabetes dataset and four different machine learning models (LGBM, MLP, DT and KNN), creating different levels of perturbations of the test data and finally generates explanations from the eXirt method regarding the confidence of the models and also feature relevances ranks from all XAI methods mentioned, in order to measure their stability in the face of perturbations. As a result, it was found that eXirt was able to identify the most reliable models among all those used. It was also found that current XAI methods are sensitive to perturbations, with the exception of one specific method.
Autores: José Ribeiro, Lucas Cardoso, Vitor Santos, Eduardo Carvalho, Níkolas Carneiro, Ronnie Alves
Última actualización: 2024-07-03 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2407.03108
Fuente PDF: https://arxiv.org/pdf/2407.03108
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.