Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Interacción Persona-Ordenador# Inteligencia artificial

Evaluando explicaciones de IA usando modelos de lenguaje

Un estudio sobre el uso de modelos de lenguaje para evaluar métodos de explicación de IA para el reconocimiento de actividades.

― 6 minilectura


Evaluación de Modelos deEvaluación de Modelos deIA con Procesamiento deLenguajemétodos de explicación de IA.Usando modelos de lenguaje para evaluar
Tabla de contenidos

En el mundo de hoy, muchas casas tienen sensores que pueden monitorear actividades diarias. Estos sensores ayudan a rastrear lo que la gente hace en sus casas, como cocinar, comer o dormir. Esta información es útil para la salud, ya que puede alertar a los cuidadores sobre posibles problemas, como un signo temprano de problemas cognitivos.

Reconocimiento de Actividades Basado en Sensores

Los sensores colocados en casa pueden reconocer actividades al detectar movimientos o eventos. Por ejemplo, si se activa un sensor en la nevera, eso indica que alguien la abrió. Usando estos sensores, podemos tener una idea clara de las rutinas diarias de una persona, conocidas como Actividades de la Vida Diaria (AVD).

Las AVD son acciones esenciales que la gente normalmente realiza para cuidarse a sí misma, como vestirse, preparar comidas y tomar medicamentos. Reconocer estas actividades puede ayudar a los proveedores de salud a monitorear la salud de los pacientes y detectar cualquier comportamiento inusual que pueda señalar problemas de salud.

Desafíos de los Modelos de Aprendizaje Profundo

La mayoría de los sistemas de reconocimiento de actividades utilizan modelos de aprendizaje profundo para interpretar los datos recogidos por los sensores. Estos modelos traducen las lecturas de los sensores en actividades, pero a menudo funcionan como "cajas negras", lo que significa que es difícil ver cómo toman sus decisiones. Esta falta de transparencia puede ser un problema para los usuarios no expertos, como los proveedores de salud, que necesitan entender por qué un modelo llega a una conclusión en particular.

Para abordar esto, los investigadores están desarrollando métodos de IA explicable (XAI) que ofrecen explicaciones claras sobre las decisiones tomadas por estos modelos. El objetivo es presentar la salida del modelo de una manera que sea fácil de entender para los no expertos. Por ejemplo, un sistema podría explicar: "Predije que Anna estaba cocinando principalmente porque está en la cocina y la estufa está encendida."

La Necesidad de una Evaluación Efectiva de las Explicaciones

Aunque los métodos de XAI buscan aclarar las decisiones del modelo, evaluar su efectividad es un desafío. Diferentes métodos de XAI pueden ofrecer explicaciones variadas para la misma actividad. Tradicionalmente, los investigadores han evaluado estos métodos a través de encuestas a usuarios, que requieren reclutar participantes para juzgar la calidad de las explicaciones ofrecidas. Sin embargo, este proceso puede ser costoso y llevar mucho tiempo.

Algunos estudios han propuesto métricas de evaluación automática para los métodos de XAI. Estos métodos buscan evaluar qué tan bien se alinean las explicaciones con el conocimiento establecido sobre las actividades. Sin embargo, crear estas herramientas de evaluación a menudo requiere un esfuerzo significativo de expertos en el campo.

El Papel de los Modelos de Lenguaje Grande

Recientemente, los investigadores han descubierto que los Modelos de Lenguaje Grande (LLMs) tienen un montón de conocimiento de sentido común sobre las actividades humanas. Esta capacidad abre nuevas posibilidades para evaluar métodos de XAI. Al usar LLMs, los investigadores pueden potencialmente automatizar el proceso de evaluación y reducir la dependencia de las encuestas de usuarios.

Nuestro enfoque aprovecha la inteligencia de los LLMs para comparar diferentes métodos de XAI que producen explicaciones en lenguaje natural. Desarrollamos estrategias de solicitud para involucrar al LLM en evaluar qué enfoque ofrece la explicación más efectiva para usuarios no expertos.

Pregunta de Investigación

Para estudiar qué tan bien pueden evaluar los LLMs los métodos de XAI, planteamos una pregunta de investigación: ¿Pueden los LLMs determinar qué método de XAI es el mejor basado en las explicaciones que proporcionan para diversas actividades?

Nos enfocamos en escenarios donde los sensores en una casa inteligente capturan actividades durante un período establecido. Para cada actividad, múltiples modelos de XAI podrían proporcionar la misma predicción pero diferir en sus explicaciones.

Estrategias de Solicitud

Nuestro método empleó dos estrategias de solicitud únicas para evaluar las explicaciones generadas por diferentes modelos de XAI. Ambas estrategias implican que el LLM revise las explicaciones proporcionadas por varios modelos para actividades específicas.

Estrategia Mejor de Entre K

En la "Estrategia Mejor de Entre K", se le pide al LLM que determine la mejor explicación de un conjunto de opciones generadas por diferentes modelos. Cada modelo recibe una puntuación basada en la calidad de su explicación, siendo el mejor el que puntúe más alto y los demás obtengan puntuaciones más bajas.

Estrategia de Puntuación

En la "Estrategia de Puntuación", el LLM asigna una puntuación a cada explicación usando una escala del 1 al 5. Nuevamente, si dos o más modelos producen la misma explicación, reciben la misma puntuación. El modelo con la puntuación general más alta es considerado el mejor.

Evaluación Experimental

Para probar nuestros métodos de evaluación basados en LLMs, los comparamos con datos de encuestas a usuarios que evaluaron la efectividad de diferentes enfoques de XAI. Obtuvimos dos conjuntos de datos que rastrean actividades en casas inteligentes y los utilizamos para evaluar qué tan bien pueden replicar los LLMs los resultados de las encuestas de usuarios.

En estas encuestas, se pidió a los usuarios que calificaran las explicaciones de varios métodos de XAI, como GradCAM, LIME y Prototipos de Modelos. Nuestro objetivo era ver si las evaluaciones de los LLMs se alineaban con las respuestas de usuarios reales.

Resultados de la Evaluación

Nuestros experimentos mostraron resultados prometedores. Los rankings producidos por los LLMs fueron consistentes con las encuestas de usuarios, indicando que los LLMs pueden evaluar efectivamente la calidad de las explicaciones. Para ambos conjuntos de datos, el método de Prototipos de Modelos consistentemente ocupó el primer lugar, mientras que GradCAM recibió las puntuaciones más bajas.

Curiosamente, encontramos que los LLMs, particularmente el modelo más avanzado GPT-4, produjeron resultados estrechamente alineados con los resultados de las encuestas de usuarios. Sin embargo, la estrategia Mejor de Entre K tendió a penalizar a GradCAM más que las encuestas. Esta discrepancia puede surgir de la forma en que opera el LLM y puntúa las explicaciones.

Conclusión

En conclusión, nuestro trabajo demuestra que los LLMs pueden ser herramientas valiosas para evaluar explicaciones en lenguaje natural en métodos de XAI para el reconocimiento de actividades. Los resultados preliminares sugieren que las evaluaciones basadas en LLM son comparables a las encuestas de usuarios tradicionales, ofreciendo un medio de evaluación más eficiente y potencialmente menos costoso.

La investigación futura explorará el desarrollo de estrategias de solicitud personalizadas para diferentes perfiles de usuarios, incluyendo expertos en el campo que puedan necesitar explicaciones más detalladas. Además, buscamos investigar otros aspectos importantes de las explicaciones, como la confiabilidad y la confianza.

Los hallazgos de nuestro estudio podrían conducir a maneras más efectivas de asegurar que los no expertos comprendan modelos de IA complejos, allanando el camino para una mejor adopción de estas tecnologías en la salud y en entornos de casas inteligentes.

Fuente original

Título: Using Large Language Models to Compare Explainable Models for Smart Home Human Activity Recognition

Resumen: Recognizing daily activities with unobtrusive sensors in smart environments enables various healthcare applications. Monitoring how subjects perform activities at home and their changes over time can reveal early symptoms of health issues, such as cognitive decline. Most approaches in this field use deep learning models, which are often seen as black boxes mapping sensor data to activities. However, non-expert users like clinicians need to trust and understand these models' outputs. Thus, eXplainable AI (XAI) methods for Human Activity Recognition have emerged to provide intuitive natural language explanations from these models. Different XAI methods generate different explanations, and their effectiveness is typically evaluated through user surveys, that are often challenging in terms of costs and fairness. This paper proposes an automatic evaluation method using Large Language Models (LLMs) to identify, in a pool of candidates, the best XAI approach for non-expert users. Our preliminary results suggest that LLM evaluation aligns with user surveys.

Autores: Michele Fiori, Gabriele Civitarese, Claudio Bettini

Última actualización: 2024-07-24 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2408.06352

Fuente PDF: https://arxiv.org/pdf/2408.06352

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Artículos similares