Avaliação de Explicações de IA Usando Modelos de Linguagem
Um estudo sobre como usar modelos de linguagem pra avaliar métodos de explicação de IA pra reconhecimento de atividades.
― 6 min ler
Índice
- Reconhecimento de Atividades Baseado em Sensores
- Desafios dos Modelos de Aprendizado Profundo
- A Necessidade de Avaliação Eficaz das Explicações
- O Papel dos Modelos de Linguagem Grande
- Pergunta de Pesquisa
- Estratégias de Prompting
- Estratégia Best-Among-K
- Estratégia de Pontuação
- Avaliação Experimental
- Resultados da Avaliação
- Conclusão
- Fonte original
- Ligações de referência
No mundo de hoje, muitas casas têm sensores que monitoram atividades diárias. Esses sensores ajudam a acompanhar o que as pessoas fazem em casa, tipo cozinhar, comer ou dormir. Essas informações são úteis para a saúde, já que podem alertar os cuidadores sobre possíveis problemas, como um sinal precoce de questões cognitivas.
Reconhecimento de Atividades Baseado em Sensores
Sensores colocados pela casa podem reconhecer atividades detectando movimentos ou eventos. Por exemplo, se um sensor na geladeira é acionado, isso indica que alguém a abriu. Usando esses sensores, dá pra ter uma visão clara das rotinas diárias de uma pessoa, conhecidas como Atividades da Vida Diária (AVDs).
AVDs são ações essenciais que as pessoas normalmente fazem para cuidar de si mesmas, como se vestir, preparar refeições e tomar remédios. Reconhecer essas atividades pode ajudar os profissionais de saúde a monitorar a saúde dos pacientes e detectar comportamentos incomuns, que podem indicar problemas de saúde.
Desafios dos Modelos de Aprendizado Profundo
A maioria dos sistemas de reconhecimento de atividades usa modelos de aprendizado profundo para interpretar os dados coletados pelos sensores. Esses modelos traduzem as leituras dos sensores em atividades, mas muitas vezes operam como "caixas pretas", ou seja, é difícil entender como eles tomam suas decisões. Essa falta de transparência pode ser um problema para usuários não especializados, como os profissionais de saúde, que precisam entender por que um modelo chega a uma conclusão específica.
Para resolver isso, os pesquisadores estão desenvolvendo métodos de IA Explicável (XAI) que fornecem explicações claras para as decisões tomadas por esses modelos. O objetivo é apresentar a saída do modelo de um jeito que seja fácil para não especialistas entenderem. Por exemplo, um sistema poderia explicar: "Eu previ que a Anna estava cozinhando principalmente porque ela está na cozinha e o fogão está ligado."
A Necessidade de Avaliação Eficaz das Explicações
Embora os métodos de XAI busquem esclarecer as decisões do modelo, avaliar sua eficácia é desafiador. Diferentes métodos de XAI podem oferecer explicações variadas para a mesma atividade. Tradicionalmente, os pesquisadores avaliaram esses métodos através de pesquisas com usuários, o que requer recrutar participantes para julgar a qualidade das explicações oferecidas. No entanto, esse processo pode ser caro e demorado.
Alguns estudos propuseram métricas de avaliação automática para métodos de XAI. Esses métodos buscam avaliar como as explicações estão alinhadas com o conhecimento estabelecido sobre as atividades. Porém, criar essas ferramentas de avaliação muitas vezes requer um esforço significativo de especialistas na área.
Modelos de Linguagem Grande
O Papel dosRecentemente, os pesquisadores descobriram que Modelos de Linguagem Grande (LLMs) têm uma riqueza de conhecimento comum sobre atividades humanas. Essa capacidade abre novas possibilidades para avaliar os métodos de XAI. Usando LLMs, os pesquisadores podem potencialmente automatizar o processo de avaliação e reduzir a dependência de pesquisas com usuários.
Nossa abordagem aproveita a inteligência dos LLMs para comparar diferentes métodos de XAI que produzem explicações em linguagem natural. Desenvolvemos estratégias de prompting para envolver o LLM na avaliação de qual abordagem oferece a explicação mais eficaz para usuários não especializados.
Pergunta de Pesquisa
Para estudar como os LLMs podem avaliar métodos de XAI, fizemos uma pergunta de pesquisa: Os LLMs conseguem determinar qual método de XAI é melhor com base nas explicações que eles fornecem para várias atividades?
Focamos em cenários onde sensores em uma casa inteligente capturam atividades ao longo de um período determinado. Para cada atividade, vários modelos de XAI podem fornecer a mesma previsão, mas diferem em suas explicações.
Estratégias de Prompting
Nosso método utilizou duas estratégias de prompting únicas para avaliar as explicações geradas por diferentes modelos de XAI. Ambas as estratégias envolvem o LLM revisando as explicações fornecidas por vários modelos para atividades específicas.
Estratégia Best-Among-K
Na "Estratégia Best-Among-K", o LLM é solicitado a determinar a melhor explicação a partir de um conjunto de opções geradas por diferentes modelos. Cada modelo recebe uma nota com base na qualidade de sua explicação, com o melhor recebendo a maior e os outros notas mais baixas.
Estratégia de Pontuação
Na "Estratégia de Pontuação", o LLM atribui uma nota a cada explicação usando uma escala de 1 a 5. De novo, se dois ou mais modelos produzirem a mesma explicação, eles recebem a mesma nota. O modelo com a maior nota geral é considerado o melhor.
Avaliação Experimental
Para testar nossos métodos de avaliação baseados em LLM, comparamos eles com dados de pesquisas com usuários que avaliaram a eficácia de diferentes abordagens de XAI. Obtivemos dois conjuntos de dados que rastreiam atividades em casas inteligentes e os usamos para avaliar quão bem os LLMs conseguem replicar os resultados das pesquisas com usuários.
Nessas pesquisas, os usuários eram convidados a avaliar as explicações de vários métodos de XAI, como GradCAM, LIME e Prototótipos de Modelos. Nosso objetivo era ver se as avaliações dos LLMs estavam alinhadas com as respostas dos usuários reais.
Resultados da Avaliação
Nossos experimentos mostraram resultados promissores. As classificações produzidas pelos LLMs foram consistentes com as pesquisas com usuários, indicando que os LLMs podem avaliar efetivamente a qualidade das explicações. Para ambos os conjuntos de dados, o método Prototótipos de Modelos sempre ficou em primeiro lugar, enquanto o GradCAM recebeu as notas mais baixas.
Curiosamente, descobrimos que os LLMs, especialmente o modelo mais avançado GPT-4, produziram resultados muito próximos das pesquisas com usuários. No entanto, a estratégia Best-Among-K tendia a penalizar o GradCAM mais do que as pesquisas. Essa discrepância pode surgir da forma como o LLM opera e pontua as explicações.
Conclusão
Em resumo, nosso trabalho demonstra que os LLMs podem ser ferramentas valiosas para avaliar explicações em linguagem natural em métodos de XAI para reconhecimento de atividades. Os resultados preliminares sugerem que as avaliações baseadas em LLM são comparáveis às pesquisas tradicionais com usuários, oferecendo um meio de avaliação mais eficiente e potencialmente menos custoso.
Pesquisas futuras vão explorar o desenvolvimento de estratégias de prompting adaptadas para diferentes perfis de usuários, incluindo especialistas da área que podem precisar de explicações mais detalhadas. Além disso, pretendemos investigar outros aspectos essenciais das explicações, como confiabilidade e confiança.
As descobertas do nosso estudo podem levar a maneiras mais eficazes de garantir que não especialistas entendam modelos de IA complexos, abrindo caminho para uma melhor adoção dessas tecnologias na saúde e em ambientes de casas inteligentes.
Título: Using Large Language Models to Compare Explainable Models for Smart Home Human Activity Recognition
Resumo: Recognizing daily activities with unobtrusive sensors in smart environments enables various healthcare applications. Monitoring how subjects perform activities at home and their changes over time can reveal early symptoms of health issues, such as cognitive decline. Most approaches in this field use deep learning models, which are often seen as black boxes mapping sensor data to activities. However, non-expert users like clinicians need to trust and understand these models' outputs. Thus, eXplainable AI (XAI) methods for Human Activity Recognition have emerged to provide intuitive natural language explanations from these models. Different XAI methods generate different explanations, and their effectiveness is typically evaluated through user surveys, that are often challenging in terms of costs and fairness. This paper proposes an automatic evaluation method using Large Language Models (LLMs) to identify, in a pool of candidates, the best XAI approach for non-expert users. Our preliminary results suggest that LLM evaluation aligns with user surveys.
Autores: Michele Fiori, Gabriele Civitarese, Claudio Bettini
Última atualização: 2024-07-24 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2408.06352
Fonte PDF: https://arxiv.org/pdf/2408.06352
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.