Avaliação de Explicações Baseadas em Grafo em Recomendações de IA
Este estudo avalia a eficácia das explicações gráficas em sistemas de recomendação de IA.
― 7 min ler
Índice
Nos últimos anos, os sistemas de recomendação viraram ferramentas super importantes em várias áreas, tipo saúde e justiça. Esses sistemas sugerem produtos ou serviços pros usuários, melhorando a experiência deles. Com esses sistemas ficando mais comuns, a necessidade de transparência aumenta, principalmente na Europa, onde estão sendo desenvolvidas leis. Essas leis visam garantir que os usuários entendam como funcionam os sistemas de IA e por que certas Recomendações são feitas. Uma forma de melhorar essa compreensão é por meio de explicações. Existem várias formas de explicar, incluindo gráficos.
Embora os gráficos tenham mostrado potencial pra melhorar a compreensão dos usuários, ainda não tá claro como eles se comparam a outros formatos de explicação. Esse estudo tem como objetivo avaliar o quão eficazes as explicações baseadas em gráficos são pra ajudar os usuários a entenderem as recomendações de IA.
Pra começar, os pesquisadores fizeram um estudo qualitativo pra entender as necessidades dos usuários em relação às explicações gráficas. Depois disso, um estudo quantitativo maior foi realizado pra ver como diferentes designs de explicação, incluindo designs baseados em gráficos, afetaram a compreensão, Usabilidade e Curiosidade dos usuários sobre sistemas de IA.
Estudo Qualitativo: Necessidades dos Usuários pra Explicações Gráficas
O estudo qualitativo envolveu entrevistas com usuários com diferentes níveis de familiaridade com sistemas de IA pra entender as necessidades deles em relação às explicações gráficas. Doze participantes participaram das entrevistas, que duraram cerca de 30 minutos cada. Durante as entrevistas, os pesquisadores avaliaram o nível de expertise dos participantes e as percepções deles sobre recomendações baseadas em IA.
Os participantes foram divididos em três categorias com base na experiência em IA: Especialistas, Insiders e Não-Especialistas. Cada grupo tinha perspectivas diferentes sobre como as recomendações são feitas e quais informações são úteis pra entender essas recomendações. No geral, os participantes relataram um bom nível de entendimento das recomendações. Porém, a compreensão deles muitas vezes dependia de quão familiares eles estavam com os itens recomendados.
Principais Descobertas do Estudo Qualitativo
Entendimento das Recomendações: A maioria dos participantes achou que entendia por que uma recomendação foi feita. No entanto, aqueles que não estavam familiarizados com um item recomendado tinham dificuldade em avaliar sua relevância. Os usuários geralmente se baseavam nas experiências passadas com itens ou itens similares pra julgar o valor de uma recomendação.
Fatores que Influenciam as Recomendações: Os participantes identificaram vários critérios que influenciam as recomendações. Esses incluíam características pessoais, semelhanças com outros usuários e interações passadas com o sistema.
Uso de Gráficos: Os participantes viam explicações gráficas como úteis pra destacar semelhanças entre os usuários e como a popularidade influencia as recomendações. Porém, geralmente eles precisavam de mais informações sobre os itens recomendados, tipo gênero ou autor, pra avaliar melhor a relevância.
Interpretabilidade e Informações dos Itens: Embora os participantes achassem as explicações gráficas interpretáveis, eles expressaram a necessidade de mais contexto sobre os itens recomendados. Eles sugeriram que as características dos itens deveriam ser representadas visualmente pra facilitar uma melhor compreensão.
Estudo Quantitativo: Testando Designs de Explicação
Com base nas percepções da fase qualitativa, os pesquisadores realizaram um estudo quantitativo pra avaliar a eficácia de diferentes designs de explicação, incluindo explicações textuais, baseadas em SHAP e gráficas.
Design do Estudo
No estudo quantitativo, 66 participantes foram recrutados em várias plataformas. Cada um foi convidado a escolher um livro favorito de uma lista pré-definida. Depois, eles receberam uma recomendação de livro de um sistema de IA, junto com explicações em três designs diferentes. Os participantes avaliaram cada design com base na compreensão, usabilidade, curiosidade e preferência geral.
Medidas de Avaliação
Entendimento Objetivo: Perguntaram aos participantes se eles conseguiam identificar as razões por trás das recomendações, focando em características específicas usadas na tomada de decisão.
Entendimento Subjetivo: Os participantes avaliaram quão bem eles sentiam que compreenderam o processo de recomendação e seu funcionamento interno.
Usabilidade: A usabilidade foi medida avaliando quão fácil era pra os participantes lerem e entenderem cada explicação.
Curiosidade: A curiosidade foi avaliada perguntando o quanto os participantes estavam ansiosos pra explorar mais razões para as recomendações.
Resultados do Estudo Quantitativo
Entendimento Objetivo: As explicações textuais melhoraram significativamente o entendimento objetivo dos participantes em comparação com as explicações gráficas. Participantes com níveis mais altos de expertise mostraram uma melhor compreensão quando apresentaram designs textuais.
Usabilidade: As avaliações de usabilidade indicaram que tanto as explicações gráficas quanto as textuais eram mais fáceis de usar do que as explicações baseadas em SHAP. No entanto, não foi encontrada uma diferença significativa entre os designs gráfico e textual em relação à usabilidade.
Curiosidade: Embora a curiosidade fosse maior entre aqueles com mais expertise, o próprio design da explicação não influenciou significativamente os níveis de curiosidade. Especialistas expressaram mais curiosidade quando apresentaram tanto designs gráficos quanto textuais.
Preferência de Design: Muitos participantes preferiram explicações gráficas em relação aos designs textuais e SHAP, mesmo que as avaliações de compreensão e usabilidade fossem menores para os gráficos. Essa discrepância sugere que os participantes preferiam o apelo visual dos gráficos, apesar do desempenho deles.
Discussão: Insights e Desafios
As descobertas indicam que, embora explicações gráficas sejam preferidas entre os usuários, elas não levam necessariamente a uma melhor compreensão ou usabilidade em comparação com explicações textuais. Isso destaca um desafio no design das explicações que atendam às preferências dos usuários e que também sejam eficazes.
Preferências Expressas vs. Desempenho: Os usuários frequentemente preferiam a estética dos designs gráficos em vez de seu desempenho real em facilitar a compreensão. Essa tendência sugere que os usuários podem ser influenciados pela complexidade visual das explicações ao invés de sua eficácia em transmitir informações.
Impacto da Expertise: O nível de expertise afetou significantemente as interações dos usuários com diferentes designs de explicação. Especialistas demonstraram mais curiosidade e uma melhor compreensão das explicações textuais comparados aos não-especialistas, que podem ter se baseado em representações visuais mais simples.
Necessidade de Designs Híbridos: A pesquisa destaca a necessidade de criar designs de explicação híbridos que equilibrem as preferências dos usuários com a eficácia demonstrada. Esses designs abordariam a lacuna entre o que os usuários dizem que querem e o que realmente ajuda a entender as recomendações.
Conclusão
Os estudos avaliados fornecem valiosos insights sobre as necessidades dos usuários e a eficácia dos designs de explicação em sistemas de recomendação de IA. Embora as explicações gráficas sejam visualmente atraentes e preferidas por muitos, elas não superam significativamente as explicações textuais em termos de compreensão e usabilidade.
Desenvolver melhores explicações vai exigir atenção tanto às preferências dos usuários quanto a métricas de desempenho sólidas. Pesquisas futuras devem investigar formas de combinar diferentes tipos de explicação pra criar designs abrangentes que promovam tanto a satisfação do usuário quanto a compreensão.
Em resumo, abordar tanto as preferências estéticas quanto a eficácia funcional das explicações será vital pra melhorar a experiência do usuário com sistemas de recomendação de IA.
Título: Evaluating graph-based explanations for AI-based recommender systems
Resumo: Recent years have witnessed a rapid growth of recommender systems, providing suggestions in numerous applications with potentially high social impact, such as health or justice. Meanwhile, in Europe, the upcoming AI Act mentions \emph{transparency} as a requirement for critical AI systems in order to ``mitigate the risks to fundamental rights''. Post-hoc explanations seamlessly align with this goal and extensive literature on the subject produced several forms of such objects, graphs being one of them. Early studies in visualization demonstrated the graphs' ability to improve user understanding, positioning them as potentially ideal explanations. However, it remains unclear how graph-based explanations compare to other explanation designs. In this work, we aim to determine the effectiveness of graph-based explanations in improving users' perception of AI-based recommendations using a mixed-methods approach. We first conduct a qualitative study to collect users' requirements for graph explanations. We then run a larger quantitative study in which we evaluate the influence of various explanation designs, including enhanced graph-based ones, on aspects such as understanding, usability and curiosity toward the AI system. We find that users perceive graph-based explanations as more usable than designs involving feature importance. However, we also reveal that textual explanations lead to higher objective understanding than graph-based designs. Most importantly, we highlight the strong contrast between participants' expressed preferences for graph design and their actual ratings using it, which are lower compared to textual design. These findings imply that meeting stakeholders' expressed preferences might not alone guarantee ``good'' explanations. Therefore, crafting hybrid designs successfully balancing social expectations with downstream performance emerges as a significant challenge.
Autores: Simon Delarue, Astrid Bertrand, Tiphaine Viard
Última atualização: 2024-07-17 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2407.12357
Fonte PDF: https://arxiv.org/pdf/2407.12357
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.