Simple Science

La science de pointe expliquée simplement

# Informatique# Recherche d'informations

Améliorer la transparence dans les systèmes de récupération d'information

Une nouvelle métrique vise à améliorer l'explicabilité des systèmes de recherche.

― 8 min lire


Nouvelle métrique pourNouvelle métrique pourl'explicabilité de larecherchemieux comprendre les utilisateurs.Évaluer les systèmes de recherche pour
Table des matières

La recherche sur la récupération d'information explicable (XIR) est un domaine super important qui vise à rendre les systèmes de recherche plus transparents et fiables. Ces systèmes aident les utilisateurs à comprendre pourquoi ils obtiennent certains résultats de recherche. Même s'il y a eu quelques avancées, on n'a pas encore de moyens efficaces pour mesurer à quel point ces systèmes sont vraiment explicables.

Pour régler ce problème, on a développé une nouvelle métrique appelée Explicabilité du Système de Recherche (SSE). Cette métrique aide à évaluer à quel point un système de récupération d'information explique ses résultats. On a testé le SSE à travers une étude utilisateur pour voir s'il pouvait vraiment faire la différence entre les systèmes qui donnent de bonnes explications et ceux qui n'en donnent pas. Notre objectif est d'améliorer le champ de la XIR et de fournir un outil d'évaluation clair qui pourrait être utile dans d'autres domaines comme l'apprentissage automatique et le traitement du langage naturel.

Importance de la Récupération d'Information Explicable

La recherche sur la XIR cherche à créer des systèmes qui aident les utilisateurs à comprendre comment les résultats de recherche sont classés. C'est super important, non seulement pour les recherches sur le web, mais aussi pour des applications réelles, comme faire correspondre des patients à des essais cliniques ou trouver des lois pertinentes pour des avocats. Malgré les progrès, un défi important reste : il n'y a pas de méthodes standardisées pour évaluer à quel point ces systèmes expliquent leurs processus.

Actuellement, beaucoup de méthodes existantes pour évaluer les systèmes XIR ne sont pas à la hauteur. Il y a peu d'accord dans la communauté sur ce que signifie réellement "explicabilité". Souvent, c'est considéré comme une seule idée, alors que des études récentes suggèrent qu'il s'agit de plusieurs facteurs différents. Ça a mené à des évaluations trop simplistes, rendant difficile la comparaison précise des différents systèmes. La plupart des évaluations reposent sur des avis personnels plutôt que sur des mesures qui pourraient donner un vrai aperçu.

Certaines recherches précédentes ont commencé à aborder le manque de définition claire de l'explicabilité. Ces efforts visent à développer une compréhension plus détaillée de ce qui rend les systèmes explicables. Pourtant, ils ne fournissent toujours pas de moyen d'évaluer quantitativement l'explicabilité de manière significative.

Introduction de l'Explicabilité du Système de Recherche (SSE)

Pour combler le manque d'évaluations, on a proposé une nouvelle métrique, le SSE, qui offre une mesure continue de l'explicabilité dans les systèmes de recherche web. Cette métrique s'appuie sur des travaux antérieurs qui définissaient l'explicabilité en termes de deux facteurs clés : l'utilité d'un système et les qualités qu'il lui manque pour être complètement explicable.

Notre méthode implique un ensemble spécifique de questions d'enquête auxquelles les utilisateurs répondent après avoir utilisé un système de recherche. Ces questions aident à évaluer à quel point les utilisateurs peuvent suivre le raisonnement derrière le classement de leurs résultats de recherche.

Conception de l'Étude Utilisateur

Pour tester notre hypothèse selon laquelle les systèmes explicables obtiennent de meilleurs scores sur le SSE, on a mis en place une étude utilisateur. On a créé deux systèmes de recherche différents :

  1. BASELINE : Un moteur de recherche basique sans explications.
  2. BARS : Un moteur de recherche plus avancé qui fournit des explications visuelles sur l'importance des termes dans une requête.

Les participants devaient utiliser l'un de ces systèmes pour répondre à des questions sur divers sujets. Ils pouvaient voir une collection de documents liés à ces sujets et devaient utiliser le système de recherche pour trouver des réponses.

Après avoir utilisé le moteur de recherche, les participants ont rempli un questionnaire qui incluait des questions de vérification pour s'assurer qu'ils répondaient de manière réfléchie. On a aussi évalué la charge de travail liée à ce questionnaire en utilisant une échelle bien connue qui mesure différents aspects de la charge mentale perçue.

Collecte des Données

Avant de lancer l'étude principale, on a fait un test pilote avec un petit groupe pour identifier les problèmes dans notre configuration. Après avoir fait les ajustements nécessaires basés sur leurs retours, on a recruté 100 participants de divers pays, en s'assurant qu'ils maîtrisaient l'anglais et répondaient à des critères spécifiques pour participer.

Chaque participant a été payé pour son temps, et l'étude visait à être efficace tout en fournissant un ensemble diversifié d'utilisateurs. La collecte de données s'est concentrée sur la façon dont les utilisateurs ont répondu au questionnaire et sur la performance globale des deux systèmes de recherche.

Résultats

Efficacité de la Recherche

On a observé que les utilisateurs travaillant avec le système BARS prenaient un peu plus de temps en général pour terminer leurs tâches. Cependant, ils ont émis plus de requêtes de recherche et interagi avec plus de documents, ce qui suggère qu'ils étaient plus efficaces pour obtenir les informations dont ils avaient besoin. Cela correspond à des recherches antérieures indiquant que les systèmes fournissant des explications peuvent conduire à une meilleure Efficacité de recherche.

Bien que le groupe BASELINE ait terminé les tâches légèrement plus vite, les participants du groupe BARS ont pu naviguer les résultats du moteur de recherche de manière plus efficace, probablement grâce aux explications visuelles associées aux résultats de recherche.

Explicabilité du Système

Nos résultats ont confirmé notre hypothèse : les utilisateurs ont jugé le système BARS comme significativement plus explicable que le système BASELINE. Les scores attribués au système BARS montraient une distinction claire, indiquant qu'il offre de meilleures explications sur la façon dont les résultats sont classés. Cela met en avant l'efficacité de la métrique SSE pour juger l'explicabilité de ces systèmes.

Les scores détaillés du questionnaire ont révélé des domaines spécifiques où le système BARS a excellé. Par exemple, les utilisateurs ont noté qu'ils pouvaient mieux comprendre l'importance de termes spécifiques liés à leurs requêtes. Bien que le système BARS ait mieux performé sur toutes les questions, il y avait encore des domaines où des améliorations pouvaient être apportées.

Charge de Travail du Questionnaire d'Évaluation

On a vérifié à quel point le questionnaire d'évaluation était exigeant pour les participants. Les deux groupes ont rapporté un niveau d'effort et de demande mentale modéré en remplissant le questionnaire, ce qui indique que l'outil d'évaluation était relativement facile à utiliser. Parmi les locuteurs natifs et non natifs de l'anglais, il y avait quelques différences dans la charge de travail reportée, les non-natifs se sentant légèrement plus sollicités dans certains domaines.

Cependant, les deux groupes ont rapporté des niveaux de performance similaires lors de l'utilisation du questionnaire, ce qui suggère qu'il est un outil adapté pour des utilisateurs divers. Les retours globaux indiquaient que les utilisateurs trouvaient la tâche gérable, renforçant l'utilité de la méthode d'évaluation.

Conclusion et Directions Futures

Dans cet article, on a lancé une nouvelle métrique pour évaluer l'explicabilité dans les systèmes de recherche. En utilisant une étude crowdsourcée, on a démontré que les systèmes fournissant des explications obtenaient des scores plus élevés sur la métrique SSE comparé à un système de base qui ne fournissait pas d'explications. Les résultats ont également montré que l'outil d'évaluation pouvait être utilisé efficacement par des locuteurs natifs et non natifs de l'anglais.

Les informations tirées de notre travail pourraient aider la recherche future dans le domaine de la récupération d'information explicable. Bien que notre étude se soit spécifiquement concentrée sur la recherche web, on pense que la métrique SSE pourrait s'appliquer à d'autres domaines aussi. D'autres recherches sont nécessaires pour explorer comment l'explicabilité peut être mesurée dans différents contextes, élargissant ainsi la compréhension de ce qui rend les systèmes efficaces et conviviaux.

Globalement, notre travail contribue au développement continu de méthodes d'évaluation claires qui peuvent faire avancer le champ de la récupération d'information explicable. On espère que cette métrique donnera aux chercheurs les outils nécessaires pour évaluer et améliorer l'explicabilité de divers systèmes.

Source originale

Titre: SSE: A Metric for Evaluating Search System Explainability

Résumé: Explainable Information Retrieval (XIR) is a growing research area focused on enhancing transparency and trustworthiness of the complex decision-making processes taking place in modern information retrieval systems. While there has been progress in developing XIR systems, empirical evaluation tools to assess the degree of explainability attained by such systems are lacking. To close this gap and gain insights into the true merit of XIR systems, we extend existing insights from a factor analysis of search explainability to introduce SSE (Search System Explainability), an evaluation metric for XIR search systems. Through a crowdsourced user study, we demonstrate SSE's ability to distinguish between explainable and non-explainable systems, showing that systems with higher scores indeed indicate greater interpretability. Additionally, we observe comparable perceived temporal demand and performance levels between non-native and native English speakers. We hope that aside from these concrete contributions to XIR, this line of work will serve as a blueprint for similar explainability evaluation efforts in other domains of machine learning and natural language processing.

Auteurs: Catherine Chen, Carsten Eickhoff

Dernière mise à jour: 2023-06-16 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2306.10175

Source PDF: https://arxiv.org/pdf/2306.10175

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires