Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes# Vision par ordinateur et reconnaissance des formes# Traitement de l'image et de la vidéo

Évaluer les explications de l'IA : Une nouvelle approche

Cette étude présente le Score d'Opinion Moyenne pour évaluer les méthodes d'explication de l'IA.

― 7 min lire


Évaluation de la qualitéÉvaluation de la qualitédes explications de l'IAexplications de décisions IA.Utiliser le MOS pour évaluer les
Table des matières

L'intelligence artificielle (IA) est maintenant présente dans plein de domaines, comme la santé et la finance. Cependant, ces systèmes d'IA peuvent souvent agir comme des "boîtes noires", ce qui veut dire qu'il est difficile de voir comment ils prennent des décisions. Ce manque de clarté peut mener à des malentendus et des biais. À mesure que l'IA devient plus courante, le besoin de meilleures explications est de plus en plus important.

Des lois comme le Règlement Général sur la Protection des Données (RGPD) soulignent l'importance de la transparence dans l'IA. Comprendre comment fonctionnent les systèmes d'IA est crucial pour s'assurer qu'ils sont justes et non biaisés. Certaines organisations reconnaissent la nécessité d'une IA explicable (XAI) pour améliorer la confiance et la compréhension des utilisateurs face à ces systèmes complexes. Quand les gens ne comprennent pas les décisions de l'IA, ils peuvent hésiter à les utiliser, ce qui peut soulever des questions éthiques.

Bien qu'il existe plusieurs méthodes pour expliquer les décisions de l'IA, on ne sait toujours pas à quel point ces explications aident vraiment les utilisateurs à comprendre l'info. Cet article présente un indicateur appelé le Score Moyen d'Opinion (MOS) pour évaluer la qualité des explications fournies par les systèmes d'IA.

Score Moyen d'Opinion (MOS)

Le MOS est une méthode courante pour mesurer comment les gens perçoivent la qualité des images. Cet article propose d'utiliser le MOS comme un critère pour évaluer l'efficacité des méthodes d'explication de l'IA du point de vue des utilisateurs. En recueillant des avis des utilisateurs, le MOS peut indiquer la clarté et l'utilité des explications.

Dans cette approche, les utilisateurs évaluent les cartes d'explication liées aux images, en les notant sur une échelle. Les retours fournis par les utilisateurs peuvent ensuite être moyennés pour générer un MOS global pour chaque méthode d'explication.

Méthodologie de l'Étude

Cette étude vise à évaluer trois méthodes d'explication pour les systèmes d'IA : la Cartographie d'Activation Classée par Gradient (Grad-CAM), la Méthode d'Explication des Caractéristiques Multicouches (MLFEM) et la Méthode d'Explication des Caractéristiques (FEM). Les chercheurs ont conçu une étude utilisateur où les participants ont visionné des cartes d'explication liées à des images intentionnellement déformées.

L'objectif était de comprendre à quel point ces méthodes d'explication répondaient à la satisfaction des utilisateurs. Une variété d'images déformées a été utilisée, y compris celles altérées par du bruit et du flou. Les images ont été passées à travers un modèle d'IA entraîné pour générer des cartes d'explication à évaluer.

Conception Expérimentale Axée sur l'Utilisateur

Dans cet expérience, les chercheurs ont utilisé une méthode similaire à celle des évaluations de qualité visuelle souvent faites pour les images. Les participants ont noté la qualité des cartes d'explication liées aux images déformées classées par le même modèle d'IA. L'étude comprenait des sessions en ligne et en personne, permettant aux participants de choisir le format qui leur convenait le mieux.

L'étude a impliqué une sélection minutieuse d'images déformées pour s'assurer que l'expérience était gérable. Deux niveaux de déformation ont été utilisés : faible et fort. Un total de 300 images déformées a été inclus, avec trois méthodes d'explication appliquées à chaque image, aboutissant à 900 cartes à évaluer.

Méthodes d'Explication

Parmi les différentes méthodes, Grad-CAM est la plus utilisée pour la classification d'images par IA. Récemment, MLFEM et FEM ont été proposées comme alternatives. Ces méthodes sont conçues pour attribuer des scores à des caractéristiques ou pixels individuels dans une image, montrant leur importance dans une décision de classification.

Tandis que Grad-CAM utilise des gradients pour évaluer la signification des caractéristiques, FEM et MLFEM utilisent différentes techniques pour analyser les valeurs d'activation du réseau de neurones. Cette diversité de méthodes offre une base pour la comparaison dans l'étude.

Protocole Expérimental

Les participants ont été invités à évaluer des cartes d'explication superposées aux images d'origine. Pour minimiser la fatigue et améliorer la concentration, chaque carte était présentée pendant 20 secondes, suivie d'une courte pause avant la carte suivante. Chaque participant a évalué 225 images durant la session, s'assurant que le temps total passé ne dépasse pas environ une heure et vingt minutes.

Recrutement et Évaluation des Participants

Les participants ont été choisis en fonction de leur capacité à évaluer les cartes d'explication avec précision. Les critères incluaient l'âge et l'acuité visuelle. Plus précisément, des individus âgés de 18 à 29 ans ont été inclus, et tous les participants ont subi un test de daltonisme pour s'assurer qu'ils pouvaient différencier les couleurs dans les cartes d'explication.

Un total de 31 participants ont pris part à l'étude, avec un mélange de participants en ligne et en personne provenant de divers endroits.

Analyse des Données

Les chercheurs ont analysé les données collectées auprès des participants de plusieurs façons. D'abord, ils ont filtré ceux dont les évaluations étaient significativement différentes des autres pour s'assurer que les résultats reflètent un échantillon plus représentatif. En appliquant des tests statistiques, les chercheurs ont évalué si les réponses des groupes en ligne et hors ligne étaient similaires et pouvaient être combinées pour l'analyse.

Ensuite, ils ont comparé la performance des trois méthodes d'explication en utilisant le critère MOS, vérifiant s'il y avait des différences significatives dans les notations. Ils ont aussi exploré la relation entre les notations centrées sur l'utilisateur (MOS) et les critères automatiques utilisés en IA, qui ne font pas appel à des retours d'utilisateurs.

Résultats de l'Étude

Les résultats préliminaires ont indiqué que le MOS était efficace pour distinguer la performance des trois méthodes d'explication. Les valeurs du MOS suggéraient que MLFEM fonctionnait bien pour les images bien classées, tandis que Grad-CAM était particulièrement efficace pour expliquer les images mal classées.

Les résultats ont montré que Grad-CAM avait une moyenne MOS plus élevée pour les images avec du bruit et du flou. En revanche, MLFEM a régulièrement reçu les meilleures évaluations pour les images bien classées.

Corrélation avec les Métriques Automatiques

Une partie importante de l'étude était d'examiner comment le MOS centré sur l'utilisateur corrélait avec des métriques automatiques comme l'Insertion Area Under Curve (IAUC) et le Deletion Area Under Curve (DAUC). Les chercheurs ont découvert que bien qu'il y ait une corrélation positive entre les deux types de métriques, la force de cette relation n'était pas forte.

La corrélation limitée suggérait que les utilisateurs pourraient préférer des métriques impliquant leurs retours plutôt que celles basées uniquement sur des évaluations automatiques.

Conclusion

En conclusion, cette étude a mis en avant l'utilité du Score Moyen d'Opinion (MOS) comme nouvelle façon d'évaluer les méthodes d'explication de l'IA en se basant sur l'expérience utilisateur. En collectant des retours subjectifs des utilisateurs, le MOS fournit des infos sur la clarté et l'efficacité des différentes méthodes d'explication.

Les résultats ont montré que MLFEM est efficace pour les images bien classées, tandis que Grad-CAM est efficace pour celles mal classées. Cependant, la corrélation entre le MOS et les métriques automatiques reste limitée, ce qui indique qu'il faut continuer à explorer les méthodes d'évaluation dans le domaine de l'IA explicable.

Alors que l'IA continue de jouer un rôle significatif dans divers secteurs, comprendre comment ces systèmes prennent des décisions devient de plus en plus important. Le développement de métriques centrées sur l'utilisateur comme le MOS peut contribuer à rendre les systèmes d'IA plus transparents et compréhensibles, améliorant ainsi la confiance et l'acceptation des utilisateurs.

Source originale

Titre: Mean Opinion Score as a New Metric for User-Evaluation of XAI Methods

Résumé: This paper investigates the use of Mean Opinion Score (MOS), a common image quality metric, as a user-centric evaluation metric for XAI post-hoc explainers. To measure the MOS, a user experiment is proposed, which has been conducted with explanation maps of intentionally distorted images. Three methods from the family of feature attribution methods - Gradient-weighted Class Activation Mapping (Grad-CAM), Multi-Layered Feature Explanation Method (MLFEM), and Feature Explanation Method (FEM) - are compared with this metric. Additionally, the correlation of this new user-centric metric with automatic metrics is studied via Spearman's rank correlation coefficient. MOS of MLFEM shows the highest correlation with automatic metrics of Insertion Area Under Curve (IAUC) and Deletion Area Under Curve (DAUC). However, the overall correlations are limited, which highlights the lack of consensus between automatic and user-centric metrics.

Auteurs: Hyeon Yu, Jenny Benois-Pineau, Romain Bourqui, Romain Giot, Alexey Zhukov

Dernière mise à jour: 2024-07-29 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2407.20427

Source PDF: https://arxiv.org/pdf/2407.20427

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Articles similaires