Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes# Apprentissage automatique

Évaluer l'explicabilité des modèles dermatologiques ConvNet

Une étude sur l'explicabilité des ConvNet dans le diagnostic dermatologique utilisant DermXDB.

― 8 min lire


ConvNets en dermatologieConvNets en dermatologieexpliquésde la peau.ConvNet pour le diagnostic des maladiesÉvaluation de l'explicabilité des
Table des matières

Ces dernières années, l'apprentissage machine a fait de grands progrès dans le domaine de la dermatologie, surtout pour diagnostiquer les maladies de la peau à partir d'images. Cette avancée a surtout été poussée par des techniques d'apprentissage profond, en particulier les réseaux neuronaux convolutifs (ConvNets). Ces réseaux sont prisés grâce à leur capacité à apprendre efficacement à partir des données et à fournir des résultats précis. Cependant, ils sont souvent critiqués pour être des "boîtes noires", ce qui veut dire qu'il peut être difficile de comprendre comment ils prennent leurs décisions.

Une méthode pour comprendre comment les ConvNets arrivent à leurs conclusions est la technique appelée cartes d'activation de classe par gradient (Grad-CAM). Cette technique peut mettre en lumière les parties d'une image qui influencent le plus les prédictions du réseau. Récemment, un ensemble de données connu sous le nom de DermXDB a été créé pour aider les chercheurs à évaluer l'Explicabilité des modèles ConvNet en dermatologie. Cet ensemble de données permet de comparer à quel point différentes architectures peuvent expliquer leurs décisions.

Cet article a pour objectif de passer en revue l'état actuel des architectures ConvNet utilisées pour le diagnostic dermatologique et de comparer leurs performances en explicabilité à l'aide de Grad-CAM avec les informations fournies par l'ensemble de données DermXDB. Nous avons identifié 11 architectures différentes à évaluer, y compris DenseNet121, EfficientNet-B0, InceptionV3, et d'autres.

Contexte

Le secteur de la santé fait face à une éventuelle pénurie de professionnels de santé dans les années à venir. En réponse, l'automatisation par l'intelligence artificielle (IA) est envisagée comme une solution. La Food and Drug Administration des États-Unis a même approuvé des dispositifs médicaux basés sur l'IA pour un usage public. Ce changement est en partie dû aux améliorations en apprentissage machine, surtout lorsqu'il s'agit de travailler avec des données non structurées, comme des images.

Les ConvNets sont devenus un choix populaire dans le secteur de la santé pour diverses applications d'imagerie, y compris le diagnostic de maladies, l'évaluation de la gravité des maladies et même la segmentation de différentes parties d'images. En dermatologie, les ConvNets ont été utilisés avec succès pour diagnostiquer des conditions cutanées à partir d'images de dermatoscopie, atteignant souvent des résultats comparables à ceux des dermatologues experts.

Malgré le potentiel de l'apprentissage machine en dermatologie, ces systèmes automatisés ne sont pas encore largement intégrés dans les pratiques cliniques standards. Une des raisons est l'explicabilité limitée de ces ConvNets. Les régulations commencent à exiger que les méthodes automatisées fournissent des explications claires pour leurs décisions, ce qui a mis en évidence le besoin de meilleures mesures d'explicabilité.

Différentes méthodes pour expliquer les décisions prises par les ConvNets ont été proposées. Grad-CAM est une des techniques les plus couramment utilisées en imagerie médicale car elle est relativement facile à comprendre et ne nécessite pas de ressources informatiques considérables.

Objectif

L'objectif principal de cet article est de comparer l'explicabilité et les performances diagnostiques de différentes architectures ConvNet en utilisant l'ensemble de données DermXDB. Ce benchmark fournira des insights précieux sur les architectures qui performent le mieux en termes d'explicabilité et pourra aider à identifier les lacunes des technologies actuelles.

Revue de la littérature

Pour identifier quelles architectures ConvNet sont les plus couramment utilisées dans le diagnostic dermatologique, nous avons effectué une revue systématique de la littérature existante. Notre recherche s'est concentrée sur des études impliquant des modèles d'apprentissage profond appliqués à la dermatologie. Nous avons trouvé un total de 3 650 articles mais nous avons réduit à 22 qui répondaient à nos critères stricts d'originalité et de pertinence pour la tâche.

Ces articles sélectionnés ont mis en avant l'essor des ConvNets en dermatologie depuis environ 2017. Depuis, on a observé une augmentation régulière dans l'application de ces modèles. Les premiers succès des ConvNets ont suscité un plus grand intérêt de la part des partenaires industriels pour créer des outils basés sur l'apprentissage machine pour la dermatoscopie et la télédermatologie.

Méthodologie

Pour notre benchmark, nous avons utilisé l'ensemble de données DermXDB, qui comprend 524 images étiquetées avec des Diagnostics et des explications. Cet ensemble de données nous permet d'évaluer dans quelle mesure les ConvNets peuvent expliquer leurs décisions par rapport aux évaluations faites par des dermatologues experts.

Nous avons sélectionné 11 architectures ConvNet pour notre benchmark, toutes ayant des poids pré-entraînés disponibles publiquement. Chaque architecture a été entraînée et ajustée sur un ensemble de données cliniques spécialisé avant d'être testée sur DermXDB. Nous avons calculé divers indicateurs de performance pour évaluer les capacités diagnostiques de chaque modèle, y compris le score F1, la sensibilité, et la spécificité.

De plus, nous avons évalué l'explicabilité en comparant les cartes d'attention générées par les ConvNets avec celles créées par les dermatologues. Cette comparaison nous a permis de voir si les ConvNets considéraient les mêmes zones d'intérêt que les experts lors de leurs diagnostics.

Résultats

Performance diagnostique

Les résultats ont montré une large gamme de performances entre les différents ConvNets. Certains modèles ont atteint des performances au niveau expert pour diagnostiquer certaines conditions cutanées, tandis que d'autres ont rencontré des difficultés. Par exemple, plusieurs ConvNets ont réussi à diagnostiquer la kératose actinique et la dermatite séborrhéique mais ont eu des challenges avec des conditions comme l'acné et le psoriasis.

Dans l'ensemble, les performances des ConvNets étaient généralement inférieures à celles des dermatologues, bien que de nombreux modèles aient montré des résultats prometteurs pour des conditions spécifiques.

Performance d'explicabilité

En ce qui concerne l'explicabilité, nos résultats ont révélé que différents ConvNets avaient des patterns distincts dans la manière dont ils généraient des cartes d'attention. Certains réseaux se concentraient étroitement sur de petites zones de l'image, tandis que d'autres prenaient une vue plus large, considérant des régions affectées plus grandes. Cette différence d'approche peut affecter la confiance des utilisateurs et la compréhension des décisions du modèle.

Xception s'est démarqué comme l'architecture la mieux performante tant en termes de diagnostic que d'explicabilité, tandis que les anciennes architectures comme ResNet50 et VGG16 ont montré des performances plus faibles. L'analyse a montré que même si aucun ConvNet n'a atteint le même niveau d'explicabilité que les dermatologues, certains modèles ont atteint une sensibilité de niveau expert pour des caractéristiques spécifiques.

Discussion

Ces résultats soulignent l'importance de choisir la bonne architecture ConvNet en fonction des besoins diagnostiques spécifiques et du public cible. Les benchmarks pointent également vers un besoin clair d'ensembles de données d'explicabilité supplémentaires pour affiner et tester davantage ces modèles.

De plus, l'étude met en avant le potentiel des ConvNets pour améliorer le diagnostic dermatologique. Cependant, il est clair qu'il reste du travail à faire, notamment en ce qui concerne la création de modèles capables d'expliquer leurs décisions de manière compréhensible pour les experts et les patients.

Limitations

Bien que notre étude ait fourni des insights précieux, elle avait certaines limitations. L'ensemble de données DermXDB manque d'informations démographiques détaillées sur les patients, ce qui complique l'analyse des biais. De plus, la taille limitée de l'ensemble de données peut sous-estimer les capacités de plus grands ConvNets.

Travaux futurs

Pour aller de l'avant, nous prévoyons d'élargir notre benchmark pour inclure plus de méthodes d'explicabilité, comme les cartes de saillance. Nous allons aussi explorer la performance des architectures plus récentes, y compris les transformateurs visuels, dans le contexte de l'explicabilité.

En conclusion, cette étude a démontré que les ConvNets ont un potentiel significatif dans le diagnostic dermatologique, et comprendre leur explicabilité est crucial pour leur mise en œuvre dans la pratique clinique. En benchmarkant diverses architectures ConvNet, nous pouvons mieux comprendre leurs forces et leurs faiblesses, aidant à préparer le terrain pour de futures avancées dans le domaine.

Source originale

Titre: Dermatological Diagnosis Explainability Benchmark for Convolutional Neural Networks

Résumé: In recent years, large strides have been taken in developing machine learning methods for dermatological applications, supported in part by the success of deep learning (DL). To date, diagnosing diseases from images is one of the most explored applications of DL within dermatology. Convolutional neural networks (ConvNets) are the most common (DL) method in medical imaging due to their training efficiency and accuracy, although they are often described as black boxes because of their limited explainability. One popular way to obtain insight into a ConvNet's decision mechanism is gradient class activation maps (Grad-CAM). A quantitative evaluation of the Grad-CAM explainability has been recently made possible by the release of DermXDB, a skin disease diagnosis explainability dataset which enables explainability benchmarking of ConvNet architectures. In this paper, we perform a literature review to identify the most common ConvNet architectures used for this task, and compare their Grad-CAM explanations with the explanation maps provided by DermXDB. We identified 11 architectures: DenseNet121, EfficientNet-B0, InceptionV3, InceptionResNetV2, MobileNet, MobileNetV2, NASNetMobile, ResNet50, ResNet50V2, VGG16, and Xception. We pre-trained all architectures on an clinical skin disease dataset, and fine-tuned them on a DermXDB subset. Validation results on the DermXDB holdout subset show an explainability F1 score of between 0.35-0.46, with Xception displaying the highest explainability performance. NASNetMobile reports the highest characteristic-level explainability sensitivity, despite it's mediocre diagnosis performance. These results highlight the importance of choosing the right architecture for the desired application and target market, underline need for additional explainability datasets, and further confirm the need for explainability benchmarking that relies on quantitative analyses.

Auteurs: Raluca Jalaboi, Ole Winther, Alfiia Galimzianova

Dernière mise à jour: 2023-02-23 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2302.12084

Source PDF: https://arxiv.org/pdf/2302.12084

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires