Simple Science

La science de pointe expliquée simplement

# Physique# Physique médicale

Évaluation de la stabilité des modèles de deep learning en imagerie médicale

Évaluer comment le bruit influence les prédictions des apprentissages profonds dans les scans médicaux.

― 9 min lire


Stabilité des modèles enStabilité des modèles enimagerie médicalebruit dans les scans médicaux.Évaluer la robustesse des DNN face au
Table des matières

Ces dernières années, les méthodes d'apprentissage profond ont pris de l'ampleur dans le domaine médical, surtout pour analyser des images. Ces techniques peuvent vraiment améliorer notre façon d'identifier les maladies et de planifier les traitements. Cependant, un aspect important qui mérite de l'attention, c'est la stabilité de ces méthodes, surtout quand on doit gérer des données du monde réel, qui contiennent souvent du Bruit ou des variations.

Objectif

Le but principal de cette recherche était d'évaluer la Robustesse d'un modèle d'apprentissage profond pour classer des images médicales, en particulier des scans du corps. On voulait comprendre à quel point le modèle pouvait maintenir ses performances face au bruit et à d'autres perturbations dans les données.

Approche

Pour atteindre notre objectif, on a développé un modèle d'apprentissage profond conçu pour classer des sections de scans corporels en différentes catégories : cerveau et cou, thorax, abdomen et pelvis, et jambe et pied. On a entraîné le modèle en utilisant divers scans complets de patients et un fantôme spécial qui imite l'anatomie humaine.

Le processus d'entraînement a impliqué l'utilisation de 37 scans de patients avec 10 scans du fantôme à différents réglages pour atteindre une haute précision. Après l'entraînement, on a testé le modèle pour voir comment il gérait les images d'entrée bruitées. Pour ça, on a introduit différents niveaux de bruit dans les images et noté à quelle fréquence les prédictions du modèle changeaient.

On a également observé à quel point le modèle était constant lorsqu'il était entraîné plusieurs fois dans les mêmes conditions. Cette répétition nous a permis de voir si certaines versions du modèle performaient mieux que d'autres face au bruit.

Résultats

Les résultats ont montré qu'à mesure que les niveaux de bruit augmentaient, la capacité du modèle à faire des prédictions précises diminuait. Par exemple, quand on utilisait une faible dose de radiation (niveau mAs de 25), de nombreuses prédictions changeaient significativement, ce qui indiquait que le modèle avait plus de mal dans ces conditions.

De plus, on a identifié un nouveau métrique pour mesurer la robustesse, appelée Taux de Succès des Attaques (SAR), qui nous aide à comprendre à quelle fréquence les prédictions du modèle étaient affectées par le bruit. On a calculé ça pour chaque site corporel, en trouvant des degrés de robustesse variés à travers les différentes catégories.

Pour essayer d'améliorer la performance du modèle, on a utilisé une technique d'entraînement spéciale qui ajoutait des images perturbées par du bruit à l'ensemble d'entraînement. Cette méthode d'entraînement adaptative s'est révélée efficace, car elle a considérablement augmenté la robustesse du modèle face au bruit.

Comprendre les DNN

Les réseaux de neurones profonds (DNN) sont un type de modèle qui prend des décisions basées sur des motifs appris à partir de grands ensembles de données. L'architecture d'un DNN comprend de nombreuses couches qui traitent l'information de manière complexe. Même si ces couches relient des opérations simples, la cartographie globale de l'entrée à la sortie est complexe.

Les DNN sont particulièrement sensibles aux petits changements dans les données d'entrée, appelés perturbations. Dans les applications pratiques, ces perturbations sont courantes, en particulier dans l'imagerie médicale. Donc, un modèle fiable doit pouvoir résister à ces variations.

Importance de la robustesse

La stabilité d'un DNN est cruciale pour les applications médicales. Si le modèle ne peut pas fournir des prédictions précises de manière constante face à du bruit du monde réel, il pourrait ne pas être digne de confiance pour une utilisation clinique. Des études ont montré que de petites corruptions dans les images peuvent avoir un impact significatif sur les résultats des classifications par DNN.

Par exemple, dans des tâches d'imagerie médicale comme l'identification de la rétinopathie diabétique ou des nodules pulmonaires, de petits changements dans l'entrée peuvent mener à des classifications incorrectes. Cela illustre la nécessité pour les modèles de maintenir leurs performances malgré ces défis.

Recherche précédente

La plupart des recherches antérieures sur la robustesse des DNN se sont concentrées sur des méthodes numériques pour tester le comportement des modèles sous des perturbations spécifiques. Cependant, les environnements cliniques réels présentent des défis uniques qui nécessitent des évaluations plus complètes.

Beaucoup d'études ont introduit des perturbations artificiellement, ce qui peut ne pas refléter les types de bruit courants dans les données du monde réel. Notre étude se distingue parce qu'on a combiné des approches de simulation et expérimentales pour évaluer la robustesse, en utilisant des niveaux de bruit réalistes dérivés de véritables scans CT.

Construction du modèle

On a conçu notre modèle DNN pour classifier des images de scans CT en quatre catégories corporelles. Le processus de classification impliquait plusieurs couches convolutionnelles qui extraient des caractéristiques des images d'entrée avant que la couche de sortie finale n'attribue une étiquette de classe. On a aussi mis en œuvre des techniques d'augmentation des données pour renforcer l'apprentissage du modèle en introduisant des variations dans l'ensemble d'entraînement.

Au total, on a utilisé plus de 42 000 images CT axiales pour l'entraînement et les tests. Le modèle a subi un entraînement et une validation approfondis pour atteindre une bonne performance moyenne sur des données non vues.

Évaluation de la robustesse

Une fois la performance du modèle validée, on l'a mis à l'épreuve contre le bruit réaliste des CT. On voulait voir comment il résistait aux variations qui pourraient se produire lors de véritables scans médicaux. Cela impliquait d'ajouter du bruit aux images et d'analyser les changements dans les prédictions du modèle.

Les métriques SAR et Matrice de Confusion pour la Robustesse (CMR) nous ont permis de quantifier combien de fois le modèle avait mal classé des images à cause du bruit. Un SAR plus bas indique un modèle plus robuste.

Méthodologie de simulation

Dans nos études de simulation, on a généré des images de bruit pour imiter les conditions des scans CT réels. Cela a été fait en analysant des scans répétés du fantôme pour comprendre les caractéristiques du bruit spécifiques à différentes régions du corps.

Pour chaque classe corporelle, on a établi une méthode pour injecter un bruit réaliste qui conserverait la corrélation spatiale que l'on trouve dans les véritables scans CT. Notre objectif était de produire une représentation plus précise de l'effet du bruit sur les prédictions du modèle.

Études expérimentales

On a répété les scans sur le fantôme pour collecter plus de données sur l'impact du bruit sur la performance du modèle. Cela a aidé à valider nos simulations et a fourni une comparaison directe entre le bruit simulé et le bruit réel des CT. En utilisant les mêmes paramètres d'imagerie comme le champ de vision et l'épaisseur de coupe, on a assuré la cohérence dans nos évaluations expérimentales.

Comparaison des résultats

Les résultats de nos études expérimentales ont principalement concordé avec les résultats de simulation. Les deux approches ont montré que les niveaux de bruit impactaient significativement la performance du modèle. Les valeurs de SAR obtenues expérimentalement étaient similaires à celles dérivées des simulations, confirmant les calculs de robustesse.

À travers des tests statistiques, on a constaté que les variations des CMR calculées à partir des données expérimentales et simulées étaient statistiquement similaires. Cela a confirmé la validité de nos études de simulation pour évaluer la robustesse du modèle.

Aléatoirité dans l'entraînement

Un autre aspect de notre enquête était comment l'aléatoirité inhérente au processus d'entraînement DNN peut influencer la robustesse. On a entraîné le modèle 100 fois avec la même configuration, mais on a découvert des variations notables en termes de robustesse parmi les modèles obtenus. Cette aléatoirité pourrait découler de la méthodologie utilisée durant l'entraînement, soulignant l'importance de vérifier la stabilité du modèle dans des environnements cliniques.

Méthode d'entraînement adaptative

On a mis en œuvre un schéma d'entraînement adaptatif pour renforcer encore plus la robustesse du modèle. Tout au long du processus d'entraînement, on a ajusté le modèle en fonction de sa performance face à des données bruitées. En ajoutant toutes les images perturbées par du bruit qui avaient été mal classées lors des tests à l'ensemble d'entraînement, on a pu améliorer la performance globale du modèle. Les améliorations ont été considérables, montrant que l'entraînement adaptatif peut effectivement renforcer la robustesse contre le bruit du monde réel.

Conclusion

Cette étude met en lumière la nécessité d'évaluer la robustesse des modèles d'apprentissage profond appliqués dans des contextes médicaux. Bien que ces modèles aient montré des performances prometteuses, ils doivent souvent faire face à des défis dus au bruit du monde réel qui peuvent altérer leurs prédictions.

Nos résultats soulignent le besoin d'approches de simulation et expérimentales pour comprendre et évaluer de manière exhaustive la robustesse des modèles. En établissant le lien entre ces évaluations, on peut mieux préparer les DNN pour des applications cliniques, en s'assurant qu'ils maintiennent fiabilité et précision dans des situations pratiques.

Directions futures

On reconnaît que d'autres investigations sont nécessaires pour examiner la robustesse dans divers contextes médicaux et avec des modèles plus complexes. À mesure que la technologie évolue, appliquer ces techniques à travers différentes architectures d'apprentissage profond aidera à améliorer la compréhension et la performance dans l'analyse d'images médicales. Cette recherche continue promet d'améliorer la fiabilité de l'apprentissage profond dans les pratiques cliniques, au bénéfice ultime des soins aux patients.

Source originale

Titre: Experimental and Numerical Investigations on Robustness of a Deep Neural Network-based Multi-class Classification Model of CT Images with respect to Image Noise

Résumé: Robustness of Deep Neural Networks (DNNs) is an important aspect to consider for their clinical applications. This work examined robustness issue for a DNN-based multi-class classification model via comprehensive experimental and simulation studies. We constructed a DNN-based multi-class classification model that classifies an axial CT image as one of the four body sites of brain & neck (BN), chest (C), abdomen & pelvis (AP), and leg & foot (LF). The model was trained with whole-body CT images of 37 patients each scanned once and 10 scans of a whole-body phantom with different mAs levels to achieve a F1 score of 99.7% averaged over four classes on a testing dataset. We evaluated robustness of the model against noise perturbations under different mAs levels using simulated CT noisy images based on noise power spectrum (NPS) and experimental CT images acquired in repeated scans of the orange-man phantom. To quantify robustness of the trained model, we defined Successful Attack Rate (SAR) as the ratio of predictions changed with noises and Confusion Matrix for Robustness (CMR) that represents the percentage of a predicted class without noise being predicted to different classes under noise. Besides, we repeatedly trained the model for 100 times using exactly the same training procedure, hyper-parameter settings, as well as the training and validation dataset to investigate robustness of models due to inherent randomness in the training process. Finally, to improve model robustness, we employed an adaptive training scheme and demonstrated its effectiveness. Experimental and numerical studies demonstrated robustness issue of a DNN-based multi-class classification model. The discoveries highlight the needs for evaluating and ensuring DNN model robustness.

Auteurs: Yuting Peng, Chenyang Shen, Yesenia Gonzalez, Yin Gao, Xun Jia

Dernière mise à jour: 2023-03-04 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2303.02466

Source PDF: https://arxiv.org/pdf/2303.02466

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires