Simple Science

La science de pointe expliquée simplement

# Sciences de la santé# Radiologie et imagerie

Avancée de l'auto-segmentation en imagerie médicale

Un nouveau cadre améliore la transparence et l'acceptabilité clinique des méthodes d'auto-segmentation.

― 8 min lire


Améliorer les modèlesAméliorer les modèlesd'imagerie médicalel'auto-segmentation.Nouveau cadre améliore la fiabilité de
Table des matières

Ces dernières années, l'apprentissage profond est devenu un outil prisé pour identifier et segmenter des structures importantes dans l'imagerie médicale, notamment pour les patients atteints de cancer de la tête et du cou. La segmentation des organes est essentielle en radiothérapie, car elle aide les médecins à éviter d'endommager les tissus sains tout en ciblant les zones cancéreuses. Toutefois, il y a des défis majeurs pour garantir que les méthodes de segmentation automatique sont claires et reproductibles.

Le Problème de la Transparence

Un gros souci dans le domaine de l'imagerie médicale, c'est le manque de transparence sur la façon dont les méthodes de segmentation automatique sont développées et testées. Beaucoup d'études ne partagent pas leur code ou les données utilisées pour créer leurs modèles. Ce manque de transparence rend difficile la réplication des résultats par d'autres chercheurs ou leur utilisation dans leurs propres travaux.

Certaines études ont montré que les méthodes de segmentation automatique peuvent améliorer le travail des médecins, mais il n'est pas encore clair si ces modèles produisent des résultats validés par les médecins. La recherche se concentre souvent sur les performances des modèles dans les tests, mais on accorde moins d'attention à savoir si les résultats sont acceptables pour un usage clinique.

Établir des Standards pour l'Auto-Ségmentation

Pour résoudre ces problèmes, un cadre appelé SCARF (auto-Segmentation Clinical Acceptability & Reproducibility Framework) a été développé. SCARF consiste en six étapes conçues pour aider les chercheurs et cliniciens à créer et évaluer des modèles open-source pour différentes tâches de segmentation. Ces étapes peuvent être ajustées pour améliorer les systèmes de segmentation existants et renforcer leur utilisation en milieu clinique.

Le cadre met l'accent sur la nécessité d'une documentation claire des données, du code et des outils. Il fournit une structure pour organiser les résultats de recherche, les rendant transparents et utilisables par d'autres dans la communauté médicale. De plus, SCARF inclut une collection de modèles d'auto-segmentation déjà publiés, permettant aux chercheurs de mieux comparer leur travail.

Acceptabilité Clinique

Un facteur crucial dans la segmentation automatique, c'est l'acceptabilité clinique. SCARF utilise la plateforme QUANNOTATE pour permettre aux médecins d'évaluer la performance des modèles. En comparant les contours générés par les modèles avec ceux créés par des experts humains, les médecins peuvent déterminer à quel point les résultats automatiques sont acceptables.

Dans une application de SCARF, des modèles ont été développés pour segmenter 19 organes critiques à risque lors de la radiothérapie. En s'assurant que les modèles étaient cliniquement acceptables, SCARF offre une façon fiable d'évaluer l'efficacité des outils de segmentation automatique.

Collecte et Préparation des Données

Pour créer et tester les modèles de segmentation, il faut d'abord collecter et préparer les données. Cela implique de rassembler des informations cliniques et radiologiques de diverses sources. Dans cette étude, un grand ensemble de données sur des patients atteints de cancer de la tête et du cou a été utilisé. Les données ont nécessité une organisation et une préparation minutieuses pour s'assurer qu'elles étaient adaptées à l'entraînement des modèles d'apprentissage profond.

La gestion des données est vitale car la qualité des données d'entrée affecte directement la performance du modèle. Les chercheurs doivent s'assurer que les données sont correctement étiquetées et structurées avant qu'elles ne puissent être utilisées pour former les modèles.

Sélection et Entraînement des Modèles

Une fois l'ensemble de données préparé, l'étape suivante est de sélectionner des modèles appropriés pour l'entraînement. SCARF aide les chercheurs à identifier divers modèles d'auto-segmentation qui ont été publiés auparavant. Chaque modèle sélectionné est entraîné en utilisant l'ensemble de données organisé, tout en se concentrant sur la correction de déséquilibres dans les données qui pourraient affecter la performance.

L'entraînement implique d'ajuster le modèle pour apprendre à partir des données, en visant les meilleurs résultats possibles. Les chercheurs utilisent une stratégie spécifique pour s'assurer que les modèles ne favorisent pas une classe de segmentation par rapport à une autre. C'est essentiel pour obtenir des résultats précis dans toutes les catégories d'organes.

Évaluation de la Performance des Modèles

Après l'entraînement, il est essentiel d'évaluer la performance des modèles. Cela implique de comparer la sortie des modèles avec les données de vérité de terrain fournies par des experts humains. Plusieurs métriques, comme les indices de recouvrement et les mesures de distance des limites, sont calculées pour quantifier à quel point les modèles performent bien.

Différentes métriques offrent des perspectives sur divers aspects de la performance des modèles. Par exemple, les métriques de recouvrement évaluent à quel point les prédictions du modèle s'alignent avec les contours créés par des humains, tandis que les métriques de frontière évaluent la précision des bords des organes segmentés. L'utilisation de plusieurs métriques garantit une évaluation complète de la performance.

Processus d'Évaluation Clinique

Pour évaluer comment les modèles de segmentation performent dans un contexte clinique, un processus d'évaluation clinique est mis en place. Les médecins examinent les contours générés par les modèles et fournissent des évaluations d'acceptabilité. Cela se fait sans savoir quels contours ont été créés par l'IA et lesquels par des experts humains.

En calculant une évaluation moyenne d'acceptabilité à partir de plusieurs médecins, les chercheurs peuvent recueillir des informations sur l'acceptabilité des segmentations automatiques pour un usage clinique. Ce retour est crucial pour affiner les modèles afin de s'assurer qu'ils répondent aux exigences des professionnels de la santé.

Généralisation des Modèles

Un aspect important pour créer des modèles d'auto-segmentation efficaces est leur généralisation, c'est-à-dire à quel point un modèle entraîné sur un ensemble de données performe sur d'autres ensembles. Pour tester cela, les chercheurs collectent des ensembles de données supplémentaires provenant de différentes institutions.

Les évaluations de généralisation aident à déterminer si les modèles peuvent être utilisés efficacement à travers différentes populations de patients et protocoles d'imagerie. En évaluant la performance du modèle sur des ensembles de données externes, les chercheurs peuvent comprendre les limites et les forces de leurs approches.

Partage et Disponibilité des Données et du Code

La transparence dans la recherche est essentielle, c'est pourquoi SCARF encourage le partage des données et du code. Les données brutes d'imagerie utilisées dans l'étude, ainsi que les modèles et les processus d'entraînement, sont mises à disposition dans des dépôts open-source. Cette accessibilité permet à d'autres chercheurs de s'appuyer sur le travail et de l'appliquer à leurs études.

Partager ces informations peut également améliorer la qualité globale de la recherche dans le domaine. Quand plus de chercheurs peuvent accéder et comprendre les modèles, ils peuvent faire des contributions qui renforcent l'efficacité des outils d'imagerie médicale.

Résumé et Directions Futures

En résumé, SCARF fournit une approche structurée pour développer et évaluer des modèles d'auto-segmentation pour un usage clinique en radiothérapie. En se concentrant sur la transparence, la reproductibilité et l'acceptabilité clinique, le cadre établit une base pour des outils de segmentation fiables et efficaces.

Bien que le cadre SCARF montre des promesses, il reste encore des limites à aborder. Les modèles étudiés jusqu'à présent se sont reposés sur certains ensembles de données, et il y a des améliorations à faire pour comprendre à quel point ces modèles performent dans divers scénarios cliniques. Les futures recherches pourraient explorer ces domaines plus en profondeur, améliorant l'intégration des outils d'IA dans la pratique clinique.

Alors que le domaine de l'imagerie médicale continue d'évoluer, des cadres comme SCARF peuvent jouer un rôle essentiel pour établir des standards et des pratiques qui garantissent l'utilisation réussie de la technologie IA dans les soins de santé. En favorisant la collaboration et le partage des connaissances, les chercheurs peuvent développer de meilleures méthodes de segmentation automatique qui amélioreront finalement les soins aux patients.

Source originale

Titre: SCARF: Auto-Segmentation Clinical Acceptability & Reproducibility Framework for Benchmarking Essential Radiation Therapy Targets in Head and Neck Cancer

Résumé: Background and PurposeAuto-segmentation of organs at risk (OAR) in cancer patients is essential for enhancing radiotherapy planning efficacy and reducing inter-observer variability. Deep learning auto-segmentation models have shown promise, but their lack of transparency and reproducibility hinders their generalizability and clinical acceptability, limiting their use in clinical settings. Materials and MethodsThis study introduces SCARF (auto-Segmentation Clinical Acceptability & Reproducibility Framework), a comprehensive six-stage reproducible framework designed to benchmark open-source convolutional neural networks for auto-segmentation of 19 essential OARs in head and neck cancer (HNC). ResultsSCARF offers an easily implementable framework for designing and reproducibly benchmarking auto-segmentation tools, along with thorough expert assessment capabilities. Expert assessment labelled 16/19 AI-generated OAR categories as acceptable with minor revisions. Boundary distance metrics, such as 95th Percentile Hausdorff Distance (95HD), were found to be 2x more correlated to Mean Acceptability Rating (MAR) than volumetric overlap metrics (DICE). ConclusionsThe introduction of SCARF, our auto-Segmentation Clinical Acceptability & Reproducibility Framework, represents a significant step forward in systematically assessing the performance of AI models for auto-segmentation in radiation therapy planning. By providing a comprehensive and reproducible framework, SCARF facilitates benchmarking and expert assessment of AI-driven auto-segmentation tools, addressing the need for transparency and reproducibility in this domain. The robust foundation laid by SCARF enables the progression towards the creation of usable AI tools in the field of radiation therapy. Through its emphasis on clinical acceptability and expert assessment, SCARF fosters the integration of AI models into clinical environments, paving the way for more randomised clinical trials to evaluate their real-world impact. O_TEXTBOXHighlightsO_LIOur study highlights the significance of both quantitative and qualitative controls for benchmarking new auto-segmentation systems effectively, promoting a more robust evaluation process of AI tools. C_LIO_LIWe address the lack of baseline models for medical image segmentation benchmarking by presenting SCARF, a comprehensive and reproducible six-stage framework, which serves as a valuable resource for advancing auto-segmentation research and contributing to the foundation of AI tools in radiation therapy planning. C_LIO_LISCARF enables benchmarking of 11 open-source convolutional neural networks (CNN) against 19 essential organs-at-risk (OARs) for radiation therapy in head and neck cancer, fostering transparency and facilitating external validation. C_LIO_LITo accurately assess the performance of auto-segmentation models, we introduce a clinical assessment toolkit based on the open-source QUANNOTATE platform, further promoting the use of external validation tools and expert assessment. C_LIO_LIOur study emphasises the importance of clinical acceptability testing and advocates its integration into developing validated AI tools for radiation therapy planning and beyond, bridging the gap between AI research and clinical practice. C_LI C_TEXTBOX

Auteurs: Joseph Marsilla, J. Won Kim, D. Tkachuck, A. Hosni, S. Kim, K. Jacinto, J. Siraj, J. Cho, E. Hahn, M. Welch, M. Kazmierski, K. Rey-McIntyre, S. H. Huang, T. Patel, T. Tadic, F.-F. Liu, S. Bratman, A. Hope, B. Haibe-Kains

Dernière mise à jour: 2023-09-11 00:00:00

Langue: English

Source URL: https://www.medrxiv.org/content/10.1101/2022.01.15.22269276

Source PDF: https://www.medrxiv.org/content/10.1101/2022.01.15.22269276.full.pdf

Licence: https://creativecommons.org/licenses/by-nc/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à medrxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires