Évaluation de SAM 2 pour la segmentation d'images médicales
SAM 2 améliore la segmentation d'images médicales pour les ensembles de données 2D et 3D.
― 8 min lire
Table des matières
- Collecte de données
- Méthodologie
- Paramètres d'évaluation
- Sélection de la première coupe
- Direction de propagation
- Simulation des incitations
- Sélection des prédictions
- Segmentation interactive
- Résultats
- Segmentation 2D à image unique
- Segmentation 3D à images multiples
- Comparaisons avec d'autres méthodes
- Discussion
- Conclusion
- Source originale
- Liens de référence
La segmentation d'images médicales est super importante pour diagnostiquer des maladies et analyser des données cliniques. Même si les technologies d'imagerie médicale ont fait des progrès, segmenter ces images reste compliqué. Cette difficulté vient principalement de la nécessité de beaucoup d'étiquetage manuel et de la nature complexe des images médicales.
Un nouvel outil appelé le Segment Anything Model (SAM) aide à surmonter ces défis. SAM peut segmenter différents objets dans les images en utilisant des incitations, ce qui réduit fortement le besoin d'un étiquetage manuel extensif. Des efforts ont été faits pour améliorer SAM pour des tâches spécifiques, montrant de meilleures performances que les méthodes de segmentation traditionnelles. Cependant, SAM se concentrait initialement sur les images 2D, limitant son utilisation dans des situations où la compréhension 3D est nécessaire.
Récemment, une nouvelle version appelée SAM 2 a été introduite. Cette nouvelle version peut travailler avec des vidéos, ce qui ouvre des opportunités pour l'appliquer aux images médicales 3D, une tâche essentielle dans le domaine de l'imagerie médicale. Cet article examine comment SAM 2 se débrouille lorsqu'on lui demande de segmenter des images médicales en 2D et en 3D.
Collecte de données
Dans notre étude, nous avons rassemblé 21 ensembles de données d'imagerie médicale comprenant différents types d'images. Cela inclut des vidéos chirurgicales, des techniques d'imagerie 3D courantes comme la tomodensitométrie (CT), l'imagerie par résonance magnétique (IRM) et la tomographie par émission de positons (PET), ainsi que des modalités d'imagerie 2D comme les radiographies et les ultrasons.
Nous avons testé SAM 2 de deux manières :
- La première manière consistait à donner des incitations pour une ou quelques coupes sélectionnées d'images 3D.
- La seconde manière consistait à fournir des incitations pour chaque coupe. La première méthode ne s'applique qu'aux vidéos et aux images 3D, tandis que la seconde méthode convient à tous les ensembles de données.
Nos résultats suggèrent que SAM 2 performe de manière similaire au SAM original avec des images 2D à image unique. Cependant, sa performance varie avec des images 3D en fonction de facteurs comme les coupes choisies pour l'annotation, comment le modèle traite ces coupes et les prédictions utilisées dans le processus.
Méthodologie
Pour évaluer l'efficacité de SAM 2, nous avons divisé notre approche en plusieurs parties :
Paramètres d'évaluation
Nous avons évalué SAM 2 en utilisant deux paramètres principaux : la segmentation 2D à image unique et la segmentation 3D à images multiples.
Segmentation 2D à image unique : Dans ce cadre, nous avons testé à quel point SAM 2 pouvait bien segmenter des images 2D individuelles. Nous avons utilisé quatre méthodes d'incitation différentes durant cette évaluation, en nous concentrant sur leur efficacité à atteindre des segmentations précises.
Segmentation 3D à images multiples : Ici, nous avons examiné comment SAM 2 pouvait gérer des images présentées en série, comme une vidéo ou plusieurs coupes d'une image 3D. Ce cadre nous permet de voir à quel point le modèle peut prédire des segments au-delà des coupes directement annotées.
Sélection de la première coupe
Quand on travaille avec des vidéos, une première coupe est généralement choisie pour donner un point de départ à la segmentation. Dans la plupart des cas, la première coupe est sélectionnée, mais cela peut ne pas être aussi efficace dans l'imagerie médicale 3D où la première apparition d'un objet peut varier. Nous avons considéré quatre stratégies différentes pour choisir la coupe de départ :
- Sélectionner la première coupe où l'objet apparaît.
- Choisir la coupe qui montre la partie la plus proéminente de l'objet.
- Sélectionner la coupe avec la plus grande zone de l'objet.
- Prendre trois coupes uniformément réparties dans le volume.
Direction de propagation
Une fois que nous avons sélectionné la coupe initiale, l'étape suivante consiste à propager l'information pour prédire d'autres coupes. Nous avons exploré deux méthodologies pour cela :
- Propagation avant : Ici, nous commençons à partir de la coupe sélectionnée et avançons dans le volume.
- Propagation bidirectionnelle : Cette stratégie commence à partir de la coupe annotée, en travaillant d'abord en arrière, puis en avançant.
Simulation des incitations
Nous avons également réfléchi à comment simuler des incitations lorsque des segments doivent être identifiés. Nous avons appliqué plusieurs modes pour fournir des incitations, y compris :
- Utiliser des incitations ponctuelles à des endroits spécifiques de l'objet.
- Utiliser des incitations en boîte englobant l'objet.
- Introduire des masques de vérité terrain comme incitations.
Sélection des prédictions
Dans la segmentation d'images médicales, il est souvent utile d'avoir plusieurs prédictions potentielles pour chaque objet. SAM 2 utilise diverses stratégies pour choisir quelle prédiction utiliser, comme choisir celle qui semble la plus confiante ou simplement prendre la première sortie produite.
Segmentation interactive
La segmentation interactive consiste à affiner les prédictions en fonction des retours de l'utilisateur. Dans notre configuration, nous avons fourni deux scénarios pour la segmentation interactive :
- Évaluation hors ligne : Les utilisateurs peuvent revoir les segments plusieurs fois avant de faire des corrections.
- Évaluation en ligne : Les utilisateurs prennent des décisions en temps réel pendant que la vidéo joue.
Résultats
Segmentation 2D à image unique
Dans notre évaluation de la performance de segmentation à image unique de SAM 2, les résultats indiquent que SAM 2 est largement comparable à son prédécesseur, bien qu'il y ait des variations d'un ensemble de données à l'autre. Par exemple, le modèle a bien performé sur les ensembles de données de radiographies mais a eu du mal avec les ensembles de données d'IRM.
Nous avons constaté que les incitations en boîte menaient généralement à de meilleures performances que les incitations ponctuelles. Fait intéressant, le simple ajout de plus d'incitations ponctuelles n'a pas toujours amélioré la précision. Dans de nombreux ensembles de données médicales, les objets cibles sont généralement connectés, donc des incitations supplémentaires peuvent parfois créer de la confusion plutôt que de la clarté.
Segmentation 3D à images multiples
En examinant la performance 3D de SAM 2, nous avons noté des différences significatives en fonction de la configuration de nos expériences. La performance moyenne a montré que la propagation bidirectionnelle surpasse systématiquement la propagation avant. Cette amélioration était particulièrement claire lorsque des coupes avec des objets proéminents étaient sélectionnées.
Les stratégies pour sélectionner quelles prédictions faire confiance ont également influencé les résultats globaux. Dans les cas où des incitations ponctuelles étaient utilisées, sélectionner la prédiction initiale a souvent donné de meilleurs résultats comparé à se fier à l'option la plus confiante.
Comparaisons avec d'autres méthodes
SAM 2 a également été comparé à d'autres modèles axés sur l'imagerie médicale 3D. Globalement, il a montré de meilleures performances que les modèles spécifiquement conçus pour des tâches 3D. La structure unique de la banque de mémoire de SAM 2 lui a permis de tirer parti des prédictions passées de manière efficace, ce qui a beaucoup contribué à sa précision.
Discussion
Les résultats de nos expériences avec SAM 2 révèlent plusieurs points clés :
Stratégie d'incitation : Fournir des incitations claires, notamment des incitations en boîte, tend à donner de meilleurs résultats que des incitations ponctuelles dans les contextes 2D et 3D.
La sélection de la coupe compte : La coupe initiale choisie pour l'annotation peut affecter considérablement les résultats. Sélectionner des coupes avec des portions substantielles de l'objet d'intérêt donne généralement de meilleures performances.
Approches de propagation : La propagation bidirectionnelle est généralement plus efficace, surtout dans des contextes d'imagerie 3D.
Interaction humaine : La segmentation interactive peut améliorer les résultats de manière significative, surtout quand les utilisateurs ont la flexibilité de corriger les prédictions en fonction des retours visuels.
Conclusion
Cette étude explore les capacités du Segment Anything Model 2 dans la segmentation d'images médicales. En le testant avec des ensembles de données 2D et 3D, nous avons constaté que, même si SAM 2 est nettement plus avancé que son prédécesseur, sa performance est fortement influencée par les méthodes d'incitation, la sélection de la coupe initiale et l'approche de propagation.
Les avancées apportées par SAM 2 constituent une étape fondamentale vers une segmentation plus efficace et efficace dans l'imagerie médicale, bien que des améliorations et des ajustements supplémentaires puissent être nécessaires pour optimiser pleinement son utilisation dans les contextes cliniques. Les efforts futurs pourraient se concentrer sur l'amélioration des stratégies de mémoire utilisées dans SAM 2, en affinant la manière dont le modèle comprend et traite les images médicales complexes.
Dans l'ensemble, SAM 2 a montré un grand potentiel pour simplifier ce qui a traditionnellement été un processus très laborieux, apportant l'espoir d'une segmentation meilleure, plus rapide et plus précise dans l'imagerie médicale.
Titre: Segment anything model 2: an application to 2D and 3D medical images
Résumé: Segment Anything Model (SAM) has gained significant attention because of its ability to segment various objects in images given a prompt. The recently developed SAM 2 has extended this ability to video inputs. This opens an opportunity to apply SAM to 3D images, one of the fundamental tasks in the medical imaging field. In this paper, we extensively evaluate SAM 2's ability to segment both 2D and 3D medical images by first collecting 21 medical imaging datasets, including surgical videos, common 3D modalities such as computed tomography (CT), magnetic resonance imaging (MRI), and positron emission tomography (PET) as well as 2D modalities such as X-ray and ultrasound. Two evaluation settings of SAM 2 are considered: (1) multi-frame 3D segmentation, where prompts are provided to one or multiple slice(s) selected from the volume, and (2) single-frame 2D segmentation, where prompts are provided to each slice. The former only applies to videos and 3D modalities, while the latter applies to all datasets. Our results show that SAM 2 exhibits similar performance as SAM under single-frame 2D segmentation, and has variable performance under multi-frame 3D segmentation depending on the choices of slices to annotate, the direction of the propagation, the predictions utilized during the propagation, etc. We believe our work enhances the understanding of SAM 2's behavior in the medical field and provides directions for future work in adapting SAM 2 to this domain. Our code is available at: https://github.com/mazurowski-lab/segment-anything2-medical-evaluation.
Auteurs: Haoyu Dong, Hanxue Gu, Yaqian Chen, Jichen Yang, Yuwen Chen, Maciej A. Mazurowski
Dernière mise à jour: 2024-08-22 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2408.00756
Source PDF: https://arxiv.org/pdf/2408.00756
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.