Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

AdaptiveSAM : Transformer la segmentation de scènes chirurgicales

Une nouvelle méthode améliore la segmentation d'images chirurgicales avec efficacité et simplicité.

― 8 min lire


AdaptiveSAM : UnAdaptiveSAM : Unvéritable changement dejeurésultats.chirurgicales, amélioration desSegmentation efficace des images
Table des matières

La segmentation des scènes chirurgicales est super importante pour comprendre et analyser les images prises pendant les opérations. En identifiant des éléments comme les instruments, les organes et les tissus dans les images, les médecins peuvent créer de meilleurs systèmes pour les aider. Mais un gros souci, c'est le manque de données dans ce domaine, ce qui rend l'utilisation des méthodes de segmentation habituelles vraiment compliquée. Beaucoup de chercheurs explorent l'utilisation de modèles pré-entraînés qui peuvent être ajustés sur des données spécifiques des scènes chirurgicales.

Récemment, un modèle appelé Segment Anything Model (SAM) a été lancé. Ce modèle a montré un grand potentiel pour segmenter des images normales et commence à être examiné pour des applications médicales. Cependant, il reste plein de problèmes. Par exemple, SAM ne fonctionne pas bien sur les images médicales à moins de faire un entraînement intensif, ce qui demande beaucoup de ressources informatiques. En plus, SAM a besoin de prompts, comme des boîtes englobantes ou des points spécifiques marqués dans les images, qui doivent être étiquetés manuellement pour chaque image. Ce processus peut être long et ennuyeux, surtout avec des ensembles de données plus importants.

Pour surmonter ces défis, une nouvelle approche appelée AdaptiveSAM a été développée. Cette méthode est conçue pour adapter SAM aux images chirurgicales plus rapidement et efficacement, sans nécessiter beaucoup d'intervention manuelle ou de puissance de calcul.

L'Importance de la Segmentation en Chirurgie

La segmentation en imagerie médicale est essentielle pour identifier et séparer différentes structures dans les images. Ça aide dans plein de tâches chirurgicales, comme suivre les instruments, classer les tissus et former de nouveaux systèmes pour soutenir les chirurgiens. Par exemple, dans les opérations robotiques, savoir où se trouvent les différents instruments est crucial pour le succès. Les solutions traditionnelles, comme UNet et ses modifications, fonctionnent bien dans ce domaine, mais elles demandent souvent beaucoup de ressources pour chaque nouvel ensemble de données.

Ces défis sont similaires dans les tâches visuelles non médicales, mais des progrès ont été faits avec l'introduction de modèles fondamentaux entraînés sur d'énormes quantités d'images. Par exemple, des modèles comme CLIP peuvent identifier des images et du texte efficacement, aidant dans diverses tâches sans nécessiter un entraînement intensif à chaque fois.

L'Approche AdaptiveSAM

La méthode AdaptiveSAM prend les principes du SAM et les améliore pour répondre aux besoins spécifiques de la segmentation des scènes chirurgicales. Elle facilite le fine-tuning et réduit les ressources nécessaires. Au lieu de réentraînement complet du modèle à chaque fois qu'on introduit de nouvelles données, AdaptiveSAM propose une stratégie d'entraînement plus efficace qui se concentre sur les paramètres ajustables.

Fine-Tuning Efficace avec Bias-Tuning

AdaptiveSAM utilise une méthode appelée bias-tuning. Cette approche consiste à ajuster seulement une fraction des paramètres du modèle, ce qui réduit considérablement la quantité de données et de temps nécessaires pour l'entraînement. En fait, seulement environ 2 % des paramètres totaux doivent être ajustés pour qu'AdaptiveSAM fonctionne bien sur de nouveaux ensembles de données.

Cette méthode nécessite peu d'intervention d'experts puisque des étiquettes de texte simples peuvent servir de prompts. Par exemple, au lieu de devoir marquer des zones spécifiques dans une image, l'utilisateur peut juste fournir le nom de l'objet à segmenter. Ce changement permet non seulement de gagner du temps mais aussi d'améliorer l'utilisabilité du modèle, surtout dans des contextes chirurgicaux où l'étiquetage manuel peut être difficile et sujet à erreurs.

Segmentation par Texte

Une des caractéristiques marquantes d'AdaptiveSAM est sa capacité à utiliser des prompts basés sur le texte. Les utilisateurs peuvent décrire l'objet qu'ils veulent identifier dans une image chirurgicale avec une simple étiquette textuelle. Par exemple, si l'objet d'intérêt est "ciseaux", l'utilisateur n'a qu'à entrer ce mot au lieu de définir une boîte englobante ou des coordonnées spécifiques sur l'image.

Cette approche novatrice simplifie énormément le processus. Au lieu de devoir fournir des annotations détaillées pour chaque image d'un ensemble de données, AdaptiveSAM peut s'adapter aux nouvelles données sur la base d'une seule description. Ça accélère non seulement le processus, mais ça ouvre aussi la porte à des améliorations futures, où des requêtes et exigences plus complexes peuvent être prises en charge par le modèle.

Validation Expérimentale

Pour valider les performances d'AdaptiveSAM, des tests ont été réalisés sur plusieurs ensembles de données chirurgicales établis, comme Endovis17, Endovis18 et Cholec-Seg8k. Ces ensembles contiennent des images chirurgicales avec des annotations qui aident à l'analyse segmentée. Les résultats ont montré qu'AdaptiveSAM surpasse significativement d'autres méthodes existantes, montrant des améliorations en Précision de segmentation sur différentes métriques.

Résultats sur Différents Ensembles de Données

  1. Ensemble de Données Endovis17 : Cet ensemble est utilisé lors d'opérations robotiques et inclut des images avec six instruments chirurgicaux différents. Lors des tests, AdaptiveSAM a montré une amélioration notable dans sa précision de segmentation par rapport à d'autres modèles. La performance en zero-shot de SAM, c'est-à-dire la capacité du modèle à segmenter des images sans aucune formation sur cet ensemble de données spécifique, a été significativement améliorée par AdaptiveSAM.

  2. Ensemble de Données Endovis18 : Cet ensemble contient des images de divers organes et instruments chirurgicaux. La performance d'AdaptiveSAM dans ce contexte était également impressionnante, atteignant des scores plus élevés par rapport à d'autres modèles qui nécessitaient un entraînement complet sur tous les paramètres.

  3. Ensemble de Données Cholec-Seg8k : Cet ensemble présente des images avec plusieurs organes et tissus. AdaptiveSAM a constamment démontré des niveaux de précision supérieurs tout en maintenant une performance robuste comparée à d'autres méthodes existantes.

Ces résultats sur différents ensembles de données indiquent qu'AdaptiveSAM améliore non seulement la précision de segmentation mais aussi l'utilisabilité des modèles de segmentation dans des applications chirurgicales.

Adaptation Rapide aux Données Non Chirurgicales

Un autre aspect significatif d'AdaptiveSAM est sa capacité à s'adapter aux tâches d'imagerie non chirurgicales. Le modèle a été testé sur des ensembles de données comprenant des images d'ultrasons et des radios. Les résultats de ces tests ont montré qu'AdaptiveSAM conserve son efficacité, produisant des segmentations précises même lorsque le type de données diffère de ce sur quoi il a surtout été entraîné.

Ensemble de Données Ultrasons

Le modèle AdaptiveSAM a été évalué sur un ensemble de données d'échographie abdominale, qui consiste en des images montrant divers organes. Même si les données d'entraînement comprenaient principalement des images synthétiques, AdaptiveSAM a très bien fonctionné lorsqu'il a été testé sur des images réelles et synthétiques. Cette adaptabilité prouve que le modèle peut maintenir une haute précision à travers différentes modalités d'imagerie.

Ensemble de Données X-ray

AdaptiveSAM a également été testé sur l'ensemble de données ChestXDet, qui contient des images X-ray avec plusieurs annotations. Les résultats étaient prometteurs, car AdaptiveSAM a dépassé d'autres méthodes existantes, réussissant à segmenter efficacement divers éléments dans les images X-ray.

Conclusion

En résumé, AdaptiveSAM représente une avancée importante dans le domaine de la segmentation des scènes chirurgicales. En utilisant le bias-tuning et la segmentation par texte, cette méthode simplifie le processus d'entraînement et le rend plus accessible pour les professionnels de la santé. Les résultats indiquent qu'AdaptiveSAM améliore non seulement les performances sur des ensembles de données chirurgicales, mais montre aussi un grand potentiel pour s'adapter à d'autres tâches d'imagerie. Cette innovation ouvre la voie à des outils plus efficaces et efficaces pour les chirurgiens et le personnel médical, menant finalement à de meilleurs résultats dans les procédures chirurgicales et les soins aux patients. Les applications futures d'AdaptiveSAM pourraient mener à des capacités encore plus complexes, améliorant la façon dont l'imagerie chirurgicale est comprise et utilisée dans la pratique.

Source originale

Titre: AdaptiveSAM: Towards Efficient Tuning of SAM for Surgical Scene Segmentation

Résumé: Segmentation is a fundamental problem in surgical scene analysis using artificial intelligence. However, the inherent data scarcity in this domain makes it challenging to adapt traditional segmentation techniques for this task. To tackle this issue, current research employs pretrained models and finetunes them on the given data. Even so, these require training deep networks with millions of parameters every time new data becomes available. A recently published foundation model, Segment-Anything (SAM), generalizes well to a large variety of natural images, hence tackling this challenge to a reasonable extent. However, SAM does not generalize well to the medical domain as is without utilizing a large amount of compute resources for fine-tuning and using task-specific prompts. Moreover, these prompts are in the form of bounding-boxes or foreground/background points that need to be annotated explicitly for every image, making this solution increasingly tedious with higher data size. In this work, we propose AdaptiveSAM - an adaptive modification of SAM that can adjust to new datasets quickly and efficiently, while enabling text-prompted segmentation. For finetuning AdaptiveSAM, we propose an approach called bias-tuning that requires a significantly smaller number of trainable parameters than SAM (less than 2\%). At the same time, AdaptiveSAM requires negligible expert intervention since it uses free-form text as prompt and can segment the object of interest with just the label name as prompt. Our experiments show that AdaptiveSAM outperforms current state-of-the-art methods on various medical imaging datasets including surgery, ultrasound and X-ray. Code is available at https://github.com/JayParanjape/biastuning

Auteurs: Jay N. Paranjape, Nithin Gopalakrishnan Nair, Shameema Sikder, S. Swaroop Vedula, Vishal M. Patel

Dernière mise à jour: 2023-08-07 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2308.03726

Source PDF: https://arxiv.org/pdf/2308.03726

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires