AdaptiveSAM: Trasformare la segmentazione delle scene chirurgiche
Un nuovo metodo migliora la segmentazione delle immagini chirurgiche con efficienza e facilità.
― 6 leggere min
Indice
La segmentazione delle scene chirurgiche è fondamentale per capire e analizzare le immagini catturate durante le operazioni. Identificando diversi elementi come strumenti, organi e tessuti nelle immagini, i medici possono sviluppare sistemi migliori per aiutarli. Tuttavia, una grande sfida è la mancanza di dati disponibili in questo campo, il che rende difficile utilizzare efficacemente i metodi di segmentazione comuni. Molti ricercatori stanno esplorando l'uso di modelli pre-addestrati che possono essere affinati sui dati specifici delle scene chirurgiche.
Recentemente è stato rilasciato un modello chiamato Segment Anything Model (SAM). Questo modello ha mostrato un grande potenziale per segmentare immagini normali e ora viene considerato per applicazioni mediche. Tuttavia, ci sono ancora diversi problemi. Ad esempio, SAM non funziona bene quando applicato a immagini mediche a meno che non venga addestrato ampiamente, il che richiede anche molte risorse computazionali. Inoltre, SAM ha bisogno di input, come riquadri di delimitazione o punti specifici segnati nelle immagini, che devono essere etichettati manualmente per ogni singola immagine. Questo processo può essere lungo e noioso, soprattutto quando si tratta di set di dati più grandi.
Per superare queste sfide, è stato sviluppato un nuovo approccio chiamato AdaptiveSAM. Questo metodo è progettato per adattare SAM alle immagini chirurgiche in modo più rapido ed efficiente, senza la necessità di molto input manuale o di grande potenza di calcolo.
L'importanza della segmentazione in chirurgia
La segmentazione nell'imaging medico è essenziale per identificare e separare diverse strutture all'interno delle immagini. Questo aiuta in vari compiti chirurgici, tra cui il tracciamento degli strumenti, la classificazione dei tessuti e l'addestramento di nuovi sistemi per supportare i chirurghi. Ad esempio, nelle chirurgie robotiche, sapere dove si trovano gli strumenti è cruciale per il successo. Le soluzioni tradizionali, come UNet e le sue modifiche, possono funzionare bene in questo campo, ma spesso richiedono molte risorse per l'addestramento su ogni nuovo set di dati.
Queste sfide sono simili in compiti visivi non medici, ma sono stati fatti progressi con l'introduzione di modelli fondamentali addestrati su enormi quantità di immagini. Ad esempio, modelli come CLIP possono identificare immagini e testi in modo efficiente, aiutando in vari compiti senza richiedere un ampio addestramento ogni volta.
L'approccio AdaptiveSAM
Il metodo AdaptiveSAM prende i principi di SAM e li migliora per affrontare le esigenze specifiche della segmentazione delle scene chirurgiche. Lo fa rendendo più semplice e meno impegnativo l'affinamento. Invece di riaddestrare l'intero modello ogni volta che vengono introdotti nuovi dati, AdaptiveSAM introduce una strategia di addestramento più efficiente che si concentra su parametri regolabili.
Affinamento efficiente con il bias-tuning
AdaptiveSAM utilizza un metodo chiamato bias-tuning. Questo approccio comporta l'aggiustamento solo di una frazione dei parametri nel modello, il che riduce drasticamente la quantità di dati e tempo necessari per l'addestramento. Infatti, solo circa il 2% dei parametri totali deve essere affinato affinché AdaptiveSAM funzioni bene su nuovi set di dati.
Questo metodo richiede un intervento minimo degli esperti poiché può utilizzare semplici etichette testuali come input. Ad esempio, invece di dover segnare aree specifiche in un'immagine, l'utente può semplicemente fornire il nome dell'oggetto che desidera segmentare. Questo cambiamento non solo fa risparmiare tempo, ma migliora anche l'usabilità del modello, specialmente nei contesti chirurgici in cui l'etichettatura manuale può essere difficile e soggetta a errori.
Segmentazione tramite suggerimenti testuali
Una delle caratteristiche più interessanti di AdaptiveSAM è la sua capacità di utilizzare suggerimenti basati su testo. Gli utenti possono descrivere l'oggetto che vogliono identificare in un'immagine chirurgica utilizzando una semplice etichetta testuale. Ad esempio, se l'oggetto di interesse è "forbici", l'utente deve solo inserire quella parola invece di definire un riquadro di delimitazione o coordinate specifiche sull'immagine.
Questo approccio innovativo semplifica notevolmente il processo. Invece di dover fornire annotazioni dettagliate per ogni singola immagine in un set di dati, AdaptiveSAM può adattarsi ai nuovi dati basandosi su una sola descrizione. Questo non solo accelera il processo, ma apre anche la strada a futuri miglioramenti, in cui query e requisiti più complessi possono essere elaborati dal modello.
Validazione sperimentale
Per convalidare le prestazioni di AdaptiveSAM, sono stati condotti test su diversi set di dati chirurgici consolidati, tra cui Endovis17, Endovis18 e Cholec-Seg8k. Questi set di dati contengono varie immagini chirurgiche con annotazioni che aiutano nell'analisi segmentata. I risultati hanno mostrato che AdaptiveSAM supera significativamente altri metodi esistenti, dimostrando miglioramenti nella precisione della segmentazione su diverse metriche.
Risultati su diversi set di dati
Dataset Endovis17: Questo set di dati viene utilizzato durante le chirurgie robotiche e include immagini di sei diversi strumenti chirurgici. Quando testato, AdaptiveSAM ha mostrato un notevole miglioramento nella sua precisione di segmentazione rispetto ad altri modelli. La performance zero-shot di SAM, che è la capacità del modello di segmentare immagini senza alcun addestramento su quel specifico set di dati, è stata notevolmente potenziata da AdaptiveSAM.
Dataset Endovis18: Questo set contiene immagini di vari organi e strumenti chirurgici. Anche in questo caso, la performance di AdaptiveSAM è stata impressionante, raggiungendo punteggi più elevati rispetto ad altri modelli che richiedevano un addestramento completo su tutti i parametri.
Dataset Cholec-Seg8k: Questo set di dati presenta immagini con più organi e tessuti. AdaptiveSAM ha dimostrato costantemente livelli di precisione più elevati mantenendo una performance robusta rispetto ad altri metodi esistenti.
Questi risultati su diversi set di dati indicano che AdaptiveSAM non solo migliora la precisione della segmentazione ma potenzia anche l'usabilità dei modelli di segmentazione nelle applicazioni chirurgiche.
Adattamento rapido a dati non chirurgici
Un altro aspetto significativo di AdaptiveSAM è la sua capacità di adattarsi a compiti di imaging non chirurgici. Il modello è stato testato su set di dati che includevano immagini di ultrasuoni e raggi X. I risultati di questi test hanno mostrato che AdaptiveSAM mantiene la sua efficacia, producendo segmentazioni accurate anche quando il tipo di dati differisce da quello su cui era principalmente addestrato.
Dataset di ultrasuoni
Il modello AdaptiveSAM è stato valutato su un set di dati di ultrasuoni addominali, che consiste in immagini che mostrano vari organi. Anche se i dati di addestramento includevano principalmente immagini sintetiche, AdaptiveSAM ha funzionato eccezionalmente bene quando testato su immagini sia reali che sintetiche. Questa adattabilità dimostra che il modello può mantenere alta precisione attraverso diverse modalità di imaging.
Dataset di raggi X
AdaptiveSAM è stato testato anche sul dataset ChestXDet, che contiene immagini di raggi X con più annotazioni. I risultati sono stati promettenti, poiché AdaptiveSAM ha superato altri metodi esistenti, riuscendo a segmentare efficacemente vari elementi all'interno delle immagini a raggi X.
Conclusione
In sintesi, AdaptiveSAM rappresenta un importante passo avanti nel campo della segmentazione delle scene chirurgiche. Utilizzando il bias-tuning e la segmentazione tramite suggerimenti testuali, questo metodo semplifica il processo di addestramento e lo rende più accessibile per i professionisti medici. I risultati indicano che AdaptiveSAM non solo migliora le prestazioni su set di dati chirurgici, ma mostra anche un grande potenziale per adattarsi ad altri compiti di imaging. Questa innovazione apre la strada a strumenti più efficienti ed efficaci per chirurghi e personale medico, portando infine a risultati migliori nelle procedure chirurgiche e nella cura dei pazienti. Le applicazioni future di AdaptiveSAM potrebbero portare a capacità ancora più complesse, migliorando il modo in cui l'imaging chirurgico è compreso e utilizzato nella pratica.
Titolo: AdaptiveSAM: Towards Efficient Tuning of SAM for Surgical Scene Segmentation
Estratto: Segmentation is a fundamental problem in surgical scene analysis using artificial intelligence. However, the inherent data scarcity in this domain makes it challenging to adapt traditional segmentation techniques for this task. To tackle this issue, current research employs pretrained models and finetunes them on the given data. Even so, these require training deep networks with millions of parameters every time new data becomes available. A recently published foundation model, Segment-Anything (SAM), generalizes well to a large variety of natural images, hence tackling this challenge to a reasonable extent. However, SAM does not generalize well to the medical domain as is without utilizing a large amount of compute resources for fine-tuning and using task-specific prompts. Moreover, these prompts are in the form of bounding-boxes or foreground/background points that need to be annotated explicitly for every image, making this solution increasingly tedious with higher data size. In this work, we propose AdaptiveSAM - an adaptive modification of SAM that can adjust to new datasets quickly and efficiently, while enabling text-prompted segmentation. For finetuning AdaptiveSAM, we propose an approach called bias-tuning that requires a significantly smaller number of trainable parameters than SAM (less than 2\%). At the same time, AdaptiveSAM requires negligible expert intervention since it uses free-form text as prompt and can segment the object of interest with just the label name as prompt. Our experiments show that AdaptiveSAM outperforms current state-of-the-art methods on various medical imaging datasets including surgery, ultrasound and X-ray. Code is available at https://github.com/JayParanjape/biastuning
Autori: Jay N. Paranjape, Nithin Gopalakrishnan Nair, Shameema Sikder, S. Swaroop Vedula, Vishal M. Patel
Ultimo aggiornamento: 2023-08-07 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2308.03726
Fonte PDF: https://arxiv.org/pdf/2308.03726
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.