SurgToolLoc 2022: Novità nella Rilevazione degli Strumenti Chirurgici
Uno sguardo ai metodi per tracciare gli strumenti chirurgici nei video di chirurgia robotica.
― 7 leggere min
Indice
Segnare gli strumenti chirurgici nei video endoscopici può migliorare le procedure chirurgiche. Aiuta a valutare le abilità chirurgiche, gestire l'attrezzatura e pianificare le operazioni in modo più efficace. Tuttavia, addestrare sistemi per identificare e seguire automaticamente questi strumenti è complicato a causa del processo noioso di Annotazione di ogni fotogramma video con le posizioni degli strumenti.
La Sfida dell'Annotazione
Per addestrare i sistemi di machine learning, abbiamo bisogno di grandi quantità di dati etichettati. Questo significa che gli annotatori devono passare attraverso ogni fotogramma di ogni video e disegnare caselle attorno agli strumenti. Questo processo è lento e richiede molto tempo, soprattutto visto che ci sono molti tipi diversi di strumenti chirurgici e clip video coinvolti. La necessità di annotatori che capiscano come funzionano gli strumenti chirurgici aggiunge ulteriormente alla sfida, rendendolo costoso e dispendioso in termini di tempo.
Chirurgia robotica Assistita
La chirurgia robotica assistita è diventata più comune e fornisce fonti di dati ricche, comprese registrazioni video e informazioni sugli strumenti e sugli eventi dai sistemi robotici. Questi dati hanno un grande potenziale per analizzare e migliorare le prestazioni chirurgiche. Tuttavia, il collo di bottiglia rimane nell'ottenere annotazioni utili da questi dati.
Utilizzo dei Timestamp per l'Annotazione
Nella chirurgia robotica, possiamo raccogliere timestamp quando gli strumenti vengono aggiunti o rimossi dal campo chirurgico. Facendo affidamento su queste informazioni, possiamo ridurre il carico di lavoro per annotare i fotogrammi video, continuando a raccogliere dati utili per addestrare i modelli di machine learning.
La Sfida SurgToolLoc 2022
Tenendo presente questi problemi, è stata creata una sfida chiamata SurgToolLoc 2022 per la comunità scientifica dei dati chirurgici. L'obiettivo era utilizzare i dati di presenza degli strumenti come etichette deboli per addestrare modelli di machine learning in grado di rilevare e localizzare gli strumenti chirurgici nei fotogrammi video. La sfida mirava a trovare soluzioni pratiche di deep learning per identificare gli strumenti chirurgici.
Panoramica della Sfida
La sfida aveva due categorie principali volte ad affrontare lo stesso problema da angolazioni diverse. La prima categoria si concentrava sull'identificazione degli strumenti presenti nei fotogrammi video. La seconda categoria richiedeva sia l'identificazione che la Localizzazione, il che significava che i modelli dovevano non solo rilevare ma anche indicare dove si trovavano gli strumenti all'interno di ciascun fotogramma.
Raccolta Dati per la Sfida
Il dataset includeva 24.695 clip video da esercizi di addestramento chirurgico robotico. Ogni clip durava circa 30 secondi e catturava immagini dalla telecamera del robot. Ogni clip video aveva etichette che indicavano gli strumenti presenti, anche se alcune etichette mancavano o erano assegnate in modo errato.
Dati di addestramento e Test
Per l'addestramento, i team hanno ricevuto le clip video insieme a etichette di presenza degli strumenti rumorose. I dati di test erano costituiti da 93 clip video raccolte anch'esse da esercizi di addestramento simili. Queste clip avevano sia etichette di presenza degli strumenti che annotazioni aggiuntive che indicavano le posizioni esatte degli strumenti all'interno dei fotogrammi.
Processo di Invio
I team hanno inviato i loro algoritmi tramite un processo di valutazione standardizzato per garantire risultati affidabili. Ogni team doveva sviluppare il proprio approccio utilizzando i dati di addestramento forniti e seguire le linee guida date dagli organizzatori.
Partecipazione dei Team
Un totale di 79 team ha mostrato interesse per la sfida, con 17 team che hanno completato la prima categoria e 11 team che hanno inviato con successo per la seconda categoria. I team hanno impiegato vari metodi e strategie per affrontare la sfida.
Metodologie e Approcci
Team HRI MV
Il team HRI MV ha sviluppato un algoritmo che utilizzava le caratteristiche dei dati video con uno schema di tracciamento degli oggetti integrato in una rete di segmentazione semantica. Hanno utilizzato un metodo di convalida incrociata a modello duale per selezionare etichette affidabili dalle sequenze di fotogrammi.
Team HKMV
Questo team ha fatto affidamento su due dataset pubblici per costruire un dataset di addestramento primario. Hanno convertito le etichette di maschera in caselle di delimitazione per addestrare un modello di rilevamento degli oggetti, concentrandosi sull'espansione del dataset inferendo immagini dai dati della competizione.
Team NVIDIA
Il team di NVIDIA ha utilizzato approcci unici per affrontare la natura debolmente supervisionata della sfida. Hanno inizialmente identificato i fotogrammi con tre strumenti unici per applicare le etichette a livello video, evitando falsi positivi nella classificazione.
Team ANL-Surg
ANL-Surg ha utilizzato modelli di segmentazione per riconoscere gli strumenti e un approccio ensemble per la classificazione di presenza degli strumenti. Hanno anche addestrato modelli separati per segmentare le parti degli strumenti e prevedere le loro posizioni.
Team HVRL
L'approccio del team HVRL era quello di addestrare modelli di classificazione multilabel per il rilevamento della presenza degli strumenti impiegando Grad-CAM++ per la localizzazione debolmente supervisionata.
Team SK
Il team SK ha sfruttato una rete di fusione di caratteristiche moltiplicativa per la localizzazione debolmente supervisionata. Hanno mirato ad apprendere la presenza degli strumenti e utilizzare le mappe di attivazione delle classi per aiutare nel rilevamento.
Team VANDY-VISE
Questo team ha adottato un metodo di apprendimento basato su attenzione per identificare gli strumenti chirurgici in base alle correlazioni tra i fotogrammi video. Hanno utilizzato un'architettura di modello avanzata per aiutare nella classificazione multilabel.
Team UKE
Il team di UKE si è concentrato su approcci auto-supervisionati, utilizzando rappresentazioni di immagini profonde con trasformatori visivi, seguiti da classificatori di machine learning per il rilevamento e la localizzazione della presenza degli strumenti.
Team CAMMA
L'approccio di CAMMA prevedeva una rete di attenzione spaziale per identificare efficacemente gli strumenti nonostante le etichette rumorose. Il loro modello era progettato specificamente per evidenziare le aree di caratteristica cruciali per una migliore classificazione degli strumenti.
Team Zero
Il team Zero ha esplorato come i modelli ensemble potessero migliorare il rilevamento degli strumenti chirurgici. Hanno applicato vari metodi per l'elaborazione dei dati e hanno intelligentemente diviso i loro dati per gestire il rumore e lo squilibrio intrinseci.
Risultati e Prestazioni
Risultati della Categoria 1
Nella prima categoria, i team hanno ottenuto risultati complessivamente buoni. La F1-score media per il rilevamento della presenza degli strumenti era soddisfacente, con molti team che hanno ottenuto punteggi superiori a 0,7. I risultati tenevano conto degli squilibri nei dati, riconoscendo le diverse frequenze delle apparizioni degli strumenti.
Risultati della Categoria 2
Le prestazioni nella seconda categoria sono state notevolmente più difficili. Solo i primi tre team hanno ottenuto risultati rispettabili superiori a 0,3 mAP mentre la maggior parte dei team ha faticato, con valori di mAP che andavano da 0 a 0,1. Questo indica che molti modelli hanno avuto difficoltà a localizzare gli strumenti con precisione.
Intuizioni dalle Prestazioni
Una buona prestazione nella prima categoria di solito si traduceva in qualche misura di successo nella seconda categoria, suggerendo che una rappresentazione accurata della presenza degli strumenti è cruciale per la localizzazione. I team che hanno ottenuto i migliori risultati spesso si sono basati su modelli pre-addestrati utilizzando dataset esistenti.
Conclusione
La sfida SurgToolLoc 2022 ha messo in evidenza le complessità dell'automazione del rilevamento e della localizzazione degli strumenti chirurgici nei video endoscopici. Nonostante i progressi nel deep learning e nel machine learning, questo problema rimane per lo più irrisolto, particolarmente quando ci si affida a metodi debolmente supervisionati.
Direzioni Future
I risultati della sfida suggeriscono che migliorare la qualità dei dati di addestramento e esplorare metodologie nuove potrebbe portare a prestazioni migliori. Con il rilascio dei dati di addestramento al pubblico, c'è speranza per ulteriori ricerche e sviluppi in questo importante campo della scienza dei dati chirurgici. La comunità incoraggia un lavoro continuo per affrontare queste sfide, imparando dai risultati di questa sfida.
Titolo: Surgical tool classification and localization: results and methods from the MICCAI 2022 SurgToolLoc challenge
Estratto: The ability to automatically detect and track surgical instruments in endoscopic videos can enable transformational interventions. Assessing surgical performance and efficiency, identifying skilled tool use and choreography, and planning operational and logistical aspects of OR resources are just a few of the applications that could benefit. Unfortunately, obtaining the annotations needed to train machine learning models to identify and localize surgical tools is a difficult task. Annotating bounding boxes frame-by-frame is tedious and time-consuming, yet large amounts of data with a wide variety of surgical tools and surgeries must be captured for robust training. Moreover, ongoing annotator training is needed to stay up to date with surgical instrument innovation. In robotic-assisted surgery, however, potentially informative data like timestamps of instrument installation and removal can be programmatically harvested. The ability to rely on tool installation data alone would significantly reduce the workload to train robust tool-tracking models. With this motivation in mind we invited the surgical data science community to participate in the challenge, SurgToolLoc 2022. The goal was to leverage tool presence data as weak labels for machine learning models trained to detect tools and localize them in video frames with bounding boxes. We present the results of this challenge along with many of the team's efforts. We conclude by discussing these results in the broader context of machine learning and surgical data science. The training data used for this challenge consisting of 24,695 video clips with tool presence labels is also being released publicly and can be accessed at https://console.cloud.google.com/storage/browser/isi-surgtoolloc-2022.
Autori: Aneeq Zia, Kiran Bhattacharyya, Xi Liu, Max Berniker, Ziheng Wang, Rogerio Nespolo, Satoshi Kondo, Satoshi Kasai, Kousuke Hirasawa, Bo Liu, David Austin, Yiheng Wang, Michal Futrega, Jean-Francois Puget, Zhenqiang Li, Yoichi Sato, Ryo Fujii, Ryo Hachiuma, Mana Masuda, Hideo Saito, An Wang, Mengya Xu, Mobarakol Islam, Long Bai, Winnie Pang, Hongliang Ren, Chinedu Nwoye, Luca Sestini, Nicolas Padoy, Maximilian Nielsen, Samuel Schüttler, Thilo Sentker, Hümeyra Husseini, Ivo Baltruschat, Rüdiger Schmitz, René Werner, Aleksandr Matsun, Mugariya Farooq, Numan Saaed, Jose Renato Restom Viera, Mohammad Yaqub, Neil Getty, Fangfang Xia, Zixuan Zhao, Xiaotian Duan, Xing Yao, Ange Lou, Hao Yang, Jintong Han, Jack Noble, Jie Ying Wu, Tamer Abdulbaki Alshirbaji, Nour Aldeen Jalal, Herag Arabian, Ning Ding, Knut Moeller, Weiliang Chen, Quan He, Muhammad Bilal, Taofeek Akinosho, Adnan Qayyum, Massimo Caputo, Hunaid Vohra, Michael Loizou, Anuoluwapo Ajayi, Ilhem Berrou, Faatihah Niyi-Odumosu, Lena Maier-Hein, Danail Stoyanov, Stefanie Speidel, Anthony Jarc
Ultimo aggiornamento: 2023-05-31 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2305.07152
Fonte PDF: https://arxiv.org/pdf/2305.07152
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://github.com/NVIDIA/DeepLearningExamples
- https://github.com/ternaus/robot-surgery-segmentation
- https://surgtoolloc.grand-challenge.org/data/
- https://github.com/rwightman/pytorch-image-models
- https://github.com/mobarakol/Hybrid
- https://github.com/issamemari/pytorch-multilabel-balanced-sampler
- https://doi.org/10.1109/iccv48922.2021.00015
- https://www.overleaf.com/project/602bdb5e3638a47f00d58a2a
- https://console.cloud.google.com/storage/browser/isi-surgtoolloc-2022
- https://endovis.grand-challenge.org/
- https://conferences.miccai.org/2022
- https://grand-challenge.org/documentation/algorithms/
- https://surgtoolloc.grand-challenge.org/submission/