Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

SurgToolLoc 2022 : Avancées dans la détection des outils chirurgicaux

Un aperçu des méthodes pour suivre les outils chirurgicaux dans les vidéos de chirurgie robotique.

― 8 min lire


Aperçus du défiAperçus du défiSurgToolLoc 2022vidéos.instruments chirurgicaux dans desNouvelles méthodes pour détecter des
Table des matières

Suivre les outils chirurgicaux dans les vidéos endoscopiques peut améliorer les procédures chirurgicales. Ça aide à évaluer les compétences chirurgicales, à gérer les équipements et à planifier les opérations plus efficacement. Mais, entraîner des systèmes pour identifier et suivre ces outils automatiquement, c'est pas simple à cause du processus chiant d'annoter chaque image vidéo avec les emplacements des outils.

Le défi de l'annotation

Pour entraîner des systèmes d'apprentissage machine, on a besoin de beaucoup de données étiquetées. Ça veut dire que les annotateurs doivent passer par chaque image de chaque vidéo et dessiner des boîtes autour des outils. Ce processus est long et demande beaucoup de temps, surtout avec les différents types d'outils chirurgicaux et de clips vidéo. En plus, il faut des annotateurs qui comprennent comment fonctionnent les outils chirurgicaux, ce qui rend tout ça cher et chronophage.

Chirurgie assistée par robot

La chirurgie assistée par robot est devenue plus courante et fournit des sources de données riches, y compris des enregistrements vidéo et des infos sur les outils et les événements des systèmes robotiques. Ces données ont un grand potentiel pour analyser et améliorer les performances chirurgicales. Cependant, le vrai problème reste d’obtenir des Annotations utiles de ces données.

Utiliser des timestamps pour l'annotation

Dans la Chirurgie Robotique, on peut collecter des timestamps quand des outils sont ajoutés ou retirés du champ chirurgical. En se basant sur cette info, on peut réduire la charge de travail d'annotation des images tout en continuant à récolter des données utiles pour entraîner des modèles d'apprentissage machine.

Le défi SurgToolLoc 2022

Avec tous ces problèmes à l'esprit, un défi appelé SurgToolLoc 2022 a été créé pour la communauté de la science des données chirurgicales. L'objectif était d'utiliser les données de présence des outils comme étiquettes faibles pour entraîner des modèles d'apprentissage machine à détecter et localiser les outils chirurgicaux dans les images. Le défi cherchait à trouver des solutions pratiques de deep learning pour identifier les instruments chirurgicaux.

Vue d'ensemble du défi

Le défi avait deux grandes catégories qui visaient à aborder le même problème sous différents angles. La première catégorie se concentrait sur l’identification des outils présents dans les images. La deuxième catégorie nécessitait à la fois l’identification et la Localisation, ce qui signifie que les modèles devaient non seulement détecter, mais aussi indiquer où les outils se trouvaient dans chaque image.

Collecte de données pour le défi

Le jeu de données comprenait 24 695 clips vidéo d'exercices de formation chirurgicale robotique. Chaque clip durait environ 30 secondes et capturait des images de la caméra du robot. Chaque clip avait des étiquettes indiquant les outils présents, bien que certaines étiquettes soient manquantes ou mal attribuées.

Données d'entraînement et de test

Pour l'entraînement, les équipes ont reçu les clips vidéo avec des étiquettes de présence d'outils bruyantes. Les données de test consistaient en 93 clips vidéo également collectés lors d'exercices de formation similaires. Ces clips avaient à la fois des étiquettes de présence d'outils et des annotations supplémentaires indiquant les emplacements exacts des outils dans les images.

Processus de soumission

Les équipes ont soumis leurs algorithmes à travers un processus d'évaluation standardisé pour garantir des résultats fiables. Chaque équipe devait développer sa propre approche en utilisant les données d'entraînement fournies et suivre les directives des organisateurs.

Participation des équipes

Au total, 79 équipes ont montré de l'intérêt pour le défi, avec 17 équipes ayant terminé la première catégorie et 11 équipes ayant réussi à soumettre pour la deuxième catégorie. Les équipes ont utilisé diverses méthodes et stratégies pour relever le défi.

Méthodologies et Approches

Équipe HRI MV

L'équipe HRI MV a développé un algorithme utilisant les caractéristiques des données vidéo avec un schéma de suivi d'objet intégré dans un réseau de segmentation sémantique. Ils ont utilisé une méthode de validation croisée à double modèle pour sélectionner les étiquettes fiables des séquences d'images.

Équipe HKMV

Cette équipe s'est appuyée sur deux jeux de données publics pour construire un jeu de données d'entraînement principal. Ils ont converti les étiquettes de masque en boîtes englobantes pour entraîner un modèle de détection d'objets, en se concentrant sur l'expansion du jeu de données en inférant des images à partir des données de compétition.

Équipe NVIDIA

L'équipe de NVIDIA a utilisé des approches uniques pour aborder la nature faiblement supervisée du défi. Ils ont d'abord identifié des images avec trois outils uniques pour appliquer les étiquettes au niveau vidéo, évitant les faux positifs en classification.

Équipe ANL-Surg

ANL-Surg a utilisé des modèles de segmentation pour reconnaître les outils et une approche en ensemble pour la classification de présence des outils. Ils ont aussi entraîné des modèles séparés pour segmenter les parties des outils et prédire leurs emplacements.

Équipe HVRL

L'approche de l'équipe HVRL était de former des modèles de classification multi-label pour la détection de présence d'outils tout en utilisant Grad-CAM++ pour la localisation faiblement supervisée.

Équipe SK

L'équipe SK a tiré parti d'un réseau de fusion de caractéristiques multiplicatives pour la localisation faiblement supervisée. Ils visaient à apprendre la présence des outils et à utiliser des cartes d'activation de classe pour aider à la détection.

Équipe VANDY-VISE

Cette équipe a adopté une méthode d'apprentissage basée sur l'attention pour identifier les outils chirurgicaux en se basant sur les corrélations entre les images vidéo. Ils ont utilisé une architecture de modèle avancée pour aider à la classification multi-label.

Équipe UKE

L'équipe de l'UKE s'est concentrée sur des approches auto-supervisées, utilisant des représentations d'images profondes avec des transformateurs de vision, suivies de classificateurs d'apprentissage machine pour la détection et la localisation des outils.

Équipe CAMMA

L'approche de CAMMA impliquait un réseau d'attention spatiale pour identifier efficacement les outils malgré les étiquettes bruyantes. Leur modèle était conçu spécifiquement pour mettre en avant les zones de caractéristiques cruciales pour une meilleure classification des outils.

Équipe Zero

L'équipe Zero a exploré comment les modèles en ensemble pouvaient améliorer la détection des outils chirurgicaux. Ils ont appliqué diverses méthodes pour le traitement des données et ont intelligemment divisé leurs données pour gérer le bruit et le déséquilibre.

Résultats et Performances

Résultats de la catégorie 1

Dans la première catégorie, les équipes se sont globalement bien débrouillées. Le score F1 moyen pour la détection de présence d'outils était satisfaisant, avec de nombreuses équipes atteignant des scores supérieurs à 0,7. Les résultats prenaient en compte les déséquilibres de données, reconnaissant les fréquences variées d'apparition des outils.

Résultats de la catégorie 2

Les performances dans la deuxième catégorie étaient nettement plus difficiles. Seules les trois meilleures équipes ont obtenu des résultats respectables au-dessus de 0,3 mAP tandis que la plupart des équipes ont eu du mal, avec des valeurs mAP allant de 0 à 0,1. Ça indique que beaucoup de modèles avaient des difficultés à localiser les outils avec précision.

Insights sur la performance

De bonnes performances dans la première catégorie se traduisaient généralement par un certain succès dans la deuxième catégorie, ce qui suggère qu'une représentation précise de la présence des outils est cruciale pour la localisation. Les équipes qui ont le mieux performé reposaient souvent sur des modèles pré-entraînés utilisant des jeux de données existants.

Conclusion

Le défi SurgToolLoc 2022 a mis en lumière les complexités de l'automatisation de la détection et de la localisation des outils chirurgicaux dans les vidéos endoscopiques. Malgré les avancées en deep learning et apprentissage machine, ce problème reste largement non résolu, surtout en se basant sur des méthodes faiblement supervisées.

Directions futures

Les résultats du défi suggèrent qu'améliorer la qualité des données d'entraînement et explorer de nouvelles méthodologies pourrait mener à de meilleures performances. Avec la publication des données d'entraînement au public, il y a de l'espoir pour des recherches et des développements supplémentaires dans ce domaine important de la science des données chirurgicales. La communauté encourage un travail continu pour relever ces défis, en apprenant des résultats de ce défi.

Source originale

Titre: Surgical tool classification and localization: results and methods from the MICCAI 2022 SurgToolLoc challenge

Résumé: The ability to automatically detect and track surgical instruments in endoscopic videos can enable transformational interventions. Assessing surgical performance and efficiency, identifying skilled tool use and choreography, and planning operational and logistical aspects of OR resources are just a few of the applications that could benefit. Unfortunately, obtaining the annotations needed to train machine learning models to identify and localize surgical tools is a difficult task. Annotating bounding boxes frame-by-frame is tedious and time-consuming, yet large amounts of data with a wide variety of surgical tools and surgeries must be captured for robust training. Moreover, ongoing annotator training is needed to stay up to date with surgical instrument innovation. In robotic-assisted surgery, however, potentially informative data like timestamps of instrument installation and removal can be programmatically harvested. The ability to rely on tool installation data alone would significantly reduce the workload to train robust tool-tracking models. With this motivation in mind we invited the surgical data science community to participate in the challenge, SurgToolLoc 2022. The goal was to leverage tool presence data as weak labels for machine learning models trained to detect tools and localize them in video frames with bounding boxes. We present the results of this challenge along with many of the team's efforts. We conclude by discussing these results in the broader context of machine learning and surgical data science. The training data used for this challenge consisting of 24,695 video clips with tool presence labels is also being released publicly and can be accessed at https://console.cloud.google.com/storage/browser/isi-surgtoolloc-2022.

Auteurs: Aneeq Zia, Kiran Bhattacharyya, Xi Liu, Max Berniker, Ziheng Wang, Rogerio Nespolo, Satoshi Kondo, Satoshi Kasai, Kousuke Hirasawa, Bo Liu, David Austin, Yiheng Wang, Michal Futrega, Jean-Francois Puget, Zhenqiang Li, Yoichi Sato, Ryo Fujii, Ryo Hachiuma, Mana Masuda, Hideo Saito, An Wang, Mengya Xu, Mobarakol Islam, Long Bai, Winnie Pang, Hongliang Ren, Chinedu Nwoye, Luca Sestini, Nicolas Padoy, Maximilian Nielsen, Samuel Schüttler, Thilo Sentker, Hümeyra Husseini, Ivo Baltruschat, Rüdiger Schmitz, René Werner, Aleksandr Matsun, Mugariya Farooq, Numan Saaed, Jose Renato Restom Viera, Mohammad Yaqub, Neil Getty, Fangfang Xia, Zixuan Zhao, Xiaotian Duan, Xing Yao, Ange Lou, Hao Yang, Jintong Han, Jack Noble, Jie Ying Wu, Tamer Abdulbaki Alshirbaji, Nour Aldeen Jalal, Herag Arabian, Ning Ding, Knut Moeller, Weiliang Chen, Quan He, Muhammad Bilal, Taofeek Akinosho, Adnan Qayyum, Massimo Caputo, Hunaid Vohra, Michael Loizou, Anuoluwapo Ajayi, Ilhem Berrou, Faatihah Niyi-Odumosu, Lena Maier-Hein, Danail Stoyanov, Stefanie Speidel, Anthony Jarc

Dernière mise à jour: 2023-05-31 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2305.07152

Source PDF: https://arxiv.org/pdf/2305.07152

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires