Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Visión por Computador y Reconocimiento de Patrones

SurgToolLoc 2022: Avances en la Detección de Herramientas Quirúrgicas

Una mirada a los métodos para rastrear herramientas quirúrgicas en videos de cirugía robótica.

― 8 minilectura


SurgToolLoc 2022 DesafíosSurgToolLoc 2022 Desafíose Insightsinstrumentos quirúrgicos en videos.Nuevos métodos para detectar
Tabla de contenidos

Rastrear herramientas quirúrgicas en videos endoscópicos puede mejorar los procedimientos quirúrgicos. Ayuda a evaluar las habilidades quirúrgicas, gestionar el equipo y planificar cirugías de manera más efectiva. Sin embargo, entrenar sistemas para identificar y rastrear automáticamente estas herramientas es complicado debido al tedioso proceso de anotar cada fotograma del video con las ubicaciones de las herramientas.

El Desafío de la Anotación

Para entrenar sistemas de aprendizaje automático, necesitamos grandes cantidades de datos etiquetados. Esto significa que los anotadores deben revisar cada fotograma de cada video y dibujar cuadros alrededor de las herramientas. Este proceso es lento y requiere mucho tiempo, especialmente porque hay muchos tipos diferentes de herramientas quirúrgicas y clips de video involucrados. La necesidad de anotadores que entiendan cómo funcionan las herramientas quirúrgicas también añade dificultad, lo que hace que sea costoso y que consuma tiempo.

Cirugía Asistida por Robots

La cirugía asistida por robots se ha vuelto más común y proporciona fuentes de datos ricas, incluyendo grabaciones de video e información sobre las herramientas y eventos de los sistemas robóticos. Estos datos tienen un gran potencial para analizar y mejorar el rendimiento quirúrgico. Sin embargo, el cuello de botella sigue siendo obtener anotaciones útiles de estos datos.

Uso de Timestamps para Anotación

En la Cirugía Robótica, podemos recopilar timestamps cuando se añaden o retiran herramientas del campo quirúrgico. Al confiar en esta información, podemos reducir la carga de trabajo de anotar fotogramas de video mientras seguimos recolectando datos útiles para entrenar modelos de aprendizaje automático.

El Desafío SurgToolLoc 2022

Con estos problemas en mente, se creó un desafío llamado SurgToolLoc 2022 para la comunidad de ciencia de datos quirúrgicos. El objetivo era usar los datos de presencia de herramientas como etiquetas débiles para entrenar modelos de aprendizaje automático que detecten y localicen herramientas quirúrgicas en fotogramas de video. El desafío buscaba encontrar soluciones prácticas de aprendizaje profundo para identificar instrumentos quirúrgicos.

Visión General del Desafío

El desafío tuvo dos categorías principales que abordaron el mismo problema desde diferentes ángulos. La primera categoría se centró en identificar qué herramientas estaban presentes en los fotogramas de video. La segunda categoría requería tanto identificación como Localización, lo que significa que los modelos debían no solo detectar, sino también indicar dónde estaban ubicadas las herramientas dentro de cada fotograma.

Recolección de Datos para el Desafío

El conjunto de datos incluía 24,695 clips de video de ejercicios de entrenamiento quirúrgico robótico. Cada clip duraba aproximadamente 30 segundos y capturaba imágenes de la cámara del robot. Cada clip de video tenía etiquetas que indicaban las herramientas presentes, aunque algunas etiquetas estaban ausentes o asignadas incorrectamente.

Datos de Entrenamiento y Prueba

Para el entrenamiento, se proporcionaron a los equipos los clips de video junto con etiquetas ruidosas de presencia de herramientas. Los datos de prueba consistían en 93 clips de video que también se recopilaron de ejercicios de entrenamiento similares. Estos clips tenían tanto etiquetas de presencia de herramientas como anotaciones adicionales que indicaban las ubicaciones exactas de las herramientas dentro de los fotogramas.

Proceso de Presentación

Los equipos enviaron sus algoritmos a través de un proceso de evaluación estandarizado para asegurar resultados confiables. Cada equipo tuvo que desarrollar su propio enfoque usando los datos de entrenamiento proporcionados y seguir las pautas dadas por los organizadores.

Participación de Equipos

Un total de 79 equipos mostraron interés en el desafío, con 17 equipos completando la primera categoría y 11 equipos enviando con éxito para la segunda categoría. Los equipos emplearon varios métodos y estrategias para abordar el desafío.

Metodologías y Enfoques

Equipo HRI MV

El equipo HRI MV desarrolló un algoritmo que utilizó las características de los datos de video con un esquema de seguimiento de objetos integrado en una red de segmentación semántica. Usaron un método de validación cruzada de modelo dual para seleccionar etiquetas confiables de las secuencias de fotogramas.

Equipo HKMV

Este equipo se basó en dos conjuntos de datos públicos para construir un conjunto de datos de entrenamiento primario. Convirtieron las etiquetas de máscara en cuadros delimitadores para entrenar un modelo de detección de objetos, enfocándose en ampliar el conjunto de datos inferiendo imágenes a partir de los datos de la competencia.

Equipo NVIDIA

El equipo de NVIDIA utilizó enfoques únicos para abordar la naturaleza débilmente supervisada del desafío. Inicialmente identificaron fotogramas con tres herramientas únicas para aplicar las etiquetas a nivel de video, evitando falsos positivos en la clasificación.

Equipo ANL-Surg

ANL-Surg utilizó modelos de segmentación para reconocer herramientas y un enfoque de conjunto para la clasificación de presencia de herramientas. También entrenaron modelos separados para segmentar partes de herramientas y predecir sus ubicaciones.

Equipo HVRL

El enfoque del equipo HVRL fue entrenar modelos de clasificación multi-etiqueta para la detección de presencia de herramientas, mientras empleaban Grad-CAM++ para la localización débilmente supervisada.

Equipo SK

El equipo SK aprovechó una red de fusión de características multiplicativas para la localización débilmente supervisada. Su objetivo era aprender la presencia de herramientas y usar mapas de activación de clase para ayudar en la detección.

Equipo VANDY-VISE

Este equipo adoptó un método de aprendizaje basado en atención para identificar herramientas quirúrgicas basándose en las correlaciones entre los fotogramas de video. Utilizaron una arquitectura de modelo avanzada para ayudar en la clasificación multi-etiqueta.

Equipo UKE

El equipo de UKE se centró en enfoques auto-supervisados, utilizando representaciones de imágenes profundas con transformadores de visión, seguidas de clasificadores de aprendizaje automático para la detección y localización de la presencia de herramientas.

Equipo CAMMA

El enfoque de CAMMA involucró una red de atención espacial para identificar efectivamente herramientas a pesar de las etiquetas ruidosas. Su modelo fue diseñado específicamente para resaltar áreas de características cruciales para una mejor clasificación de herramientas.

Equipo Zero

El equipo Zero exploró cómo los modelos de conjunto podrían mejorar la detección de herramientas quirúrgicas. Aplicaron varios métodos para el procesamiento de datos y dividieron su información de manera inteligente para manejar el ruido y el desequilibrio inherentes.

Resultados y Rendimiento

Resultados de la Categoría 1

En la primera categoría, los equipos tuvieron un buen rendimiento en general. La puntuación promedio de F1 para la detección de presencia de herramientas fue satisfactoria, con muchos equipos logrando puntuaciones por encima de 0.7. Los resultados tomaron en cuenta los desequilibrios de datos, reconociendo las diferentes frecuencias de aparición de herramientas.

Resultados de la Categoría 2

El rendimiento en la segunda categoría fue notablemente más desafiante. Solo los tres mejores equipos lograron resultados respetables por encima de 0.3 mAP, mientras que la mayoría de los equipos lucharon, con valores de mAP que iban de 0 a 0.1. Esto indica que muchos modelos tuvieron dificultad para localizar con precisión las herramientas.

Perspectivas del Rendimiento

Un buen rendimiento en la primera categoría generalmente se traducía en algún grado de éxito en la segunda categoría, lo que sugiere que una representación precisa de la presencia de herramientas es crucial para la localización. Los equipos que obtuvieron los mejores resultados a menudo se basaron en modelos pre-entrenados utilizando conjuntos de datos existentes.

Conclusión

El desafío SurgToolLoc 2022 puso de manifiesto las complejidades de automatizar la detección y localización de herramientas quirúrgicas en videos endoscópicos. A pesar de los avances en aprendizaje profundo y aprendizaje automático, este problema sigue sin resolverse en gran medida, especialmente al confiar en métodos débilmente supervisados.

Direcciones Futuras

Los resultados del desafío sugieren que mejorar la calidad de los datos de entrenamiento y explorar metodologías novedosas podría conducir a un mejor rendimiento. Con la liberación de los datos de entrenamiento al público, hay esperanza para más investigaciones y desarrollos en esta importante área de la ciencia de datos quirúrgicos. La comunidad alienta a continuar trabajando para abordar estos desafíos, aprendiendo de los hallazgos de este desafío.

Fuente original

Título: Surgical tool classification and localization: results and methods from the MICCAI 2022 SurgToolLoc challenge

Resumen: The ability to automatically detect and track surgical instruments in endoscopic videos can enable transformational interventions. Assessing surgical performance and efficiency, identifying skilled tool use and choreography, and planning operational and logistical aspects of OR resources are just a few of the applications that could benefit. Unfortunately, obtaining the annotations needed to train machine learning models to identify and localize surgical tools is a difficult task. Annotating bounding boxes frame-by-frame is tedious and time-consuming, yet large amounts of data with a wide variety of surgical tools and surgeries must be captured for robust training. Moreover, ongoing annotator training is needed to stay up to date with surgical instrument innovation. In robotic-assisted surgery, however, potentially informative data like timestamps of instrument installation and removal can be programmatically harvested. The ability to rely on tool installation data alone would significantly reduce the workload to train robust tool-tracking models. With this motivation in mind we invited the surgical data science community to participate in the challenge, SurgToolLoc 2022. The goal was to leverage tool presence data as weak labels for machine learning models trained to detect tools and localize them in video frames with bounding boxes. We present the results of this challenge along with many of the team's efforts. We conclude by discussing these results in the broader context of machine learning and surgical data science. The training data used for this challenge consisting of 24,695 video clips with tool presence labels is also being released publicly and can be accessed at https://console.cloud.google.com/storage/browser/isi-surgtoolloc-2022.

Autores: Aneeq Zia, Kiran Bhattacharyya, Xi Liu, Max Berniker, Ziheng Wang, Rogerio Nespolo, Satoshi Kondo, Satoshi Kasai, Kousuke Hirasawa, Bo Liu, David Austin, Yiheng Wang, Michal Futrega, Jean-Francois Puget, Zhenqiang Li, Yoichi Sato, Ryo Fujii, Ryo Hachiuma, Mana Masuda, Hideo Saito, An Wang, Mengya Xu, Mobarakol Islam, Long Bai, Winnie Pang, Hongliang Ren, Chinedu Nwoye, Luca Sestini, Nicolas Padoy, Maximilian Nielsen, Samuel Schüttler, Thilo Sentker, Hümeyra Husseini, Ivo Baltruschat, Rüdiger Schmitz, René Werner, Aleksandr Matsun, Mugariya Farooq, Numan Saaed, Jose Renato Restom Viera, Mohammad Yaqub, Neil Getty, Fangfang Xia, Zixuan Zhao, Xiaotian Duan, Xing Yao, Ange Lou, Hao Yang, Jintong Han, Jack Noble, Jie Ying Wu, Tamer Abdulbaki Alshirbaji, Nour Aldeen Jalal, Herag Arabian, Ning Ding, Knut Moeller, Weiliang Chen, Quan He, Muhammad Bilal, Taofeek Akinosho, Adnan Qayyum, Massimo Caputo, Hunaid Vohra, Michael Loizou, Anuoluwapo Ajayi, Ilhem Berrou, Faatihah Niyi-Odumosu, Lena Maier-Hein, Danail Stoyanov, Stefanie Speidel, Anthony Jarc

Última actualización: 2023-05-31 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2305.07152

Fuente PDF: https://arxiv.org/pdf/2305.07152

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares