Mejorando la Estimación de Pose de la Cámara en Cirugía Endoscópica
Un nuevo método mejora el seguimiento de la posición de la cámara durante procedimientos quirúrgicos difíciles.
― 8 minilectura
Tabla de contenidos
- Solución Propuesta
- Resultados
- Importancia de la Estimación de la Posición de la Cámara
- El Método Explicado
- Aprendiendo Mapas de Peso Adaptativos
- Conjuntos de Datos para Validación
- Segmentación de Instrumentos Quirúrgicos
- Procedimiento de Entrenamiento y Prueba
- Métricas para Evaluación
- Rendimiento en Varios Escenarios
- Conclusiones Generales
- Direcciones Futuras
- Conclusión
- Fuente original
- Enlaces de referencia
En el mundo de la cirugía endoscópica, entender la escena quirúrgica es muy importante. Esta comprensión ayuda a crear mejores sistemas que asistan durante las operaciones. Uno de los principales desafíos en estas cirugías es conocer la posición exacta y el ángulo del endoscopio. Sin embargo, factores como las condiciones de iluminación, los movimientos de los órganos al respirar y las formas cambiantes de los tejidos hacen que esta tarea sea difícil.
Solución Propuesta
Para abordar estos desafíos, hemos desarrollado un método para endoscopios estereoscópicos. Este método estima la profundidad y cómo la cámara ve el movimiento para mejorar el cálculo de dónde se encuentra la cámara. Un elemento clave de nuestro enfoque es el uso de mapeos de peso aprendidos que se ajustan según lo que está sucediendo en la imagen. Esto significa que el sistema puede prestar más atención a ciertas partes de la imagen que son más importantes para obtener resultados precisos.
Entrenamos nuestro sistema usando una Red Declarativa Profunda (DDN). Esto permite que nuestro método combine los beneficios del aprendizaje profundo con un enfoque fuerte de optimización geométrica, haciéndolo tanto expresivo como robusto. Probamos nuestro método en un conjunto de datos conocido llamado SCARED y creamos un nuevo conjunto de datos llamado StereoMIS para incluir una variedad de situaciones quirúrgicas.
Resultados
Nuestro método mostró un mejor rendimiento en comparación con los métodos existentes, especialmente en condiciones difíciles donde los tejidos estaban cambiando de forma y los órganos se movían al respirar. Nuestros mapeos de peso ayudaron a reducir el efecto de áreas confusas en las imágenes, como aquellas con tejidos deformados.
Importancia de la Estimación de la Posición de la Cámara
La estimación de la posición de la cámara es un problema bien conocido en la visión por computadora que juega un papel crucial en los sistemas robóticos médicos. Se han propuesto muchos métodos para abordar este problema, enfocándose principalmente en técnicas llamadas SLAM (Localización y Mapeo Simultáneo) y Odometría Visual (VO). Estas técnicas ayudan a crear un mapa de un área mientras también rastrean la ubicación de la cámara.
Mientras que los métodos tradicionales de SLAM han funcionado bien en entornos estables, luchan en configuraciones dinámicas como las cirugías mínimamente invasivas, donde los tejidos se deforman y los movimientos pueden oscurecer las vistas. Nuestro trabajo se centra en resolver el problema de la estimación de la posición específicamente en sistemas endoscópicos estereoscópicos para mejorar la confiabilidad.
El Método Explicado
Nuestro enfoque utiliza Cámaras Estéreo para recopilar información de profundidad basada en la forma en que las imágenes difieren cuando se toman desde ángulos ligeramente diferentes. Esto ayuda a estimar cómo están posicionados los objetos en tres dimensiones. A diferencia de algunos métodos que suponen que los tejidos permanecen lisos e inalterados, nuestra técnica no hace esas suposiciones. En su lugar, diseñamos un método que puede manejar las deformaciones de los tejidos y la naturaleza complicada de las escenas quirúrgicas.
En el corazón de nuestro método hay dos estrategias clave. La primera es optimizar la posición real de la cámara basada en información geométrica. Observamos cómo los puntos en el espacio 3D se alinean entre sí para ayudarnos a entender cómo debería moverse la cámara. La segunda parte incluye usar mapas de peso que permiten ajustes de acuerdo a los datos de la imagen, enfocándose específicamente en las partes confiables de las imágenes para mejorar la precisión.
Aprendiendo Mapas de Peso Adaptativos
Para desarrollar más nuestro método, aprendimos cómo crear estos mapas de peso entrenando una red separada. Esta red toma elementos de las imágenes usadas para estimar el movimiento y ajusta los pesos para mejorar la estimación de la posición. Este entrenamiento asegura que nuestro sistema pueda aprender qué partes de la imagen son las más importantes, especialmente cuando los tejidos están en movimiento o en situaciones ambiguas.
Conjuntos de Datos para Validación
Evaluamos nuestro trabajo usando dos conjuntos de datos principales. El conjunto de datos SCARED consiste en videos capturados en entornos controlados sin perturbaciones por respiración o instrumentos. Dividimos este conjunto de datos en secuencias de entrenamiento y prueba para evaluar a fondo nuestro método.
Además, introdujimos el conjunto de datos StereoMIS, que incluye escenarios más complejos que involucran movimientos por respiración, deformación de tejidos e interacciones de instrumentos quirúrgicos. Este conjunto de datos captura una gama más amplia de situaciones que pueden ocurrir durante cirugías reales, permitiéndonos probar nuestro método en condiciones realistas.
Segmentación de Instrumentos Quirúrgicos
Para mejorar la calidad de nuestros resultados, aislamos los píxeles que representan instrumentos quirúrgicos en las imágenes. Esto ayuda a asegurarnos de que nuestros cálculos no se vean afectados por la presencia de herramientas quirúrgicas. Para esto, empleamos un enfoque de aprendizaje profundo para generar máscaras para cada cuadro, excluyendo cualquier distracción causada por reflejos o la presencia de instrumentos.
Procedimiento de Entrenamiento y Prueba
Para el entrenamiento, categorizamos los cuadros de nuestros conjuntos de datos en cuadros "en movimiento" y "estáticos" según el movimiento de la cámara. Aseguramos un equilibrio entre ambos tipos de cuadros y seleccionamos aleatoriamente una cantidad fija de ellos para el proceso de entrenamiento. Cada par de cuadros usó los movimientos reales de la cámara como datos de referencia, asegurando que las entradas a nuestro sistema de aprendizaje fueran relevantes.
Durante la prueba, redimensionamos las imágenes a una resolución más pequeña para un procesamiento más rápido. También empleamos técnicas que ayudan a mejorar el rendimiento mientras mantenemos las demandas computacionales manejables.
Métricas para Evaluación
Para evaluar nuestro enfoque, usamos métricas de rendimiento específicas que miden el error de trayectoria y los cambios de posición relativos. Estas métricas nos ayudan a entender qué tan bien funciona nuestro método en comparación con los enfoques existentes, observando tanto el movimiento general como los cambios de posición cuadro a cuadro.
Dado que no hay técnicas actuales de SLAM estéreo específicas para cirugía mínimamente invasiva disponibles para uso público, comparamos nuestro método con dos enfoques de SLAM rígido bien conocidos. Esta comparación nos proporcionó información sobre cómo se posiciona nuestro método frente a las mejores opciones disponibles.
Rendimiento en Varios Escenarios
Probamos nuestro método en diferentes escenarios usando el conjunto de datos StereoMIS, enfocándonos en eventos de respiración, movimientos de escaneo y tejidos deformándose. Los resultados mostraron que nuestra técnica superó los métodos de referencia en todos los aspectos. En particular, nuestro enfoque fue especialmente efectivo en reconocer y ajustar los desafíos planteados por los tejidos en movimiento y las actividades respiratorias.
Conclusiones Generales
A través de nuestras extensas pruebas, encontramos que nuestro método no solo estima las posiciones de la cámara de forma más precisa que los métodos existentes, sino que también se adapta bien a situaciones difíciles durante las cirugías. La integración de mapas de peso adaptativos jugó un papel significativo en ayudarnos a lograr estos resultados.
Nuestros hallazgos destacan la importancia de equilibrar las contribuciones de diferentes aspectos de las imágenes, particularmente cuando los tejidos se están deformando o cuando hay movimientos significativos.
Direcciones Futuras
A medida que miramos hacia adelante, aún hay desafíos que superar, especialmente en lo que respecta al deslizamiento y la compensación por los movimientos causados por la respiración. Nuestro objetivo es seguir refinando nuestros métodos para hacer que la estimación de la posición sea más robusta y confiable durante las cirugías.
Al enfocarnos en estas áreas, creemos que nuestras contribuciones seguirán teniendo un impacto positivo en la comprensión de las escenas quirúrgicas y mejorarán las capacidades de las técnicas quirúrgicas mínimamente invasivas.
Conclusión
En conclusión, presentamos un método para la estimación robusta de la posición de la cámara en cirugía endoscópica. Al aprender a adaptar mapas de peso para cálculos geométricos, nuestro enfoque mejoró notablemente el rendimiento en situaciones desafiantes, incluyendo aquellas con deformaciones significativas de los tejidos y movimientos de respiración. Nuestro trabajo no solo avanza el estado actual en la comprensión de escenas quirúrgicas, sino que también sienta las bases para futuros desarrollos en esta área esencial de la tecnología médica.
Título: Learning How To Robustly Estimate Camera Pose in Endoscopic Videos
Resumen: Purpose: Surgical scene understanding plays a critical role in the technology stack of tomorrow's intervention-assisting systems in endoscopic surgeries. For this, tracking the endoscope pose is a key component, but remains challenging due to illumination conditions, deforming tissues and the breathing motion of organs. Method: We propose a solution for stereo endoscopes that estimates depth and optical flow to minimize two geometric losses for camera pose estimation. Most importantly, we introduce two learned adaptive per-pixel weight mappings that balance contributions according to the input image content. To do so, we train a Deep Declarative Network to take advantage of the expressiveness of deep-learning and the robustness of a novel geometric-based optimization approach. We validate our approach on the publicly available SCARED dataset and introduce a new in-vivo dataset, StereoMIS, which includes a wider spectrum of typically observed surgical settings. Results: Our method outperforms state-of-the-art methods on average and more importantly, in difficult scenarios where tissue deformations and breathing motion are visible. We observed that our proposed weight mappings attenuate the contribution of pixels on ambiguous regions of the images, such as deforming tissues. Conclusion: We demonstrate the effectiveness of our solution to robustly estimate the camera pose in challenging endoscopic surgical scenes. Our contributions can be used to improve related tasks like simultaneous localization and mapping (SLAM) or 3D reconstruction, therefore advancing surgical scene understanding in minimally-invasive surgery.
Autores: Michel Hayoz, Christopher Hahne, Mathias Gallardo, Daniel Candinas, Thomas Kurmann, Maximilian Allan, Raphael Sznitman
Última actualización: 2023-04-17 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2304.08023
Fuente PDF: https://arxiv.org/pdf/2304.08023
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.