Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Amélioration de l'estimation de la pose de la caméra en chirurgie endoscopique

Une nouvelle méthode améliore le suivi de la position de la caméra pendant les procédures chirurgicales difficiles.

― 8 min lire


Méthode de suivi de poseMéthode de suivi de posepour la chirurgieendoscopiquechirurgies.suivi des caméras pendant lesUne approche solide pour améliorer le
Table des matières

Dans le monde de la chirurgie endoscopique, comprendre la scène chirurgicale est super important. Cette compréhension aide à créer de meilleurs systèmes pour assister pendant les opérations. Un des principaux défis dans ces chirurgies, c'est de connaître la position exacte et l'angle de l'endoscope. Mais des trucs comme les conditions d'éclairage, les mouvements des organes quand ils respirent, et les formes changeantes des tissus rendent cette tâche difficile.

Solution Proposée

Pour faire face à ces défis, on a développé une méthode pour les endoscopes stéréo. Cette méthode estime la profondeur et comment la caméra voit le mouvement pour améliorer le calcul de sa position. Un élément clé de notre approche, c'est l'utilisation de mappages de poids appris qui s'ajustent selon ce qui se passe dans l'image. Ça veut dire que le système peut prêter plus attention à certaines parties de l'image qui sont plus importantes pour avoir des résultats précis.

On a entraîné notre système avec un Réseau Déclaratif Profond (DDN). Ça permet à notre méthode de combiner les avantages de l'apprentissage profond avec une approche de optimisation géométrique solide, rendant le tout expressif et robuste. On a testé notre méthode sur un dataset bien connu appelé SCARED et créé un nouveau dataset nommé StereoMIS pour inclure une variété de situations chirurgicales.

Résultats

Notre méthode a montré de meilleures performances par rapport aux méthodes existantes, surtout dans des conditions difficiles où les tissus changeaient de forme et les organes bougeaient avec la respiration. Nos mappages de poids ont aidé à réduire l'effet des zones confus dans les images, comme celles avec des tissus déformés.

Importance de l'Estimation de la pose de la caméra

L'estimation de la pose de la caméra est un problème connu en vision par ordinateur qui joue un rôle crucial dans les systèmes robotiques médicaux. Beaucoup de méthodes ont été proposées pour traiter ce problème, en se concentrant principalement sur des techniques appelées SLAM (Localisation et Cartographie Simultanées) et Odométrie Visuelle (VO). Ces techniques aident à créer une carte d'une zone tout en suivant la position de la caméra.

Alors que les méthodes SLAM traditionnelles ont bien fonctionné dans des environnements stables, elles galèrent dans des contextes dynamiques comme les chirurgies mini-invasives, où les tissus se déforment et les mouvements peuvent obscurcir les vues. Notre travail se concentre sur la résolution du problème d'estimation de la pose spécifiquement dans les systèmes endoscopiques stéréo pour améliorer la fiabilité.

Méthode Expliquée

Notre approche utilise des Caméras stéréo pour recueillir des informations de profondeur basées sur la façon dont les images diffèrent lorsqu'elles sont prises sous des angles légèrement différents. Ça aide à estimer comment les objets sont positionnés en trois dimensions. Contrairement à certaines méthodes qui supposent que les tissus restent lisses et inchangés, notre technique ne fait pas ces hypothèses. Au lieu de ça, on a conçu une méthode qui peut gérer les déformations des tissus et la nature compliquée des scènes chirurgicales.

Au cœur de notre méthode, il y a deux stratégies clés. La première est d'optimiser la pose réelle de la caméra basée sur des informations géométriques. On regarde comment les points dans l'espace 3D s'alignent entre eux pour nous aider à comprendre comment la caméra devrait se déplacer. La deuxième partie inclut l'utilisation de cartes de poids qui permettent des ajustements selon les données de l'image, se concentrant spécifiquement sur les parties fiables des images pour améliorer la précision.

Apprentissage des Cartes de Poids Adaptatives

Pour développer notre méthode, on a appris à créer ces cartes de poids en entraînant un réseau séparé. Ce réseau prend des éléments des images utilisées pour estimer le mouvement et ajuste les poids pour améliorer l'estimation de la pose. Cet entraînement assure que notre système peut apprendre quelles parties de l'image comptent le plus, surtout quand les tissus bougent ou dans des situations ambiguës.

Datasets pour Validation

On a évalué notre travail en utilisant deux principaux datasets. Le dataset SCARED se compose de vidéos capturées dans des environnements contrôlés sans perturbations de respiration ou d'instruments. On a divisé ce dataset en séquences d'entraînement et de test pour évaluer notre méthode en profondeur.

En plus, on a introduit le dataset StereoMIS, qui inclut des scénarios plus complexes impliquant des mouvements de respiration, des déformations de tissus, et des interactions avec des instruments chirurgicaux. Ce dataset capte une gamme plus large de situations qui peuvent se produire lors de vraies chirurgies, nous permettant de tester notre méthode dans des conditions réalistes.

Segmentation des Instruments Chirurgicaux

Pour améliorer la qualité de nos résultats, on a isolé les pixels qui représentent les instruments chirurgicaux dans les images. Ça aide à s'assurer que nos calculs ne sont pas affectés par la présence d'outils chirurgicaux. Pour ça, on a utilisé une approche d'apprentissage profond pour générer des masques pour chaque image, excluant toute distraction causée par des réflexions ou la présence d'instruments.

Procédure d'Entraînement et de Test

Pour l'entraînement, on a catégorisé les images de nos datasets en images "mobiles" et "statiques" basées sur le mouvement de la caméra. On s'est assuré d'un équilibre entre les deux types d'images et on a sélectionné un nombre fixé d'elles pour le processus d'entraînement. Chaque paire d'images utilisait les mouvements réels de la caméra comme données de référence, s'assurant que les entrées pour notre système d'apprentissage étaient pertinentes.

Pendant le test, on a redimensionné les images à une résolution plus petite pour un traitement plus rapide. On a aussi utilisé des techniques qui aident à améliorer les performances tout en gardant les exigences de calcul gérables.

Métriques pour l'Évaluation

Pour évaluer notre approche, on a utilisé des métriques de performance spécifiques qui mesurent l'erreur de trajectoire et les changements de pose relatifs. Ces métriques nous aident à comprendre à quel point notre méthode performe par rapport aux approches existantes en regardant à la fois le mouvement global et les changements de position image par image.

Étant donné qu'il n'y a pas de techniques SLAM stéréo actuelles ciblées pour la chirurgie mini-invasive disponibles au public, on a comparé notre méthode à deux approches SLAM rigides bien connues. Cette comparaison a fourni un aperçu de la manière dont notre méthode se positionne par rapport aux meilleures options disponibles.

Performance dans Divers Scénarios

On a testé notre méthode dans différents scénarios en utilisant le dataset StereoMIS, en se concentrant sur les événements de respiration, les mouvements de balayage, et les tissus déformants. Les résultats ont montré que notre technique surpassait les méthodes de référence dans tous les domaines. Notamment, notre approche était particulièrement efficace pour reconnaître et s'ajuster aux défis posés par les tissus en mouvement et les activités respiratoires.

Conclusions Globales

À travers nos tests extensifs, on trouve que notre méthode non seulement estime les poses de caméra plus précisément que les méthodes existantes mais s'adapte aussi bien aux situations difficiles pendant les chirurgies. L'intégration de cartes de poids adaptatives a joué un rôle significatif pour nous aider à atteindre ces résultats.

Nos résultats soulignent l'importance d'équilibrer les contributions des différents aspects des images, surtout quand les tissus se déforment ou qu'il y a des mouvements significatifs.

Directions Futures

En regardant vers l'avenir, il reste encore des défis à surmonter, notamment en ce qui concerne la dérive et la compensation des mouvements causés par la respiration. Notre objectif est de continuer à affiner nos méthodes pour rendre l'estimation de la pose plus robuste et fiable pendant les chirurgies.

En se concentrant sur ces domaines, on croit que nos contributions continueront à avoir un impact positif sur la compréhension des scènes chirurgicales et à améliorer les capacités des techniques chirurgicales mini-invasives.

Conclusion

En conclusion, on a présenté une méthode pour l'estimation robuste de la pose de la caméra en chirurgie endoscopique. En apprenant à adapter les cartes de poids pour les calculs géométriques, notre approche a nettement amélioré les performances dans des situations difficiles, y compris celles avec des déformations importantes des tissus et des mouvements de respiration. Notre travail fait non seulement avancer l'état actuel dans la compréhension des scènes chirurgicales mais pose aussi les bases pour de futurs développements dans ce domaine essentiel de la technologie médicale.

Source originale

Titre: Learning How To Robustly Estimate Camera Pose in Endoscopic Videos

Résumé: Purpose: Surgical scene understanding plays a critical role in the technology stack of tomorrow's intervention-assisting systems in endoscopic surgeries. For this, tracking the endoscope pose is a key component, but remains challenging due to illumination conditions, deforming tissues and the breathing motion of organs. Method: We propose a solution for stereo endoscopes that estimates depth and optical flow to minimize two geometric losses for camera pose estimation. Most importantly, we introduce two learned adaptive per-pixel weight mappings that balance contributions according to the input image content. To do so, we train a Deep Declarative Network to take advantage of the expressiveness of deep-learning and the robustness of a novel geometric-based optimization approach. We validate our approach on the publicly available SCARED dataset and introduce a new in-vivo dataset, StereoMIS, which includes a wider spectrum of typically observed surgical settings. Results: Our method outperforms state-of-the-art methods on average and more importantly, in difficult scenarios where tissue deformations and breathing motion are visible. We observed that our proposed weight mappings attenuate the contribution of pixels on ambiguous regions of the images, such as deforming tissues. Conclusion: We demonstrate the effectiveness of our solution to robustly estimate the camera pose in challenging endoscopic surgical scenes. Our contributions can be used to improve related tasks like simultaneous localization and mapping (SLAM) or 3D reconstruction, therefore advancing surgical scene understanding in minimally-invasive surgery.

Auteurs: Michel Hayoz, Christopher Hahne, Mathias Gallardo, Daniel Candinas, Thomas Kurmann, Maximilian Allan, Raphael Sznitman

Dernière mise à jour: 2023-04-17 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2304.08023

Source PDF: https://arxiv.org/pdf/2304.08023

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires