内視鏡手術におけるカメラ位置推定の改善
新しい方法が、難しい手術中のカメラ位置の追跡を向上させる。
― 1 分で読む
目次
内視鏡手術の世界では、手術シーンを理解することがすごく大事なんだ。この理解が進むことで、手術中に役立つシステムを作るのに繋がるんだよ。これらの手術での主な課題の一つは、内視鏡の正確な位置や角度を知ること。でも、照明条件や、呼吸による臓器の動き、組織の形の変化なんかがあって、これが難しいんだ。
提案された解決策
これらの課題を解決するために、ステレオ内視鏡の方法を開発したんだ。この方法は、深さやカメラが動きをどう見るかを推定して、カメラの位置をより正確に計算するのを助けるんだ。私たちのアプローチの重要な要素は、画像で起こっていることに応じて調整される学習された重みマッピングの使用なんだ。これによって、システムは正確な結果を出すために重要な画像の特定の部分にもっと注意を払える。
私たちは、Deep Declarative Network (DDN)を使用してシステムを訓練したよ。これにより、私たちの方法はディープラーニングの利点と強力な幾何学的最適化アプローチを組み合わせて、表現力豊かで頑健になったんだ。私たちは、有名なデータセットSCAREDで方法をテストし、様々な手術シーンを含む新しいデータセットStereoMISを作ったんだ。
結果
私たちの方法は、特に組織が形を変えて呼吸によって臓器が動くような厳しい条件下で、既存の方法と比べて優れたパフォーマンスを示したよ。私たちの重みマッピングは、変形する組織がある画像の混乱するエリアの影響を減らすのに役立ったんだ。
カメラポーズ推定の重要性
カメラポーズ推定はコンピュータビジョンの中でよく知られている問題で、医療ロボットシステムにおいて重要な役割を果たすんだ。SLAM(同時位置特定とマッピング)や視覚オドメトリ(VO)という技術に焦点を当てた、多くの方法が提案されているよ。これらの技術は、カメラの位置を追跡しながら、エリアの地図を作成するのに役立つんだ。
従来のSLAMの方法は安定した環境ではうまくいくけど、ごく少ない侵襲手術のような動的な環境では苦労するんだ。組織が変形したり動きが視界を妨げたりするからね。私たちの仕事は、特にステレオ内視鏡システムにおけるポーズ推定の問題を解決して信頼性を高めることに焦点を当てているよ。
方法の説明
私たちのアプローチは、少し異なる角度から撮影された画像の違いに基づいて深さ情報を集めるためにステレオカメラを使用するよ。これにより、物体が3次元でどのように配置されているかを推定できるんだ。一部の方法が組織が滑らかで変わらないと仮定するのとは違って、私たちの技術はその仮定をしないんだ。代わりに、組織の変形や手術シーンの複雑な性質を扱える方法を設計したんだ。
私たちの方法の中心には、2つの主要な戦略があるよ。1つ目は幾何学的情報に基づいて実際のカメラポーズを最適化すること。3D空間の点がどのように整列しているかを見て、カメラがどう動くべきかを理解するんだ。2つ目には、画像データに応じて調整を可能にする重みマップを使用して、特に信頼性のある画像の部分に焦点を当てて精度を向上させることが含まれているよ。
適応重みマップの学習
私たちの方法をさらに発展させるために、別のネットワークを使ってこれらの重みマップを作成する方法を学んだんだ。このネットワークは、動きを推定するために使われた画像の要素を取得して、ポーズ推定を改善するために重みを調整するんだ。この訓練のおかげで、私たちのシステムは、特に組織が動いていたり不明瞭な状況にあるときに、画像のどの部分が最も重要かを学ぶことができるんだ。
検証のためのデータセット
私たちは、主に2つのデータセットを使用して作業を評価したよ。SCAREDデータセットは、呼吸や器具の干渉がない制御された設定でキャプチャされた動画で構成されているんだ。このデータセットを訓練部分とテスト部分に分けて、私たちの方法を徹底的に評価したんだ。
さらに、呼吸による動き、組織変形、手術器具との相互作用を含むより複雑なシナリオを含むStereoMISデータセットを導入したんだ。このデータセットは、実際の手術中に発生する可能性のある広範な状況をキャプチャしていて、現実的な条件で私たちの方法をテストできるようにしているんだ。
手術器具のセグメンテーション
結果の質を向上させるために、画像内の手術器具を表すピクセルを分離したんだ。これにより、手術道具の存在により計算が影響されないようにするんだ。これを実現するために、深層学習のアプローチを用いて、各フレームに対してマスクを生成し、反射や器具の存在による気を散らすものを除外したんだ。
訓練とテストの手順
訓練のために、データセットのフレームをカメラの動きに基づいて「動いている」フレームと「静的」フレームに分類したよ。両方のタイプのフレームのバランスを取り、訓練プロセスのためにランダムにいくつか選んだんだ。すべてのフレームペアでは、実際のカメラの動きを参照データとして使用して、学習システムへの入力が関連性があるようにしたんだ。
テスト中に、画像を小さな解像度にリサイズして処理を早くしたよ。また、計算の要求を管理可能に保ちながら、パフォーマンスを向上させるのに役立つ技術を使ったんだ。
評価のための指標
私たちのアプローチを評価するために、軌跡の誤差や相対的なポーズの変化を測定する特定のパフォーマンス指標を使用したよ。これらの指標は、全体的な動きやフレーム間の位置変化を見て、私たちの方法が既存のアプローチと比べてどれだけうまく機能しているかを理解するのに役立つんだ。
現在、公開されている最小侵襲手術用のステレオSLAM技術がないため、私たちの方法を2つの有名な剛体SLAMアプローチと比較したよ。この比較により、私たちの方法が最良の選択肢に対してどのように評価されるかの洞察が得られたんだ。
さまざまなシナリオでのパフォーマンス
StereoMISデータセットを使って、私たちの方法を呼吸イベント、スキャン動作、変形する組織に焦点を当ててテストしたよ。結果は、私たちの技術が基準となる方法を全体的に上回っていることを示したんだ。特に、動く組織や呼吸活動によって引き起こされる課題を認識し、調整するのに特に効果的だったよ。
全体の発見
広範なテストを通じて、私たちの方法は、既存の方法よりもカメラポーズをより正確に推定できるだけでなく、手術中の難しい状況にも適応できることがわかったよ。適応重みマップの統合が、これらの結果を達成するために重要な役割を果たしたんだ。
私たちの発見は、特に組織が変形したり、大きな動きがあるときに、画像の異なる側面からの寄与をバランスよく調整することの重要性を強調しているよ。
今後の方向性
今後を見据えると、特にドリフトの問題や呼吸による動きの補正に関する課題が残っているんだ。私たちの目的は、手術中のポーズ推定をより堅牢で信頼性のあるものにするために、方法を引き続き改良していくことなんだ。
こうした分野に焦点を当てることで、私たちの貢献が手術シーン理解にポジティブな影響を与え、最小侵襲手術技術の能力を高めると信じているよ。
結論
結論として、私たちは内視鏡手術における堅牢なカメラポーズ推定のための方法を提案したよ。幾何学的計算のために重みマップを適応させることを学ぶことで、私たちのアプローチは、特に重要な組織の変形や呼吸動作があるような困難な状況でパフォーマンスが大幅に向上したんだ。私たちの仕事は手術シーン理解の現在の状態を進めるだけでなく、この重要な医療技術の分野での今後の発展の基盤を築いたんだ。
タイトル: Learning How To Robustly Estimate Camera Pose in Endoscopic Videos
概要: Purpose: Surgical scene understanding plays a critical role in the technology stack of tomorrow's intervention-assisting systems in endoscopic surgeries. For this, tracking the endoscope pose is a key component, but remains challenging due to illumination conditions, deforming tissues and the breathing motion of organs. Method: We propose a solution for stereo endoscopes that estimates depth and optical flow to minimize two geometric losses for camera pose estimation. Most importantly, we introduce two learned adaptive per-pixel weight mappings that balance contributions according to the input image content. To do so, we train a Deep Declarative Network to take advantage of the expressiveness of deep-learning and the robustness of a novel geometric-based optimization approach. We validate our approach on the publicly available SCARED dataset and introduce a new in-vivo dataset, StereoMIS, which includes a wider spectrum of typically observed surgical settings. Results: Our method outperforms state-of-the-art methods on average and more importantly, in difficult scenarios where tissue deformations and breathing motion are visible. We observed that our proposed weight mappings attenuate the contribution of pixels on ambiguous regions of the images, such as deforming tissues. Conclusion: We demonstrate the effectiveness of our solution to robustly estimate the camera pose in challenging endoscopic surgical scenes. Our contributions can be used to improve related tasks like simultaneous localization and mapping (SLAM) or 3D reconstruction, therefore advancing surgical scene understanding in minimally-invasive surgery.
著者: Michel Hayoz, Christopher Hahne, Mathias Gallardo, Daniel Candinas, Thomas Kurmann, Maximilian Allan, Raphael Sznitman
最終更新: 2023-04-17 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2304.08023
ソースPDF: https://arxiv.org/pdf/2304.08023
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。