Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# コンピュータビジョンとパターン認識

SurgToolLoc 2022: 外科用工具検出の進展

ロボット手術の動画で手術道具を追跡する方法を見てみる。

― 1 分で読む


SurgToolLocSurgToolLoc2022チャレンジのインサイト動画で外科用器具を検出する新しい方法。
目次

内視鏡動画で手術道具を追跡することは、手術の手順を改善できるんだ。これにより、手術スキルの評価や機器の管理、手術の計画がより効果的に行えるようになる。でも、自動でこれらの道具を特定し追跡するシステムを訓練するのは、各動画フレームに道具の位置を注釈付けする手間がかかるから、チャレンジングなんだ。

注釈の課題

機械学習システムを訓練するには、大量のラベル付きデータが必要なんだ。つまり、注釈者は各動画のすべてのフレームをチェックして道具の周りにボックスを描かなきゃいけない。このプロセスは時間がかかり、特にさまざまなタイプの手術道具や動画クリップが関与しているので、特に面倒くさい。手術道具の動作を理解している注釈者が必要というのも、さらにこの課題を複雑にしている。

ロボット支援手術

ロボット支援手術は一般的になってきて、動画記録やロボットシステムからの道具やイベントに関する情報など、豊富なデータソースを提供してる。このデータは手術パフォーマンスを分析し改善するのに大きな可能性を持っている。でも、このデータから有用な注釈を得るのがボトルネックになってるんだ。

タイムスタンプを使った注釈

ロボット手術では、手術フィールドから道具が追加または取り除かれるときのタイムスタンプを収集できる。この情報に依存することで、動画フレームの注釈付けの負担を減らしつつ、機械学習モデルの訓練に必要なデータを集めることができるんだ。

SurgToolLoc 2022チャレンジ

これらの問題を踏まえて、SurgToolLoc 2022というチャレンジが手術データサイエンスコミュニティのために作られた。目的は、道具の存在データを弱いラベルとして使って、機械学習モデルを訓練し、動画フレームで手術道具を検出・特定すること。チャレンジは、手術器具の特定のための実用的なディープラーニングソリューションを見つけることを目指していた。

チャレンジの概要

チャレンジは、同じ問題に異なる角度から取り組むための2つの主要なカテゴリーがあった。最初のカテゴリーは、動画フレームにどの道具があるかを特定することに焦点を当てていた。2つ目のカテゴリーは、道具を特定するだけでなく、各フレーム内の道具の位置も示す必要があった。

チャレンジのデータ収集

データセットには、ロボット手術トレーニング演習からの24,695の動画クリップが含まれていた。各クリップは約30秒間で、ロボットのカメラからの映像をキャプチャしている。各動画クリップには、存在する道具を示すラベルがあったが、一部のラベルは欠落していたり、誤って割り当てられていた。

訓練データとテストデータ

訓練には、ノイズのある道具の存在ラベルと一緒に動画クリップが提供された。テストデータは、類似のトレーニング演習から収集された93の動画クリップで構成されていた。これらのクリップは、道具の存在ラベルとともに、フレーム内の道具の正確な位置を示す追加の注釈があった。

提出プロセス

チームは、信頼性のある結果を確保するために標準化された評価プロセスを通じてアルゴリズムを提出した。各チームは、提供された訓練データを使って独自のアプローチを開発し、主催者からのガイドラインに従う必要があった。

チームの参加

合計79チームがチャレンジに興味を示し、17チームが最初のカテゴリーを完了し、11チームが2つ目のカテゴリーで成功裏に提出した。チームは、さまざまな方法や戦略を用いてチャレンジに取り組んだ。

方法論とアプローチ

チーム HRI MV

HRI MVチームは、動画データの特性を使って、セマンティックセグメンテーションネットワークに統合されたオブジェクト追跡スキームを用いたアルゴリズムを開発した。彼らはフレームシーケンスから信頼できるラベルを選ぶために二重モデルクロスバリデーション法を使用した。

チーム HKMV

このチームは、2つの公開データセットに依存して、主要な訓練データセットを構築した。彼らはマスクラベルをバウンディングボックスに変換してオブジェクト検出モデルの訓練を行い、競技データからの画像を推測してデータセットを拡張することに焦点を当てた。

チーム NVIDIA

NVIDIAのチームは、チャレンジの弱い監視的性質に取り組むためのユニークなアプローチを利用した。彼らは最初に、3つのユニークな道具を持つフレームを特定し、ビデオレベルのラベルを適用することで、分類の偽陽性を避けた。

チーム ANL-Surg

ANL-Surgは、道具を認識するためにセグメンテーションモデルを使用し、道具の存在分類にはアンサンブルアプローチを採用した。さらに、道具の部分をセグメンテーションするための別のモデルと、それらの位置を予測するモデルも訓練した。

チーム HVRL

HVRLチームのアプローチは、道具の存在検出のためにマルチラベル分類モデルを訓練しつつ、弱い監視下でのローカリゼーションのためにGrad-CAM++を使用することだった。

チーム SK

チームSKは、弱い監視下でのローカリゼーションのために乗法特徴融合ネットワークを活用した。彼らは道具の存在を学習し、検出のサポートにクラスアクティベーションマップを使用することを目指した。

チーム VANDY-VISE

このチームは、動画フレーム間の相関に基づいて手術道具を特定するために、注意に基づく学習方法を採用した。彼らはマルチラベル分類を支援するために高度なモデルアーキテクチャを利用した。

チーム UKE

UKEチームは、自己監視的アプローチに焦点を当て、ビジョントランスフォーマーを持つ深い画像表現を活用し、その後に道具の存在検出とローカリゼーションのための機械学習分類器を使用した。

チーム CAMMA

CAMMAのアプローチは、ノイズの多いラベルにもかかわらず道具を効果的に特定するための空間的注意ネットワークを含んでいた。彼らのモデルは、より良い道具分類のために重要な特徴領域を強調するように設計されていた。

チーム Zero

チームZeroは、アンサンブルモデルが手術道具の検出を改善できるかどうかを探った。彼らはデータ処理のためのさまざまな方法を適用し、内在するノイズと不均衡を扱うためにデータを賢く分割した。

結果とパフォーマンス

カテゴリー1の結果

最初のカテゴリーでは、チーム全体が良いパフォーマンスを発揮した。道具の存在検出の平均F1スコアは満足のいくもので、多くのチームが0.7以上のスコアを達成した。この結果はデータの不均衡を考慮し、道具の出現頻度の違いを認識している。

カテゴリー2の結果

2つ目のカテゴリーでは、パフォーマンスがかなり難しかった。上位3チームだけが0.3 mAP以上の良い結果を出し、多くのチームが苦戦し、mAP値は0から0.1の範囲だった。これは、多くのモデルが道具を正確にローカライズするのに苦労していることを示している。

パフォーマンスからの洞察

最初のカテゴリーでの良好なパフォーマンスは、通常、2つ目のカテゴリーでのある程度の成功に結びつくことが多い。これは道具の存在の正確な表現がローカリゼーションにとって重要であることを示唆している。最も良いパフォーマンスを発揮したチームは、既存のデータセットを使用した事前訓練モデルに依存することが多かった。

結論

SurgToolLoc 2022チャレンジは、内視鏡動画における手術道具の検出とローカリゼーションを自動化することの複雑さを浮き彫りにした。ディープラーニングや機械学習が進歩しても、この問題は依然として大きく未解決のままで、特に弱い監視メソッドに依存する場合は難しい。

今後の方向性

チャレンジの結果は、訓練データの質を高め、新しい方法論を探求することで、より良いパフォーマンスが得られる可能性があることを示唆している。訓練データが一般に公開されたことで、この重要な手術データサイエンスの分野でさらなる研究と開発が期待されている。コミュニティは、このチャレンジの結果から学びながら、これらの課題に取り組み続けることを奨励している。

オリジナルソース

タイトル: Surgical tool classification and localization: results and methods from the MICCAI 2022 SurgToolLoc challenge

概要: The ability to automatically detect and track surgical instruments in endoscopic videos can enable transformational interventions. Assessing surgical performance and efficiency, identifying skilled tool use and choreography, and planning operational and logistical aspects of OR resources are just a few of the applications that could benefit. Unfortunately, obtaining the annotations needed to train machine learning models to identify and localize surgical tools is a difficult task. Annotating bounding boxes frame-by-frame is tedious and time-consuming, yet large amounts of data with a wide variety of surgical tools and surgeries must be captured for robust training. Moreover, ongoing annotator training is needed to stay up to date with surgical instrument innovation. In robotic-assisted surgery, however, potentially informative data like timestamps of instrument installation and removal can be programmatically harvested. The ability to rely on tool installation data alone would significantly reduce the workload to train robust tool-tracking models. With this motivation in mind we invited the surgical data science community to participate in the challenge, SurgToolLoc 2022. The goal was to leverage tool presence data as weak labels for machine learning models trained to detect tools and localize them in video frames with bounding boxes. We present the results of this challenge along with many of the team's efforts. We conclude by discussing these results in the broader context of machine learning and surgical data science. The training data used for this challenge consisting of 24,695 video clips with tool presence labels is also being released publicly and can be accessed at https://console.cloud.google.com/storage/browser/isi-surgtoolloc-2022.

著者: Aneeq Zia, Kiran Bhattacharyya, Xi Liu, Max Berniker, Ziheng Wang, Rogerio Nespolo, Satoshi Kondo, Satoshi Kasai, Kousuke Hirasawa, Bo Liu, David Austin, Yiheng Wang, Michal Futrega, Jean-Francois Puget, Zhenqiang Li, Yoichi Sato, Ryo Fujii, Ryo Hachiuma, Mana Masuda, Hideo Saito, An Wang, Mengya Xu, Mobarakol Islam, Long Bai, Winnie Pang, Hongliang Ren, Chinedu Nwoye, Luca Sestini, Nicolas Padoy, Maximilian Nielsen, Samuel Schüttler, Thilo Sentker, Hümeyra Husseini, Ivo Baltruschat, Rüdiger Schmitz, René Werner, Aleksandr Matsun, Mugariya Farooq, Numan Saaed, Jose Renato Restom Viera, Mohammad Yaqub, Neil Getty, Fangfang Xia, Zixuan Zhao, Xiaotian Duan, Xing Yao, Ange Lou, Hao Yang, Jintong Han, Jack Noble, Jie Ying Wu, Tamer Abdulbaki Alshirbaji, Nour Aldeen Jalal, Herag Arabian, Ning Ding, Knut Moeller, Weiliang Chen, Quan He, Muhammad Bilal, Taofeek Akinosho, Adnan Qayyum, Massimo Caputo, Hunaid Vohra, Michael Loizou, Anuoluwapo Ajayi, Ilhem Berrou, Faatihah Niyi-Odumosu, Lena Maier-Hein, Danail Stoyanov, Stefanie Speidel, Anthony Jarc

最終更新: 2023-05-31 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2305.07152

ソースPDF: https://arxiv.org/pdf/2305.07152

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事