Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# コンピュータビジョンとパターン認識

ボリュームフュージョンを使って3D医療画像セグメンテーションを改善する

新しいアプローチで注釈のないデータを使って医療画像のセグメンテーションが向上するよ。

― 1 分で読む


ボリュームフュージョンが医ボリュームフュージョンが医療画像を変えるーションを改善する。新しいモデルは高額な注釈なしでセグメンテ
目次

3D医療画像のセグメンテーションは、医者が診断や治療計画を立てるのに欠かせないんだ。このプロセスでは、医療スキャンの中で臓器や興味のあるエリアの周りに境界を作るんだ。最近、先進的なディープラーニングモデルがこの分野で素晴らしい結果を出してるけど、効果的にするためには多くのラベル付き画像が必要なんだ。医療画像にラベルを付けるのは時間がかかるし、お金もかかるから、特に珍しい病気や複雑なケースでは十分なトレーニングデータを集めるのが難しいんだ。

より良いセグメンテーションモデルの必要性

医療画像では、たくさんの良く注釈が付けられたトレーニング画像がディープラーニングモデルの性能を大きく向上させる。でも、珍しい病気やあまり使われない画像プロトコルを含む多くの医療タスクでは、広範なラベル付きデータセットを集めるのがほぼ不可能なんだ。この制約が自動セグメンテーションモデルの性能を下げてしまう。これを解決するために、研究者たちは大量の未注釈データを使ってモデルを事前訓練する方法に目を向けている。つまり、もっと手に入れやすいデータでモデルを訓練して、後で限られたラベル付き例に適用できるようにするってわけ。

自己教師あり学習

自己教師あり学習(SSL)は、注釈付きデータの不足を解決するための有望なアプローチとして注目されている。SSLは、手動での注釈を必要としないタスクを作ることで、未ラベル画像の大規模セットからパターンや特徴を学ぶことができる。これらのタスクは、画像の欠損部分を予測したり、コンテキストに基づいてセグメントを分類したりすることが含まれる。医療画像において、SSLはモデルがデータをよりよく理解するのを助け、特定のセグメンテーションタスクでのパフォーマンス向上につながるんだ。

新しいアプローチ:ボリュームフュージョン

ボリュームフュージョンという新しい方法を提案するよ。この方法では、広範なラベル付きデータセットがなくてもセグメンテーションモデルを訓練できるようなプレテキストタスクを作るんだ。モデルは融合画像の各ボクセル(3Dピクセル)に対して特定のカテゴリを予測することを学ぶんだ。これによって、手動でのラベリングなしでモデルを訓練できるようになる。

ボリュームフュージョンの仕組み

ボリュームフュージョンでは、3D医療画像の2つの異なるサブボリューム(小さなセクション)を取るんだ。一方のサブボリュームは臓器の一部(前景)を表し、もう一方は背景を表す。モデルはこれら2つの画像を混ぜ合わせて、どのようにブレンドするかを定義するための係数を使う。モデルの目標は、各ボクセルの係数を予測することで、タスクをセグメンテーションの仕事として扱うんだ。この革新的なアプローチは、手動の注釈が不要になり、未注釈画像での大規模事前訓練を可能にする。

従来の方法に対する利点

  1. 自動ラベリング:従来の方法が手動の注釈に依存するのとは違って、ボリュームフュージョンは自動的にペア画像とラベルを生成する。これで、未注釈画像を大量にトレーニングに使うのが楽になる。

  2. フルモデル訓練:ボリュームフュージョンはセグメンテーションモデルのエンコーダーとデコーダーを同時に事前訓練する。つまり、モデル全体が事前訓練プロセスの恩恵を受けて、より良い特徴学習ができるってわけ。

  3. タスクミスマッチの軽減:プレテキストタスクは、ダウンストリームタスクに非常に近いので、モデルが事前訓練中に学ぶことと、実際のセグメンテーションタスクで必要なこととのギャップを最小限に抑えられるんだ。

PCT-Netモデル

ボリュームフュージョンを最大限に活用するために、Parallel Convolution and Transformer Network(PCT-Net)という新しいモデルアーキテクチャも紹介するよ。このモデルは、異なるタイプのレイヤーを組み合わせて、局所的な特徴と長距離の特徴の両方を学習できるから、複雑な医療画像タスクに適しているんだ。

PCT-Netの構造

PCT-Netは3つの主要な部分で構成されている:

  1. 特徴埋め込みモジュール:この部分は、異なる解像度で入力画像から特徴を抽出して、モデルが重要な詳細をキャッチできるようにする。

  2. ピラミッド平行畳み込みおよびトランスフォーマーモジュール:このモジュールは、畳み込み層とトランスフォーマーブロックの組み合わせを使って、細かい局所的な詳細と広い文脈情報の両方を学習する。

  3. 予測ヘッド:最後に、この部分がセグメンテーション出力を生成して、異なる解像度レベルからの情報を組み合わせて正確な結果を保証する。

事前訓練のためのデータ収集

効果的な事前訓練のために、さまざまなソースから3D CTスキャンの大規模データセットを集めて、110,000枚以上の画像を集めた。このデータには、異なる体の部分のスキャンが含まれていて、モデルのトレーニングに多様な表現を保証する。

ダウンストリームセグメンテーションタスク

事前訓練が完了したら、さまざまなセグメンテーションタスクにモデルを適用できる:

  1. 頭と首のセグメンテーション:これは、放射線治療計画のために重要な構造を特定すること、例えば重要な臓器や組織を見つけることを含む。

  2. 胸部臓器のセグメンテーション:ここでは、モデルが心臓や肺のような臓器をセグメント化することに焦点を当て、呼吸器疾患や心臓評価のために重要なんだ。

  3. 腹部臓器のセグメンテーション:このタスクには、腹部の複数の臓器を特定することが含まれていて、これは多くの医療診断にとって重要なんだ。

実験と結果

ボリュームフュージョンで訓練した後、PCT-Netモデルをさまざまなダウンストリームタスクで評価した。その結果、モデルは他の方法を大幅に上回ったことで、医療画像におけるセグメンテーションタスクの新しいベンチマークを確立した。

評価指標

セグメンテーションモデルの性能を評価するために、主に2つの指標を使用した:

  1. ダイス類似度係数:この指標は、予測されたセグメンテーションと実際の真実との重なりを測定する。高いダイススコアは、より良いパフォーマンスを示す。

  2. 平均対称表面距離:この指標は、予測された境界が実際の境界にどれだけ近いかを評価する。値が低いほど、正確性が高いことを意味する。

異なるデータセットでのパフォーマンス

テストの結果、PCT-Netはすべてのダウンストリームタスクで優れた性能を示した:

  1. 頭と首のデータセット:モデルは、82%以上の平均ダイススコアを達成し、既存のネットワークを上回った。

  2. 胸部臓器:PCT-Netは89%以上のダイススコアを記録し、その優れたセグメンテーション能力を確固たるものにした。

  3. 腹部臓器:モデルは再び強力な性能を示し、特に小さな構造の特定に優れていた。

既存の方法との比較

提案した方法は、従来の方法で訓練されたさまざまな最先端セグメンテーションモデルと比較された。その結果、ボリュームフュージョンアプローチが、特に難しいケースでのセグメンテーションの結果を改善することが明らかになった。

モデルの効果

セグメンテーション性能が向上しているだけでなく、ボリュームフュージョンのアプローチは未注釈データの利用効率も高いんだ。だから、医療画像タスクにとって魅力的なソリューションになる。

結論

提案したボリュームフュージョンの方法とPCT-Netのアーキテクチャは、3D医療画像のセグメンテーションに新しい力強いアプローチを提供する。大規模な未注釈データセットを活用することで、コストがかかり、時間がかかる注釈なしで非常に効果的なモデルを訓練できるんだ。実験結果はこの戦略の有効性を確認していて、自動医療画像分析の進展への道を開くものになっている。

将来的には、さらに多様な医療画像タスクにモデルを適用し、さまざまなモダリティの統合を探求したいと思っている。この取り組みは、医療画像セグメンテーションの精度と効率を向上させ、最終的には患者の結果を良くするための重要な一歩になる。

オリジナルソース

タイトル: MIS-FM: 3D Medical Image Segmentation using Foundation Models Pretrained on a Large-Scale Unannotated Dataset

概要: Pretraining with large-scale 3D volumes has a potential for improving the segmentation performance on a target medical image dataset where the training images and annotations are limited. Due to the high cost of acquiring pixel-level segmentation annotations on the large-scale pretraining dataset, pretraining with unannotated images is highly desirable. In this work, we propose a novel self-supervised learning strategy named Volume Fusion (VF) for pretraining 3D segmentation models. It fuses several random patches from a foreground sub-volume to a background sub-volume based on a predefined set of discrete fusion coefficients, and forces the model to predict the fusion coefficient of each voxel, which is formulated as a self-supervised segmentation task without manual annotations. Additionally, we propose a novel network architecture based on parallel convolution and transformer blocks that is suitable to be transferred to different downstream segmentation tasks with various scales of organs and lesions. The proposed model was pretrained with 110k unannotated 3D CT volumes, and experiments with different downstream segmentation targets including head and neck organs, thoracic/abdominal organs showed that our pretrained model largely outperformed training from scratch and several state-of-the-art self-supervised training methods and segmentation models. The code and pretrained model are available at https://github.com/openmedlab/MIS-FM.

著者: Guotai Wang, Jianghao Wu, Xiangde Luo, Xinglong Liu, Kang Li, Shaoting Zhang

最終更新: 2023-06-29 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2306.16925

ソースPDF: https://arxiv.org/pdf/2306.16925

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

コンピュータビジョンとパターン認識不確実性を考慮した方法で医療画像のセグメンテーションを適応させる

新しいアプローチが、さまざまなソースでの医療画像のセグメンテーションを向上させる。

― 1 分で読む

類似の記事