全スライド画像を使ったがん診断の進展
ディープラーニングモデルは画像分析を通じてがんの予後改善に期待が持てる。
― 1 分で読む
がんは世界中で深刻な健康問題で、毎年約1000万人が亡くなっています。心臓病に次いで、死亡原因の第2位です。2040年までに年間約2990万件の新たながんの診断が予測されていて、それに伴って約1530万人が亡くなる見込みです。がんの種類によって、人々に与える影響はさまざまで、性別や地理的な要因が影響しています。最も一般的ながんには、乳がん、肺がん、大腸がん、直腸がんがあります。幸いなことに、早期に発見されれば多くの種類のがんは効果的に治療できるんです。
がん診断におけるホールスライド画像の役割
ホールスライド画像(WSI)は、がんの検出や早期診断に使われる先進的な画像です。これらの画像は組織サンプルの詳細なビューを提供し、より良い診断や治療計画が可能になります。深層学習法、つまり人工知能の一部は、これらの画像を分析するのに大きな可能性を示しています。がんの種類を特定したり、患者の予後を予測するのに役立つんです。
でも、WSIには課題もあります。解像度が非常に高くて、時には100,000 × 100,000ピクセルにも達し、ファイルサイズも数ギガバイトになることがあります。これが、かなりの計算リソースがないと分析しづらくしています。
画像分析の進展
最近の技術改善によって、組織サンプルをデジタルでスキャンできるようになり、画像の収集から注釈付けに焦点が移っています。自己教師あり学習や弱教師あり学習技術は、アノテーションされていない画像を使ってモデルを訓練する方法を提供し、アノテーションされた画像よりも入手が容易なことが多いです。このアプローチは、画像データセットの広範な手動ラベリングの必要を減らすのに役立ちます。
生存分析は統計学の一分野で、イベントまでの時間データを基に患者の予後を予測するのに役立ちます。WSIからの情報を使って、研究者は異なる患者に関連するがんのリスクを予測できるんです。組織病理画像と臨床データを組み合わせることで、予測や臨床的な判断が向上しますが、臨床データの収集は時間がかかることがあります。
この研究では、乳がん患者のWSIを使って生存結果を予測する際の異なる深層学習モデルの性能を見ました。WSIは大きすぎてニュートラルネットワークに直接入らないので、複数インスタンス学習(MIL)などの技術が使われます。この方法はWSIレベルから特徴ベクトルを作成するのに役立ち、様々なタスクにデータを使いやすくします。
以前の研究の分析
この分野の多くの研究では、人工知能が組織病理学にどのように役立つかを調べています。ある研究では、診断や予後のために重要な情報を引き出すために組織病理スライドをデジタル化する重要性が強調されました。深層学習は、腫瘍のグレーディングや分類などのタスクにますます利用されていますが、経済的および倫理的な課題もあります。
別のアプローチとしてHipoMapがあり、WSIを構造化画像に変換することで、分類指標を大幅に改善しました。乳がんのグレーディングに関しては、よく知られたアーキテクチャを使ったモデルが有望な結果を示しました。しかし、単一の病理医からのグレーディングの不一致のため、低および中程度の腫瘍グレードを区別するのが難しいという課題もありました。
別の研究では、肺がんサンプルの自動腫瘍認識に焦点を当て、患者の生存に関係する特徴を特定しました。WSIを使った生存予測のためのフレームワークも開発され、画像分析技術の進展が示されています。
WSIデータセットの作成における技術的な進展にもかかわらず、手動アノテーションは依然として時間がかかり、病理医からの正確な入力が必要です。自己教師あり学習のような技術は、大規模な未アノテーションデータセットを効率的に活用するのに役立ちます。
データセットと方法論
私たちの研究では、がんゲノムアトラスプログラムの乳がんコレクションから得たデータセットを使用しました。このデータセットには、100人の患者サンプルが含まれており、ストレージ容量は100GBを超えました。これらのサンプルの半分は生存した患者から、もう半分は亡くなった患者からのものでした。生存期間は0から244ヶ月まで大きく異なり、平均は32.5ヶ月でした。
WSIが大きすぎるため、256 × 256ピクセルの小さなパッチに分割しました。一部のパッチはほとんど組織が含まれておらず、スペースを節約するために廃棄されました。残りのパッチは、トレーニングプロセスのために一貫した入力サイズを確保するためにリサイズされました。
ネットワークアーキテクチャ
研究では、ネットワークセットアップにおいて3つの主要なコンポーネントを使用しました:事前訓練されたビジョンエンコーダー、アグリゲーターモジュール、およびリスク予測ヘッド。エンコーダーは入力パッチを処理し、特徴ベクトルを生成します。これらのベクトルは集約され、最も情報を提供している特徴が強化され、患者の結果のリスクスコアが得られます。
実験に使用されたシステムは強力なコンピュータセットアップがあり、大規模データセットの効果的な処理を可能にしました。kフォールド検証法がモデルの性能を評価するために用いられました。この技術は、結果が信頼できることを保証し、新しいデータに対するモデルの一般化能力を反映します。
実験結果
研究のために設計された3つの異なる事前訓練されたビジョンエンコーダーの性能を評価しました。結果は、患者の生存時間を予測するモデルの効果を測るために使われるCインデックスに基づいています。それぞれのエンコーダーには強みがありました。
UNIモデルは、大規模なデータで事前訓練されており、しっかりとしたCインデックススコアを獲得しました。Phikonモデルも広範なデータセットで訓練され、UNIよりわずかに優れた性能を示しましたが、パフォーマンスにはばらつきが見られました。ResNet18モデルは、組織病理画像で訓練されており、トランスフォーマerベースのモデルと比較してあまり良い結果を出しませんでした。
結論と今後の方向性
結果は、深層学習モデルがホールスライド画像の分析を通じてがんの予後に貢献する大きな可能性を持っていることを示しています。特にUNIとPhikonというトランスフォーマー型モデルは、従来のResNet18モデルに対して優れた性能を示しました。しかし、まだやるべきことがたくさんあります。Cインデックスのスコアは、これらのモデルが可能性を持っている一方で、さらなる改善と探求の余地があることを示しています。
今後の研究は、これらのモデルを異なるデータセットに適用したり、さまざまながんのタイプにおける効果を探ることに焦点を当てることができます。また、モデルを洗練させ、データ収集やアノテーションの方法を改善することで、分野の進展が期待でき、最終的にはがんケアにおける患者の結果をより良くすることにつながるでしょう。
タイトル: BENCHMARKING VISION ENCODERS FOR SURVIVAL ANALYSIS USING HISTOPATHOLOGICAL IMAGES
概要: AO_SCPLOWBSTRACTC_SCPLOWCancer is a complex disease characterized by the uncontrolled growth of abnormal cells in the body but can be prevented and even cured when detected early. Advanced medical imaging has introduced Whole Slide Images (WSIs). When combined with deep learning techniques, it can be used to extract meaningful features. These features are useful for various tasks such as classification and segmentation. There have been numerous studies involving the use of WSIs for survival analysis. Hence, it is crucial to determine their effectiveness for specific use cases. In this paper, we compared three publicly available vision encoders-UNI, Phikon and ResNet18 which are trained on millions of histopathological images, to generate feature embedding for survival analysis. WSIs cannot be fed directly to a network due to their size. We have divided them into 256 x 256 pixels patches and used a vision encoder to get feature embeddings. These embeddings were passed into an aggregator function to get representation at the WSI level which was then passed to a Long Short Term Memory (LSTM) based risk prediction head for survival analysis. Using breast cancer data from The Cancer Genome Atlas Program (TCGA) and k-fold cross-validation, we demonstrated that transformer-based models are more effective in survival analysis and achieved better C-index on average than ResNet-based architecture. The code1 for this study will be made available.
著者: Asad Nizami, A. Halder
最終更新: 2024-08-23 00:00:00
言語: English
ソースURL: https://www.medrxiv.org/content/10.1101/2024.08.23.24312362
ソースPDF: https://www.medrxiv.org/content/10.1101/2024.08.23.24312362.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた medrxiv に感謝します。