Simple Science

最先端の科学をわかりやすく解説

# 健康科学# 放射線学と画像診断

前庭 schwannoma 腫瘍の測定のための新しいモデル

ディープラーニングは、非癌性の脳腫瘍を正確に測定するのに役立つよ。

― 1 分で読む


腫瘍の測定を自動化する腫瘍の測定を自動化するる。深層学習が前庭神経腫の測定精度を向上させ
目次

内耳道にゆっくりと成長する非癌性の腫瘍、前庭神経鞘腫(VS)っていうんだ。この腫瘍は、前庭蝸牛神経を保護するミエリンを覆うシュワン細胞からできてる。前庭神経鞘腫の一般的な症状は、聴力低下、耳鳴り(耳鳴り)、バランスの問題などだ。腫瘍が大きくなると、頭痛や脳神経の問題、協調運動の難しさ(運動失調)、脳内の液体が溜まる水頭症っていう状態になることもある。

生涯でVSができる確率は約1000人に1人。技術が進歩して、特に磁気共鳴画像法(MRI)のおかげで、医者は以前よりも小さな前庭神経鞘腫を見つけやすくなった。患者の治療法は、観察、放射線療法、腫瘍が成長している場合や問題を引き起こしている場合の手術など、様々。

腫瘍測定の重要性

研究によると、腫瘍の体積を測ることで、直線的なサイズを測るよりも正確な情報が得られるんだ。つまり、VSのサイズの小さな変化も体積測定を使うことでより簡単に検出できるってこと。医者が体積測定を定期的に使えば、腫瘍の成長をより良く追跡できて、早めに治療を提供できるかもしれない。

でも、現在利用可能な腫瘍体積を測るツールは時間がかかるし主観的で、医者によって評価がバラバラになることがある。そのせいで、体積測定は普段の臨床実践ではあまり使われていない。

技術を使った助け

医療従事者が時間とリソースを節約できるように、研究者たちは腫瘍体積を自動で測る深層学習モデルに取り組んできた。いくつかの研究では、MRIスキャンの画像を使ったこれらの深層学習フレームワークが高い精度を達成できることが示されている。でも、過去の研究の大きな欠点は、一つのタイプのMRIマシンの画像しか使わなかったこと。つまり、異なるマシンや設定で撮られた画像にはうまく適用できないかもしれないってことだ。

MRIマシンは、磁場の強さやスキャンを撮る設定など、色々な面で異なる。これらの違いは画像の質、コントラスト、ノイズレベルに影響を与える。イギリスでは、各病院がそれぞれ独自のMRI設定を選ぶことが多く、生成される画像にかなりのばらつきが生じるから、ある一組の画像で開発された技術を別の画像に適用するのが難しくなる。

深層学習の方法は、医学画像のセグメンテーションの精度を大幅に改善しているけど、トレーニングデータと実際の臨床画像との違いに敏感なんだ。だから、あるスキャナーの画像でトレーニングされたモデルは、別のタイプのマシンで撮られた画像には苦労することがある。

今まで、VSのセグメンテーションモデルは特定の医療治療のために収集された一貫したデータに依存してきたから、一般的な臨床設定に適用するためのバラエティが不足していることが多い。また、使用されたデータセットは特定の治療に適した腫瘍に焦点を当てがちで、経過観察や他の方法で管理される腫瘍は含まれていない。これが、モデルがトレーニングされる画像や状況の範囲を制限している。

画像分析への新しいアプローチ

この研究では、VSのMRI画像を自動でセグメンテーションするための新しい深層学習モデルが開発された。これらのモデルは、さまざまなスキャンタイプや設定でうまく機能するように設計されている。複数の医療センターから大規模なデータセットを集めることで、研究者たちはより包括的なトレーニングリソースを作ることができた。さらに、すべての画像に高品質な手動アノテーションを生成するための体系的なアプローチも実施した。

新しいデータセットはセグメンテーションモデルの開発に使われ、別々のデータセットの部分や公開データでの性能評価にも利用された。結果は、これらのモデルがほとんどの画像に対して信頼性が高く、異なるデータセットにも適応できることを示した。特に、トレーニングに使われなかったデータに対してテストした際、モデルは非常に特定の治療計画からのデータでトレーニングされた以前のモデルよりも良い性能を発揮した。

これらのモデルは、腫瘍のサイズをモニタリングしたり、手術後に残った腫瘍の評価を行ったり、再発の可能性をより早く正確に見つけるのを助けることができる。その強化されたデータセットは、前庭神経鞘腫の自動化された治療方法の研究をさらに進め、他のセグメンテーション法のための標準的な参考とすることができる。

倫理とデータセット収集

この研究を行う前に、関連する健康当局や倫理委員会の承認を得た。MRI画像は後ろ向きに収集されており、完全に匿名化されているので、患者のインフォームドコンセントは必要なかった。

データセットには、診断された片側の突発性前庭神経鞘腫を持つ患者の経時的MRIスキャンが含まれている。データは英国の10の医療センターから集められた。18歳以上の成人患者で、片側の腫瘍が1つある患者がデータセットに含まれた。神経線維腫症2型の患者はこの研究には含まれなかった。各患者は最低でも5年間のフォローアップスキャンを受けていた。

画像データは、2006年2月から2019年9月までの168人の患者から収集された。平均して、各患者は4回のMRI検査を受けており、全体のデータセットには何千ものMRIスキャンが含まれている。

最も関連性の高い画像の選択

腫瘍を評価するための最良の画像を選ぶために、研究者たちは自動選択パイプラインを作った。この選択プロセスにより、最も関連性の高い画像だけが最終データセットに含まれるようにした。もし患者が3回以上のMRIセッションを受けていたら、特定の基準に基づいて3つだけを選ぶことで、セグメンテーションに必要な手作業を制限した。

スキャンの厚さが特定の制限を超える画像は除外した。なぜなら、これが誤解を招く結果につながる可能性があるからだ。最終的なデータセットは、特定の要件を満たす画像を選ぶことで編纂され、高品質なデータを分析のために確保した。

手動アノテーションプロセスの実施

正確で信頼性の高いセグメンテーションを確保するために、慎重に設計された手動アノテーションパイプラインが確立された。最初に、専門の技術者が定められたガイドラインに基づいてセグメンテーションを行った。腫瘍の境界を正確に定義し、脳内の他の構造と区別することに注意が払われた。

初期のセグメンテーションが終わると、訓練を受けた放射線医のチームがそれぞれをレビューした。彼らはセグメンテーションを承認するか、観察に基づいて変更を提案した。曖昧なケースは専門家チームに回されてさらに評価された。この反復的なプロセスは、各セグメンテーションが最終的に完成し、受け入れられるまで続いた。

アノテーションの信頼性の評価

セグメンテーション作業の信頼性は、画像のサブセットを使って評価された。観察者間の信頼性と観察者内の信頼性の両方が評価された。観察者内の信頼性は、同じアノテーターが時間をかけて似たようなセグメンテーションを生成できる一貫性を反映している。観察者間の信頼性は、異なるアノテーターが同じ画像をどのように評価するかを追跡する。結果は、アノテーター間で一貫した合意が示され、生成されたセグメンテーションの信頼性が高いことを示している。

既存データセットとの比較

研究者たちは比較のために特定のデータセットを使用し、すべての画像が類似した条件下で撮影された単一のセンターから収集されたデータを含めた。これにより、多様なデータセットでトレーニングされたモデルを、より均一なデータでトレーニングされたモデルと明確に比較できた。

トレーニングの結果は、多様なデータセットでトレーニングされたモデルが、より均一なデータセットでトレーニングされたモデルよりもさまざまなテスト状況でより良い性能を発揮したことを示している。これは、臨床環境での堅牢なモデルを生成するためにバラエティの重要性を強調している。

モデル性能の評価

トレーニングされたモデルは、性能を評価するために異なるデータサブセットに対してテストされた。評価に使われた主な指標はダイス類似係数で、これはモデルの予測と実際のセグメンテーションとの重なりを測るものだ。平均表面距離や体積エラーなどの追加指標も報告された。

結果は、多様なデータセットでトレーニングされたモデルが良い性能を示し、ほとんどの画像を効果的にセグメンテーションできたことを示した。特にコントラスト強調画像での性能は、標準画像に比べて著しく良く、強調スキャンでの境界検出の明快さが影響している可能性がある。

手術後のケースへの対応

手術後のスキャンは、手術後の解剖学的変化により特有の課題を提示することが多いので、慎重に分析された。モデルは、これらのスキャンで残っている腫瘍組織を特定する能力が評価された。初期の評価では、モデルが残留腫瘍のないほとんどのケースを正確に特定できることが示された。

しかし、一部のケースでは偽陽性が発生し、モデルが周囲の領域のコントラストが低いことから残留腫瘍組織を誤って予測した。予測の精度を向上させるために、ポストプロセッシングステップが導入され、小さな体積のセグメントで誤りである可能性が高いものを除去された。

制限事項と今後の方向性

新しいデータセットはVS研究において大きな進展を示すものだけど、いくつかの制限もある。高品質なコントラスト強調画像の数が、標準画像に比べて少なかったので、性能に影響を与える可能性がある。研究者たちは、今後モデルの精度を向上させるために高解像度画像の数を増やす計画を立てている。

もう一つの制限は、突発性片側前庭神経鞘腫に焦点を当て、神経線維腫症2型の患者にしばしば見られる両側腫瘍を除外したことだ。これはセグメンテーションタスクにさらなる複雑さを加える。今後の努力では、これらのケースも含めてより包括的なデータセットを目指す予定。

結論

この研究は、さまざまな臨床画像から前庭神経鞘腫を自動セグメンテーションするための深層学習モデルの開発を示している。このモデルは腫瘍のサイズをモニタリングしたり、手術後の状況を評価したり、再発を特定する精度と効率を高める可能性がある。これらの技術が進化し続けることで、前庭神経鞘腫の患者管理や結果の向上に重要な役割を果たすことが期待される。

包括的なデータセットと高品質のアノテーションプロセスを作成することで、研究者たちは前庭神経鞘腫の診断や治療の自動化された方法に関する未来の研究と改善への扉を開いた。これらの技術が臨床実践を効率化し、この病状に直面する患者へのより良いケアを提供できることを願っている。

オリジナルソース

タイトル: Deep Learning for Automatic Segmentation of Vestibular Schwannoma: A Retrospective Study from Multi-Centre Routine MRI

概要: Automatic segmentation of vestibular schwannoma (VS) from routine clinical MRI has potential to improve clinical workflow, facilitate treatment decisions, and assist patient management. Previous work demonstrated reliable automatic segmentation performance on datasets of standardised MRI images acquired for stereotactic surgery planning. However, diagnostic clinical datasets are generally more diverse and pose a larger challenge to automatic segmentation algorithms, especially when post-operative images are included. In this work, we show for the first time that automatic segmentation of VS on routine MRI datasets is also possible with high accuracy. We acquired and publicly release a curated multi-centre routine clinical (MC-RC) dataset of 160 patients with a single sporadic VS. For each patient up to three longitudinal MRI exams with contrast-enhanced T1-weighted (ceT1w) (n=124) and T2-weighted (T2w) (n=363) images were included and the VS manually annotated. Segmentations were produced and verified in an iterative process: 1) initial segmentations by a specialized company; 2) review by one of three trained radiologists; and 3) validation by an expert team. Inter- and intra-observer reliability experiments were performed on a subset of the dataset. A state-of-the-art deep learning framework was used to train segmentation models for VS. Model performance was evaluated on a MC-RC hold-out testing set, another public VS datasets, and a partially public dataset. The generalizability and robustness of the VS deep learning segmentation models increased significantly when trained on the MC-RC dataset. Dice similarity coefficients (DSC) achieved by our model are comparable to those achieved by trained radiologists in the inter-observer experiment. On the MC-RC testing set, median DSCs were 86.2(9.5) for ceT1w, 89.4(7.0) for T2w and 86.4(8.6) for combined ceT1w+T2w input images. On another public dataset acquired for Gamma Knife stereotactic radiosurgery our model achieved median DSCs of 95.3(2.9), 92.8(3.8), and 95.5(3.3), respectively. In contrast, models trained on the Gamma Knife dataset did not generalise well as illustrated by significant underperformance on the MC-RC routine MRI dataset, highlighting the importance of data variability in the development of robust VS segmentation models. The MC-RC dataset and all trained deep learning models were made available online.

著者: Aaron Kujawa, R. Dorent, S. Connor, S. Thomson, M. Ivory, A. Vahedi, E. Guilhem, N. Wijethilake, R. Bradford, N. Kitchen, S. Bisdas, S. Ourselin, T. Vercauteren, J. Shapey

最終更新: 2024-01-09 00:00:00

言語: English

ソースURL: https://www.medrxiv.org/content/10.1101/2022.08.01.22278193

ソースPDF: https://www.medrxiv.org/content/10.1101/2022.08.01.22278193.full.pdf

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた medrxiv に感謝します。

著者たちからもっと読む

類似の記事