医療画像検索技術の進歩
研究では、医療画像検索のために事前学習されたCNNと基盤モデルを比較している。
Amirreza Mahbod, Nematollah Saeidi, Sepideh Hatamikia, Ramona Woitek
― 1 分で読む
医療画像検索は、大量のコレクションの中から与えられた画像に似た画像を見つけること。これは、医者が病気を診断したり、治療計画を立てたり、新しい医療専門家を訓練したりするのに重要だよ。従来の画像検索方法は、画像の臨床的な詳細に頼ってたんだけど、最近のアプローチであるコンテンツベースの医療画像検索(CBMIR)は、説明に頼るんじゃなくて、画像の実際の特徴、例えば色、質感、形状を見てるんだ。
CBMIRのために多くの方法が開発されていて、事前に訓練された畳み込みニューラルネットワーク(CNN)を使うのが一般的だよ。最近の基盤モデルの進展も、CBMIRの改善に期待が寄せられてる。この研究では、事前に訓練されたCNNと基盤モデルが、医療画像検索のための特徴抽出器としてどれだけ機能するかを調べたんだ。
方法
この研究では、VGG19、ResNet-50、DenseNet121、EfficientNetV2Mといった人気のCNNモデルや、MedCLIP、BioMedCLIP、OpenCLIP、CONCH、UNIといった基盤モデルをいろいろ見たよ。MedMNIST V2データセットから取った医療画像を使って、彼らのパフォーマンスをテストしたんだ。このデータセットには、X線や超音波みたいな2Dと3Dの画像が含まれてた。
また、画像サイズが検索パフォーマンスにどんな影響を与えるかも考慮したよ。画像サイズは小さいものから標準的なサイズまで変化していて、異なるサイズが結果にどう影響するかを見れたんだ。
結果
私たちの調査結果では、2D画像に関しては、基盤モデルが一般的にCNNよりも良いパフォーマンスを示したよ。その中でもUNIモデルは、画像サイズに関係なく最も良いパフォーマンスを発揮した。3D画像の場合、CNNと基盤モデルは似たようなパフォーマンスだったけど、CONCHモデルが一番良い結果を出したんだ。
面白いことに、大きな画像は一般的に良いパフォーマンスを生む傾向があったけど、小さな画像でも競争力のある結果を出せた。この発見は、詳細が少ない画像でも医療画像検索に有効に寄与できることを示唆してるんだ。
モデルの理解
事前訓練されたCNN
CNNは画像から重要な特徴を自動的に抽出できるから、コンピュータービジョンのタスクで広く使われてるよ。この研究では、いくつかの有名なCNNモデルに焦点を当てて比較したんだ。それぞれのモデルには独自の構造と画像処理の方法があるんだ。
- VGG19: シンプルで深い構造が特徴で、画像の特徴を捉えるのに効果的だよ。
- ResNet50: スキップ接続を導入して、非常に深いネットワークでの問題を防ぐのに役立ってる。
- DenseNet121: 各レイヤーをすべての他のレイヤーに接続して情報の流れを強化してる。
- EfficientNetV2M: パフォーマンスと効率を最適化するために、バランスよくモデルをスケールアップしてる。
基盤モデル
基盤モデルは、従来のCNNの枠を超えて多くのタスクに適用できるとして注目されてる。通常、大規模データセットで訓練されていて、データの関係を効率的に学習できるんだ。
- MedCLIP: 医療画像専用に設計されていて、画像とテキストのペアを使って、視覚と関連するテキストコンテンツの両方を理解するモデルを作ってる。
- BioMedCLIP: MedCLIPに似てるけど、より幅広い医療データセットで訓練されて、より複雑な関係を捉えることができる。
- OpenCLIP: 一般的な用途向けに作られていて、さまざまな画像と関連するテキストで訓練されてる。
- CONCH: 病理画像に特化したモデルで、画像の特徴とテキストの説明を活用して検索を改善してる。
- UNI: 大規模な組織画像データセットで訓練されていて、様々な医療画像検索タスクに対して大きな可能性を示してる。
距離測定と評価
画像の類似度を測るために、コサイン類似度を使ったよ。これは、画像間の特徴がどれだけ一致するかを計算する一般的な方法。クエリ画像とデータベースに保存されている画像から特徴を抽出した後、類似性に基づいてランク付けして、最も似ている画像を選んだんだ。
検索システムのパフォーマンスを評価するために、平均適合率や精度といった標準的な指標を使って、トップの結果に焦点を当てたよ。その中でも、与えられた画像に最もよく合った結果を特に強調したんだ。
パフォーマンス概要
2D画像検索
2D画像の結果では、基盤モデルが常にCNNよりも良いパフォーマンスを示す顕著な傾向が見られたんだ。ほとんどのデータセットで、UNIのようなモデルが他よりもかなり優れた結果を出してたよ。全体としてパフォーマンスが劣ってたMedCLIPも、特定のケース、例えばX線画像では優れてた。
画像サイズの影響も明らかだった。大きな画像は一般的に精度スコアが高かったけど、小さな画像でも強いパフォーマンスを示した。具体的には、異なるモデルがデータセットに応じて異なる結果を出していて、それぞれのデータセットが抱える独特の課題を強調してた。
3D画像検索
3D画像の場合、基盤モデルとCNNのパフォーマンス差はあまり目立たなかったよ。CONCHモデルがパフォーマンスでリードしたけど、最高のCNNと比べると差はわずかだった。例えば、DenseNet121はCONCHにほぼ匹敵するパフォーマンスを示したんだ。
2D画像と同様に、3D検索での画像サイズの影響は限られたサイズオプションのためにあまり明確ではなかったけど、最高のCNNモデルは大きな画像で精度が向上する傾向があった。
統合結果
2Dと3Dのデータセット全体でパフォーマンスを評価すると、PneumoniaMNISTのような特定のデータセットは一貫した検索成功を示したけど、RetinaMNISTのような他のデータセットはより広いパフォーマンスの結果を示したんだ。
可視化技術
モデルから抽出した特徴を視覚的に探索するためにt-SNEという技術を使ったよ。これで、異なるモデルがデータセット内のクラスをどれだけうまく区別できるかがわかった。一部のモデルは異なるクラスの明確な分離を示したけど、他のモデルは苦戦してて、特徴抽出の質と検索効果の関係を強調してた。
モデルのスピード
精度に加えて、異なるモデルがデータを処理する速さも測ったよ。2Dデータセットでは、一部のCNNモデルが他よりも速かったけど、基盤モデルも効率的だった。3Dデータセットでは、特定の基盤モデルがCNNよりもかなり早く動作することがわかったんだ。
制限と今後の方向性
この研究には制限があるよ。人気のモデルをいくつか使ったけど、他にも効果的なモデルがあるかもしれない。今後の研究では、さらに多くのモデルとその検索タスクのパフォーマンスを探るべきだと思う。
また、3Dデータセットを扱うときに2Dスライスの特徴を統合することで、さらなる改善ができるんじゃないかな。さらに、大きな画像サイズを調べることで、検索パフォーマンスに関するさらなる洞察が得られるかもしれない。
これらの発見は、基盤モデルを医療画像やコンピュータービジョンの他の分野に適用する未来の研究への扉を開いてるんだ。
結論
事前に訓練されたCNNと基盤モデルを使った医療画像検索の包括的な分析から、特にUNIとCONCHの基盤モデルが優れたパフォーマンスを示すことがわかったよ。研究は、画像サイズが精度に与える重要性を強調しつつ、小さな画像でも十分に良いパフォーマンスを発揮できることを確認したんだ。これらの洞察は、医療画像検索方法の改善や基盤モデルの可能性に関するさらなる調査につながるよ。
タイトル: Evaluating Pre-trained Convolutional Neural Networks and Foundation Models as Feature Extractors for Content-based Medical Image Retrieval
概要: Medical image retrieval refers to the task of finding similar images for given query images in a database, with applications such as diagnosis support, treatment planning, and educational tools for inexperienced medical practitioners. While traditional medical image retrieval was performed using clinical metadata, content-based medical image retrieval (CBMIR) relies on the characteristic features of the images, such as color, texture, shape, and spatial features. Many approaches have been proposed for CBMIR, and among them, using pre-trained convolutional neural networks (CNNs) is a widely utilized approach. However, considering the recent advances in the development of foundation models for various computer vision tasks, their application for CBMIR can be also investigated for its potentially superior performance. In this study, we used several pre-trained feature extractors from well-known pre-trained CNNs (VGG19, ResNet-50, DenseNet121, and EfficientNetV2M) and pre-trained foundation models (MedCLIP, BioMedCLIP, OpenCLIP, CONCH and UNI) and investigated the CBMIR performance on a subset of the MedMNIST V2 dataset, including eight types of 2D and 3D medical images. Furthermore, we also investigated the effect of image size on the CBMIR performance. Our results show that, overall, for the 2D datasets, foundation models deliver superior performance by a large margin compared to CNNs, with UNI providing the best overall performance across all datasets and image sizes. For 3D datasets, CNNs and foundation models deliver more competitive performance, with CONCH achieving the best overall performance. Moreover, our findings confirm that while using larger image sizes (especially for 2D datasets) yields slightly better performance, competitive CBMIR performance can still be achieved even with smaller image sizes. Our codes to generate and reproduce the results are available on GitHub.
著者: Amirreza Mahbod, Nematollah Saeidi, Sepideh Hatamikia, Ramona Woitek
最終更新: Sep 14, 2024
言語: English
ソースURL: https://arxiv.org/abs/2409.09430
ソースPDF: https://arxiv.org/pdf/2409.09430
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://ctan.org/pkg/pifont
- https://github.com/masih4/MedImageRetrieval
- https://huggingface.co/emilyalsentzer/Bio_ClinicalBERT
- https://github.com/mlfoundations/open_clip
- https://github.com/mahmoodlab/UNI
- https://github.com/RyanWangZf/MedCLIP
- https://huggingface.co/microsoft/BiomedCLIP-PubMedBERT_256-vit_base_patch16_224