Simple Science

最先端の科学をわかりやすく解説

# 健康科学# 放射線学と画像診断

医療画像におけるAI評価のための新しい方法

AUGMENTは、ヘルスケアにおけるAIセグメンテーションツールを評価するための新しいフレームワークを提供するよ。

― 1 分で読む


医療画像におけるAIの評価医療画像におけるAIの評価でのAI評価を改善するよ。AUGMENTフレームワークは、臨床現場
目次

近年、人工知能(AI)や機械学習(ML)を使った医療機器への関心がすごく高まってる。特に放射線科の医療画像を支援するためのデバイスが多いんだ。この関心が高まったのは、医療画像の量が増えてるのに、それを解釈できる訓練された専門家が足りないから。その点、AI/MLツールは画像を正確に分析するのに promising な結果を出してる。でも、規制当局の承認が増えてるにもかかわらず、実際に病院やクリニックでの使用はまだ少ないんだ。医者がこれらのツールの効果を疑ったり、プロセスが複雑で完全には理解されてないから、あまり信頼してないのが理由の一つだね。

医療画像分析の研究の一つの分野はセグメンテーションで、これは画像内の特定の興味のある部分を特定して輪郭を描くことを含む。これらのセグメンテーションツールの性能は、人間が作った基準「グラウンドトゥルース」と比較して測定されることが多い。この比較は通常、さまざまな数値指標を使って行われ、ダイス類似係数(DSC)が最も頻繁に使われる指標の一つだ。でも、この数値測定だけに頼るのは、セグメンテーションツールがどれくらい機能しているかについて誤解を生むことがあるんだ。

現在の評価方法の問題

数値指標だけを使って性能を評価することの一つの大きな懸念は、それを操作してツールが実際よりも良く見えるようにできることだ。それにこれらの数値スコアが、実際の役立ち度をどう表しているのか疑問もある。時には、スコアがツールの実践における有用性を過小評価することもあれば、逆に過大評価することもある。例えば、DSCのような指標は、セグメンテーションツールが犯した具体的なミスについての詳細情報を提供しないから、ツールの出力と確立された基準との合意レベルだけを示すに過ぎない。

別の問題は、これらのツールを評価する際に臨床医の関与がしばしば限られていること。医者は一般的に「グラウンドトゥルース」を提供することで貢献するけど、ツールが実世界の設定でどれくらい性能を発揮するかを評価するために積極的には関与しないことが多い。多くの人が、臨床医がこれらのツールの開発や評価にもっと積極的に関与するべきだと同意しているけど、その過程に専門知識をうまく統合するための明確なガイドラインは現在はないんだ。

これらのツールが医者とどう連携して機能するかについての理解には大きなギャップがある。現在の評価方法は、AIツールが人間とどれくらいコラボレーションできるかを考慮していないから、それが効果を最大化するために重要かもしれない。

提案されたフレームワーク

これらの懸念を解決するために、AUGMENT(Assessing Utility of segMENtation Tools)という新しいフレームワークが提案された。このフレームワークは、セグメンテーションモデルの評価を生の性能数値だけでなく、臨床環境での実用的な価値に基づいて行うことを目指している。その効果を示すために、このフレームワークは高悪性度漿液性卵巣癌のセグメンテーションという難しい課題に適用された。

AUGMENTは3つの主なステップから成る:

  1. データ選択とセグメンテーション: 検証データセットからランダムにスキャンを選んで、各スキャンを人間だけ、AIだけ、そして人間とAIの組み合わせの3つの方法でセグメンテーションする。各方法にかかった時間も記録される。

  2. 専門家レビューとスコアリング: 独立した専門家が、異なるセグメンテーションを重ねた各スキャンを見て、AUGMENTスコアリングシステムを使用して評価する。

  3. ランキングと比較: 前のステップのスコアに基づいてセグメンテーション方法のランキングが生成され、その性能を明確に比較し、時間の節約を評価できるようにする。

AUGMENTのスコアリングシステムは、セグメンテーションタスクで見られるエラーを異なるタイプに分類し、開発者に対して健康な組織を誤って特定したか、本当に病気がある部分を見逃したかについての具体的な情報を提供する。

フレームワークの評価

AUGMENTフレームワークを適用した研究では、高悪性度漿液性卵巣癌に常に影響される2つの部位のセグメンテーションを行うモデルが訓練された。このモデルは、さまざまなデータセットに対してそのパフォーマンスを評価するためにテストされた。

AUGMENTフレームワークは、従来のDSC指標を含む他の一般的な評価方法と比較された。視覚テストが行われて、参加者がAIによるセグメンテーションと人間によるセグメンテーションの違いを識別できるかどうかを調べた。このテストの結果、参加者はAIによって作成されたセグメントを一貫して特定するのに苦労していたことが示され、AIの性能は人間のセグメンターほど良くなかったことがわかった。

AUGMENTフレームワークを使った臨床の有用性評価は、スキャンの選択に対して行われた。各スキャンについて、AIモデルによるもの、人間のトレーニーによるもの、人間とAIの組み合わせによる3つの異なるセグメンテーションが作成され、その後、専門家がこれらのセグメンテーションをレビューしてAUGMENTシステムを使って品質スコアを付けた。

結果

結果を見ると、AUGMENTスコアに基づいて、人間とAIのセグメンテーションの組み合わせが一般的に最も良く、たくさんのケースで最高スコアを達成していた。そして、AIを助手として使うことで、画像をセグメンテーションするのにかかる平均時間もかなり短縮された。この時間節約は、従来の人間だけの方法に比べて約57%だった。

興味深いことに、AIだけで行ったセグメンテーションと人間だけで行ったセグメンテーションの品質スコアには大きな差はなかったんだけど、人間とAIの両方の協力による成果は明らかに高いスコアを出していて、二者の協力が全体的な結果を向上させることを示していた。

意義と制約

AUGMENTフレームワークは、ツールの性能についてより包括的な視点を提供するために、定量的指標と定性的評価を融合させる重要性を強調している。また、AIツールのレビューや改善において臨床医がより積極的に参加することを促し、日常的な実践における設計と統合の質を向上させることができる。

ただし、考慮すべき制約もある。AUGMENTフレームワークを実装するには、複数の熟練した専門家へのアクセスが必要で、それが常に可能とは限らない。また、異なる放射線科医が画像を解釈する際のばらつきがスコアに影響を与える可能性があるし、特に病気の境界部分を見ているときはその影響が顕著になる。セグメンター間の訓練レベルの違いもセグメンテーションに差をもたらすことがある。

さらに、卵巣癌における有用性に焦点を当てながらも、AUGMENTフレームワークは他の医療画像の分野にも適応できる。評価するエラーのカテゴリーがさまざまな文脈で適用可能だからだ。

結論

医療画像ツールの評価を単に数値指標に基づいて行うだけでは、その効果や有用性の全体像をつかむことはできない。AUGMENTフレームワークは、定量データと定性的専門家の意見の両方からの洞察を組み合わせたよりバランスの取れたアプローチを提供している。これにより、セグメンテーションツールが実際の臨床シナリオでどれくらいパフォーマンスを発揮するかについての理解が深まる。

これらのツールを使用する専門家が設計や評価に関与することで、信頼性や効果を高めることができる。また、AUGMENTフレームワークは、これらのツールが臨床実践に統合された後の開発だけでなく、継続的な評価と改善の手段としても活用されることが期待されている。

オリジナルソース

タイトル: AUGMENT: a framework for robust assessment of the clinical utility of segmentation algorithms

概要: BackgroundEvaluating AI-based segmentation models primarily relies on quantitative metrics, but it remains unclear if this approach leads to practical, clinically applicable tools. PurposeTo create a systematic framework for evaluating the performance of segmentation models using clinically relevant criteria. Materials and MethodsWe developed the AUGMENT framework (Assessing Utility of seGMENtation Tools), based on a structured classification of main categories of error in segmentation tasks. To evaluate the framework, we assembled a team of 20 clinicians covering a broad range of radiological expertise and analysed the challenging task of segmenting metastatic ovarian cancer using AI. We used three evaluation methods: (i) Dice Similarity Coefficient (DSC), (ii) visual Turing test, assessing 429 segmented disease-sites on 80 CT scans from the Cancer Imaging Atlas), and (iii) AUGMENT framework, where 3 radiologists and the AI-model created segmentations of 784 separate disease sites on 27 CT scans from a multi-institution dataset. ResultsThe AI model had modest technical performance (DSC=72{+/-}19 for the pelvic and ovarian disease, and 64{+/-}24 for omental disease), and it failed the visual Turing test. However, the AUGMENT framework revealed that (i) the AI model produced segmentations of the same quality as radiologists (p=.46), and (ii) it enabled radiologists to produce human+AI collaborative segmentations of significantly higher quality (p=

著者: Cathal McCague, T. Buddenkotte, L. Escudero Sanchez, D. Hulse, R. Pintican, L. Rundo, S. Freeman, S. Nougaret, S. Rizzo, W. Loughborough, A. Andreou, C. Parsons, P. Piyatissa, T. Aloysius, C. Mouritsen Luxhoj, I. Aniq, S. James, B. Dhesi, K. De Paepe, J. Tanner, O. Abulaban, J. Lee, V. Majcher, M. O Sullivan, V. Celli, A. Colarieti, A. Samoshkin, E. Carcani, S. Ramlee, M. S. Al Sad, S. J. Doran, W. Cho, J. DArcy, J. D. Brenton, D. L. Couturier, O. Oktem, R. Woitek, C. B. Schoenlieb, E. Sala, M. Crispin Ortuzar

最終更新: Sep 23, 2024

言語: English

ソースURL: https://www.medrxiv.org/content/10.1101/2024.09.20.24313970

ソースPDF: https://www.medrxiv.org/content/10.1101/2024.09.20.24313970.full.pdf

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた medrxiv に感謝します。

著者たちからもっと読む

類似の記事