皮膚がん診断における合意の必要性
基準を標準化することで、基底細胞癌を検出するAIツールがより良くなれるよ。
― 1 分で読む
皮膚癌は世界で最も一般的な癌の種類なんだ。皮膚癌には、メラノーマと非メラノーマの2つの主なカテゴリーがある。非メラノーマの中では、基底細胞癌(BCC)が一番多く、ケースの70%以上を占めてる。BCCの診断に関する臨床ガイドラインは知られてるけど、医者によってかなりバラバラなんだよね。
最近、人工知能(AI)が皮膚の問題の診断にどう役立つかを調べた研究がたくさんあるんだ。公開データベースの増加で、研究者がAI技術を適用しやすくなってきた。でも、皮膚病変の診断に使われる特定の臨床基準がしばしば手に入らないから、これらのAIツールの有用性が難しくなってる。良いAIツールは、診断だけでなく、観察された特徴に基づいてその結論に至った理由も説明できるべきなんだ。
コンセンサスの必要性
BCCの主要な特徴を決定するための標準化されたアプローチが必要だよ。異なる医者はしばしばこれらの特徴について意見が合わないことが多い。いくつかの研究では、皮膚科医同士で特定の皮膚鏡パターンを識別する際の一致があまり良くなかったことが示されてる。これは、AIシステムを訓練する際にもっと統一したアプローチが必要ということを示してるね。
医者の意見を集めて、AIツールの訓練用の信頼できる基準(GT)を作ることが、医者同士のコンセンサスを得る一つの方法なんだ。GTが正確であるためには、特定の一人の医者ではなく、複数の皮膚科医から得るべき。こうすることで、個々のバイアスやエラーの影響を最小限に抑えられるんだ。
研究の概要
ある研究では、4人の皮膚科医が204の病変をBCCかどうか評価し、皮膚鏡で使った基準を分析したんだ。目的は、AIツールの訓練に使える信頼できるGTを作ること。皮膚科医たちは、数年にわたって集められた1,434枚の画像を見て、その中から204枚をAIツールのテストに使用したんだ。残りの画像は訓練に使用された。
AIツールのパフォーマンスは、1人の皮膚科医からのGTだけでなく、4人の皮膚科医の合意によって得られたコンセンサスとも比較して評価された。彼らは、パフォーマンスの違いを測るために様々な統計テストを使ったんだ。
皮膚科医同士の合意
この研究に関わった皮膚科医たちは、病変がBCCであるかどうかの診断に高い合意を示した。彼らの診断をバイオプシー(診断を確認するために組織サンプルをテストすること)と比較したところ、強い一致があった。具体的には、91のバイオプシーされた病変のうち、全てが皮膚科医によってBCCと診断され、誤診はわずか3件だった。これで約96.7%の陽性予測値が出たんだ。
でも、色素ネットワークや潰瘍化といった特定の皮膚鏡パターンを特定する際には、皮膚科医同士の合意はそれほど強くなかった。例えば、いくつかのパターンは一貫して特定するのが難しくて、全体的な診断には合意があっても、細部で広く異なることがあるってことを示してるんだ。
グラウンドトゥルースとその重要性
信頼できるGTは、BCCの診断を助けるAIツールの訓練にとって必須なんだ。GTは、AIがBCCのパターンを特定するための基盤となる。GTが複数の専門家に基づいていると、バイアスの可能性が減ってツールの精度が向上するんだ。
GTを作成するために、研究では2つの方法を比較したんだ。皮膚科医同士の最も一般的な回答を取る多数決と、全ての評価者からの入力に基づいて各特徴の真の可能性を予測する期待値最大化。どちらの方法も似たようなGTを生み出し、専門家間のコンセンサスを反映するのに効果的であることを示してる。
AIツールのパフォーマンス
この研究では、皮膚鏡の画像に基づいてBCCパターンを特定するためのAIツールが設定された。AIは、GTでラベル付けされた画像を使って訓練され、その後、新しい画像をどれだけうまく分類できるかテストされたんだ。研究者たちは、4人の皮膚科医によって提供されたコンセンサスGTでAIツールを訓練すると、1人の皮膚科医の結果だけで訓練した時よりもパフォーマンスが良くなったことが分かったんだ。
AIのパフォーマンスを204枚の画像でテストしたところ、どのGTを使ったかによって大きな違いが出た。コンセンサスGTで訓練されたAIは、単一の評価者のGTで訓練されたAIに比べて特定のパターンを見つけるのが得意だったんだ。
パターン検出の違い
全体的に、AIの病変をBCCかどうか分類する正確性は高かったけど、特定のパターンを検出する際には課題があった。AIツールが検出したパターンに関しては、55.5%の一致率しかなかったんだ。いくつかのパターン、たとえば青灰色の卵形巣や樹状血管腫のようなものは、特に不一致率が高く、GTの選択がAIがこれらの特徴を正確に検出する能力に影響を及ぼすってことを示してる。
トリアージの重要性
医療の文脈では、皮膚科サービスのワークロードを効率的に管理することが重要なんだ。遠隔皮膚科の普及によって、多くのケースが評価のために提出されてるから、これらのケースを優先順位付けするのが大事だよ。皮膚病変の重症度を正確に評価できるAIツールがあれば、医療提供者が最も緊急なケースから優先的に対処できるようになって、最も必要としている人たちにタイムリーな治療を提供できるんだ。
研究の限界
この研究の結果は貴重な洞察を提供してるけど、考慮すべき限界もあるよ。一つの大きな懸念は、AIツールの訓練とテストに使われたデータセットの不均衡だ。いくつかのBCCパターンは、他のものよりもはるかに少ない頻度で表現されていた。例えば、スポークホイールパターンを含む画像はほんの数枚しかなくて、合意に達するのが難しかったんだ。
さらに、AIは病変をBCCかどうか分類する際には96.7%の高い精度を示したけど、特定の皮膚鏡パターンを特定する際には82%に下がった。このギャップは、AIが分類決定を説明する能力の向上が必要だってことを示唆してる。
結論
この研究の結果は、BCCの診断用AIツールを開発する上で、皮膚科医の間でしっかりしたコンセンサスを確立することがいかに重要かを強調してる。複数の専門家から作成された明確なGTは、AIシステムが皮膚癌のパターンを特定し、説明するパフォーマンスを大きく向上させるんだ。
本当に役立つ診断ツールを構築するためには、正確性を向上させつつ、医療専門家の間で徹底したコンセンサスがあることを確保するのが必要だよ。これらのツールをさらに洗練させるための継続的な研究が求められていて、より信頼性が高く効果的な患者ケアが進む道を開くんだ。
タイトル: Concordance in basal cell carcinoma diagnosis. Building a proper ground truth to train Artificial Intelligence tools
概要: Background: The existence of different basal cell carcinoma (BCC) clinical criteria cannot be objectively validated. An adequate ground-truth is needed to train an artificial intelligence (AI) tool that explains the BCC diagnosis by providing its dermoscopic features. Objectives: To determine the consensus among dermatologists on dermoscopic criteria of 204 BCC. To analyze the performance of an AI tool when the ground-truth is inferred. Methods: A single center, diagnostic and prospective study was conducted to analyze the agreement in dermoscopic criteria by four dermatologists and then derive a reference standard. 1434 dermoscopic images have been used, that were taken by a primary health physician, sent via teledermatology, and diagnosed by a dermatologist. They were randomly selected from the teledermatology platform (2019-2021). 204 of them were tested with an AI tool; the remainder trained it. The performance of the AI tool trained using the ground-truth of one dermatologist versus the ground-truth statistically inferred from the consensus of four dermatologists was analyzed using McNemar's test and Hamming distance. Results: Dermatologists achieve perfect agreement in the diagnosis of BCC (Fleiss-Kappa=0.9079), and a high correlation with the biopsy (PPV=0.9670). However, there is low agreement in detecting some dermoscopic criteria. Statistical differences were found in the performance of the AI tool trained using the ground-truth of one dermatologist versus the ground-truth statistically inferred from the consensus of four dermatologists. Conclusions: Care should be taken when training an AI tool to determine the BCC patterns present in a lesion. Ground-truth should be established from multiple dermatologists.
著者: Francisca Silva-Clavería, Carmen Serrano, Iván Matas, Amalia Serrano, Tomás Toledo-Pastrana, David Moreno-Ramírez, Begoña Acha
最終更新: 2024-06-26 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2406.18240
ソースPDF: https://arxiv.org/pdf/2406.18240
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。