Simple Science

最先端の科学をわかりやすく解説

# 健康科学# 放射線学と画像診断

GPT-4Vの医療診断における役割の評価

GPT-4Vは、診断を改善するための医療画像分析に期待が持てるね。

― 1 分で読む


GPTGPT4Vの医療診断への影響てるよ。AIモデルは医療画像解析で高い精度を示し
目次

コンピュータを使って医者が患者を診断し、治療をガイドするのはAIの長年の目標なんだよね。アメリカでは、病院が電子カルテ(EHR)システムを使い始めて、患者の訪問から大量のデジタルデータが集まってきた。コンピュータ支援診断システム(CDSS)っていうシステムは、患者情報や臨床知識を提供して、医者の判断を改善することを目指してる。特に医療画像の分析、いわゆるラジオミクスに関するCDSSへの関心が高まってて、乳がんの検出、COVID-19の診断、先天性白内障の特定など、いろんな医療分野で使われてるんだ。

信頼できるCDSSには、予測をするだけじゃなくて、その予測に対する明確な説明も必要なんだけど、以前の多くの画像CDSSはAIが重要だと考える部分だけを示すだけで、診断に関する詳細な洞察を十分に提供できてなかった。

医療における大規模言語モデル

最近のAIの進展には、ChatGPTみたいな大規模言語モデル(LLM)が含まれているんだ。これらのモデルはさまざまな質問やタスクに対する説明を生成できるんだけど、2022年にOpenAIからリリースされたChatGPTは、医療関連のタスクでも素晴らしい成果を上げてる。医療ライセンス試験でも良い成績を出してて、LLMを臨床実践や教育に統合する可能性についての議論を呼んでいる。

ChatGPTの欠点は画像を処理できないことなんだけど、それが視覚データに依存する分野での利用を制限してる。でも、新しいモデルのGPT-4Vはこの制限を克服するために開発されて、テキストと画像の両方を処理できるようになった。

GPT-4Vの医療画像分析の評価

GPT-4Vが医療画像を分析する能力はまだ十分に評価されていないんだ。この研究では、医療ライセンス試験の画像を含む質問に対するGPT-4Vのパフォーマンスと、医療従事者向けにその答えをどれだけ説明できるかを見たかったんだ。

研究チームは、GPT-4VとChatGPT、GPT-4のパフォーマンスを、医療ライセンス試験の質問で比較した。この研究は倫理委員会に承認されて、2023年10月に行われた。

医療試験のデータ収集

研究では、アメリカ医学ライセンス試験(USMLE)やAMBOSSという問題バンクからいくつかの質問を集めた。USMLEは医学生がライセンスを取得するために完了しなければならない3つのステップがある。この試験は、医師が健康管理や病気管理において知識を活用する能力をテストするもので、安全な患者ケアにとって非常に重要なんだ。

試験の質問はテキストと画像のミックスだった。例えば、ステップ1には119問、ステップ2には120問、ステップ3には137問が含まれている。研究者たちは画像を含む質問を選んで、合計50問を残した。さらにAMBOSSから追加の質問を集めて、合計150問を研究に使用したんだ。

研究チームは、放射線科、皮膚科、整形外科などのさまざまな医療分野を考慮して、質問を選んだよ。

GPT-4Vの使い方

GPT-4Vが画像を含む質問に答えるためには、画像とテキストの両方の入力を取った。研究者は特定の入力フォーマットを作成して、最初に画像を追加し、その後に患者情報や質問、最後に選択肢を提示した。各質問は手動でモデルに一つずつ入力された。

例えば、胸の痛みを訴える55歳の女性についての質問がGPT-4Vに出されて、画像を分析した後に答えを提供したんだ。

答えの正確性の評価

モデルの正確性を測るために、研究者たちはその答えを試験委員会が提供した正しい答えと比較した。正確性は、正しい答えの数を総質問数で割ったものとして定義された。

GPT-4Vが提供した説明の質も、医療従事者からのフィードバックを通じて評価された。説明をGPT-4Vと人間の専門家のものと比較して、好みや効果を見極めたんだ。

研究の結果

結果として、GPT-4Vは画像を含む医療試験の質問において高い正確性を達成した。具体的には、ステップ1、ステップ2、ステップ3でそれぞれ84.2%、85.7%、88.9%のスコアを記録して、ChatGPTやGPT-4よりも良い成績を出した。専門的な放射線科の試験でも他のモデルを上回っていて、画像分析のパフォーマンスが強いことを示しているね。

画像なしの質問ではGPT-4Vのパフォーマンスは少し低下したけど、それでも良いスコアを維持していて、提示された質問の複雑さが正確性に影響を与えていることを示唆している。

質問の難易度によるパフォーマンス

研究では、質問が難しくなるにつれてGPT-4Vの正確性が低下することもわかった。逆に、ヒントが与えられるとモデルのパフォーマンスが大幅に向上した。これは、GPT-4Vが難しい質問に直面した場合に追加のガイダンスの恩恵を受ける可能性があることを示しているよ。

説明の質

医療従事者たちはGPT-4Vが提供する説明の質を評価したんだ。彼らはGPT-4Vの説明と人間の専門家のものを選ぶように求められた。結果として、GPT-4Vは decentな説明を提供したものの、特に間違った回答の時には専門家の回答に対する好みがあることがわかった。

GPT-4Vの正しい答えのほとんどは、画像の解釈や質問の関連詳細を含んでいて、回答を生成する際に両方の要素をうまく組み合わせていることを示している。

ただし、間違った答えの中には、提示された画像の誤解によるものが多かった。これは、正しい診断をするためには正確な画像解釈が非常に重要だということを強調するポイントだね。

幻覚の課題

GPT-4Vが直面したもう一つの課題は、「幻覚」と呼ばれる不正確な情報を生成する傾向だ。これらの不正確さは、特に正確さが重要な医療の文脈では誤解を招くことがある。研究では、多くの不正確な説明に事実誤認が含まれていたことが指摘されたよ。

研究の限界

この研究には限界があった。226問のサンプルサイズは、医学のすべての分野を包括的に代表しているわけではないかもしれない。また、GPT-4Vのトレーニングデータは2022年9月までの情報しか含まれていないため、最新の医療知識を必要とする質問には答えられない可能性がある。

さらに、GPT-4Vは試験の質問に答える際に期待が持てる結果を示したけれど、実際の臨床現場での効果はまだ完全にテストされていない。

結論

まとめると、GPT-4Vは画像を含む医療試験の質問に対して強いパフォーマンスを示したし、これまでのモデルと比べて高い正確性を達成した。画像とテキストに基づいた説明を提供する能力は大きな進展なんだけど、正確な画像解釈や不正確な情報の減少など、改善すべきポイントは残ってる。

研究と開発が進むにつれて、AIの臨床実践における役割は増えていくかもしれないけど、医療従事者はAIが生成した情報を信頼できるソースで確認することが大事だよ。GPT-4VのようなAIモデルは人間の医者を置き換えるものではなく、意思決定プロセスを助けるための貴重なツールとして機能することが期待されているんだ。

オリジナルソース

タイトル: Performance of Multimodal GPT-4V on USMLE with Image: Potential for Imaging Diagnostic Support with Explanations

概要: BackgroundUsing artificial intelligence (AI) to help clinical diagnoses has been an active research topic for more than six decades. Past research, however, has not had the scale and accuracy for use in clinical decision making. The power of AI in large language model (LLM)-related technologies may be changing this. In this study, we evaluated the performance and interpretability of Generative Pre-trained Transformer 4 Vision (GPT-4V), a multimodal LLM, on medical licensing examination questions with images. MethodsWe used three sets of multiple-choice questions with images from the United States Medical Licensing Examination (USMLE), the USMLE question bank for medical students with different difficulty level (AMBOSS), and the Diagnostic Radiology Qualifying Core Exam (DRQCE) to test GPT-4Vs accuracy and explanation quality. We compared GPT-4V with two state-of-the-art LLMs, GPT-4 and ChatGPT. We also assessed the preference and feedback of healthcare professionals on GPT-4Vs explanations. We presented a case scenario on how GPT-4V can be used for clinical decision support. ResultsGPT-4V outperformed ChatGPT (58.4%) and GPT4 (83.6%) to pass the full USMLE exam with an overall accuracy of 90.7%. In comparison, the passing threshold was 60% for medical students. For questions with images, GPT-4V achieved a performance that was equivalent to the 70th - 80th percentile with AMBOSS medical students, with accuracies of 86.2%, 73.1%, and 62.0% on USMLE, DRQCE, and AMBOSS, respectively. While the accuracies decreased quickly among medical students when the difficulties of questions increased, the performance of GPT-4V remained relatively stable. On the other hand, GPT-4Vs performance varied across different medical subdomains, with the highest accuracy in immunology (100%) and otolaryngology (100%) and the lowest accuracy in anatomy (25%) and emergency medicine (25%). When GPT-4V answered correctly, its explanations were almost as good as those made by domain experts. However, when GPT-4V answered incorrectly, the quality of generated explanation was poor: 18.2% wrong answers had made-up text; 45.5% had inferencing errors; and 76.3% had image misunderstandings. Our results show that after experts gave GPT-4V a short hint about the image, it reduced 40.5% errors on average, and more difficult test questions had higher performance gains. Therefore, a hypothetical clinical decision support system as shown in our case scenario is a human-AI-in-the-loop system where a clinician can interact with GPT-4V with hints to maximize its clinical use. ConclusionGPT-4V outperformed other LLMs and typical medical student performance on results for medical licensing examination questions with images. However, uneven subdomain performance and inconsistent explanation quality may restrict its practical application in clinical settings. The observation that physicians hints significantly improved GPT-4Vs performance suggests that future research could focus on developing more effective human-AI collaborative systems. Such systems could potentially overcome current limitations and make GPT-4V more suitable for clinical use. 1-2 sentence descriptionIn this study the authors show that GPT-4V, a large multimodal chatbot, achieved accuracy on medical licensing exams with images equivalent to the 70th - 80th percentile with AMBOSS medical students. The authors also show issues with GPT-4V, including uneven performance in different clinical subdomains and explanation quality, which may hamper its clinical use.

著者: Hong Yu, Z. Yang, Z. Yao, M. Tasmin, P. Vashisht, W. S. Jang, B. Wang, F. Ouyang, D. Berlowitz

最終更新: 2023-11-15 00:00:00

言語: English

ソースURL: https://www.medrxiv.org/content/10.1101/2023.10.26.23297629

ソースPDF: https://www.medrxiv.org/content/10.1101/2023.10.26.23297629.full.pdf

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた medrxiv に感謝します。

著者たちからもっと読む

高エネルギー天体物理現象HESS J1843-033の近くで新しいガンマ線源が発見されたよ。

研究によると、HESS J1843-033の近くにあるガンマ線源TASG J1844-038が宇宙線についての新たな手がかりを提供しているらしい。

― 1 分で読む

類似の記事