核心エコー試験のLLM評価
研究では、高度なLLMが複雑な医療試験の質問に答える能力を評価してる。
― 1 分で読む
目次
最近の大規模言語モデル(LLM)の改善は、医療を含むさまざまな分野での利用に対する関心を呼んでるね。多くの研究が、これらのモデルがどれだけ医療試験、特にアメリカの医師免許試験(USMLE)や専門ボード試験でのパフォーマンスを示しているかを調べてる。LLMが質問に正しく答える能力は、複雑なトピックを明確にし、回答を説明する教育ツールとしての可能性を示唆してる。でも、実際の医療状況、特に診断や医療決定にLLMを使うのは慎重にアプローチする必要があるし、さらなる研究が必要だね。
医療画像における課題
完全に調べられていない分野の一つは、LLMが医療画像を分析する必要がある質問にどれだけ対応できるか、特に心血管画像の分野では重要なんだ。いくつかの研究がLLMが画像を分析する方法に焦点を当て始めたものの、異なるモデル間の詳細な比較がまだ不足してる。これは、医療診断においてこれらのモデルがテキストデータとどのように画像を解釈できるかについてのさらなる研究が必要であることを示してるね。
核医学試験
核医学は、画像とテキストの両方を深く理解する必要がある複雑な診断プロセスを含むため、LLMにとっては挑戦なんだ。一般的な医療試験とは異なり、核医学の知識は特定の専門医療ジャーナルから得られる。アメリカでは、医師が認定を受けるためには、核医学認定委員会(CBNC)の試験に合格しなきゃいけない。アメリカ核医学会(ASNC)は、CBNCの試験に向けた準備を手伝うためのボード準備試験を提供してる。でも、これらの準備問題を合格するための基準点は設定されてないし、CBNC試験に合格するために必要な正確なスコアは分かってないんだ。
研究概要
この研究は、4つの高度なLLMチャットボット-GPT-4、GPT-4 Turbo、GPT-4 Omni、Gemini-がASNCボード準備試験のマルチモーダル(テキストと画像ベース)およびテキストのみの質問にどれだけ答えられるかを評価することを目的にしてる。この試験の質問は、CBNC認定試験の構造を反映した4つの主要セクションに分かれてた。モデルは標準化された条件の下でテストされ、各モデルが質問に何度も答えることができたんだ。これにより、時間経過によるパフォーマンスの変動を観察し、各モデルの強みと弱みを特定できたよ。
質問データセット
研究では、2023年のASNCボード準備試験からの選択肢形式の質問を使った。核医学の専門家がこれらの質問を作成して、参加者がCBNC試験に向けて準備できるようにしてる。ASNCは、この研究のためにこれらの質問の使用を許可し、正しい回答も提供してくれた。試験は168の質問で構成されてて、倫理的な承認は必要なかったんだ。
質問の分類
質問はASNCのガイドラインに基づいて4つのカテゴリに整理された:
- 物理学、機器、放射性同位体、放射線安全
- 取得と品質管理、ゲーティッドSPECT、アーチファクト認識、MUGA
- テスト選択、ストレスと核プロトコルの解釈、適切な使用、リスク層別化
- 心臓PET、マルチモダリティ画像、心臓アミロイドーシス、専門家とのケース:PETとSPECT
質問は画像を含むかどうかでも分類された。画像ベースの質問は27、テキストのみの質問は141だったよ。
モデルのパフォーマンスとデータ収集
研究で使用されたLLMはすべてトランスフォーマー型のアーキテクチャに基づいていて、文の次の単語を予測するように設計されてる。公開データと他のソースからライセンスされたデータのミックスでトレーニングされてる。トレーニングには強化学習技術も含まれてるけど、モデルのサイズやトレーニングに使ったデータについての具体的な詳細は公開されてないんだ。
GPT-4、Gemini、GPT-4 Turboからの応答は2段階で収集された。最初の段階では、モデルが質問に手動で答えてパフォーマンスを評価するために6週間の期間をかけた。GPT-4 Omniは後にリリースされたため、この段階には含まれなかったよ。
第2段階では、変動を考慮するために、各モデルを30回テストした。テストは制御された環境内で行われ、クラウドプラットフォームからリクエストを実行した。各質問は一つずつ提示され、モデルには最も可能性の高い回答を提供するよう指示されたんだ。
試験のスコアリング
各質問には正しい回答が1つだけあって、モデルが選んだ回答とASNCが出した正しい回答を比較した。スコアは正答の総数に基づいて計算されたよ。
パフォーマンスの分析
168の全ての質問におけるモデルの全体的なパフォーマンスは著しい違いを見せた。GPT-4oが最高スコアを達成し、その後にGPT-4 Turbo、GPT-4、Geminiが続いた。モデル間には特にGPT-4oと他のモデルとの間にパフォーマンスの大きな違いがあったんだ。
セクション別分析
試験の各セクションを見た時、GPT-4oは物理学や画像解釈に関連するセクションで他のモデルを一貫して上回ってた。でも、GPT-4 Turboは特定のセクションで強みを示し、Geminiは画像分析が必要な質問に答える際に遅れをとってた。
テキストのみの質問
画像を含まない質問では、GPT-4oが再び最高のパフォーマンスを見せて、GPT-4、Gemini、GPT-4 Turboを大きく上回った。これは、テキストベースの質問に対するGPT-4oの強さを示してるよ。
画像ベースの質問
画像ベースの質問に関しては、GPT-4とGPT-4 Turboは似たようなパフォーマンスを示したけど、Geminiは他のモデルと比べてかなり苦戦した。このことは、Geminiが医療画像を効果的に分析する能力にギャップがあることを浮き彫りにしてるね。
長期テスト
6週間のテスト期間中、モデルのパフォーマンスに大きな変化は見られなかったけど、GPT-4 Turboの1つのセクションでパフォーマンスが低下したのが見られた。このことは、LLMがうまく機能する一方で、その能力が短期間で劇的に向上することはないかもしれないことを示唆してるね。
結論
全体的に、この研究はGPT-4oのような高度なLLMが核医学や医療画像に関連する複雑な質問にどれだけ対応できるかを明らかにしてる。可能性はあるものの、特に医療画像の解釈においてはまだ限界があるね。これらのモデルが医療にますます採用される中で、医師や患者にとってその強みと弱みを理解することは重要だよ。
最後の考え
この研究は、GPT-4oが特に核医学のボード試験の質問に答える点で際立っている一方で、医療画像の解釈におけるLLMの精度を向上させるための努力がさらに必要だと示してる。今後の開発は、こうしたモデルのパフォーマンスを向上させるために専門的な知識でトレーニングを強化する方向に焦点を当てるかもしれないね。全体として、これらの発見は、医療コミュニティにおける教育ツールや支援技術としてLLMを使うための有望な方向性を示してるよ。
タイトル: Evaluating AI Proficiency in Nuclear Cardiology: Large Language Models take on the Board Preparation Exam
概要: BackgroundPrevious studies evaluated the ability of large language models (LLMs) in medical disciplines; however, few have focused on image analysis, and none specifically on cardiovascular imaging or nuclear cardiology. ObjectivesThis study assesses four LLMs - GPT-4, GPT-4 Turbo, GPT-4omni (GPT-4o) (Open AI), and Gemini (Google Inc.) - in responding to questions from the 2023 American Society of Nuclear Cardiology Board Preparation Exam, reflecting the scope of the Certification Board of Nuclear Cardiology (CBNC) examination. MethodsWe used 168 questions: 141 text-only and 27 image-based, categorized into four sections mirroring the CBNC exam. Each LLM was presented with the same standardized prompt and applied to each section 30 times to account for stochasticity. Performance over six weeks was assessed for all models except GPT-4o. McNemars test compared correct response proportions. ResultsGPT-4, Gemini, GPT4-Turbo, and GPT-4o correctly answered median percentiles of 56.8% (95% confidence interval 55.4% - 58.0%), 40.5% (39.9% - 42.9%), 60.7% (59.9% - 61.3%) and 63.1% (62.5 - 64.3%) of questions, respectively. GPT4o significantly outperformed other models (p=0.007 vs. GPT-4Turbo, p
著者: Piotr Slomka, V. M. Builoff, A. Shanbhag, R. Miller, D. Dey, J. Liang, K. Flood, J. Bourque, P. Chareonthaitawee, L. Phillips
最終更新: 2024-07-16 00:00:00
言語: English
ソースURL: https://www.medrxiv.org/content/10.1101/2024.07.16.24310297
ソースPDF: https://www.medrxiv.org/content/10.1101/2024.07.16.24310297.full.pdf
ライセンス: https://creativecommons.org/licenses/by-nc/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた medrxiv に感謝します。