Simple Science

最先端の科学をわかりやすく解説

# 健康科学# 放射線学と画像診断

放射線学におけるAIモデルの評価: 研究

放射線のボード試験におけるAIモデルの診断精度の評価。

― 1 分で読む


放射線科におけるAIの試験放射線科におけるAIの試験パフォーマンス評価してるよ。研究が放射線検査におけるAIの診断精度を
目次

近年、人工知能(AI)は大きな進歩を遂げて、特に大規模言語モデル(LLM)が注目されてるね。ChatGPTやClaudeみたいなモデルは、人間の書き方に似たテキストを理解したり作成したりできるんだ。医療などいろんな分野で強いパフォーマンスを見せてるし、特に放射線科では、病気を診断するために医療画像を使うんだけど、これらのLLMがどれだけうまく機能するかの研究が進んでるよ。

AIの放射線科での役割

研究によると、LLMは放射線に関する知識に基づいて病状を正確に診断できるし、胸部や脳の画像診断みたいな専門的な分野でも活躍できるみたい。最近は、テキストだけじゃなくて画像も理解できる新しいモデルが出てきた、たとえば視覚機能を持つGPT-4だね。これらのモデルは医療画像を分析できて、放射線技師の仕事を助けるかもしれない洞察を提供してくれるんだ。

一番新しいモデルであるGPT-4 omniは、複数の言語をサポートし、画像を効果的に理解できる能力で注目されてるよ。でも、これらのモデルの特定の放射線科のテストや試験における診断精度について調査した研究はまだ少ないし、GPT-4oに関しても特に放射線科での評価はされてないんだ。

評価の必要性

放射線科の専門分野、特に核医学や介入放射線科では、慎重な画像分析が必要だから、AIがこれらのタスクをどれだけうまく扱えるかをチェックすることが大事なんだよね。こうした技術が医療で広まるにつれて、放射線科のさまざまな面での長所と短所を評価することが不可欠だよ。

この研究の目的は、GPT-4V、GPT-4o、Claude-3 Sonnet、Claude-3 Opusなど、さまざまな視覚言語モデルの診断精度を、診断放射線、核医学、介入放射線の日本のボード認定試験で比較することだったんだ。専門分野での高度な診断におけるこれらのモデルのパフォーマンスを確立するのが目的だったよ。

データ収集

研究に使うテストは、5年間にわたってさまざまな公式ソースから集められた。日本の診断放射線(JDR)、日本の核医学(JNM)、日本の介入放射線(JIR)の試験を含んでるよ。データ収集の過程で重複した質問は除外された。研究は倫理ガイドラインに従って、公開されているデータを使ったから、同意は不要だったんだ。

モデルのテスト方法

この研究では、モデルにケースシナリオ、患者の病歴、利用可能な画像を提供したんだ。各モデルは、放射線科のベテラン教授が出すような形式の質問と選択肢を受け取ったよ。AIモデルはこれらの入力を処理して回答を生成した。回答は一定の期間にわたって収集されて、異なるモデルによって画像の有無に関する質問への対応能力は違ったんだ。

たとえば、あるモデルはテキストベースの質問しか答えられなかったけど、他のモデルはテキストと画像の両方に対応できた。全てのモデルは各質問に対して3回答えて、最も一般的な回答を最終的な回答として採用したよ。もしモデルが異なる回答を出したら、その質問は不正解として扱われたんだ。正しい回答は、経験豊富な放射線科医が各ケースをレビューして合意に達した場合に決めたんだ。

結果の分析

各モデルの正確さは、全ての質問に対して測定され、画像が含まれている場合とそうじゃない場合で比較された。結果は、GPT-4oが全テストで最も高い正確さを持っていて、Claude-3 Opusが常に2位を占めていたよ。ほとんどのモデルは画像なしの質問に対してはパフォーマンスが良かったけど、放射線画像をうまく処理するのには苦労してるみたい。

特定のテストでのパフォーマンス

JDRテストには、複数の正解がある形式の質問が含まれていた。モデルは比較的簡単な質問に対してうまく対応できる傾向があったけど、これは意思決定の複雑さが低かったからかもしれない。JIRテストでは、質問がもっと複雑で治療に関するものであったため、モデルのパフォーマンスの違いはそこまで明確ではなかったよ。

研究の限界

この研究はいくつかの課題に直面した。使用した質問の一部はモデルのトレーニングデータの一部だったかもしれなくて、結果にバイアスがかかる可能性があったんだ。それに、3つの回答だけで最終的な答えを導き出すのは、全ての回答のばらつきを捉えられないかもしれない。日本のテストに特化したことも、他の言語への適用可能性を制限する要因になってるかも。最後に、公式の正解が手に入らなかったから、評価は専門家の合意に大きく依存していて、最善の解釈とは限らないんだ。

結論

この研究では、放射線科のボードテストにおけるさまざまなAIモデルの診断精度を評価した結果、GPT-4oが最も高い精度を示し、Claude-3 Opusがその次だった。GPT-4oの強いパフォーマンスは、豊富で最新のトレーニングデータセットと、高度な画像認識能力に起因しているようだよ。

これらの進歩にもかかわらず、現在のモデルは放射線画像をうまく処理するのに苦労しているんだ。この結果は、特に専門分野での医療にこれらのモデルを統合することの潜在的な利益を示してるけど、複雑な画像タスクを扱う能力を向上させ、医療従事者を正確にサポートするためには、さらなる改善と評価が必要なんだ。

オリジナルソース

タイトル: Diagnostic Accuracy of Vision-Language Models on Japanese Diagnostic Radiology, Nuclear Medicine, and Interventional Radiology Specialty Board Examinations

概要: PurposeThe performance of vision-language models (VLMs) with image interpretation capabilities, such as GPT-4 omni (GPT-4o), GPT-4 vision (GPT-4V), and Claude-3, has not been compared and remains unexplored in specialized radiological fields, including nuclear medicine and interventional radiology. This study aimed to evaluate and compare the diagnostic accuracy of various VLMs, including GPT-4 + GPT-4V, GPT-4o, Claude-3 Sonnet, and Claude-3 Opus, using Japanese diagnostic radiology, nuclear medicine, and interventional radiology (JDR, JNM, and JIR, respectively) board certification tests. MethodsIn total, 383 questions from the JDR test (358 images), 300 from the JNM test (92 images), and 322 from the JIR test (96 images) from 2019 to 2023 were consecutively collected. The accuracy rates of the GPT-4 + GPT-4V, GPT-4o, Claude-3 Sonnet, and Claude-3 Opus were calculated for all questions or questions with images. The accuracy rates of the VLMs were compared using McNemars test. ResultsGPT-4o demonstrated the highest accuracy rates across all evaluations with the JDR (all questions, 49%; questions with images, 48%), JNM (all questions, 64%; questions with images, 59%), and JIR tests (all questions, 43%; questions with images, 34%), followed by Claude-3 Opus with the JDR (all questions, 40%; questions with images, 38%), JNM (all questions, 51%; questions with images, 43%), and JIR tests (all questions, 40%; questions with images, 30%). For all questions, McNemars test showed that GPT-4o significantly outperformed the other VLMs (all P < 0.007), except for Claude-3 Opus in the JIR test. For questions with images, GPT-4o outperformed the other VLMs in the JDR and JNM tests (all P < 0.001), except Claude-3 Opus in the JNM test. ConclusionThe GPT-4o had the highest success rates for questions with images and all questions from the JDR, JNM, and JIR board certification tests. Secondary abstractThis study compared the diagnostic accuracy of vision-language models, including the GPT-4V, GPT-4o, and Claude-3, in Japanese radiological certification tests. GPT-4o demonstrated superior performance across diagnostic radiology, nuclear medicine, and interventional radiology tests, including image-based questions, highlighting its potential for medical image interpretation.

著者: Hiroyuki Tatekawa, T. Oura, D. Horiuchi, S. Matsushita, H. Takita, N. Atsukawa, Y. Mitsuyama, A. Yoshida, K. Murai, R. Tanaka, T. Shimono, A. Yamamoto, Y. Miki, D. Ueda

最終更新: 2024-05-31 00:00:00

言語: English

ソースURL: https://www.medrxiv.org/content/10.1101/2024.05.31.24308072

ソースPDF: https://www.medrxiv.org/content/10.1101/2024.05.31.24308072.full.pdf

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた medrxiv に感謝します。

類似の記事