眼科画像におけるGPT-4Vの評価
研究が、GPT-4Vの眼の画像分析の効果を評価している。
― 1 分で読む
目次
人工知能(AI)は、医療を含む多くの分野を変えてるんだ。特に面白いのは、大規模言語モデル(LLMs)で、これがテキストを理解したり生成したりできるってこと。医療分野、特に眼科では、これらのモデルが画像とテキストの両方を扱うタスクに役立つけど、まだいくつかの課題もあるんだ。
眼科における画像の役割
眼科は、さまざまな画像技術を使って病気を診断したり治療したりすることが多い。医者は、次のような方法から画像を使ってるよ:
- スリットランプ画像:目の前の部分を詳しく見るため。
- スキャニングレーザー眼底検査(SLO):網膜の詳細なビューを得るため。
- 眼底写真:目の内部表面の画像をキャッチするため。
- 光干渉断層撮影(OCT):網膜の断面画像を得るため。
- 眼底蛍光眼底造影(FFA):網膜の血流を調べるため。
- 眼科超音波(OUS):目の内部構造を見るため。
これらの画像は、医者が正確な診断をして、最適な治療を決めるのに役立ってるんだ。
眼科におけるLLMsの現状
最近、LLMsは主に眼科分野でテキスト形式の質問に答えるために使われてる。たとえば、目の病気や手術についての質問に答えることで、専門的な試験の準備を手伝ってる。でも、画像を分析するには限界があるんだ。
GPT-4Vの導入
新しいモデル、GPT-4V(ビジョン)が、この限界を克服するために導入された。このモデルは、画像とテキストの両方を扱うことができる。これにより、視覚的質問応答(VQA)という機能が可能になり、モデルが画像に基づいて質問に答えることができるようになった。これが医者や患者にとって貴重な情報を提供するかもしれない。
でも、GPT-4Vは眼科の分野でしっかりテストされていないから、目の病気に関連する画像を効果的に分析できるかは不明なんだ。
研究の目的
この研究は、GPT-4Vを基にしたチャットボットが目の画像に関する質問にどれくらい応えられるかをテストすることを目的にしてる。公正な評価のために、研究者たちは中国のいくつかの眼科センターからプライベートな画像データセットを収集したんだ。このデータセットには、さまざまな病状を表す目の画像が含まれてるよ。
画像収集プロセス
研究者たちは、特定の目の病状の明確な兆候が見える画像を慎重に選んだ。あいまいな診断や論争のある画像は除外したんだ。2人の経験豊富な眼科医が選ばれた画像を確認して、その明確さと信頼性を確認したよ。
GPT-4Vを使ったアプリの開発
研究者たちは、GPT-4Vが目の画像だけで診断を出すのにためらうことがあるとわかった。反応を改善するために、モデルがこれらの画像をより効果的に分析できるデジタルアプリを作ったんだ。
反応の生成方法
GPT-4Vを評価するために、研究者たちは以前の研究と臨床経験に基づいて10の具体的な質問を作った。これらの質問は、モデルのパフォーマンスを以下のいくつかの分野で評価することを目的にしてる:
- 検査の種類を特定する。
- 病変や異常を認識する。
- 診断を下す能力を評価する。
- 次のアクションのための意思決定支援を提供する。
研究者たちは、短期間で収集した目の画像を使ってGPT-4Vにプロンプトを与えたんだ。
人間の評価プロセス
3人の経験豊富な眼科医がGPT-4Vの反応を評価した。彼らは3つの主要な側面を見てたよ:
- 正確性:反応は事実として正しいか?
- 使いやすさ:回答は関連性があり、役立つか?
- 安全性:反応が患者にリスクを与えるか?
彼らは、情報が正しい、部分的に正しい、または間違っているかを示す三段階のスケールで正確性を評価した。使いやすさも、反応がどれだけ役立つかに基づいて評価され、非常に使いやすいから限られた使いやすさまでの範囲でスコアされたよ。安全性の評価は、与えられたアドバイスから生じる可能性のある危害に集中してたんだ。
GPT-4Vの全体的なパフォーマンス
研究の結果、GPT-4Vは特にスリットランプ画像の解釈において良い正確さと使いやすさを示した。ただし、他の種類の画像ではパフォーマンスに大きな差があった。たとえば、眼底写真への反応はしばしば正確さや有用性が低かった。
いくつかの良い評価があったけど、多くの回答は間違っていたり、それほど使えないものだった。モデルの画像解釈能力は限られていて、その説明はしばしばあいまいだったり一般的で、医者や患者にはあまり役立たないものだった。
反応の再現性
研究者たちは、同じ質問を再度したときにGPT-4Vの反応がどれくらい一貫していたかも調べたんだ。全体的な合意は比較的低く、モデルが安定して信頼できる反応を提供するのに苦労していることを示していた。
GPT-4Vと人間の反応の比較
研究者たちは、GPT-4Vの反応と人間の医者が出した回答を比較した。モデルの回答はしばしば人間の専門家が提供する深さや具体性に欠けていた。文の構造の類似性は中程度だったけど、モデルはしばしばどの目の病状にも当てはまる一般的なフレーズに頼ってたんだ。
結論
GPT-4Vは眼科における画像分析にAIを利用する一歩前進だけど、リアルな臨床使用にはまだ準備ができていない。目の画像に基づいて診断や臨床判断をサポートする能力は大きな改善が必要なんだ。医療の現場で信頼できるようになるまで、これらのモデルを洗練するためのさらなる研究が必要だよ。
この研究の発見は、眼科におけるAIモデルを強化するための将来の努力の基盤となる。全体的に、AIの利用には可能性があるけど、安全性と効果を確保するためにはさらなる開発が必要なんだ。
制限事項
この研究には制限がある。まず、使用した画像の数が少ないため、結果の信頼性に影響を与えたかもしれない。もっと大きくて多様なデータセットがあれば、医者が日常的に見るものをよりよく表現できるだろう。その上、研究者たちは、GPT-4Vが再度プロンプトされて間違いを修正できるかどうかを調べなかったけど、これは将来の研究の重要な領域になるかもしれない。
結論として、GPT-4Vは期待できるけど、眼科の手助けに効果的になるにはもっと作業が必要なんだ。実際の医療状況でAIツールを使えるようにするためには、継続的なテストと改善が重要だよ。
タイトル: Unveiling the Clinical Incapabilities: A Benchmarking Study of GPT-4V(ision) for Ophthalmic Multimodal Image Analysis
概要: PurposeTo evaluate the capabilities and incapabilities of a GPT-4V(ision)-based chatbot in interpreting ocular multimodal images. MethodsWe developed a digital ophthalmologist app using GPT-4V and evaluated its performance with a dataset (60 images, 60 ophthalmic conditions, 6 modalities) that included slit-lamp, scanning laser ophthalmoscopy (SLO), fundus photography of the posterior pole (FPP), optical coherence tomography (OCT), fundus fluorescein angiography (FFA), and ocular ultrasound (OUS) images. The chatbot was tested with ten open-ended questions per image, covering examination identification, lesion detection, diagnosis, and decision support. The responses were manually assessed for accuracy, usability, safety, and diagnosis repeatablity. Auto-evaluation was performed using sentence similarity and GPT-4-based auto-evaluation. ResultsOut of 600 responses, 30.6% were accurate, 21.5% were highly usable, and 55.6% were deemed as no harm. GPT-4V performed best with slit-lamp images, with 42.0%, 38.5%, and 68.5% of the responses being accurate, highly usable, and no harm, respectively. However, its performance was weaker in FPP images, with only 13.7%, 3.7%, and 38.5% in the same categories. GPT-4V correctly identified 95.6% of the imaging modalities and showed varying accuracy in lesion identification (25.6%), diagnosis (16.1%), and decision support (24.0%). The overall repeatability of GPT-4V in diagnosing ocular images was 63% (38/60). The overall sentence similarity between responses generated by GPT-4V and human answers is 55.5%, with Spearman correlations of 0.569 for accuracy and 0.576 for usability. ConclusionGPT-4V currently lacks the reliability needed for clinical decision-making in ophthalmology. Our study serve as a benchmark for enhancing ophthalmic multimodal models. SynopsisOnly 30.6%, 21.5%, and 55.6% responses about ocular multimodal images generated by GPT-4V(ision) were considered accurate, highly usable, no harm, respectively. Currently, GPT-4V lacks the reliability required for clinical decision-making and patient consultation in ophthalmology. O_LIWhat is already known on this topic: First, GPT-4V(ision) exhibited significant advantages in fine-grained world-knowledge-intensive visual question answering. Second, the performance of GPT-4V in the multimodal medical diagnosis domain had been evaluated through case analysis, involving 17 medical systems and 8 modalities used in clinical practice. However, ophthalmic-related images were not included in the study. C_LIO_LIWhat this study adds:Being the first known evaluation of GPT-4Vs capabilities in processing ophthalmic multimodal images, our study adds valuable insights to the existing body of knowledge. Our study highlight the incapabilities of GPT-4V, demonstrating that it currently lacks the essential reliability required for clinical decision-making and patient consultation in ophthalmology. C_LIO_LIHow this study might affect research, practice or policy: The evidence gathered in this study show that continued refinement and testing remain crucial for enhancing the effectiveness of large language models in medical applications. This work provides a benchmark for further investigation in building large language models for processing ophthalmic multimodal images. C_LI
著者: Danli Shi, P. Xu, X. Chen, Z. Zhao
最終更新: 2024-05-13 00:00:00
言語: English
ソースURL: https://www.medrxiv.org/content/10.1101/2023.11.27.23299056
ソースPDF: https://www.medrxiv.org/content/10.1101/2023.11.27.23299056.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた medrxiv に感謝します。