エンドGPT:甲状腺結節管理のための新しいツール
EndoGPTは、甲状腺結節の意思決定をかなり正確にサポートするよ。
― 1 分で読む
大規模言語モデル(LLM)は医療に関する質問に答えられるけど、医者のように考える能力はまだ研究中なんだ。最近の進展により、これらのモデルは追加のトレーニングなしで応答を改善できるようになった。この文章では、EndoGPTというモデルが甲状腺の結節に関する意思決定を助けるために使われている方法を説明するよ。
甲状腺結節って何?
甲状腺結節は首にある甲状腺にできる塊のことで、多くの人が持っていて、ほとんどの場合は害はないんだ。ただし、一部の結節は癌になる可能性があるから、慎重な評価が必要だよ。医者は通常、様々なガイドラインに基づいてこれらの結節を評価し、最適な処置を決定するんだ。
EndoGPTの構築
EndoGPTを作るために、甲状腺評価のために紹介された患者のクリニックノートのデータを見たんだ。目標は、この患者情報を読み取って、管理のための評価と計画(A&P)を提案できるアシスタントを作ることだった。モデルはGPT-4のバージョンを使って構築されたよ。
さらに、アメリカ甲状腺協会の関連ガイドラインをEndoGPTに提供して、より良い推薦ができるようにしたんだ。ガイドラインをモデルが理解できるように整理することで、EndoGPTは出力を生成する際に最も関連性の高い部分を使用できるようにしたよ。
EndoGPTの動作方法
EndoGPTは、専門家の評価が含まれていないクリニックノートを受け取るんだ。そして、そのノートを分析して、患者の状況に基づいた5つの可能な評価と計画を生成する。次に、別のアシスタントがこの5つの応答を1つの最終評価と計画にまとめるよ。
初期テストでは、25の患者シナリオでEndoGPTを実行してエラーを特定し、応答を改善したんだ。このフィードバックをもとに、アシスタントのパフォーマンスを洗練させてから新しいケースでテストしたよ。
EndoGPTのテスト
EndoGPTが人間の専門家とどのくらいよく比べられるか見たかったんだ。50の患者シナリオでテストして、提案された評価が専門医のものとどれだけ一致しているかを測定したんだ。主に3つのエリアを見たよ:(1)診断、(2)手術の必要性、(3)手術の種類。
全体として、EndoGPTは専門家の評価と83%の一致率を達成した。50のケースのうち44件では、モデルが専門家の診断と完全に一致したんだ。5件で部分一致して、診断の総一致率は93%になった。手術の必要性に関しては50のケースのうち41件で一致していて、82%の一致率だよ。
特定の発見
専門家が手術を推奨したとき、EndoGPTは36のケース中24件で手術の種類が一致した。これは約67%の一致率だ。ただし、モデルが専門家の意見と合わなかった領域もあったよ。例えば、リンパ節切除の具体的な部分で苦労したり、時々は良性結節に対して手術を提案したりすることがあった。
いくつかの不一致は、テスト中にモデルに対して過剰な指導を行ったために生じた可能性がある。これがあまりにも慎重な推奨に繋がったかもしれない。また、1つの応答しか評価しなかったから、EndoGPTがより安全な代替アプローチを提案した場合を見逃してしまったかもしれない。
制限事項
EndoGPTは期待の星だけど、人間の医者を置き換えることを目的としているわけじゃないんだ。むしろ、外科研修医の訓練を助けたり、専門家でない医師が初期評価を行うのを手伝ったりすることができるかもしれない。患者にとって医療ガイドラインをより身近にすることで、治療オプションの理解を深める方法を提供できるんだ。
今後の方向性
EndoGPTは、一般的なモデルが特定の医療タスクに適応できることを示しているけど、正確で安全な推奨を提供するためにはまだやるべきことがたくさんあるんだ。将来的な研究では、専門家パネルがモデルの出力をレビューして、さらなる正確性と信頼性を評価することが考えられるよ。
結論
EndoGPTは、医療提供者の意思決定プロセスを強化することで甲状腺結節の管理を助ける新しいツールを代表してるんだ。専門家の評価との一致率が印象的だけど、提案を洗練させるには引き続き研究が必要だよ。もっと研究が進むと、特に確立されたガイドラインがある分野で臨床判断を下す際に貴重なリソースになるかもしれない。最終的な目標は、患者ケアを向上させつつ、人間の専門知識が最前線にあることを確保することなんだ。
タイトル: EndoGPT: A Proof-of-concept Large Language Model Based Assistant for the Management of Thyroid Nodules
概要: Large language models (LLMs) are increasingly being explored for their potential to simulate clinical reasoning. Here, we demonstrate our initial experience using the GPT-4o LLM along with prompt engineering and knowledge retrieval to develop EndoGPT, a clinical decision support tool for the management of thyroid nodules. In a pilot study of 50 cases, EndoGPT demonstrated an 83% concordance rate with expert surgeons assessments and plans. The highest concordance was in diagnosis (93%), followed by the need for an operation (82%) and type of operation (69%). This work suggests that LLM-based assistants may play a useful role in assisting clinicians in the future.
著者: Meghal Shah, E. J. Kuo, J. H. Kuo, S. Hsu, C. McManus, R. Liou, J. A. Lee, T. S. Sathe
最終更新: 2024-05-31 00:00:00
言語: English
ソースURL: https://www.medrxiv.org/content/10.1101/2024.05.29.24308002
ソースPDF: https://www.medrxiv.org/content/10.1101/2024.05.29.24308002.full.pdf
ライセンス: https://creativecommons.org/licenses/by-nc/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた medrxiv に感謝します。