AIによる退院サマリーの評価
研究では、AI生成の退院サマリーと医師が書いたものを比較してるんだ。
Christopher Y.K. Williams, Charumathi Raghu Subramanian, Syed Salman Ali, Michael Apolinario, Elisabeth Askin, Peter Barish, Monica Cheng, W. James Deardorff, Nisha Donthi, Smitha Ganeshan, Owen Huang, Molly A. Kantor, Andrew R. Lai, Ashley Manchanda, Kendra A. Moore, Anoop N. Muniyappa, Geethu Nair, Prashant P. Patel, Lekshmi Santhosh, Susan Schneider, Shawn Torres, Michi Yukawa, Colin C. Hubbard, Benjamin I. Rosner
― 1 分で読む
患者が病院を出るときに、「退院サマリー」っていう文書が作られるんだ。このサマリーは、医者に患者の入院中の情報、診断、治療、フォローアップケアについて教えてくれるんだ。良い退院サマリーは、薬のミスを防いだり、患者が再入院する可能性を減らしたり、かかりつけ医がもらう情報に満足してもらう手助けになるんだ。
でも、これを書くのには時間がかかることが多いんだ。医者は必要な情報を集めるのが難しいことがあって、特にいろんな医者が患者のケアに関わっているときは余計に大変なんだ。これが間違いや情報の抜けを引き起こすことがあって、患者が退院した後のケアの質に影響を及ぼすことがあるんだ。
最近、大きな言語モデル(LLM)っていう人工知能(AI)が開発されたんだ。このモデルはたくさんの情報を受け取って、人間が書いたようなテキストを作成できるんだ。LLMが退院サマリーを書く手助けができるかもしれなくて、医者にとってプロセスが楽になることが期待されているんだ。
この記事では、LLMが生成した退院サマリーが医者が書いたものと比べてどれだけ効果的かを見ていくよ。これらのサマリーの質と安全性を調べて、LLMが医者の事務作業の時間を減らす手助けができるかを確認するんだ。
研究概要
病院の記録と臨床ノートの大規模なセットから情報を集めたよ。目的は、病院の医学チームによって治療された実際の患者のケースを探すことだったんだ。入院期間が短い3日から6日の患者に焦点を当てたのは、レビューを過剰にしないためだったんだ。
それから、先進的なLLMを使って、これらの患者の遭遇に基づいた退院サマリーを作成したんだ。病院の医者、かかりつけ医、熟練した看護施設の医者など、医療専門家のグループがLLM生成と医者生成のサマリーをレビューしたよ。
研究グループ
病院の記録から、合計145,501件の遭遇を特定したけど、実際に研究に含まれる具体的なガイドラインに合ったのは6,189件だけだったんだ。評価のために100件の患者遭遇をランダムに抽出し、さまざまな患者のデモグラフィックと臨床詳細が含まれていたよ。
ナラティブのレビュー
LLMが生成した退院サマリーと医者が作ったものを評価するために、二部構成のアプローチを使ったよ。まず、医者のグループが両方のタイプのサマリーをエラーの観点からレビューしたんだ。彼らは内容のミス、重要情報の抜け、そして不正確さを探したんだ。その後、各エラーから生じる可能性のある害の評価をしたよ。
次に、同じレビューグループがサマリーの明確さ、流れ、全体的な質に関してスコアを付けたんだ。LLMのサマリーが医者のものよりも役立つかどうかも尋ねたよ。
評価結果
エラーと害
100件の患者遭遇の中で、LLM生成のサマリーは平均2.91のユニークエラーがあったのに対して、医者生成のサマリーは平均1.82のエラーがあったよ。LLMのサマリーは医者のものに比べて不正確さや情報の抜けが多かったんだ。ただ、両者とも「ハルシネーション」エラー(不正確な情報が含まれるエラー)の数は似ていたよ。
これらのエラーから生じる潜在的な害を評価したとき、LLMのナラティブと医者のものとの間に大きな違いはなかったんだ。両方とも低い害のスコアを持っていて、エラーが患者に深刻な問題を引き起こす可能性は低いってことだね。
質の評価
一般的に、レビューアはLLMのサマリーを簡潔で一貫していると評価したけど、医者が生成したものよりも包括的ではなかったんだ。LLMのサマリーは要点に直接入るのが上手だったけど、重要な詳細をしばしば省略してしまったみたい。全てのレビューアは、LLM生成のサマリーがあまり詳細がないと感じていて、これが確認された情報の抜けの多さと関連しているんだ。
違いはあるけど、全体の質の評価は両方のサマリーで似ていて、レビューアの好みもどちらかに大きく偏ってはいなかったよ。
評価の他の要因
LLM生成と医者生成のサマリーの類似点を比較するために、いくつかの技術的な指標も使ったんだ。その結果、同じ遭遇のサマリーの間にある程度の一致があったけど、スコアは一般的に低かったよ。これは、これらの指標がナラティブが必要な臨床情報をどれだけうまく伝えているかを測るのに効果的ではないかもしれないってことを示しているんだ。
結論
データを分析した結果、LLM生成の退院サマリーが医者の臨床文書負担を減らす可能性があることがわかったよ。LLM生成のナラティブは明確で簡潔だけど、重要な情報を省略することが多かったんだ。
ただ、両方のタイプのサマリーは、全体の質と患者に対する潜在的な害の面で比較可能だったよ。この研究は、LLMが実際の臨床実践でどのように役立てられるかを理解するための重要な第一歩なんだ。特に医者の負担を軽減するための手助けになることが期待されているんだ。
将来的には、LLMが退院サマリーの作成をどれだけ手助けできるかを評価するための詳細な評価が必要だし、正確さを改善する方法を見つけることも重要だね。LLM生成のサマリーを医師がレビューすることが、すべての重要な詳細を確保し、患者の安全を損なわないために重要なことのようだ。全体として、私たちの調査結果は、LLMが医者が効率的で役立つ退院サマリーを作成するのをサポートできる一方で、依然として人間の監視が必要だってことを示唆しているよ。
タイトル: Physician- and Large Language Model-Generated Hospital Discharge Summaries: A Blinded, Comparative Quality and Safety Study
概要: ImportanceHigh quality discharge summaries are associated with improved patient outcomes but contribute to clinical documentation burden. Large language models (LLMs) provide an opportunity to support physicians by drafting discharge summary narratives. ObjectiveTo determine whether LLM-generated discharge summary narratives are of comparable quality and safety to those of physicians. DesignCross-sectional study. SettingUniversity of California, San Francisco. Participants100 randomly selected Inpatient Hospital Medicine encounters of 3-6 days duration between 2019-2022. ExposureBlinded evaluation of physician- and LLM-generated narratives was performed in duplicate by 22 attending physician reviewers. Main Outcomes and MeasuresNarratives were reviewed for overall quality, reviewer preference, comprehensiveness, concision, coherence, and three error types - inaccuracies, omissions, and hallucinations. Each error individually, and each narrative overall, were assigned potential harmfulness scores on a 0-7 adapted AHRQ scale. ResultsAcross 100 encounters, LLM- and physician-generated narratives were comparable in overall quality on a 1-5 Likert scale (average 3.67 [SD 0.49] vs 3.77 [SD 0.57], p=0.213) and reviewer preference ({chi}2 = 5.2, p=0.270). LLM-generated narratives were more concise (4.01 [SD 0.37] vs. 3.70 [SD 0.59]; p
著者: Christopher Y.K. Williams, Charumathi Raghu Subramanian, Syed Salman Ali, Michael Apolinario, Elisabeth Askin, Peter Barish, Monica Cheng, W. James Deardorff, Nisha Donthi, Smitha Ganeshan, Owen Huang, Molly A. Kantor, Andrew R. Lai, Ashley Manchanda, Kendra A. Moore, Anoop N. Muniyappa, Geethu Nair, Prashant P. Patel, Lekshmi Santhosh, Susan Schneider, Shawn Torres, Michi Yukawa, Colin C. Hubbard, Benjamin I. Rosner
最終更新: 2024-09-30 00:00:00
言語: English
ソースURL: https://www.medrxiv.org/content/10.1101/2024.09.29.24314562
ソースPDF: https://www.medrxiv.org/content/10.1101/2024.09.29.24314562.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた medrxiv に感謝します。