医療における言語モデルの評価:新しいデータセット
新しいデータセットがヘルスケアアプリケーション向けの言語モデルの評価を助けるよ。
― 1 分で読む
目次
大規模言語モデル(LLM)は、自然言語の指示に従う能力がすごいことを示してきた。この能力は医療で重要で、たくさんの書類やデータ管理があるからね。LLMはこの負担を減らして、ケアの質を向上させるかもしれない。でも、これらのモデルを実際の医療現場でテストするのは簡単じゃない。現在のLLM評価用データセットは、医者が毎日扱っている情報の複雑さをほとんど捉えていないんだ。
課題
電子カルテ(EHR)の質問応答データセットは、臨床医が直面する複雑なニーズや負担をうまく示していない。この制限を踏まえて、医者がEHRデータをどう使うかのさまざまな指示を含む新しいデータセットを作成した。このデータセットは、医療におけるLLMのパフォーマンスを評価するために特に作られたんだ。
データセット
新しいベンチマークデータセットは、EHRデータに対する自然言語の指示の範囲を含んでいる。このデータセットはさまざまな医療専門家によって作成されていて、広い範囲を持っているよ。各指示には、臨床医が書いた応答と、異なる医療状況を扱う実際のEHRがペアになっている。
LLMがこれらの指示にどれだけうまく応答できるかを評価するために、6つの異なる一般的なLLMからの応答の正確さと質を臨床医に評価してもらった。結果は、モデル間にかなりのエラー率があり、LLMが臨床現場の期待に応えるまでにはまだ長い道のりがあることを示している。
コンテキストの重要性
LLMは適切なコンテキストがあればうまく機能する。たとえば、コンテキストの長さを短くするとモデルの正確さが8.3%落ちた。十分な情報があればより良い応答が得られるってことだね。医療では、コンテキストが重要で、データの解釈が変わることがある。
臨床医のタスク
臨床医は、LLMを使うことで簡素化できるタスクに多くの時間を費やしている。患者の治療履歴を要約したり、検査結果から診断を生成したり、臨床ノートをレビューするタスクは多くの時間とエネルギーを要する。LLMを使えば、これらのタスクが効率化され、医者は患者にもっと時間をかけられ、書類作成にかける時間が減るかもしれない。
現在の制約
LLMが医療を変える可能性に興奮しているものの、これまでの評価はEHRデータに対する医者の多様なタスクセットを正確に表していない。最近の指示に従う能力の進展を活用すれば、LLMは医療専門家の負担を軽減する可能性があると信じている。
でも、臨床医のニーズを真に反映するデータセットを作るのは難しい。これには、病院と外来の設定からのEHRとマッチングできるさまざまな質問を実際の臨床医から集める必要がある。その上、データは真の臨床ニーズを理解させるために、構造化情報と非構造化情報の両方を含む必要があるんだ。
貢献
これらの課題に応えるために、私たちは3つの主な貢献を示します:
データセット作成: さまざまな専門の臨床医が作成した指示のデータセットを紹介する。多くの指示には、臨床医が作成した参考答案や関連するEHRを含めて、プロンプトを基にした。
指示-EHRマッチング: 臨床医の指示を関連するEHRと効果的にマッチングさせる方法を詳述し、データセット作成プロセスの効率を向上させる。
自動評価: 臨床医の評価と自動自然言語生成の評価を関連付ける指標を使って、LLMのパフォーマンスを評価する。
より良いデータの必要性
患者データの量は急速に増加していて、複雑さも増している。この成長に対処するために、EHRデータを効果的に扱える強力なLLMが必要で、これが臨床医の負担を軽減できる。現在のデータセットは、特定の質問に狭く焦点を当てすぎていたり、医療ニーズの実際のニュアンスを表現できていないことが多い。
より現実の臨床タスクに合わせたデータセットを提供することで、LLMがEHRデータを扱うためのより良いツールを作ることができる。これが臨床医のワークフローや患者のアウトカムを改善する手助けになるかもしれない。
データセットのキュレーション
私たちのデータセットを作成するには、注意深いキュレーションプロセスが必要だった。医療センターの医師から指示を集め、彼らがユニークなリクエストを提出できるプラットフォームを提供した。各指示には、その使用が適用される臨床状況についてのコンテキストがついている必要があった。
その後、これらの指示を関連するEHRにマッチさせるために、約74%の確率で効果的な取得方法を使った。つまり、私たちの方法は特定の指示に関連するEHRをほとんどの時間で見つけることができて、収集したいデータの質を大幅に向上させた。
指示の収集
指示収集プロセスでは、オンラインフォームを使用した。臨床医には、日常の実践でAIツールに助けてほしいタスクの指示を作成するよう促した。指示は明確で、一般の患者集団に関連している必要があった。
応答の評価
指示がEHRにマッチしたら、臨床医には提供されたデータに基づいて応答を生成してもらった。EHRには、指示に対処するために必要なすべての関連情報が含まれている必要があった。この評価は、徹底的なレビュー過程と関与した臨床医の専門知識を必要とした。
データセットとパフォーマンス
私たちのデータセットには、さまざまな医療専門家によって生成されたかなりの数の指示が含まれていて、豊かな臨床シナリオを反映している。LLMのパフォーマンスは、EHR内にあるコンテキスト情報を使って指示にどれだけ正確に応答できるかで評価された。
モデル間で顕著な違いがあった。特に、GPT-4のようなより進んだモデルは、小型のオープンソースオプションよりもかなり良いパフォーマンスを示した。応答の全体的な正確さは大きく異なり、すべてのLLMが臨床タスクを同じようにうまく処理できるわけではないことが示された。
パフォーマンスの分解
実際のLLMのパフォーマンスに関して、結果は、先進的なモデルを使用すると、応答の明確さや正確さが向上することを示している。たとえば、コンテキストの長さが大きいLLMは、短いものよりも良いパフォーマンスを発揮した。これは医療のような複雑な分野では、コンテキストが重要だという考えを強化する。
自動評価指標
手動評価に加えて、LLMパフォーマンスを評価するための自動指標も探求した。これらの指標は、膨大な数の応答を迅速に整理し、臨床医の評価とのベンチマークを提供するのに役立つ。自動方式は、人間のランキングとの有望な相関を示し、将来の評価のための有用なツールになり得ると示唆している。
セキュリティとコンプライアンス
敏感な患者データを扱う際には、厳格なセキュリティと規制の遵守が重要だった。このプロジェクトは、機関の審査委員会のプロトコルに従い、データが患者のプライバシーを保護するための非識別化を保証した。関与する研究者は、データを扱う前にプライバシー実践についてのトレーニングを受けた。
結論
まとめると、私たちの研究は医療の文脈でLLMを評価し、使用するための道筋を提示している。私たちは、臨床医がEHRを扱う際に直面する実際のタスクに特化したデータセットを作成することで基盤を築いた。
LLMの能力と医療の現実のギャップを埋めることで、管理業務を効率化し、患者ケアを改善するためのこれらのモデルの潜在能力を解き放つことができる。さらなる努力は、利用可能なツールを洗練させ続け、医療コミュニティにとって信頼できて有益となるようにするだろう。
臨床現場で先進的な言語モデルを統合するシフトには、継続的な協力とベストプラクティスの探求が必要だ。データの質、方法の開発、テクノロジーの進歩が続けば、医療におけるAIの未来に期待が持てる。
タイトル: MedAlign: A Clinician-Generated Dataset for Instruction Following with Electronic Medical Records
概要: The ability of large language models (LLMs) to follow natural language instructions with human-level fluency suggests many opportunities in healthcare to reduce administrative burden and improve quality of care. However, evaluating LLMs on realistic text generation tasks for healthcare remains challenging. Existing question answering datasets for electronic health record (EHR) data fail to capture the complexity of information needs and documentation burdens experienced by clinicians. To address these challenges, we introduce MedAlign, a benchmark dataset of 983 natural language instructions for EHR data. MedAlign is curated by 15 clinicians (7 specialities), includes clinician-written reference responses for 303 instructions, and provides 276 longitudinal EHRs for grounding instruction-response pairs. We used MedAlign to evaluate 6 general domain LLMs, having clinicians rank the accuracy and quality of each LLM response. We found high error rates, ranging from 35% (GPT-4) to 68% (MPT-7B-Instruct), and an 8.3% drop in accuracy moving from 32k to 2k context lengths for GPT-4. Finally, we report correlations between clinician rankings and automated natural language generation metrics as a way to rank LLMs without human review. We make MedAlign available under a research data use agreement to enable LLM evaluations on tasks aligned with clinician needs and preferences.
著者: Scott L. Fleming, Alejandro Lozano, William J. Haberkorn, Jenelle A. Jindal, Eduardo P. Reis, Rahul Thapa, Louis Blankemeier, Julian Z. Genkins, Ethan Steinberg, Ashwin Nayak, Birju S. Patel, Chia-Chun Chiang, Alison Callahan, Zepeng Huo, Sergios Gatidis, Scott J. Adams, Oluseyi Fayanju, Shreya J. Shah, Thomas Savage, Ethan Goh, Akshay S. Chaudhari, Nima Aghaeepour, Christopher Sharp, Michael A. Pfeffer, Percy Liang, Jonathan H. Chen, Keith E. Morse, Emma P. Brunskill, Jason A. Fries, Nigam H. Shah
最終更新: 2023-12-24 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2308.14089
ソースPDF: https://arxiv.org/pdf/2308.14089
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。