臨床試験における患者マッチングの改善
臨床試験の患者募集をスムーズにするためにLLMを活用する。
― 1 分で読む
新薬を市場に出すために、臨床試験に適した患者を見つけるのは大きな課題だよね。多くの試験が十分な参加者を集めるのに苦労していて、その結果、遅延やコストの増加が起こるんだ。伝統的な方法では、候補者を見つけるのに手作業が多くて、かなりの時間がかかることもある。ほとんどの関連患者情報が医者のメモや検査レポートのような非構造化テキストで保存されているから、プロセスは複雑で非効率的になりがち。でも、特に大規模言語モデル(LLM)を使った技術の進歩が、このプロセスを改善する可能性を示しているんだ。
問題
十分な適格患者をリクルートするのは、臨床試験にとって大きなボトルネックになっている。臨床試験の約3分の1は、十分な適格被験者を見つけられずに失敗していて、リクルート費用が試験予算のかなりの部分を占めている。患者にとって、試験に参加することで新しい治療にアクセスできたり、より良いモニタリングや健康状態の改善が期待できたりするんだ。それでも、多くの患者が自分が参加できる試験について知らないことが多く、これは主に医者が知らせてくれないからだったりする。この無知は、患者の適格性を確認するのが手間と時間がかかるからなんだ。
臨床試験では、各候補者が特定の適格基準を満たさなきゃいけなくて、それが多くて詳細なことが多い。これらの患者を特定するには、通常、臨床研究コーディネーターが電子健康記録(EHR)を手作業でチェックする必要がある。必要な情報の大部分は通常、非構造化テキストとして提示されるから、自動処理が難しいんだ。例えば、フェーズIIIの癌試験で一人の患者をスクリーニングするのに、ほぼ1時間かかることもあるよ。
既存の自然言語処理(NLP)技術は、臨床テキストの独特な構造や用語のために苦労しているけど、LLMはこれらのタスクをどうにかして改善する可能性があるんだ。
目的
この研究は、臨床試験の患者マッチングプロセスにおけるLLMの使用を評価することを目的にしている。主に、これらのアプローチの効率性、時間やコストについて注目しているんだ。私たちは、LLMを使って患者が医療履歴に基づいて特定の適格基準を満たすかどうかを判断するシステムを開発した。
アプローチ
私たちの研究は、臨床試験マッチングのためのLLMの適用を2つの主要なシステムデザインを通じて探求するよ:
最初のデザインでは、患者の医療履歴全体をLLMにとってのプロンプトとして使い、適格基準を評価する。このプロセスでは、全ての利用可能な情報に基づいてモデルが評価を生成できるんだ。
二つ目のデザインは二段階アプローチを取っている。まず、患者のノートをフィルタリングして最も関連性の高い部分を抽出し、その後選択した部分だけをLLMに分析のために送るんだ。
方法論
ゼロショット評価
最初の評価プロセスでは、ゼロショット技術を使った。つまり、追加のトレーニングや文脈例なしでモデルに患者の適格性を評価するよう指示したってわけ。私たちは各患者の医療履歴全体をモデルに提供し、さまざまなプロンプト戦略を使ってすべての基準を一度に評価するように頼んだんだ。
プロンプト戦略
効率的なものはどれかを探るため、さまざまなプロンプトの構造を試したよ。異なる情報量を与えたときにLLMがどれくらいよく機能するかを見るために、いくつかの戦略を試した。一部の戦略は全ての患者ノートを一つのプロンプトにまとめるもの、他のものは個々のノートを別々に提供するものだった。
データとコード
研究では、2018年のn2c2コホート選択チャレンジデータセットを使った。これには患者記録とそれに対応する適格基準が含まれていて、私たちのLLMベースのシステムのパフォーマンスを既存のマッチング方法と比較することができた。
結果
私たちの結果は、患者マッチングにLLMを使うことで、臨床試験のために適格な患者を特定する効率性や効果が大きく改善できることを示しているよ。
パフォーマンス指標
モデルのパフォーマンスは、精度、再現率、全体のF1スコアなどいくつかの重要な指標に基づいて評価した。これらの指標は、モデルが患者が必要な試験の適格基準を満たしているかどうかをどれだけ正確に判断できたかを測るのに役立った。
コストと効率
特に目立つ結果の一つは、患者を評価する際の時間とコストが大きく削減されたことだ。私たちのシステムは、従来の方法よりもずっと早く患者の適格性評価を行えることを示し、スクリーニングの全体的なコストを大幅に削減したんだ。
解釈可能性
私たちの研究の重要な側面は、モデルの判断の解釈可能性だった。モデルが患者が適格基準を満たしているかどうかを判断する際の理由をどれだけうまく説明できるかを評価したんだ。この能力は、臨床医が出力をレビューしてモデルの判断に自信を持てるようにするよ。
臨床医評価
私たちは臨床医に、LLMが患者の適格性について行った各決定の正当性を評価してもらった。この評価により、モデルが予測の大多数に対して一貫性があり論理的な説明を提供できることが明らかになった。正しい決定に関しては、高い割合で正当性が完全に正しいとされていたよ。
制限事項
結果は有望だけど、考慮すべき限界もある。使用したデータセットは、多くの医療システムにある膨大なデータに比べて比較的小さいから、実際の環境でこのモデルを効果的に展開するためにはさらなる改良が必要なんだ。
今後の方向性
この研究の結果から、たくさんの研究方向がさらに探求されるべきだと思っている。今後の調査では、適格基準の洗練やLLMの性能向上を図ることが考えられる。LLMが臨床試験の患者特定において重要な役割を果たす可能性が大いにあるんだ。
結論
要するに、私たちの研究は、LLMが臨床試験の患者マッチングプロセスを改善する可能性を強調している。従来必要だった時間やコストのほんの一部で正確な評価を提供することで、これらのモデルは臨床研究に大きな影響を与えることができる。新薬の開発において患者リクルートが重要であることを考えると、この研究が進んだ機械学習技術の臨床試験業務への応用をさらに探るきっかけとなることを願っているよ。
タイトル: Zero-Shot Clinical Trial Patient Matching with LLMs
概要: Matching patients to clinical trials is a key unsolved challenge in bringing new drugs to market. Today, identifying patients who meet a trial's eligibility criteria is highly manual, taking up to 1 hour per patient. Automated screening is challenging, however, as it requires understanding unstructured clinical text. Large language models (LLMs) offer a promising solution. In this work, we explore their application to trial matching. First, we design an LLM-based system which, given a patient's medical history as unstructured clinical text, evaluates whether that patient meets a set of inclusion criteria (also specified as free text). Our zero-shot system achieves state-of-the-art scores on the n2c2 2018 cohort selection benchmark. Second, we improve the data and cost efficiency of our method by identifying a prompting strategy which matches patients an order of magnitude faster and more cheaply than the status quo, and develop a two-stage retrieval pipeline that reduces the number of tokens processed by up to a third while retaining high performance. Third, we evaluate the interpretability of our system by having clinicians evaluate the natural language justifications generated by the LLM for each eligibility decision, and show that it can output coherent explanations for 97% of its correct decisions and 75% of its incorrect ones. Our results establish the feasibility of using LLMs to accelerate clinical trial operations.
著者: Michael Wornow, Alejandro Lozano, Dev Dash, Jenelle Jindal, Kenneth W. Mahaffey, Nigam H. Shah
最終更新: 2024-04-10 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2402.05125
ソースPDF: https://arxiv.org/pdf/2402.05125
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。