Simple Science

最先端の科学をわかりやすく解説

# 健康科学 # 腫瘍学

AIツールで臨床試験のスクリーニングを進める

AIモデルは、臨床試験の患者適格性スクリーニングを改善する可能性を示してるよ。

Samantha M Lai, A. M. Malik, T. S. Sathe, C. Silvestri, G. A. Manji, M. D. Kluger

― 1 分で読む


AIが臨床試験のスクリーニ AIが臨床試験のスクリーニ ングを強化する たよ。 新しいモデルが患者の適格性判断を簡素化し
目次

臨床試験は医療の知識を進めたり、患者のケアを改善するために欠かせないものだよね。成功するためには安定した数の患者が必要なんだけど、そのための患者スクリーニングはけっこう複雑で、たくさんのリソースが必要なんだ。これが患者が最新の治療オプションを受けるチャンスに影響を与えたり、特に登録数が少ない病院には経済的な負担になったりすることもある。だから、患者が試験にアクセスしやすくすることと、スクリーニングプロセスの非効率を減らすことの2つの主要な領域で取り組む必要があるね。

より良い患者スクリーニングの必要性

臨床試験のために患者をスクリーニングしたり募集したりするのは、患者の記録にある臨床情報をたくさん確認して、それを各試験の特定の適格基準と照らし合わせることが含まれるんだ。アメリカ臨床腫瘍学会の研究によると、試験のフェーズによっては、患者を見つけてスクリーニングし、登録するのに最大8時間かかって、数百ドルのコストがかかることもあるみたい。私たちの機関では、このスクリーニングはしばしば無計画に行われていて、医師の意見や、電話や医療記録の検索に時間を分けている専用のスクリーナーに頼ることが多いんだ。この無秩序なアプローチが、アメリカ全体の癌試験での低い登録率の一因かもしれない。だから、しっかり調査しつつ、試験の募集を効率化する必要があるね。

人工知能の役割

生成型人工知能(AI)みたいな新しい技術がこの状況を改善する可能性を示しているんだ。研究によれば、大規模言語モデル(LLM)は臨床情報を処理して、ノートや画像報告のような非構造的な臨床文書から詳細を抽出できるんだって。これらのAIモデルが、患者が試験に適格かどうかを判断するために必要な特定の基準を特定できることが示されているよ。しかし、LLMが事前に処理されていない完全な臨床ノートを使ってどれだけうまく働くかについては研究が不足しているんだ。今のところ、詳細な臨床ノートを使って、個別の適格基準と全体の試験の適格性を効果的にスクリーニングした大規模言語モデルはまだないみたい。

私たちの仮説

私たちは、高度な大規模言語モデルを使って、それにプロンプトエンジニアリングと公に利用可能な臨床試験データを組み合わせて、患者のクリニックノートに基づいて臨床試験に適格かどうかを予測できるんじゃないかと思ったんだ。この記事では、膵臓癌の評価を受けている患者に対して、私たちのツールがどれだけ正確かを示すパイロットスタディのデータを紹介します。

方法論

患者選択

私たちは、私たちの機関で9つの異なる臨床試験のためにスクリーニングに同意した患者を研究したんだ。膵臓センターで治療を受けていて、医療と外科腫瘍学のノートが利用可能な32人の患者を選んだよ。プロンプトの開発に役立てるために8人の患者チャートを取っておいて、残りの24人でテストすることにした。試験の適格性を判断するために必要な情報を彼らの医療記録から集めて、個人情報が保護されるようにすべての個人情報を取り除いたんだ。

適格基準のレビュー

各試験の適格基準をClinicalTrials.govから集めて、患者が各要件を満たしているかどうかを評価するために必要なバイナリー基準に分解したよ。たとえば、ある試験が患者に転移性膵管腺癌を持っていることを求めていたら、これを2つの別々の基準に分けたんだ:膵管腺癌の診断確認と病気が転移していることの確認。2人の独立したレビューアが、これらの基準に基づいて、無名化されたノートを使って適格性を判断したよ。

モデル開発

私たちは、Python LangChainライブラリとOpenAIのGPT-4oモデルをデフォルト設定で使ってアプリケーションを開発したんだ。このアプリは3つのチェーンから成り立っているよ。最初のチェーンは無名化されたノートと適格基準を評価して、各基準の適格性ステータスを提供するんだ。各患者についてこのプロセスを5回実行して比較用の複数の答えを得て、それを結合してコンセンサスに達するようにしたよ。

パフォーマンス測定

私たちのLLMアプリケーションからの出力を、2人の独立したレビューアの評価と比較して感度と特異度を測定したんだ。真陽性とは、私たちのモデルが患者を適格として正しく特定した場合で、レビューアの結論と一致していることを指すよ。真陰性は、モデルが患者が適格でないことを正確に示した場合ね。私たちは不一致を分析して、いくつかのタイプにカテゴライズしたよ:人為的エラー、プロンプトの不明瞭さ、臨床判断エラー、モデルによる誤解、そしてモデルが誤った情報を提供した場合のハルシネーションなど。

結果

テストした24人の患者のうち、19人が少なくとも1つの試験に適格で、合計で43の適格患者-試験マッチが得られたんだ。私たちのモデルは、42のマッチのうち39を正しく予測したよ。合計で2,520のバイナリー適格基準を評価して、独立したレビューアとの一致率は96.7%だったんだ。

全体の試験適格性の感度は、9つの試験のうち8つで87.5%から100%の間だったよ。ただ、1つの試験では、モデルが唯一のテストされた患者を正しくスクリーニングできなかったため、その試験に対する感度は0%になっちゃった。すべての試験での特異度は73.3%から100%の範囲だったよ。

コストと時間の効率

1人の患者をスクリーニングするための中央値コストはわずか0.67ドルで、中央値の所要時間は約138秒だったんだ。モデルのトークン使用は、主に適格性判断の段階に集中していたよ。全体のコストと時間は、従来のスクリーニング方法に比べてかなり低かったんだ。

エラー分析

モデルのパフォーマンスを独立したレビューアと比較したときに、合計で82の不一致が見つかったよ。その大部分は、チャートレビュー中の人為的エラーから来ていた。モデルによるハルシネーションや臨床情報の誤解も、他の一般的なエラーの源だったんだ。患者のノートに提示された情報についての異なる判断からも、いくつかのエラーが発生したよ。

発見の影響

臨床試験のスクリーニングに大規模言語モデルを使うことについては広く議論されているけど、私たちの発見はその継続的な会話に貢献しているんだ。この研究は、これらのモデルが不完全な非構造的データでも良いパフォーマンスを発揮できることを示しているよ。LLMベースのツールが臨床試験に適格な患者を特定するために有効である可能性を示唆しているんだ。

私たちの研究は、私たちのモデルが臨床ノートから患者の年齢や病気の切除可能性といった重要な詳細を信頼性を持って抽出できることを示しているよ。ただ、いくつかのエラーがあるせいで、臨床現場での即時の普及は難しいかもしれない。たとえば、あるケースでは、患者が治療歴の理由で適格ではないにもかかわらず、複数の試験に誤って適格と見なされたことがあったんだ。

制限と今後の方向性

この研究にはいくつかの制限があって、比較的小さな患者プールや一般化の欠如が考えられるね。今後の研究では、より大きなデータセットでのテストや、私たちのツールのパフォーマンスを従来のスクリーニング方法と比較することが含まれるべきだよ。私たちのモデルの設計は、さまざまな試験に適応できるようになっているから、その適用範囲を広げるのに役立つんだ。

生成型AIの出力を解釈することの内在的な複雑さは依然として課題だけど、私たちはモデルがどのように結論に達したのかを明確にするための努力をしたよ。私たちの研究はモデルのパフォーマンスを専門の人間スクリーナーと直接比較していないけど、私たちの結果は、モデルが現在のスクリーニング努力を効果的にサポートできる可能性があることを示唆しているんだ。

結論

私たちの発見は、大規模言語モデルが自由形式の臨床ノートを処理することで臨床試験のスクリーニングの複雑さを扱えることを示しているよ。このツールは、試験に適格な患者を特定するための人間の努力をサポートすることができるかもしれない。これは、特に臨床試験の募集における実用的な医療アプリケーションに先進的なAI技術を統合するための大きな一歩を示しているんだ。

オリジナルソース

タイトル: A Proof-of-Concept Large Language Model Application to Support Clinical Trial Screening in Surgical Oncology

概要: IntroductionClinical trials advance the forefront of medical knowledge and rely on consistent patient accrual for success. However, patient screening for clinical trials is resource intensive. There is a need to increase the scalability of trial recruitment while maintaining or improving upon the sensitivity of the current process. We hypothesized we could use a state-of-the-art large language model (LLM), prompt engineering, and publicly available clinical trial data to predict patient eligibility for trials from clinic notes. Here, we present pilot data demonstrating the accuracy of this tool in a cohort of patients being evaluated for pancreas cancer treatment. MethodsPatients who were screened for clinical trials at a single institution were studied. An LLM application was developed using LangChain and the GPT-4o model to assist in clinical trial screening. Deidentified patient data from clinical notes and trial eligibility criteria from ClinicalTrials.gov were used as inputs. For each patient, the model determined inclusion or exclusion with respect to selected eligibility criteria as well as nine clinical trials. Model responses were graded programmatically against a human rater standard. Time elapsed and cost for running each analysis were recorded. ResultsOf the 24 patients in the test set, 19 were eligible for at least one trial. There were 43 eligible patient-trial matches in the data set. Our model correctly predicted 39 out of 42 (90.7%) of these matches. There were 105 individual eligibility criteria evaluated per patient for a total of 2520 binary criteria. GPT-4o agreed with the raters for 2,438 out of 2,520 (96.7%) binary eligibility criteria. Sensitivity to overall trial eligibility ranged from 87.5% to 100% for 8 out of 9 trials. Specificity ranged from 73.3% to 100% over all nine trials. The median cost for screening a patient was 0.67 USD (0.63-0.74). Median time elapsed was 137.66 seconds (130.04-146.04). Median total token usage across three assistants was 112,266.5 tokens (102,982.0-122,174.2). ConclusionOverall, this model showed high sensitivity and specificity in using minimally processed free-text clinical notes to screen patients for appropriate clinical trials using a fraction of the time and cost of existing screening mechanisms. Results showed promise with a small cohort, and future studies are needed to assess its accuracy with a larger sample of patients and trials. This study represents the frontier of pitting of emerging large language model technology against the historically unruly terrain of the electronic medical record, suggesting that the imperfection of free-text clinical notes only slightly hinders the performance of a general-use model compared to previous performance on preprocessed data. These findings highlight that using this tool directly on clinical notes could complement human screening efforts to improve patient accrual at a low time and monetary cost.

著者: Samantha M Lai, A. M. Malik, T. S. Sathe, C. Silvestri, G. A. Manji, M. D. Kluger

最終更新: 2024-10-04 00:00:00

言語: English

ソースURL: https://www.medrxiv.org/content/10.1101/2024.09.20.24314053

ソースPDF: https://www.medrxiv.org/content/10.1101/2024.09.20.24314053.full.pdf

ライセンス: https://creativecommons.org/licenses/by-nc/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた medrxiv に感謝します。

類似の記事

コンピュータビジョンとパターン認識 クラスに依存しない物体カウントの新しいベンチマーク

新しいベンチマークが、言語プロンプトを使ったオブジェクトカウントモデルの評価を向上させる。

Luca Ciampi, Nicola Messina, Matteo Pierucci

― 1 分で読む