Simple Science

最先端の科学をわかりやすく解説

# 健康科学# 医療情報学

AIを使って患者のフェノタイプを改善する

研究者たちは、健康状態のEHRフェノタイピングを強化するためにLLMを探っている。

― 1 分で読む


EHRフェノタイピングにおEHRフェノタイピングにおけるAIつよ。LLMは健康状態のアルゴリズム開発に役立
目次

電子健康記録(EHR)は、患者の紙のカルテのデジタル版なんだ。EHRの重要な側面はフェノタイピングで、これは観察可能な特徴に基づいて患者を特定するプロセスだよ。これは健康や医学に関する研究にとってすごく重要な情報なんだ。

フェノタイピングには、患者情報を正確に分類する複雑なアルゴリズムを作成する必要がある。これらのアルゴリズムは、特定の健康状態を持つ患者を特定するのに役立ち、意味のある比較のために適切な対照群を選ぶのにも役立つんだ。でも、効果的なEHRのフェノタイプを作るのは、臨床医学とデータ管理の両方の専門知識が必要で、時間がかかるプロセスなんだよ。

現在のフェノタイピングのアプローチ

フェノタイピングアルゴリズムを開発する方法はいくつかある。一つのアプローチは、診断コードや投薬、検査などの特定の基準を選ぶ臨床専門家によるルールに依存している。これらのアルゴリズムは、慎重に洗練されて検証された場合、機械学習を使用した自動方法と比較して通常はパフォーマンスが良いんだ。ただ、このプロセスの詳細な性質が、大規模に実施する速度を制限するってわけ。

さらに、これらのアルゴリズムが異なる医療システムで使用されると、異なるデータベースやEHRシステムに合わせて追加の調整が必要になることが多くて、作業が増えるんだ。

大規模言語モデル(LLM)の役割

最近、研究者たちは大規模言語モデル(LLM)の使用を探求し始めた。これは、人間のようなテキストを処理したり生成したりできる先進的なAIツールなんだ。これらのモデルは情報を抽出したり内容を要約したりするのに期待できて、文献レビューのプロセスを早めることでフェノタイピングに役立つかもしれないんだ。

研究は、LLMが非構造化された臨床ノートからフェノタイプ情報をどのように引き出せるかに焦点を当てた。例えば、ある研究では特定のオープンソースモデルが、産後出血という医療状態に関連する退院サマリーから適切な概念を効果的に抽出できることがわかった。

研究

この研究では、LLMが3つの一般的な健康状態(2型糖尿病、認知症、甲状腺機能低下症)のアルゴリズム作成を手助けできるかテストした。彼らは4つのLLM(GPT-4、GPT-3.5、Claude 2、Bard)を見てみた。

LLMは、構造化されたEHRデータ内でこれらの状態を特定するために設計されたアルゴリズムを生成する能力に基づいて評価された。研究者たちは、モデルにアルゴリズムを生成させ、そのアルゴリズムの質を評価するという2つの主な部分からなるパイプラインを作成した。

LLMへのプロンプティング

まず、研究者たちはLLMにSQLクエリを生成させるプロンプトを出した。これはデータベースとやり取りするためのコーディング言語なんだ。彼らは、各フェノタイプに関連する診断コードや検査のコードを使うことに特に焦点を当てた。

彼らはモデルへのプロンプト方法として、αプロンプティングとβプロンプティングの2つの戦略を使用した。αプロンプティングは、アルゴリズムの初期バージョンを作成し、それを実行可能なSQLクエリに変換することに関わった。βプロンプティングは、初期のSQLクエリを取り、その質を評価するようモデルに依頼し、前回の結果を反映させて改善することに関わった。

アルゴリズムの評価

生成されたアルゴリズムを評価するために、臨床専門家が以下の3つの基準に基づいてレビューした:

  1. LLMがプロンプト指示にどれだけ従ったか。
  2. LLMが関連情報を一貫したアルゴリズムに統合する能力。
  3. アルゴリズムがデータベースで実行できる形で提示される効果。

評価の後、研究者たちはLLM生成のアルゴリズムと医療コミュニティに認識された既存のアルゴリズムを比較した。LLMのアルゴリズム内の概念が、以前に検証されたアルゴリズムとどれだけ一致するかを分析したんだ。

研究の結果

研究では、GPT-4とGPT-3.5が、使えるアルゴリズムを生成する際にClaude 2やBardよりもかなり良いパフォーマンスを示すことがわかった。その主な理由は、GPTモデルが必要な臨床基準を特定できる能力で、他のモデルはしばしば概念を誤って表現したり、要求された構造に従わなかったりしたからだ。

GPT-4とGPT-3.5は、関連する診断コード、検査、投薬を含むアルゴリズムを生成できることが判明した。一般的には正確だったけど、一部に誤った基準も含まれていて、実用に関しては懸念があるんだ。

重要な観察

2型糖尿病については、両モデルが関連するコードや検査を特定した。でも、重要な投薬をいくつか見逃してて、使った基準にいくつか誤りがあったんだ。

認知症については、両モデルが関連する診断コードや症状を含んだけど、確立された基準には完全に一致してなかった。以前に検証されたアルゴリズムには含まれていない薬も含まれてたんだ。

甲状腺機能低下症については、モデルがさまざまな診断コードや検査を正確に特定したけど、使用した薬や基準の数が確立されたアルゴリズムと異なってた。

実装と実用評価

LLMが作成したアルゴリズムは、実際の医療設定での大規模データセットでテストされた。GPT-4とGPT-3.5のアルゴリズムは良好に機能したけど、実際に正しく動作するためには調整がいくつか必要だった。一部のモデルはデータをうまく処理できなくて、患者を正しく特定するのが難しい状態だったんだ。

アルゴリズムのパフォーマンスは、ポジティブ予測値やリコールなどの指標を使って測定された。これらはアルゴリズムがケースをどれだけ正確に特定できたか、見逃したケースがどれだけあったかを示すんだ。

結論

研究は、GPT-4やGPT-3.5のようなLLMがEHRに基づいた健康状態を特定するためのアルゴリズムの初期ドラフトを作成するのを助ける可能性があると結論づけた。これらのモデルは関連する臨床基準を見つけることができて、専門家が文献レビューやデータ合成に費やす時間を大幅に減らすかもしれないんだ。

でも、これらの期待できる結果にもかかわらず、臨床医学とデータ管理の専門知識は、LLMが生成したアルゴリズムをレビューして改善するためにまだ必要なんだ。モデルは現在、さらに洗練しないと完全に使えるアルゴリズムを作成することができない。

今後、研究者たちはLLMの追加機能を探求したり、さらに良いパフォーマンスのためにどう調整できるかを考えたりするつもりなんだ。ケースだけじゃなくて対照を特定するためのアルゴリズム生成における効果も調べる興味があって、もっと多様な病気やシナリオを含めて研究を拡大する予定なんだ。

全体的に、LLMはEHRフェノタイピングのプロセスを早める可能性があるけど、この分野で成功するためにはAIツールと人間の専門知識の協力が欠かせないんだ。

オリジナルソース

タイトル: Large Language Models Facilitate the Generation of Electronic Health Record Phenotyping Algorithms

概要: ObjectivesPhenotyping is a core task in observational health research utilizing electronic health records (EHRs). Developing an accurate algorithm demands substantial input from domain experts, involving extensive literature review and evidence synthesis. This burdensome process limits scalability and delays knowledge discovery. We investigate the potential for leveraging large language models (LLMs) to enhance the efficiency of EHR phenotyping by generating high-quality algorithm drafts. Materials and MethodsWe prompted four LLMs--GPT-4 and GPT-3.5 of ChatGPT, Claude 2, and Bard--in October 2023, asking them to generate executable phenotyping algorithms in the form of SQL queries adhering to a common data model (CDM) for three phenotypes (i.e., type 2 diabetes mellitus, dementia, and hypothyroidism). Three phenotyping experts evaluated the returned algorithms across several critical metrics. We further implemented the top-rated algorithms and compared them against clinician-validated phenotyping algorithms from the Electronic Medical Records and Genomics (eMERGE) network. ResultsGPT-4 and GPT-3.5 exhibited significantly higher overall expert evaluation scores in instruction following, algorithmic logic, and SQL executability, when compared to Claude 2 and Bard. Although GPT-4 and GPT-3.5 effectively identified relevant clinical concepts, they exhibited immature capability in organizing phenotyping criteria with the proper logic, leading to phenotyping algorithms that were either excessively restrictive (with low recall) or overly broad (with low positive predictive values). ConclusionGPT versions 3.5 and 4 are capable of drafting phenotyping algorithms by identifying relevant clinical criteria aligned with a CDM. However, expertise in informatics and clinical experience is still required to assess and further refine generated algorithms.

著者: Wei-Qi Wei, C. Yan, H. Ong, M. Grabowska, M. Krantz, W.-C. Su, A. Dickson, J. F. Peterson, Q. Feng, D. M. Roden, C. M. Stein, V. E. Kerchberger, B. A. Malin

最終更新: 2024-02-26 00:00:00

言語: English

ソースURL: https://www.medrxiv.org/content/10.1101/2023.12.19.23300230

ソースPDF: https://www.medrxiv.org/content/10.1101/2023.12.19.23300230.full.pdf

ライセンス: https://creativecommons.org/licenses/by-nc/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた medrxiv に感謝します。

著者たちからもっと読む

類似の記事

分散・並列・クラスターコンピューティングクオッカ:フォールトトレラントなクエリエンジンの一歩前進

Quokkaはデータ処理のために改善されたフォールトリカバリーのための書き込み先行系譜を導入した。

― 1 分で読む