GPTを使って合成健康記録を生成する
新しい方法は、タイミングの詳細を保ちながら合成電子健康記録を改善する。
― 1 分で読む
電子健康記録(EHR)は医療研究にとって重要で、医者が病気を理解したり、薬の管理をしたり、患者ケアを向上させたりする手助けをしてる。でも、本物のEHRデータにアクセスするのはプライバシーのルールやデータ共有の制限のせいで難しいことが多い。そこで、合成EHRが作られたんだ。これらの合成記録は本物の健康データに似てるけど、特定の個人に属してないから、研究者はプライバシーを侵害することなく質問ができる。
利点がある一方で、合成EHRを作る多くの方法は、特に健康イベントが時間とともにどう進行するかの重要な詳細を見逃してる。たとえば、誰かが医者に行ったり、薬をもらったり、検査結果を受け取ったりする時、そのタイミングや順番はすごく重要なんだ。こういった詳細を追いかけるのは患者ケアをよりよく理解するために欠かせない。
最近では、生成的事前学習トランスフォーマー(GPT)が合成健康データを作るために使われてる。このアプローチは、病気の進行を分析したり、人口を推定したり、新しい合成データを生成したりするのを助ける。私たちは、GPTを使って患者のタイムラインを正確に反映し、OMOPという一般的なデータ形式に簡単に変換できる合成EHRを作ることに焦点を当ててる。
合成データの重要性
実際のEHRへのアクセスは、薬の研究や臨床の機械学習など、さまざまな医療活動にとって不可欠だ。残念ながら、本物のデータを使うには多くの課題がある。プライバシーやセキュリティの問題、厳しいデータ共有ルールがあって、研究者が必要なデータを得るのが難しい。合成データはその解決策を提供し、医療情報にアクセスする安全で速い方法を提供して、臨床現場や学術研究などのさまざまな分野での進展を促進してる。
合成データは、実際の個人にリンクせず、患者集団の統計や行動を模倣してる。これにより多くの研究者がプライバシーを心配することなく、自分の質問に答えることができる。最近の機械学習の進展により、実際のEHRから合成データが作成できるようになったけど、それでも多くの既存の技術は医療シナリオでの重要なタイミングや関係を捉えるのに苦労してる。
効果的な合成データセットは、時間に関連する特徴間のつながりを維持し、研究者が異なる集団間で機械学習モデルを正確にテストできるようにするべきだ。予測タスクにおいて、合成データは患者のタイムラインを正確に保つ必要があり、わずかな変更でも予測に大きな影響を与えることがある。合成データセットが成功と見なされるのは、2つの基準を満たすとき:元のデータと似た結果を示すこと、そしてこの合成データで訓練された機械学習モデルが、本物のデータで訓練されたモデルと同様にうまく機能すること。
合成EHRデータ生成の課題
現在の合成EHRに関する研究の多くは、新しい深層学習モデルの開発に主に焦点を当ててる。しかし、多くの方法は重要なタイミングの詳細を保持することに十分な注意を払っていない。その結果、こうして生成された合成EHRデータセットは、病院の再入院や将来の健康問題リスクを予測するような、正確な患者のタイムラインが必要なタスクをサポートするのに苦労してる。
合成EHRデータのもう一つの問題は、標準がないために限られた採用にとどまっていることだ。合成患者データが共通のフォーマットに簡単に適合できない場合、研究者はそれを分析に使用するのが難しくなる。これまでのところ、既存の方法はその標準フォーマットへのニーズに対応していない。
私たちは、合成の時系列データが異なるEHRの本質的な特徴を捉えつつ、特定のタイミング要件を満たすべきだと考えてる。これには、患者の初期年齢、治療を求め始めた年、入院期間、訪問間のギャップなどが含まれる。さらに、すべての合成EHRデータは、OMOP共通データモデルのような標準モデルに適合するべきで、より広いオーディエンスにとって使いやすくする必要がある。
CEHR-GPTフレームワーク
私たちのアプローチ、CEHR-GPTは合成の時系列EHRデータを生成するための完全なワークフローを提供することを目指してる。この作業の主な貢献は次の通り:
訪問タイプや治療施設の種類を含むすべての重要な情報を追跡しながら、開始年、年齢、訪問間の時間間隔などのタイミングの詳細を保持する新しい患者表現を設計した。私たちの知る限り、タイミング情報が完全に保持されるのはこれが初めてだ。
患者シーケンスの生成を言語モデルのチャレンジとして扱う。これにより、GPTモデルを使用して患者シーケンスを理解し、作成できる。
私たちの合成シーケンスは、タイミング情報の損失を最小限に抑えつつOMOPフォーマットに変換できる。この変換により、私たちの合成データは評価や共有が容易になる。
合成EHRデータを3つの方法で評価した:データの分布、イベント間の関係、そしてこのデータを使った機械学習モデルのパフォーマンスをチェックした。
関連研究
合成EHR生成の以前の研究は、生成的敵対ネットワーク(GAN)に依存していた。研究者たちは2017年以降、GANで成功を収めていたが、通常はEHRデータの時間に関連する性質を捉えることができない表形式に限られていた。最近の研究はこの問題に対処する方法を探り始めていて、いくつかの方法は時間系列データをよりうまく扱うための手法の組み合わせを利用したが、多くの方法は医療訪問の正確なタイムスタンプを生成するのに苦労している。
既存の努力を改善するために、タイムスタンプ付きデータを生成するための二段階学習アルゴリズムが提案された。これは、訪問の表現を学習し、データをシミュレートすることを含んでいたが、いくつかの課題は未解決のままだった。その難しさには、さまざまなEHRデータタイプを無視したり、訪問が同じ日に発生すると仮定したり、訪問タイプや退院場所の具体的な詳細を保持しなかったことが含まれる。
最近まで、ほとんどの合成EHR生成アプローチはGANに集中していて、トレーニングが難しいことで知られている。これが生成されたデータの質に一貫性がない原因になっている。一方で、患者シーケンス生成を言語モデリングタスクとして扱うことで希望が見えてきた。一つの方法では、GPTを使用して患者の経路を予測したが、イベントのタイミングを信頼できるように捉えるのには苦労していた。
患者表現へのアプローチ
私たちは、CEHR-GPTで重要なイベントとタイムラインを捉える患者表現を開発した。これにより、大規模な言語モデルを効果的に活用できる。この表現には、患者の歴史やタイミング詳細に加えて、人口統計データも含まれている。シーケンスは、患者の初期年齢、最初の訪問年、性別、人種などの人口統計情報で始まる。各訪問は、日にちのギャップを示すトークンで区切られたブロックで表される。
長い時間のギャップについては、頻度が低いため特別なトークンにまとめてる。各訪問ブロックは、訪問タイプトークンで始まり、その後に時間順に整理された医療記録が続く。入院の訪問では、同じ日の記録を特別なトークンを使って区別する。
この表現により、標準モデルからデータを患者シーケンスに変換することができ、タイミングの詳細を失うことがない。私たちの評価は、この患者表現が本質的な情報を完璧に保持していることを示している。
OMOPエンコーダーとデコーダー
患者シーケンスを作成するために、まずOMOPデータベースから人口統計のプロンプトを追加する。その中には、患者の年齢、初回訪問年、性別、人種などの重要なデータが含まれている。次に、患者の医療の旅全体を表す一連の訪問ブロックを構築する。ここで、訪問間のギャップを示す時間トークンを挿入する。各訪問ブロック内では、タイムスタンプでソートされた関連レコードを集める。入院訪問については、イベント間のタイミングを捉えるために記録を慎重に整理し、追加のトークンを挿入する必要がある。
これらのシーケンスが整ったら、GPTモデルを使用して、提供された入力に基づいて新しい患者シーケンスを生成する方法を学習する。合成されたシーケンスは、元のOMOPフォーマットに戻すことができ、患者の健康履歴の強力な表現を維持する。
テストと結果
私たちは大規模なデータセットから患者シーケンスを導出し、その後私たちのモデルを使って合成バージョンを作成した。トレーニング中、私たちは健康イベントの分布において実データとバランスを保つことができた。また、生成された合成データに基づいて、異なるモデルがどれほどうまく機能するかを評価した。
健康イベントの分布、イベント間の関係、そして合成データで訓練されたモデルのパフォーマンスの3つの評価基準を見た。実際の記録からの結果と比較することで、どのように類似した傾向が現れるかを評価した。
私たちの調査結果は、さまざまなアプローチで生成された合成データセットが実データと比較して異なるパフォーマンスを示すことを示している。しかし、私たちの方法は、患者の歴史を正確に理解するために重要なイベントのタイミングを保持する点で際立っている。
プライバシー評価
プライバシーは実際の医療データを使用する際の重要な懸念事項だ。私たちは合成データがプライバシーと機密性をどのように尊重しているかを評価した。合成データから本物の患者を特定しようとした場合の潜在的なリスクを見た。
私たちは、合成データセットだけを利用したタイプの攻撃と、モデルそのものにクエリを送る可能性のある攻撃の2種類をシミュレーションした。両方の場合で、攻撃者はある程度の成功を収めたが、彼らの試みの正確性は約50%で、私たちの合成データセットのプライバシーは大体維持されていることを示唆している。
結論
この研究は、GPTを使って合成EHRデータを生成する初めての試みを示している。重要なタイムラインやイベントの詳細を保持する患者表現を作成することで、現実的な患者シーケンスを生成できる。結果は、私たちの合成データが実際の患者記録に非常に似ていることを示しており、医療研究において価値のあるツールになる。
要するに、重要なタイミング情報を保持しながら合成EHRデータを生成する新しい方法を紹介した。この方法は研究者が患者のプライバシーを損なうことなく医療のパターンを研究する手助けになる。今後の研究では、このアプローチをさらに改善して、臨床アプリケーションにおける合成データセットの正確性と関連性を高める予定だ。
タイトル: CEHR-GPT: Generating Electronic Health Records with Chronological Patient Timelines
概要: Synthetic Electronic Health Records (EHR) have emerged as a pivotal tool in advancing healthcare applications and machine learning models, particularly for researchers without direct access to healthcare data. Although existing methods, like rule-based approaches and generative adversarial networks (GANs), generate synthetic data that resembles real-world EHR data, these methods often use a tabular format, disregarding temporal dependencies in patient histories and limiting data replication. Recently, there has been a growing interest in leveraging Generative Pre-trained Transformers (GPT) for EHR data. This enables applications like disease progression analysis, population estimation, counterfactual reasoning, and synthetic data generation. In this work, we focus on synthetic data generation and demonstrate the capability of training a GPT model using a particular patient representation derived from CEHR-BERT, enabling us to generate patient sequences that can be seamlessly converted to the Observational Medical Outcomes Partnership (OMOP) data format.
著者: Chao Pang, Xinzhuo Jiang, Nishanth Parameshwar Pavinkurve, Krishna S. Kalluri, Elise L. Minto, Jason Patterson, Linying Zhang, George Hripcsak, Gamze Gürsoy, Noémie Elhadad, Karthik Natarajan
最終更新: 2024-05-05 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2402.04400
ソースPDF: https://arxiv.org/pdf/2402.04400
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。