合成データが退役軍人のCOVID-19リスク予測を革新中
合成データは、プライバシーを守りながら退役軍人のCOVID-19リスクを予測するのに役立つよ。
― 1 分で読む
最近のビッグデータと人工知能(AI)の進展により、研究者たちは複雑な医療データ、特に電子健康記録(EHR)を扱えるようになった。ただ、患者プライバシーや倫理的なAIの使用に関する問題があって、このデータを広く共有するのが難しいんだ。そこで科学者たちは、個人情報を明かさずにリアルデータの特性を再現する合成データに目を向けている。この方法は、研究者が成果をもっと簡単に共有できるのはもちろん、研究のバイアスを減らす手助けにもなる。
precisionFDA プラットフォーム
FDAは、個別化医療の進展を支援し、規制科学を知らせるためのプラットフォーム、precisionFDAを開発した。このプラットフォームは安全でクラウドベースで、オンデマンドコンピューティングやデータストレージを提供している。さらに、リファレンスデータへのアクセスや協力のためのスペースもあるんだ。2015年に始まって以来、precisionFDAは製造業者、医療提供者、研究者を含む6,000人以上のメンバーを惹きつけてきた。このプラットフォームは、フォーラムや専門家のブログ、コミュニティチャレンジを通じて一般の参加を促している。
COVID-19リスクファクターモデリングチャレンジ
COVID-19パンデミックが進行する中で、年齢や肥満、既存の健康状態など、重症化につながるリスクファクターに関する証拠が増えてきた。EHRデータを使用した予測モデルは、リスクが高い患者を特定して早期かつ積極的な治療を可能にする。特に退役軍人は独自の健康課題に直面しているため、彼らに特化したモデルが必要かもしれない。しかし、退役軍人に関するデータを使用することはプライバシーの懸念を引き起こす。そこで、FDAと退役軍人健康管理局(VHA)は、合成データがどのように役立つかを探るためにCOVID-19リスクファクターモデリングチャレンジを開始した。
チャレンジの第一段階は2020年6月に行われ、参加者は機械学習を使って退役軍人のCOVID-19に関連する健康結果を予測するモデルを開発することが奨励された。合成データを使用して身元を守ることで、研究者たちは通常のセキュリティの懸念なしに健康結果を分析できた。チャレンジでは、COVID-19の状態、生存状況、人工呼吸器の必要性、入院期間、ICUの期間の5つの主要な結果に焦点を当てた。
方法論
このチャレンジのために、Syntheaというツールを使って147,451人の架空の患者の合成健康記録が作成された。これらの記録にはさまざまな医療状態、治療、患者の人口統計が含まれていた。参加者はこのデータの80%をモデルのトレーニングに使用し、20%はテスト用に取っておいた。各モデルが5つの健康結果を予測する能力は、標準的な指標を使用して評価された。
その後、チャレンジの第二段階が導入され、第一段階のトップモデルを2つの追加データセットを用いて検証した。これには、異なるソフトウェアで生成された2つ目の合成データセットと、退役軍人の健康記録の実データセットが含まれていた。参加者たちはこれらの新しいデータセットに合わせてモデルを調整し、第一段階で使用されたのと同じ指標で評価された。
第一段階の結果
第一段階では、21チームが34のモデルエントリーを提出した。参加者たちはさまざまな機械学習技術を使用し、多くが勾配ブースティングマシンやランダムフォレストなどの高度なモデルを採用していた。結果は、重篤な結果、例えば生存状況を予測するモデルが、軽度な結果を予測するモデルよりも良い性能を示した。例えば、患者が人工呼吸器を必要とするかどうかを予測するモデルは、COVID-19の状態を予測するモデルよりも正確だった。
異なるモデルの性能は様々だったが、トップエントリーの中では、勾配ブーストマシンを使用したモデルが一般的に最良の結果を達成していた。第一段階の結果は、軽度の健康結果よりも重篤な健康結果を予測する方が簡単であることを示唆している。これは、重篤な状態に関連する明確な特徴が存在するためかもしれない。
第二段階の結果
チャレンジの第二段階は、第一段階のトップパフォーマンスモデルの検証に焦点を当てた。結果は、これらのモデルが健康結果を予測する際にランダムな偶然を上回る性能を維持していることを示した。モデルは3つのデータセットに対して検証され、Syntheaデータが最も正確な結果をもたらした。合成データと実健康記録の両方で、モデルが健康結果を確実に予測できることが示された。
すべてのデータセットにおいて、合成データでトレーニングされたモデルは一般的に実データでトレーニングされたモデルと同様の性能を示した。特に、トップパフォーマーはいくつかのCOVID-19に関連するリスクファクターを特定していた。これには、重度化のリスクが高い一般的な健康状態、例えば呼吸器や心血管の問題が含まれていた。
リスクファクターの特定
チャレンジを通じて、モデルは健康結果を予測できるリスクファクターを特定するのにも優れていた。参加者たちは、既存の病状、薬物、人口統計的な詳細を重要な要素として認識した。データセット間にいくつかの違いがあったものの、各モデルは実際の退役軍人の健康記録でも認識されているリスクファクターを少なくとも1つは強調していた。
これらのモデルが重要なリスクファクターを特定できる能力は、合成データが特にパンデミックのような緊急健康危機の際の健康リスクを理解するための便利なツールになることを示唆している。
制限と今後の方向性
結果は有望だったけれど、研究には限界もあった。1つの懸念は、合成データでトレーニングされたモデルが、実データでトレーニングされたモデルと比べてパフォーマンス指標が誇張されていることだった。これは、実データを扱う方がその複雑さや変動性のために本質的に難しいことを示すかもしれない。
チャレンジは合成データの可能性について貴重な洞察を提供したが、実際の設定で合成データと実データを直接比較するためのさらなる研究が必要だ。また、使用された機械学習技術のバラエティが限られていたため、このデータで異なるアルゴリズムがどのように機能するかの全体像を提供できていないかもしれない。
結論
COVID-19リスクファクターモデリングチャレンジは、機械学習と合成データがどのように連携して公衆衛生の問題に取り組むことができるかを示した。研究者がモデルを開発し共有するためのプラットフォームを作ることで、チャレンジは退役軍人のCOVID-19に関連するリスクについての洞察を提供した。
アクセス可能なデータが特に健康危機の際には不可欠であり、合成データはプライバシーの懸念が高い時にギャップを埋めることができる。今後、合成データ生成の方法を改善し、使用する機械学習アルゴリズムの範囲を広げることが、この分野でのさらなる研究に重要になるだろう。
全体的に、チャレンジは医療研究における合成データの使用がもたらす潜在的な利点を強調しており、より良い医療の決定を導き、患者の結果を改善するのに役立つかもしれない。
タイトル: Synthetic Health Data Can Augment Community Research Efforts to Better Inform the Public During Emerging Pandemics
概要: The COVID-19 pandemic had disproportionate effects on the Veteran population due to the increased prevalence of medical and environmental risk factors. Synthetic electronic health record (EHR) data can help meet the acute need for Veteran population-specific predictive modeling efforts by avoiding the strict barriers to access, currently present within Veteran Health Administration (VHA) datasets. The U.S. Food and Drug Administration (FDA) and the VHA launched the precisionFDA COVID-19 Risk Factor Modeling Challenge to develop COVID-19 diagnostic and prognostic models; identify Veteran population-specific risk factors; and test the usefulness of synthetic data as a substitute for real data. The use of synthetic data boosted challenge participation by providing a dataset that was accessible to all competitors. Models trained on synthetic data showed similar but systematically inflated model performance metrics to those trained on real data. The important risk factors identified in the synthetic data largely overlapped with those identified from the real data, and both sets of risk factors were validated in the literature. Tradeoffs exist between synthetic data generation approaches based on whether a real EHR dataset is required as input. Synthetic data generated directly from real EHR input will more closely align with the characteristics of the relevant cohort. This work shows that synthetic EHR data will have practical value to the Veterans health research community for the foreseeable future.
著者: Amanda Lienau, A. Prasanna, B. Jing, G. Plopper, K. Krasnov Miller, J. Sanjak, A. Feng, S. Prezek, E. Vidyaprakash, V. Thovarai, E. Maier, A. Bhattacharya, L. Naaman, H. Stephens, S. Watford, W. J. Boscardin, E. Johanson
最終更新: 2023-12-13 00:00:00
言語: English
ソースURL: https://www.medrxiv.org/content/10.1101/2023.12.11.23298687
ソースPDF: https://www.medrxiv.org/content/10.1101/2023.12.11.23298687.full.pdf
ライセンス: https://creativecommons.org/publicdomain/zero/1.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた medrxiv に感謝します。