EHRと遺伝子データを使った病気予測の進化
研究は、EHRモデルと遺伝子スコアを使って病気リスクを予測する方法を比較している。
― 1 分で読む
目次
最近の遺伝子研究と電子健康記録(EHR)の進展により、いろんな病気のリスクをより良く予測するチャンスが生まれてる。遺伝子情報とEHRデータを組み合わせて、研究者たちは病気のスクリーニング、予防行動、早期治療の効率を向上させることを目指してる。主に二つの研究の道が出てきた。一つはEHRデータを使った機械学習技術に焦点を当て、もう一つは多遺伝子スコア(PGS)みたいな遺伝データに注目してる。
病気リスクの予測
機械学習の手法は、EHRデータを使って膵臓癌や心臓病などの病気の予測因子を開発するのに期待されてる。これらの記録には、患者の医療歴、検査結果、社会経済的要因などの広範な情報が含まれてる。しかし、EHRはごちゃごちゃしてることが多く、データの記録方法の違いにより効果が変わることもある。
一方で、多遺伝子スコアは個人の遺伝情報を使って特定の病気のリスクを推定する。研究ではPGSがいろんな病気を予測するのにどれだけ効果的かが探求されてて、臨床や公衆衛生の場での有用性について議論が行われてる。
EHRとPGSモデルの比較
EHRに基づく予測モデルには強みと弱みがある。データの幅広さを提供するけど、異なる医療システム間での不正確さや不一致が問題になることもある。これまでの研究は主に単一のEHRシステムに焦点を当ててきてて、地域ごとの検証は限られてる。
最近の研究では、一国でトレーニングされたEHRデータのモデルが他国でもうまく検証された例がある。たとえば、アメリカで開発された予測モデルは、イギリスでテストしたときに良い結果を出した。このことは、EHRモデルがさまざまな環境で役立つ可能性があることを示唆してる。
PGSモデルはより安定していて、測定エラーの影響を受けにくいけど、異なる集団に結果を移すのが難しいこともある。これが健康の不平等につながる可能性がある。もっと遺伝情報が得られるようになると、PGSを他のリスク要因と組み合わせて個々の病気リスクをより理解しようとする興味が高まってる。
研究の目的
この研究では、EHRベースのモデルとPGSの病気リスク予測性能を直接比較することを目的としてる。重点は、高品質のEHRデータを利用する三つの大規模バイオバンクからのデータを分析する縦断的アプローチに置かれてる。
研究対象者
研究には、三つのバイオバンクから抽出された32歳から70歳までの約846,000人が含まれてる。8年間の間に、これらの人々は13の一般的な病気、がんのさまざまなタイプ、糖尿病、心臓病などの新たな診断を受けた。
研究デザイン
研究は、三つのバイオバンク内で各病気を別々に調査した。各分析は観察期間と予測期間で構成され、その間に新たな診断のみが考慮されるように洗い出し期間が設けられた。各病気について、チームは観察期間中に収集したデータに基づいてリスクスコアを開発した。
PGSとEHRに基づくスコアの構築
13の病気ごとにPGSとEHRに基づくスコアが作られた。PGSは公に入手可能な遺伝データを利用し、EHRスコアは医療記録から構築された。これらのスコアを比較可能にするために、年齢と性別の影響は両方のモデルから取り除かれた。
結果の概要
研究は、EHRに基づくスコアと病気リスクの間に強い関連があることを発見した。ほとんどの病気において、EHRスコアを基準モデルと組み合わせることで予測精度が向上した。特に喘息や糖尿病のような病気では、EHRに基づくモデルが病気の発症予測に顕著に貢献した。
EHRに基づくスコアの性能
研究者たちは、三つのバイオバンクでのEHRスコアのパフォーマンスを詳しく調査した。その結果、これらのスコアが予測期間中に新たに行われた診断とよく関連していることが明らかになった。
EHRに基づくスコアの移転性
重要な発見は、異なるバイオバンク間でEHRに基づくモデルを移転できる能力が、これらのモデルがさまざまな医療システムに関連する重要なリスクを捉えることができることを示した点だ。病気の有病率や診断手法に若干の違いがあったにもかかわらず、モデルの有効性は保たれた。
Phecodeの重要性
研究は、異なる医療コード、つまりphecodeが病気予測において異なる重要性を持っていることを強調した。多くのphecodeはバイオバンク間で共通しているけど、一部は特定の研究に特有のものだった。特定の一般的なphecodeは、いくつもの病気で一貫して重要な予測因子として現れた。
EHRと遺伝リスクスコアの比較
PGSとEHRに基づくスコアの関連を比較すると、どちらも病気リスクとの重要な関連を示した。しかし、EHRスコアの方が特定の病気に対してはより強い関連を持つことが多かった。例えば、大うつ病や膝の関節炎の場合、EHRスコアは遺伝スコアよりもリスクを効果的に捉えた。
EHRとPGSの補完性
研究は、EHRと遺伝情報が病気リスクについて補完的な洞察を提供することを結論づけた。両方のデータソースを組み合わせることで、より正確なリスク推定が可能になった。遺伝データをEHRモデルと統合することで、多くの病気の予測力が向上し、両方の情報を含む合理的なアプローチの利点が浮き彫りになった。
患者歴の重要性
患者の診断歴は、長い間、医療専門家の意思決定にとって重要だった。遺伝情報が臨床実践でより大きな役割を果たすようになるにつれて、個人の診断歴を統合することが必要になる。
臨床実践への影響
この研究の結果は、特にリスク評価や病気予防の分野での臨床実践に対して有望な方向性を示唆してる。EHRデータと遺伝情報の両方の洞察を組み合わせることで、医療提供者は患者ケアについてより情報に基づいた判断ができるようになる。
今後の方向性
EHRデータと遺伝情報の組み合わせについて、まだまだ探求すべきことは多い。今後の研究では、特に多様な背景を持つ個人に対してこれらのモデルの移転性を高めることに焦点を当てるべきだ。さらに、診断コードの使い方を改善して、異なる医療システム間でモデルをうまく一般化できるようにする必要がある。
結論
研究は、EHRに基づくモデルとPGSが病気リスクを予測するための独立した補完的なツールとして機能することを見出した。これら二つの情報を統合することで、医療提供者は高リスクの個人を特定し、効果的に予防戦略を調整する能力を高めるかもしれない。このアプローチは、患者の結果を改善するだけでなく、より公平な医療実践への道を開く可能性もある。
タイトル: Transferability and accuracy of electronic health record-based predictors compared to polygenic scores
概要: Electronic health record (EHR)-based phenotype risk scores (PheRS) leverage individuals health trajectories to infer disease risk. Similarly, polygenic scores (PGS) use genetic information to estimate disease risk. While PGS generalizability has been previously studied, less is known about PheRS transferability across healthcare systems and whether PheRS provide complementary risk information to PGS. We trained PheRS to predict the onset of 13 common diseases with high health burden in a total of 845,929 individuals (age 32-70) from 3 biobank-based studies from Finland (FinnGen), the UK (UKB) and Estonia (EstB). The PheRS were based on elastic-net models, incorporating up to 242 diagnoses captured in the EHR up to 10 years before baseline. Individuals were followed up for a maximum of 8 years, during which disease incidence was observed. PGS were calculated for each disease using recent publicly available results from genome-wide association studies. All 13 PheRS were significantly associated with the diseases of interest. The PheRS trained in different biobanks utilized partially distinct diagnoses, reflecting differences in medical code usage across the countries. Even with the large variability in the prevalence of various diagnoses, most PheRS trained in the UKB or EstB transferred well to FinnGen without re-training. PheRS and PGS were only moderately correlated (Pearsons r ranging from 0.00 to 0.08), and models including both PheRS and PGS improved onset prediction compared to PGS alone for 8/13 diseases. PheRS was able to identify a subset of individuals at high-risk better than PGS for 8/13 disease. Our results indicate that EHR-based risk scores and PGS capture largely independent information and provide additive benefits for disease risk prediction. Furthermore, for many diseases the PheRS models transfer well between different EHRs. Given the large availability of EHR, PheRS can provide a complementary tool to PGS for risk stratification.
著者: Andrea Ganna, K. E. Detrois, T. Hartonen, M. Teder-Laving, B. Jermy, K. Läll, Z. Yang, Estonian Biobank research team, FinnGen, R. Mägi, S. Ripatti
最終更新: Oct 8, 2024
言語: English
ソースURL: https://www.medrxiv.org/content/10.1101/2024.10.08.24315073
ソースPDF: https://www.medrxiv.org/content/10.1101/2024.10.08.24315073.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた medrxiv に感謝します。