新しい方法で年齢ごとの病気のパターンが明らかにされたよ
老化は病気のグループに影響を与え、パーソナライズされたヘルスケアの洞察を提供する。
― 1 分で読む
電子健康記録(EHR)は、患者に関する重要な情報を含んでいて、時間をかけて彼らの医療診断がわかるんだ。このデータは、医者が病気を診断するのを改善したり、より個別化された治療を提供したりするのに役立つ。でも、研究者たちはいろんな病気の遺伝的な関連に興味があるのに、よく一緒に起こる病気をグループ化したり、それを使って異なるタイプの病気を特定したりする進展はあんまりないんだよね。
低ランクモデリングっていう方法があって、複雑なデータをまとめるのに役立つんだ。この技術は、たくさんの病気を一度に見るときにとても役立つことがあって、個々の患者における病気の共起パターンを明らかにすることができるよ。さらに、研究者たちは大規模な遺伝データセットにもアクセスできて、EHRと組み合わせることで、さまざまな病気のサブタイプについてもっと理解できるんだ。
これまでの研究で、低ランクモデリングは異なる病気間で共有される遺伝的側面を特定できることが示されていて、病気同士の関係を理解する手助けをしている。ただ、病気の診断時の年齢がこれらの関係を大きく左右することがある最近の研究では、時間をかけた病気のトレンドを見ることで、病気間のつながりをよりよく特定できるかもしれないって言われてる。
ここで、年齢依存トピックモデリング(ATM)という新しい方法を紹介するよ。この方法は、大量の病気記録の簡略化された表現を作成して、研究者が年齢に応じて病気がどのように一緒に現れるかを見ることができるようにするんだ。ATMをイギリスの大規模健康研究のデータに適用することで、異なる病気のグループを特定できて、遺伝データを使ってその結果を検証できたんだ。
ATM方法の概要
ATMは、多くの病気の健康記録を分析して、年齢とともにどう変化するかを理解することに焦点を当ててる。この方法は、個人にさまざまな「トピック」を割り当てて、それぞれのトピックには特定の年齢で一般的に現れる病気のグループが含まれるんだ。このモデルを使うことで、研究者は年齢に応じてこれらのグループがどう変わるかを見たり、患者固有の病気パターンを特定するのを助けたりできるんだ。
このモデルをEHRの大量のデータにフィットさせるために、病気がどうグループ化されるかを決定するさまざまなパラメータを効果的に推定する方法を開発したよ。私たちの方法は、大規模データセットを扱う際の課題、例えば効率的に動作すること、最適なモデルを選ぶこと、特定の病気がまれなケースに対処することを考慮しているんだ。
私たちは、280,000人以上と1.7百万件以上の病気診断が含まれるUKバイオバンクのデータにATM方法を適用したんだ。このデータは、「All of Us」という別の健康研究とも比較して、私たちの発見をさらに確認したよ。
現実データへのATMの適用
UKバイオバンクのデータを調べたとき、個人は平均で6.1件の病気診断を受けていて、診断時の年齢は大きく異なってた。ATM方法を使うことで、年齢に応じて病気がどのように一緒に現れるかを反映した10の異なる病気トピックを発見できたんだ。
結果は、特定の病気が一緒にグループ化されることが多く、これらのグループは個人の年齢によって変わることを示してた。例えば、ある病気は若い人に一緒に現れる可能性が高く、他の病気は高齢者でより一般的に見られる感じだね。これらの発見は、医者が患者の健康パターンを認識するのを助けて、早期診断やより良い治療オプションにつながる可能性があるよ。
これらのグループを発見しただけでなく、遺伝データを使って比較もしたよ。これにより、ATM方法で特定された異なる病気トピックが、異なる遺伝的リスクを持つ明確な病気タイプを表していることを確認できたんだ。
検証と二次分析
私たちの発見がしっかりしたものか確認するために、いくつかの二次分析を行ったよ。モデルに含まれる個人と病気の数を変えて、ATM方法をさまざまな条件下でテストしたんだ。ATMは、年齢を考慮しないシンプルな方法よりも常に優れた結果を示したよ。
さらに、UKバイオバンクとAll of Usデータセット間で特定した病気トピックが似ているかどうかも検証したんだ。相関分布は強い一致を示して、ATM方法が多様な集団間で信頼できる病気グループを特定できることを確認したんだ。
また、患者が所属する病気トピックに応じて病気の遺伝的リスクがどう変化するかも探ったよ。特定の病気に関して、特定のトピックに関連する人々は、高い遺伝的リスクを示していて、これらのサブタイプが異なる遺伝的要因を持つことを示唆しているんだ。
年齢依存の併存パターン
私たちの研究は、異なる病気が年齢とともにどう関連するかに焦点を当ててる。ATM方法によって形成されたトピックを調べることで、多くの病気が年齢特有の発生パターンを持っていることを観察したよ。例えば、特定の心臓病は、若い年齢で2型糖尿病と診断された人に多く見られるかもしれないし、他の病気は、後で診断されることと関連しているかもしれない。
私たちが特定した各病気グループは、年を重ねるにつれて変化する特定の健康リスクのセットに対応しているんだ。この年齢依存の側面は、病気が人々にどのように影響を与えるかをより包括的に理解するために重要なんだよ。
病気サブタイプ間の遺伝的多様性
私たちの研究の重要な発見の一つは、ATM方法で特定された異なる病気サブタイプ間に遺伝的な多様性があることなんだ。異なる病気トピックに割り当てられた患者は、遺伝的リスクや特徴が異なることが多かったよ。
例えば、2型糖尿病の人の中で、心臓病のトピックに関連付けられた人は、他のトピックに関連付けられた人に比べて顕著に高い遺伝的リスクスコアを持っていたんだ。この遺伝的多様性は、ATMモデルでグループ化された病気の背後に異なる生物学的メカニズムが存在するかもしれないことを示唆しているよ。
さらに、病気サブタイプはお互いだけでなく、遺伝的変異とも関連していることも観察したんだ。この接続を理解することで、治療の決定を導いたり、病気の進行に関する洞察を得たりできると思うよ。
今後の研究への影響
私たちの研究結果は、いくつかの重要な今後の研究の方向性を示しているよ。まず、ATM方法で特定された異なる病気サブタイプに関連する特定の遺伝的要因をさらに調査することで、よりターゲットを絞った治療につながるかもしれない。
次に、ATMを大規模なデータセットに適用することで、研究者が小規模な研究では見落としがちなパターンや関係を認識できるかも。これによって、集団間の健康トレンドについて深い洞察を得ることができるかもしれない。
最後に、年齢、家族歴、社会経済的地位などのさまざまな文脈的要因を健康予測に統合することが重要になるよ。この全体的な視点は、リスク評価の精度を高め、臨床現場での患者の結果を改善するのに役立つかもしれない。
研究の制限
私たちの研究は貴重な洞察を提供するけど、いくつかの制限もあるよ。病気が診断される年齢は、実際に症状が始まった時期を完全に反映しているわけじゃない。私たちの方法は診断年齢を代理として使っているから、少しの不正確さが生じることがあるんだ。
また、EHRシステムからの生データにはエラーがあるか、不完全なこともあるよ。これらの制限にもかかわらず、私たちの結果は、理想的でないデータでも意味のある結論を引き出せることを示しているんだ。
考慮すべきもう一つの側面は、ATMモデルを大規模データセットに適用する際の計算要求だよ。私たちは広範なデータを効率よく分析できたけど、さらに大きな記録を扱うときに処理時間が障害になることがあるんだ。
結論
まとめると、年齢依存トピックモデリングアプローチは、複雑な健康データを分析するための強力なツールを提供するよ。病気がどう共起し、年齢とともにどう変化するかを調べることで、研究者は隠れたパターンを発見したり、より個別化された治療戦略を開発したりできるんだ。私たちの研究は、病気リスクを理解するために年齢や他の文脈的要因を統合する重要性を強調してるんだよ。
研究が続く中で、ATMから得られる病気間の関係や遺伝的基盤に関する洞察は、将来の医療慣行や政策を形成する上で重要になるはずだよ。最終的な目標は、患者の結果を改善し、人間の健康の複雑さをより深く理解するための知識の進展を促進することなんだ。
タイトル: Age-dependent topic modelling of comorbidities in UK Biobank identifies disease subtypes with differential genetic risk
概要: The analysis of longitudinal data from electronic health records (EHR) has potential to improve clinical diagnoses and enable personalised medicine, motivating efforts to identify disease subtypes from age-dependent patient comorbidity information. Here, we introduce an age-dependent topic modelling (ATM) method that provides a low-rank representation of longitudinal records of hundreds of distinct diseases in large EHR data sets. The model learns, and assigns to each individual, topic weights for several disease topics, each of which reflects a set of diseases that tend to co-occur within individuals as a function of age. Simulations show that ATM attains high accuracy in distinguishing distinct age-dependent comorbidity profiles. We applied ATM to 282,957 UK Biobank samples, analysing 1,726,144 disease diagnoses spanning all 348 diseases with [≥]1,000 independent occurrences in the Hospital Episode Statistics (HES) data, identifying 10 disease topics under the optimal model fit. Analysis of an independent cohort, All of Us, with 211,908 samples and 3,098,771 disease diagnoses spanning 233 of the 348 UK Biobank diseases produced highly concordant findings. In UK Biobank we identified 52 diseases with heterogeneous comorbidity profiles ([≥]500 occurrences assigned to each of [≥]2 topics), including breast cancer, type 2 diabetes (T2D), hypertension, and hypercholesterolemia. For most of these diseases, topic assignments were highly age-dependent, suggesting differences in disease aetiology for early-onset vs. late-onset disease. We defined subtypes of the 52 heterogeneous diseases based on the topic assignments, and compared genetic risk across subtypes using polygenic risk scores (PRS). We identified 18 disease subtypes whose PRS differed significantly from other subtypes of the same disease, including a subtype of T2D characterised by cardiovascular comorbidities and a subtype of asthma characterised by dermatological comorbidities. We further identified specific variants underlying these differences such as a T2D-associated SNP in the HMGA2 locus that has a higher odds ratio in the top quartile of cardiovascular topic weight (1.18{+/-}0.02) compared to the bottom quartile (1.00{+/-}0.02) (P=3 x 10-7 for difference, FDR = 0.0002 < 0.1). In conclusion, ATM identifies disease subtypes with differential genome-wide and locus-specific genetic risk profiles.
著者: Xilin Jiang, M. Zhang, Y. Zhang, A. Durvasula, M. Inouye, C. Holmes, A. Price, G. McVean
最終更新: 2023-04-28 00:00:00
言語: English
ソースURL: https://www.medrxiv.org/content/10.1101/2022.10.23.22281420
ソースPDF: https://www.medrxiv.org/content/10.1101/2022.10.23.22281420.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた medrxiv に感謝します。