健康予測のための多遺伝子スコアの進展
科学者たちは、多様な集団における健康リスクを予測するために多遺伝子スコアを改善してるよ。
― 1 分で読む
目次
人間のゲノムは、個人の遺伝情報を持つDNAで構成されてる。このDNAの変化が身体的特徴や病気にどう影響するかを理解するのはかなり複雑なんだ。これらの関連性を見つけるには、科学者たちはたくさんのデータを見なきゃならない。というのも、私たちのDNAには健康から見た目まで、私たちに影響を与える何百万もの小さなバリエーションがあるから。
大規模なバイオバンクの発展によって、研究者たちは今や何百万ものDNAサンプルを集めて分析できるようになった。これによって、特定の遺伝的バリエーションがさまざまな健康リスクや他の特徴にどう関連しているかを研究する手助けになる。こういう大規模なデータセットは、実際の信号とデータのランダムな変化を区別するために必要な力を提供してくれる。
ポリジェニックスコアとは?
これらのデータセットを分析することで生まれた主なツールの一つがポリジェニックスコア(PGS)だよ。PGSは、特定の遺伝的バリエーション、つまり単一ヌクレオチド多型(SNP)に基づいて、個人の遺伝的構成を表す数値なんだ。このスコアはその人のDNAを分析して、特定の特徴や病気にどれだけ寄与するかに応じて異なる遺伝的バリエーションに重みをつけて作成される。
PGSに関する研究は、主にヨーロッパ系の人たちに焦点を当ててきた。例えば、イギリスの有名なバイオバンクには、参加者の90%以上が白人であることが知られている。つまり、今のPGSは主にヨーロッパ系の人々に効果的ってことなんだ。
いくつかの新しいプロジェクトが、もっと多様な人々を含めることを目指しているよ。例えば、台湾やアメリカ全土で、非ヨーロッパ系の人たちからのサンプルを含むバイオバンクを作るための取り組みが進行中。ただし、こういった多様なデータセットがもっと利用可能になるまでは、研究者たちはヨーロッパの結果を他の系統グループに適応させる必要があるんだ。
大規模データセットを使う上での課題
データセットが増えてテクノロジーが進化するにつれて、効果的なPGSを構築するための新たな課題が出てくる。大きなデータセットは分析により多くの計算能力を必要とするし、現行の方法は主にヨーロッパ系の人たちに合わせている。科学者たちは、異なる集団に関連するバリエーションに焦点を当てて、PGSを他のグループに適応させるための多くの技術を提案しているんだ。
もう一つの懸念は、今後のPGSが新しい参加者からのDNAサンプルの収集に依存することだよ。サンプル収集がより少ない遺伝的バリエーションに集中できれば、もっと手頃で実施しやすくなるかもしれない。
従来のこれらのスコアを開発する方法もあるけど、その多くは線形モデルに依存している。科学者たちがデータを深く掘り下げるにつれて、遺伝子が互いにどう影響しあうかや、環境が遺伝的な影響をどう変えるかといった複雑な遺伝的相互作用から生じる困難に直面している。
スパースアルゴリズムの役割
この記事では、スパースアルゴリズムを使う利点を強調している。これらのアルゴリズムは、予測に必要な最も重要な遺伝的バリエーションのみを特定するのに役立つ。そうすることで、複雑さを減らし、結果の精度を向上させるんだ。過去の研究では、スパースな方法がより複雑な技術と同じくらいのパフォーマンスを発揮することが示されている。
この研究は、喘息、糖尿病、心臓病など11の健康的な特徴のためのこれらのスパースアルゴリズムの性能と実用的な応用に焦点を当てている。必須の遺伝的特徴のみを選択することで、アルゴリズムは予測の精度を改善しつつ、計算量を最小限に抑えることができる。
スパース予測子の比較
いろんな方法がどれだけ上手く機能するかを理解するために、LASSOやElastic Netを含む複数のスパースアルゴリズムの比較が行われている。目標は、これらのアルゴリズムがさまざまな特徴に対してPGSをどれだけ効果的に生成できるかを確認することだよ。
パフォーマンスの結果は、特定のアルゴリズムが一貫してより良い結果を達成することを示している。例えば、一般的に使われるLASSOは、健康状態を正確に予測するのが得意な傾向がある。
系統グループ間の違い
研究によると、ある系統グループのために設計された予測子を他のグループに適用すると、結果がしばしば悪化するんだ。この効果の低下は、健康の特徴によって異なる。いくつかの特徴は予測力が大幅に失われる一方で、他の特徴はより良く効果を維持することができる。
異なる系統グループのために信頼できるPGSを開発するには、遺伝的な違いとその影響を理解することが重要だよ。兄弟の研究が役立つかもしれない。なぜなら、兄弟は通常、無関係な個体よりも遺伝的背景や環境を共有するから。
環境要因とその影響
遺伝情報に基づいて健康状態を予測するのは単純ではない。環境要因が結果に影響を与え、遺伝的影響を分離するのが難しくなる。ここでも兄弟の比較が役立つことがあり、彼らは成長過程で共通の生活条件を共有することが多いから。
これらの分析では、条件を持っている兄弟と持っていない兄弟のペアを探す。ポリジェニックスコアを比較することで、スコアが高い兄弟がその状態を持っている頻度を判断できる。
オッズ比の重要性
ケースとコントロールが含まれる健康状態については、科学者たちが得られた結果を理解するためにオッズ比(OR)を導き出すことができる。オッズ比は、PGS値に基づいて条件を持つ可能性を比較するものだ。これによって、遺伝的素因が特定の健康問題を発症するリスクにどう影響するかを知ることができる。
結果が有望に見えることもあるけど、注意を払うことが重要だよ。PGS分布の極端な部分では、モデルが信頼性を失うことがあり、サンプルサイズも小さくなるため、解釈が難しくなる。
将来のパフォーマンスの予測
この記事では、大規模なバイオバンクデータセットでのトレーニングが、予測パフォーマンスの成長をモデル化する手助けになるかについても議論している。現在のデータを分析することで、研究者たちはサンプルサイズの改善が将来の予測の向上につながると予測できる。
さまざまな統計的手法を使うことで、予想されるパフォーマンスの指標をモデル化することができ、将来の研究を指導し、効果的なバイオバンクを構築するのに役立てられる。
結論
要するに、遺伝が健康や特徴にどう影響するかを理解するのは複雑な分野で、大規模なデータセットを分析することに頼っている。ポリジェニックスコアは、遺伝的背景に基づいて健康リスクを予測するのに役立つ強力なツールだよ。ただし、多様な系統グループの表現に関しては課題が残っている。
スパースアルゴリズムを使うことは、予測の精度を向上させながら計算ニーズを最小限に抑えるという有望な方向性を示している。より包括的なデータセットを作成するための継続的な努力が、異なる集団間でのPGSの信頼性を向上させるために必須だ。
研究者たちがこの分野を探究し続ける限り、遺伝的洞察が誰もが健康的な結果を得る手助けになることを期待しているよ。ポリジェニック予測の未来には大きな可能性があるけど、ギャップを埋めてすべてのコミュニティに公平な健康ツールを確保するためには、まだまだ努力が必要ってことは明らかだね。
タイトル: Biobank-scale methods and projections for sparse polygenic prediction from machine learning
概要: In this paper we characterize the performance of linear models trained via widely-used sparse machine learning algorithms. We build polygenic scores and examine performance as a function of training set size, genetic ancestral background, and training method. We show that predictor performance is most strongly dependent on size of training data, with smaller gains from algorithmic improvements. We find that LASSO generally performs as well as the best methods, judged by a variety of metrics. We also investigate performance characteristics of predictors trained on one genetic ancestry group when applied to another. Using LASSO, we develop a novel method for projecting AUC and Correlation as a function of data size (i.e., for new biobanks) and characterize the asymptotic limit of performance. Additionally, for LASSO (compressed sensing) we show that performance metrics and predictor sparsity are in agreement with theoretical predictions from the Donoho-Tanner phase transition. Specifically, a predictor trained in the Taiwan Precision Medicine Initiative for asthma can achieve an AUC of 0.63(0.02) and for height a correlation of 0.648(0.009) for a Taiwanese population. This is above the measured values of 0.61(0.01) and 0.631(0.008), respectively, for UK Biobank trained predictors applied to a European population.
著者: Timothy G Raben, L. Lello, E. Widen, S. D. H. Hsu
最終更新: 2023-03-08 00:00:00
言語: English
ソースURL: https://www.medrxiv.org/content/10.1101/2023.03.06.23286870
ソースPDF: https://www.medrxiv.org/content/10.1101/2023.03.06.23286870.full.pdf
ライセンス: https://creativecommons.org/licenses/by-nc/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた medrxiv に感謝します。