Simple Science

最先端の科学をわかりやすく解説

# 健康科学# 遺伝学・ゲノム医学

デルファイ:遺伝的リスクスコアを推定する新しい方法

デルファイはディープラーニングを使って、さまざまな人々の遺伝的リスクスコアの予測を向上させてるんだ。

― 1 分で読む


デルファイ:高度な遺伝的リデルファイ:高度な遺伝的リスク推定クの予測を改善する。デルファイはすべての人種における遺伝リス
目次

多くの一般的な特性や病気は、私たちのDNAの小さな変化の組み合わせから来てるんだ。科学者たちはこれらの変化を研究して、それが健康にどう影響するかを理解しようとしてる。彼らが使う方法の一つが、全ゲノム関連解析(GWAS)というやつ。GWASは、特定のDNAの変化と特定の特性との関連を見つけるのに役立つんだ。

GWASを行うと、テストした各DNAの変化について2つの重要な情報が得られるよ。それは、推定効果量っていう、その変化がどれくらい影響を持つかを示すものと、P値っていう、その変化と特性の関連の強さを示す値だ。

研究者たちはこの情報を使って、ポリジェニックリスクスコア(PRS)っていうスコアを作ることができる。このスコアは、いくつものDNAの変化からリスクをまとめて、誰かが特定の特性や病気を持つ可能性を示すんだ。PRSは、予防や診断、治療に役立つんだよ。

ポリジェニックリスクスコアの推定方法

過去10年で、PRSの推定方法はかなり変わった。最初は、統計的に有意じゃないように見えるDNAの変化でも、特性を予測するのに価値のある情報を加えられることがわかったんだ。研究者たちは、特定のDNAの変化がどう関連しているかを考慮することで、これらのスコアの予測精度が向上することも発見した。

最近の統計手法や生物学の進歩は、さらにPRSを改善してる。例えば、最近の方法では、異なるDNAバリアントが人口にどれくらい存在するかの情報を組み込んだり、これらの変化の生物学的な機能を考慮したりすることができるんだ。

ただし、これらの方法には似たような制限がある。大きな問題の一つは、DNAの変化の影響が通常一定と見なされていることで、これは現実を反映してないかもしれないね。

現在のPRSの課題

PRSは、異なる民族背景を持つ人に適用すると、よくパフォーマンスが悪い。これは、さまざまなグループでDNAの変化の頻度が異なるからなんだ。また、遺伝的および環境的要因がこれらの予測をさらに複雑にすることもある。こうした問題から、医学でPRSを使うのは難しいし、正確性を向上させるためには多様な人口からのデータがもっと必要なんだ。

これらの課題を解決するために、研究者たちはいくつかの戦略を提案してる。これには、異なるGWASの結果を組み合わせたり、重要な影響を持つDNAの変化に焦点を当てたりすることが含まれてる。最近の研究では、より高度なモデルを使うことで予測能力を向上させられることも示されてるんだ。

ディープラーニングの可能性

ディープラーニングは、大きなデータセットの中で複雑なパターンを特定できる技術だ。遺伝学の分野では、遺伝的バリアントの特定や遺伝に関連する画像の分析など、さまざまなタスクに使われてる。一部の説明可能なディープラーニング手法は、病気の背後にある遺伝的要因についての洞察を提供しようとしてる。

最近の一つのアプローチでは、個々のDNAの変化に対する説明を提供するために知識グラフを作成したんだ。遺伝的リスクを予測するためにディープラーニングを使うことで、特に複雑なモデルが一般化を高めることが示されてるから、ユニークな利点が得られるかもしれないよ。これは、代表的でない人口にPRSを適用する際に重要なんだ。

ディープラーニングの過去の試み

ディープラーニングを使ってPRSを推定しようとした試みはあったけど、これまでのアプローチは主に浅いネットワークを使用してた。これらのモデルは少数のDNAの変化を扱ってて、予測精度の向上はあまり見られなかったんだ。例えば、ある研究では、ニューラルネットワークを使って乳癌のリスク予測をわずかに改善できたけど、より多くのDNAの変化を加えても効果はなかった。

別の研究では、限定されたコホートでアルツハイマー病のリスク予測を改善するために小さなニューラルネットワークを使ったんだ。

デルファイの導入

この論文では、遺伝的リスクスコアの推定を向上させるためにディープラーニングを使用した新しい方法、デルファイを紹介するよ。デルファイは、従来のPRS手法が直面したいくつかの課題に対処してる。これは、DNAの変化間のより複雑な関係を捉えるために、最新のトランスフォーマーモデルを使うことで実現してるんだ。

従来の方法とは異なり、デルファイは性別、民族、その他の変異など、さまざまな要因に基づいてDNAの変化の影響を調整するんだ。この柔軟性が、確立されたPRS手法からの効果を微調整するのを可能にするんだ。

UKバイオバンクのデータを使った初期の結果は、期待される成果を示しているよ。このモデルは、重要な変異の予測効果を高め、他のアプローチよりも多様な人口への一般化が良好であることが示されたんだ。

デルファイのフレームワーク

デルファイは、2つの主要なステップからなるシンプルなフレームワークを持ってる。最初のステップでは、データをトレーニング、バリデーション、テストのセットに分ける。研究者たちは、標準的なPRS技術を使って変異の影響を推定し、トレーニング中に迅速にアクセスできるようにデータを準備するんだ。

2番目のステップでは、遺伝的および人口統計データに基づいてモデルをトレーニングする。これにより、様々な要因から表現型(特性)を予測し、別のニューラルネットワークが変異の個々の効果サイズを調整することを学ぶんだ。最終的には、これらの調整された効果を組み合わせて、個別のPRSを作り出すんだよ。

GWASとデータ処理

この研究では、485,000人以上の被験者を分析し、トレーニング、バリデーション、テストのグループに分けた。トレーニングセットはさまざまな分析に使用され、バリデーションセットがモデルを洗練させるのを助けた。テストセットは、最終評価が行われるまで手を付けなかったんだ。

この研究では、特定の品質基準に基づいて、特定のDNAの変化のみが検討された。さまざまな統計手法が、遺伝的データに基づく特性予測のための最良のモデルを特定するのに役立ったんだ。

効果の変更の学習

次の段階は、個別の効果変更に焦点を当てている。GWASのプロセスに似て、年齢、性別、その他の遺伝的要因などの特性が考慮された。これらの変数を分析し、ニューラルネットワークの基盤を築くために別のモデルが構築されたんだ。

ニューラルネットワークは、効果サイズのユニークなバリエーションを作り出した。これらの調整は、追加の出力と合算されて最終的な予測を生み出すんだ。

パフォーマンス比較

研究者たちは、デルファイを3つの確立されたPRS手法と比較して、その効果を評価した。彼らは、各手法がどのくらいの分散を複数の特性に対して説明できるかを調べ、その結果、デルファイは一般的に他の方法よりも優れた結果を示したんだ。

異なる技術の結果を比較したとき、デルファイは全体的に大きな予測誤差が少なかった。この傾向は、特に身長などの特性に顕著で、デルファイはより一貫した結果を出したんだ。

多様な民族性に対するパフォーマンス

デルファイが英国白人系以外の被験者に対してどれほど効果的かに特に焦点が当てられた。サンプルサイズは小さかったけれど、デルファイはさまざまな特性についての部分的分散の説明において他の方法よりも優位性を保ってたんだ。

結果は期待できるもので、デルファイが遺伝的研究において以前は代表されていなかった人口でも、うまく一般化できる可能性があることを示しているよ。

効果調整の傾向を観察する

研究者たちは、デルファイがDNAの変化の効果を調整する様子に興味深い傾向を見つけたんだ。効果の少ない変化の影響を減少させる一方で、より大きな効果の影響を最大化する傾向があった。これは将来のモデル開発に役立つかもしれないね。

また、使用したデータによって効果サイズが大きく変動する可能性があるとも観察されて、これがこれらの発見の解釈を複雑にしているんだ。

制限と今後の方向性

この研究では、データの高次元性や、あまりにも多くの小さな効果SNPを含むことによって引き起こされる潜在的なノイズなど、いくつかの制限があることを認めてる。これらの要因はトレーニングプロセスを複雑にし、予測の一貫性に影響を与える可能性があるんだ。

さらに、デルファイがさまざまな特性の予測を改善する可能性を示している一方で、より広範なデータセットと継続的な洗練が重要であることには変わりない。PRSの方法が多様な人口にわたってうまく機能するようにする必要が切実に求められているんだ。

結論

デルファイは、遺伝的リスクスコアの推定における進展を表していて、ディープラーニング技術を利用して従来の手法が直面した課題に対処してる。遺伝的バリアントと人口統計的要因の間の微妙な相互作用に焦点を当てることで、遺伝的リスクの推定にもっとパーソナライズされたアプローチを提供してるんだ。

デルファイを使った研究は、多様な人口に対する予測能力を大幅に向上させる可能性があることを強調しているから、遺伝研究や臨床応用にとって貴重なツールになりそうだね。今後は、その能力を探求し続けることが、既存の制限に対処し、遺伝的リスク予測の全体的な効果を向上させるためには重要なんだ。

オリジナルソース

タイトル: Deep Learning for Polygenic Risk Prediction

概要: Polygenic risk scores (PRS) are relative measures of an individuals genetic propensity to a particular trait or disease. Most PRS methods assume that mutation effects scale linearly with the number of alleles and are constant across individuals. While these assumptions simplify computation, they increase error, particularly for less-represented racial groups. We developed and provide Delphi (deep learning for phenotype inference), a deep-learning method that relaxes these assumptions to produce more predictive PRS. In contrast to other methods, Delphi can integrate up to hundreds of thousands of SNPs as input. We compare our results to a standard, linear PRS model, lasso regression, and a gradient-boosted trees-based method. We show that deep learning can be an effective approach to genetic risk prediction. We report a relative increase in the percentage variance explained compared to the state-of-the-art by 11.4% for body mass index, 18.9% for systolic blood pressure, 7.5% for LDL, 35% for C-reactive protein, 16.2% for height, 29.6 % for pulse rate; in addition, Delphi provides 2% absolute explained variance for blood glucose while other tested methods were non-predictive. Furthermore, we show that Delphi tends to increase the weight of high-effect mutations. This work demonstrates an effective deep learning method for modeling genetic risk that also showed to generalize well when evaluated on individuals from non-European ancestries.

著者: Costa Georgantas, Z. Kutalik, J. Richiardi

最終更新: 2024-07-16 00:00:00

言語: English

ソースURL: https://www.medrxiv.org/content/10.1101/2024.04.19.24306079

ソースPDF: https://www.medrxiv.org/content/10.1101/2024.04.19.24306079.full.pdf

ライセンス: https://creativecommons.org/licenses/by-nc/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた medrxiv に感謝します。

著者たちからもっと読む

類似の記事