人口遺伝学モデルの進展
新しい方法が遺伝的多様性と集団の歴史の理解を深める。
― 1 分で読む
最近、科学者たちはさまざまな種からの質の高い遺伝子データにアクセスできるようになったんだ。これにより、集団遺伝学のモデルや方法が発展し、集団内の遺伝子頻度が時間とともにどう変わるのかを研究するようになった。この研究の目的の一つは、種の個体群の歴史的パターンを理解することで、成長したり減少したり、さらには絶滅の危機にあったのかを明らかにすることだ。この歴史を知ることは、自然選択を受けている可能性がある遺伝子を特定するのに重要なんだ。
この研究での重要な要素は、キングマンのコアレセントプロセスとして知られる方法を使うこと。これは、集団内の個体の遺伝的系統が時間を遡ってどう辿れるかを説明する数学的モデルなんだ。簡単に言うと、サンプル内の全ての個体が共通の祖先にどのように関連しているのかを理解するのに役立つ。モデルは、子供が前の世代からランダムに選ばれた親から生まれると仮定していて、集団内の遺伝的多様性を予測しやすくしている。
ライト-フィッシャーモデル
キングマンコアレセントは、遺伝子が世代から世代へどう受け継がれるかを説明する別のモデル、ライト-フィッシャーモデルに基づいている。このモデルは、世代が重ならず、親が前の世代から遺伝子をランダムに選ぶと仮定している。このモデルの重要な側面は、各親が何人の子供を持つかということだ。子供の数が少ない(通常は親1人あたり0〜2人程度)の場合、このモデルはうまく機能するんだ。これは、低い幼児死亡率の種、つまり多くの哺乳類でよく見られる。
しかし、さまざまな特性を持つ種に対してゲノム配列データが広く利用可能になるにつれ、キングマンコアレセントモデルの信頼性が問われるようになった。一部の種、例えば多くの子供を持ち、若い個体の死亡率が高い魚のような種は、このモデルにうまく当てはまらないことがあるんだ。これは「スウィープステーク再生産」と呼ばれる現象によるもので、ほんの数匹しか多くの子孫を残さないことがある。
集団遺伝学の課題
さまざまな要因が伝統的なライト-フィッシャーモデルを乱すことがある。これには、強いシードバンキング、異なる分布の大量の子供、繰り返される集団ボトルネック、強い選択といったプロセスが含まれる。こうした要因が存在すると、系譜パターンはキングマンコアレセントモデルでは正確に説明できなくなる。この場合、複数の個体が同時に1つの系統に合流することを許容する別のモデルであるマルチプルマージャーコアレセント(MMC)が一般的により適している。このモデルは、特定の種で見られる複雑な繁殖パターンを反映しているんだ。
研究者たちは、多くの種、特に魚やユニークな生涯を持つ他の生物は、こうした代替モデルを使って研究するのがベストかもしれないと認識している。しかし、各種の繁殖メカニズムを理解するためのフィールド実験は高コストで時間がかかることがある。そのため、科学者たちは遺伝子データに頼って、どのモデルが異なる種や集団にとって最も適しているかを判断することが多いんだ。
β-コアレセント法
この研究では、β-コアレセントとして知られる特定のMMCモデルに焦点を当てている。ライト-フィッシャーモデルとは異なり、β-コアレセントは、個体の子供の数に応じて遺伝子のコピー数がどのように変化するかを考慮する。β-コアレセントは、時間をかけて個体がどれだけ親密に関連しているのかも示すんだ。
この研究では、単相生物(染色体が1セットだけの生物)に焦点を当てていて、数学的モデリングを簡素化している。染色体が2セット以上の生物(ポリプロイド)の場合、遺伝情報の複雑さを考慮して方法を調整する必要がある。
β-コアレセントの興味深い特徴は、親が特定の数の子供を持つ確率が特定の数学的ルールに従う場合、系譜パターンをΛ-コアレセントという別のモデルを使って表現できることなんだ。特定の確率測度を適用することで、β-コアレセントにつながる遷移率を導き出し、個体間の遺伝的関係をさらに説明する助けとなる。
推論のための方法
正確な推論を生成して遺伝的パターンを理解するために、科学者たちは遺伝子配列から抽出したデータに依存している。一般的なアプローチは、集団内で異なる遺伝的変異がどれくらいの頻度で発生するかを示すサイト頻度スペクトル(SFS)を調べることだ。SFSは有用な洞察を提供できるけれど、限界がある。例えば、複雑な集団では、SFSが基礎的な人口史を明確に示せないことがある。
私たちの目標は、全ゲノムにわたる組換えイベントからの情報を統合する2つの方法を開発することで、これらの限界に対処することだ。組換えは、繁殖中に遺伝物質が混ざることを指していて、系譜がゲノムに沿ってどう見えるかに大きく影響する。これにより、サンプルの系譜の歴史を異なるDNAセグメントにわたって視覚的に表現する祖先組換えグラフ(ARG)が作成される。
最初の方法は、β-コアレセントと逐次マルコフ法(SMC)を組み合わせるもので、系譜パターンに対する組換えイベントの影響を考慮できる。これを逐次マルコフ的β-コアレセント(SMβC)と呼ぶ。2つ目の方法は、深層学習技術、具体的にはグラフニューラルネットワーク(GNN)を使ってARGを分析し、人口パラメータを推定するための関連情報を抽出するものだ。
方法の評価
私たちの方法のパフォーマンスを評価するために、まずはβ-コアレセントモデルの下で過去の人口サイズを推定する際の既存のSMC法(MSMCやMSMC2など)のパフォーマンスを分析する。また、新しい2つのアプローチ-SMβCとGNNcoal-が、過去の人口サイズの変動や複数の合併イベントに関連するパラメータを回復するのにどのように役立つかを説明する。
方法をテストするために、過去の遺伝的多様性に関する情報をどれだけ正確に回復できるかに焦点を当てた一連のシミュレーションを行う。特に、複数の合併イベントの頻度を示すαパラメータをどれだけうまく両方の方法が特定できるかを評価する。
結果
結果は、SMβCとGNNcoalの両アプローチが過去の人口サイズの変動やαパラメータの回復に効果的であることを示している。特に条件が良い場合(すなわち、複数の合併が少ない高いα値の時)にそうだ。GNNcoalは、複雑な系譜構造を扱う際に特に良いパフォーマンスを発揮する。
系統樹配列や遺伝データを分析する際、GNNcoalは系譜のトポロジー構造を活かすことで、高い遺伝データの変動があっても有用な情報を抽出できる。これにより、GNNcoalは基礎的な遺伝関係の複雑さを失うことなく、より大きなサンプルサイズを同時に処理する優位性を持つ。
両方の方法を比較すると、GNNcoalはARG全体を活用できる一方、SMβCは主に狭い側面に焦点を当てる。この違いにより、GNNcoalは特に複雑で動的な進化プロセスの文脈でより強力なツールとなる。
バイアスへの対処
私たちの発見は、以前のSMC法におけるいくつかのバイアスを明らかにした。これらの方法がキングマンコアレセントの仮定を使ってシナリオをモデル化しようとするときに不正確なモデルが適用されてしまう。これにより、推定された人口サイズに significativa な乖離が生じることが分かった。
解決策として、SMC法にスケーリング補正を適用して、シミュレーションで観察された現実的な人口動態に結果を一致させる助けをする。これにより、歴史的な人口の推論の精度がさらに向上する。
選択の影響
特定の繁殖メカニズムや自然選択の影響が複数の合併に似たイベントを引き起こす可能性があるため、私たちのモデルが選択を考慮できるかどうかも調べている。ゲノムの異なる領域でαパラメータに変動を許すことで、遺伝的多様性に対する選択圧の影響をより良く理解できる。
シミュレーションから、強い選択が選択下の領域でα値を低下させる一方、ニュートラルな領域では高いα値が維持されることを観察した。これにより、選択が遺伝的関係に実際に影響を与えることが示され、自然選択の影響についてより微妙な結論を引き出すことができる。
推論方法の改善
ARGの推論はまだ改善が必要な分野であるため、私たちが開発した方法は、遺伝データを分析する際により正確な結果をもたらす可能性がある。GNNcoalのアプローチは特に有望で、追加の研究が進む中で他のコアレセントプロセスをモデル化するために拡張できるかもしれない。
さらに、αパラメータの時間的変動を許可したり、選択や他の進化的力を考慮したりすることで、基礎的なモデルを現実により反映させる機会があると考えている。これらの機能を統合することで、集団動態や遺伝的進化パターンについての洞察を得るためのより堅牢なモデルを作成できる。
結論
要するに、私たちの研究は、キングマンコアレセントのような伝統的なモデルを超えて進化プロセスの複雑さを受け入れるアプローチに移行する重要性を強調している。SMβCやGNNcoalのような新しい方法の開発は、集団遺伝学の深い理解と、さまざまな種における遺伝的多様性を形成する歴史的な影響を明らかにする道を開いている。
私たちが技術を洗練し、選択の影響を探求し続けることで、進化の変化を引き起こす要因について、より包括的で正確なビジョンを構築していける。これにより、集団遺伝学の知識が深まるだけでなく、保全、農業、医療などの実用的な応用にもつながるだろう。私たちの発見から得られた洞察は、遺伝学と進化生物学の分野でのongoingな課題に大きく貢献することになる。
タイトル: Simultaneous Inference of Past Demography and Selection from the Ancestral Recombination Graph under the Beta Coalescent
概要: The reproductive mechanism of a species is a key driver of genome evolution. The standard Wright-Fisher model for the reproduction of individuals in a population assumes that each individual produces a number of offspring negligible compared to the total population size. Yet many species of plants, invertebrates, prokaryotes or fish exhibit neutrally skewed offspring distribution or strong selection events yielding few individuals to produce a number of offspring of up to the same magnitude as the population size. As a result, the genealogy of a sample is characterized by multiple individuals (more than two) coalescing simultaneously to the same common ancestor. The current methods developed to detect such multiple merger events do not account for complex demographic scenarios or recombination, and require large sample sizes. We tackle these limitations by developing two novel and different approaches to infer multiple merger events from sequence data or the ancestral recombination graph (ARG): a sequentially Markovian coalescent (SM{beta}C) and a graph neural network (GNNcoal). We first give proof of the accuracy of our methods to estimate the multiple merger parameter and past demographic history using simulated data under the {beta}-coalescent model. Secondly, we show that our approaches can also recover the effect of positive selective sweeps along the genome. Finally, we are able to distinguish skewed offspring distribution from selection while simultaneously inferring the past variation of population size. Our findings stress the aptitude of neural networks to leverage information from the ARG for inference but also the urgent need for more accurate ARG inference approaches.
著者: Kevin Korfmann, T. P. P. Sellinger, F. Freund, M. Fumagalli, A. Tellier
最終更新: 2024-03-07 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2022.09.28.508873
ソースPDF: https://www.biorxiv.org/content/10.1101/2022.09.28.508873.full.pdf
ライセンス: https://creativecommons.org/licenses/by-nc/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。