アストラルの精度に対する遺伝子系統依存の影響
遺伝子ツリーの依存性が種ツリー推定におけるASTRALの精度にどう影響するかを調べてる。
― 1 分で読む
目次
種分化っていうのは、ある種の異なる集団が進化して、別の種になるプロセスのこと。研究者たちは、種ツリーや遺伝子ツリーみたいなツールを使ってこのプロセスを追跡して理解してるよ。種ツリーは、種がどのように進化して分かれてきたかを示していて、各種は葉っぱとして表示されて、分岐点、つまり種分化のイベントは枝として表される。一方、遺伝子ツリーは、その種の中で遺伝子がどのように進化してきたかを示すもの。両方のツリーを研究することで、科学者たちは地球上の生命の歴史について学べるんだ。
種ツリーと遺伝子ツリーって何?
種ツリーは異なる種の関係を示すけど、遺伝子ツリーは特定の遺伝子の歴史に焦点を当てるんだ。種が二つに分かれると、その種の中の遺伝子も変化するから、遺伝子ツリーはしばしば種ツリーと関連付けられる。でも、遺伝子ツリーは種ツリーとは異なることもあって、遺伝子の重複や喪失、水平遺伝子伝達、不完全系統選別などが原因なんだ。不完全系統選別っていうのは、異なる遺伝子系統が多くの種分化のイベントを経ても予想通りにまとまらない時に起こって、どのツリーが正確なのか混乱を招くことがある。
遺伝子ツリーと種ツリーの重要性
種や遺伝子の歴史をよりよく理解するためには、研究者たちは複数の遺伝子ファミリーを考慮する必要がある。種ツリーを作成するための主な方法が二つあって、連結法と要約法だ。連結法は遺伝子配列を一つの大きな配列にまとめて、それを使って種ツリーを作る。でも、この方法はすべての遺伝子が同じツリーに従うと仮定しているから、実際にはそうじゃないことが多い。
要約法は違うアプローチをとる。個別の遺伝子ツリーを分析して、それを要約して種ツリーを構築する。中には遺伝子ツリーの形だけを使う方法もあれば、枝の形や長さの両方を考慮する方法もある。これらの方法は、根付きの遺伝子ツリーや根なしの遺伝子ツリーを入力として扱えるんだ。いろんな要約法があって、アプローチもいろいろ違うんだよ。
ASTRALの動作
ASTRALは要約法の一つで、正確で適応性があることで知られてる。遺伝子ツリーが多種共alescentモデルを使って作成されていれば、種ツリーの良い推定ができる。ASTRALはシミュレーションで徹底的にテストされて、さまざまな条件下での正確性が示されてるんだ。ただ、遺伝子ツリーの推定に誤りがあると、その正確性にも影響が出る。
これまでのASTRALに関する研究は、独立に作成された遺伝子ツリーを見てきた。これは遺伝子同士に関係がないと仮定しているけど、実際にはそうじゃないことも多い。遺伝子が染色体上で近くにいると、よりつながりのある進化の歴史を共有することが多いんだ。組換えイベントはこれらの歴史を分けるけど、ランダムに起こるわけじゃないし、遺伝子ツリーの間にリンクを作ることもある。
遺伝子ツリーの依存性についての明確さが必要
遺伝子ツリーの依存性は考慮すべき重要なポイントで、ASTRALのパフォーマンスに大きく影響を与える可能性がある。以前の研究ではこの問題が検討されたけど、遺伝子境界を特定するための方法が結果に過度に影響を与えたかもしれない。場合によっては、これらの方法が隣接する遺伝子ツリーの間に強い依存関係を作り出し、それが実際の関係を反映していない場合があるんだ。
遺伝子間の組換えももう一つの複雑さを加える。組換えが進化の歴史に影響を与えることは知られてて、研究者たちはこのプロセスを理解するために多くの努力をしてきた。以前の組換え分析方法は、組換えを含む共alescentの近似を使用することでより良い結果を出していた。
ASTRALの正確性の評価
最近の研究の目的は、遺伝子ツリーが接続されているときのASTRALの正確性を再評価することだった。これには、新しいモデルを作成して依存する遺伝子ツリーを生成することが含まれる。これらの遺伝子ツリーをASTRALの入力として使用することで、研究者たちは種ツリーを推定できるんだ。現実的な組換え率を考慮に入れると、ASTRALの正確性が過大評価されていた可能性があることがわかった。結果は、遺伝子ツリーの依存性がASTRALのパフォーマンスに影響を与える重要な要素かもしれないことを示している。
ASTRALの正確性は、真の種ツリーをASTRALから推測されたツリーと比較することで評価できる。例えば、研究者たちは哺乳類や菌類のデータセットを使って、依存する遺伝子ツリーを使ったときのASTRALのパフォーマンスを見ている。
遺伝子ツリーのシミュレーション
種ツリーの中で現実的な遺伝子ツリーを作るために、研究者たちは種の進化の歴史に基づいた遺伝子ツリーのセットを生成できる。種ツリーが確立したら、異なる遺伝子ツリーが作成されて、お互いに依存していると考えられる。つまり、あるツリーの系譜が別のツリーに影響を与え、遺伝子が種に関連してどのように進化してきたかの明確なイメージを与えるんだ。
依存する遺伝子ツリーを生成する過程
依存する遺伝子ツリーを生成するには、研究者たちは二つのロキ(ゲノムのセクション)から始めることができる。第二のロキの系譜は第一のロキの系譜に条件付けられる。簡単に言うと、ある場所の遺伝子が進化する方法が近くの遺伝子の進化に影響を与えるってこと。
組換えイベントは二つのロキの間の系譜を分けることで、遺伝子ツリーに違いをもたらす。具体的には、研究者たちが第二のロキの系譜を分析すると、組換えイベントに基づいてそれが第一のロキとどのくらい一致するか、または分岐するかがわかる。
ASTRALのパフォーマンスに関する重要な発見
研究者たちは、遺伝子ツリーの独立性が高まるにつれて、ASTRALの正確性が増すことを発見した。逆に、遺伝子ツリーが依存している場合、ASTRALのパフォーマンスは低下する。遺伝子ツリーの独立性と正確性の関係は、異なるタクサの数を持つデータセットを含むさまざまな状況でテストされている。
ASTRALのパフォーマンスに関するさらなる調査は、遺伝子ツリーの依存性が大きいとき、ASTRALが遺伝子ツリーの推定誤差よりも苦労することを示した。これは、ASTRALが種ツリーをどれだけ正確に推測できるかを決定する際に、両方の要因が重要であることを強調している。
不完全系統選別の影響
不完全系統選別もASTRALの正確性に関与している。研究者たちは、種ツリーの枝の長さを調整してASTRALが増加したILSの条件下でどのように機能するかを調べた。発見は、ASTRALの正確性がILSが増えると低下することを示していて、独立した遺伝子ツリーで観察されたことと一致している。
研究者たちが7つの異なるILSの量でシミュレーションを行った時、ASTRALはツリー間の依存性が高いときに苦労し続けることに気づいた。この傾向は、さまざまなシミュレーションで持続し、ASTRALのデータ使用に関する慎重な考慮が必要であることを強調している。
実データの重要性
科学者たちは、実際の生物データに基づいて分析を行うことで、研究を現実に基づかせることもしている。哺乳類のデータセットから実際の遺伝子ツリーを見て、ASTRALが実際のシナリオで依存するツリーをどのように扱うかを評価することができた。
生物データセットからの組換え率の推定は重要なステップだ。遺伝子ツリー間の平均距離を計算して、それをシミュレーションデータと照らし合わせることで、組換え率のより現実的な測定値を得ることができるんだ。彼らのデータセットでは、遺伝子ツリーが実際には独立でないことを示す証拠が見つかり、ASTRALの正確性の再評価につながった。
実効サンプルサイズと遺伝子ツリーの依存性
ASTRALの実効サンプルサイズを見ていくとき、遺伝子ツリーの依存性を考慮して、サンプル内にどれだけの情報があるかを判断することが重要になる。これは、依存するツリーで得られたのと同じ正確性を達成するために必要な独立したツリーの数を計算することを意味している。
実際のデータセットにおける実効サンプルサイズは、実際のサンプルサイズよりもかなり低い傾向がある。例えば、研究者たちは、彼らの哺乳類データセットの実効サンプルサイズが実際のサイズの約3分の1だったことを見つけた。この発見は、シミュレーションで独立した遺伝子ツリーを使用することが、ASTRALのパフォーマンスを理解する上で偏った見解をもたらす可能性があることを強調している。
結論:前進するために
最近の研究の発見は、遺伝子ツリーの依存性がASTRALメソッドの正確性に大きく影響を与える可能性があることを示している。遺伝子ツリーが依存していると、ASTRALのパフォーマンスは明らかに悪化する。また、遺伝子ツリーの推定誤差が依存性と共に考慮されると、正確性が悪影響を受ける可能性がある。
ゲノムデータの収集が進むにつれて、特に種ツリーを再構築しようとする際に、遺伝子ツリーの依存性の影響を考慮することが重要になってくる。ASTRALは種ツリー推定のための人気のある方法であるけど、遺伝子ツリーの依存性を正確に考慮した新しいモデルでその結果を理解する方が良いかもしれない。これからは、遺伝子ツリーの依存性を考慮して、ゲノムパターンに基づいてクォートを重視する新しい方法が探求されるかもしれない。
タイトル: The accuracy of species tree inference under gene tree dependence
概要: When inferring the evolutionary history of species and the genes they contain, the phylogenetic trees of the genes can be different to that of the species and to each other, due to a variety of causes including incomplete lineage sorting. We often wish to infer the species tree, but only reconstruct the gene trees from sequences. We then combine the gene trees to produce a species tree; methods to do this are known as summary methods, of which ASTRAL is the currently among the most popular. ASTRAL has been shown to be practically accurate in many scenarios through extensive simulations. However, these simulations generally assume that the input gene trees are independent of each other. This is known to be unrealistic, as genes that are close to each other on the chromosome (or are related by function) have dependent phylogenies, due to the absence of unlimited recombination between the genes. In this paper, we develop a model for generating dependent gene trees within a species tree, based on the coalescent with recombination. We then use these trees as input to ASTRAL to reassess its accuracy for dependent gene trees. Our results show that ASTRAL performs more poorly with greater dependence, both when gene trees are known and estimated from sequences. Indeed, the effect of dependence between gene trees is comparable to (if not larger than) the effect of gene tree estimation error. We then re-analyse a 37-taxon mammalian data set; under a realistic recombination rate, the estimated accuracy of ASTRAL decreases substantially (the Robinson-Foulds distance increases by a factor of 4.7) relative to the accuracy previously estimated with independent gene trees, and the effective sample size for this dataset is about one-third of the actual sample size. This shows that the impact of gene tree dependence on the accuracy of ASTRAL (and other summary methods) can be extensive. Author summaryThe study of the evolutionary history of species is important for understanding and reconstructing the history of life on Earth. These evolutionary histories are represented in the form of species trees, which can be reconstructed from the evolutionary histories of the genes contained in the species using so-called species tree inference methods. This is complicated by the fact that the histories of the genes (gene trees) can be related to each other, depending on their placement in the genome or their functions. Gene tree dependence is not taken into account in almost all studies of the accuracy of species tree inference. In this paper, we develop a statistical model to include gene tree dependence, and show that it can significantly affect the accuracy of species tree inference. This effect is at least as large as the impact of incorrect reconstruction of the gene trees themselves, a well-known issue in species tree inference.
著者: Yao-ban Chan, W. He, C. Scornavacca
最終更新: 2024-06-09 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.06.06.597697
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.06.06.597697.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。