先祖再結合グラフと構造的変異の進展
新しいツールが人間の集団における遺伝的多様性や構造的変異の理解を深めてる。
― 1 分で読む
目次
遺伝学では、一群のサンプルの家系歴を理解することがめっちゃ重要なんだ。これをする方法の一つが「祖先再結合グラフ(ARG)」っていうもので、これは異なる遺伝子配列が時間とともにどう関係しているかを示してる。ARGは、多くの小さな「ローカルツリー」をつなげて作られ、各ツリーはゲノムの特定のポイントでの遺伝的歴史の一部を説明してるんだ。このツリーが再結合イベントでつながることで、サンプル間の遺伝的関係の全体像がわかるようになる。
ARGは、科学者が遺伝的多様性がどう生まれたかを見れるようにしてくれるし、以前の方法、例えば複数の遺伝子配列を整列させるよりも効率的な場合が多い。ARGを使うことで、研究者は過去の進化イベントについて強い推定をすることができる。でも実際には、真の家系歴を常に見ることはできなくて、通常は手元にあるデータからそれを組み立てる必要があるんだ。それは現在の遺伝子配列から構成されてることが多いから、非常に難しい作業になることが多いんだ。
大きなサンプルのARG再構築に関してはかなりの進展があったけど、まだ難しさもある。シミュレーションでうまくいく方法が実際のデータでは苦労することが多くて、ARG再構築の質を評価する方法を改善する必要がある。研究者たちは、異なるツールが同じデータセットに対して著しく異なる結果を出すことを発見していて、さらなる調査が必要だってわかってる。
もう一つの課題は、現在のほとんどの方法が小さな遺伝的変化、例えば単一塩基置換にしか焦点を当ててないことなんだ。彼らはしばしば、複製や逆位などの大きな変化、いわゆる構造的変異(SV)を見落としてしまう。SVは進化に寄与したり、集団の特性に影響を与えたりするから重要なんだけど、実際のデータセットでARGを使ってSVを分析した研究はまだないんだ。いくつかのシミュレーションは行われたけどね。
ARGにおけるエッジスパンの理解
ARGの各部分、いわゆる「エッジ」には、ローカルツリーの中に存在する特定のゲノム空間がある。ARGの背後にある数学的モデルを深く見ていくことで、研究者たちはエッジスパンの理論的分布を導き出すことができる。つまり、各エッジがどのくらいの長さになることが期待されるのかや、エッジが再結合イベントでどれくらいの頻度で中断されるかがわかるんだ。
異なる方法で再構築したARGを解析すると、これらのツールがエッジスパンの期待される分布をどれだけよく捉えているかの違いが明らかになる。例えば、あるツールはエッジの期待される長さを正確に反映するかもしれないけど、他のツールは常に期待よりも長かったり短かったりするエッジを生成することがある。この違いが各ツールで何が起きているのかを理解することは、将来のARG再構築を改善するために役立つんだ。
再結合抑制検出ツールの開発
「DoLoReS」っていう新しい計算ツールが開発されて、遺伝子サンプルのクレード間で再結合が抑制されている場所を特定することができるんだ。個体が逆位を持つと、遺伝物質が再配置される方法なんだけど、その領域での再結合は往々にして減少するんだ。これにより、研究者は逆位を見つけるために使える独特なパターンが生まれる。
このツールをテストするには、シミュレーションデータと大規模な集団研究から得られた実データの両方に適用してみるんだ。この方法はSVの信号を正確に捉え、抑制された再結合の重要な領域を検出するのに有望なんだ。
実際の人間データの分析
人間における構造的変異をよりよく理解するために、研究者たちは「1000 Genomes Project(1KGP)」として知られる大規模なゲノムデータセットにDoLoReSを適用した。この分析により、欧州集団に一般的な17q21.31逆位のようなさまざまな既知の構造的変異が明らかになった。異なる集団でこの変異の頻度を推定することで、これらの変異が人間の多様性や特性にどう影響を与えるかを知ることができる。
この方法のおかげで、新しい構造的変異を特定したり、ゲノム内の複雑な再配置についての洞察を得たりすることができた。驚くべきことに、再構築されたARGはSVの存在の信号をキャッチすることができたんだ、最初の再構築ではそれに考慮されていなかったのに。
エッジ破断の確率の理解
ARGを分析する際、エッジが再結合イベントによって中断される可能性を理解することがめっちゃ重要なんだ。この確率はエッジの長さと位置に影響される。一般的に、長いエッジは短いエッジに比べて中断される可能性が低くなるんだ。
この関係は重要で、遺伝的多様性が時間とともにどのように変化するかを理解するのに役立つんだ。これらのイベントをシミュレートするモデルを作ることで、研究者は遺伝的再結合の期待される結果をより良く定量化できる。
クレードスパン分析のためのツール
クレードの概念もこの分野では重要なんだ。クレードは共通の祖先を持つサンプルのグループを指す。クレードのゲノムスパンは、そのサンプル間の遺伝的関係に関する重要な情報を教えてくれる。クレードスパンの期待される分布を分析することで、研究者は異常な長さをチェックする統計的テストを開発できて、これは再結合の局所的抑制を示しているかもしれない。
再構築されたARGにこれらのテストを適用すると、重要な発見が明らかになって、構造的変異が発生しそうな領域を特定するのに役立つんだ。これには、集団の遺伝的構成を理解するために重要な逆位の特定も含まれる。
シミュレートデータにおける構造変異の検出
新しい方法の能力をさらに評価するために、研究者たちはシミュレーション研究を行った。これには、既知の構造的変異を持つARGを作成して、方法がそれらをどれだけうまく検出できるかを評価することが含まれた。結果は、テストが逆位に関連した再結合抑制の特定の領域を効果的に特定したことを示していて、将来の研究に対する彼らの可能性を確認しているんだ。
実世界の人間ゲノムへの適用
シミュレーションデータに加えて、実際のゲノムデータにもこの方法を適用して、さまざまな人間のゲノムにおける構造的変異が明らかになった。これらの発見は、特定の変異の集団頻度についての洞察を提供し、それらの進化の歴史を推定するのに役立つんだ。
例えば、研究者たちは染色体17にある既知の逆位を見つけて、それが欧州の集団でよく研究されていることを確認した。この逆位のさまざまな集団間での平均頻度を推定することができて、人間の遺伝的多様性に関する議論に貢献しているんだ。
さらに、この方法によって研究者たちは構造変異の追加的な領域を探求できて、特定された変異を既知の遺伝子や疾患に結びつけることができた。この遺伝子分析と現実の特性との関連は、この研究が医療や進化的遺伝学にとってどれほど重要であるかを強調しているんだ。
結論
ARGとその構造的変異の特定への応用に関する継続的な研究は、人間の遺伝的多様性について多くのことを明らかにしてきた。新しいツールや方法を開発することで、科学者たちは私たちのゲノムの複雑さをよりよく理解できるようになっているんだ。
ARGの再構築と構造的変異の分析方法を改善することは、人間の進化や適応についての貴重な洞察を提供し続けるだろう。計算ツールや統計手法の継続的な進展により、研究者たちは人間集団における遺伝的多様性を理解する課題に取り組むために良い位置にいるんだ。これらの方法を日常的な遺伝分析に統合することで、人間の歴史についての理解を深めるだけでなく、遺伝病や特性の研究にも役立つだろう。
この発見は、遺伝研究において構造的変異を考慮する重要性と、ARGがこれらの複雑さを捉える可能性を強調しているんだ。この遺伝学の進展は間違いなく新しい発見につながり、遺伝的多様性を形作る複雑な関係をより深く理解する手助けになるだろう。
タイトル: The length of haplotype blocks and signals of structural variation in reconstructed genealogies
概要: Recent breakthroughs have enabled the inference of genealogies from large sequencing data-sets, accurately reconstructing local trees that describe genetic ancestry at each locus. These genealogies should also capture the correlation structure of local trees along the genome, reflecting historical recombination events and factors like demography and natural selection. However, whether reconstructed genealogies do accurately capture this correlation structure has not been rigorously explored. This is important to address, since uncovering regions that depart from expectations can drive the discovery of new biological phenomena. Addressing this is crucial, as uncovering regions that deviate from expectations can reveal new biological phenomena, such as the suppression of recombination allowing linked selection over broad regions, evidenced in humans and in adaptive introgression events in various species. We use a theoretical framework to characterise properties of genealogies, such as the distribution of genomic spans of clades and edges, and demonstrate that our theoretical results match observations in various simulated scenarios. Testing genealogies reconstructed using leading approaches, we find departures from theoretical expectations for all methods. However, for the method Relate, a set of simple corrections results in almost complete recovery of the target distributions. Applying these corrections to genealogies reconstructed using Relate for 2504 human genomes, we observe an excess of clades with unexpectedly long genomic spans (125 with p < 1 {middle dot} 10-12 clustering into 50 regions), indicating localised suppression of historical recombination. The strongest signal corresponds to a known inversion on chromosome 17, while the second strongest represents a previously unknown inversion on chromosome 10, which is most common (21%) in S. Asians and correlates with GWAS hits for a range of phenotypes including immunological traits. Other signals suggest additional large inversions (4), copy number changes (2), and complex rearrangements or other variants (12), as well as 28 regions with strong support but no clear classification. Our approach can be readily applied to other species, and show that genealogies offer previously untapped potential to study structural variation and its impacts at a population level, revealing new phenomena impacting evolution.
著者: Anastasia Ignatieva, M. Favero, J. Koskela, J. Sant, S. R. Myers
最終更新: 2024-06-19 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2023.07.11.548567
ソースPDF: https://www.biorxiv.org/content/10.1101/2023.07.11.548567.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。