Simple Science

最先端の科学をわかりやすく解説

# 生物学# 生物情報学

RAFTツールによるゲノムアセンブリの進展

RAFTは、配列のギャップを減らすことでゲノムアセンブリを改善する。

― 1 分で読む


RAFTで再考されたゲノムRAFTで再考されたゲノムアセンブリ質を向上させるよ。RAFTはギャップを減らして遺伝子配列の
目次

人間のゲノムを正確にモデル化するのは、遺伝学での大きなタスクだよ。科学者たちは、特に各人のゲノムの2つのバージョンを完全に理解しようとする際に、完全なゲノム配列を作ろうとするとき、色んな障害に直面するんだ。最近の研究では、高度なシーケンシング技術を使って、テロメアからテロメア(T2T)アセンブリと呼ばれる完全な配列を作ろうとしているけど、チャレンジは、2つのバージョン間の変異を明確に示す高品質のゲノムを作ることなんだ。

シーケンシング技術

パシフィックバイオサイエンシズやオックスフォードナノポアのような現代のシーケンシング技術は、科学者がDNAコードの長い断片を集めるのを助けていて、これが正確なゲノムモデルを作るのに重要なんだ。この技術は、古い方法よりも長いDNAセグメントを提供してくれるから、ゲノム全体を組み立てるのが簡単になるよ。断片が長ければ長いほど、重要な詳細を見逃さずに全体像を作りやすくなるんだ。

ゲノムアセンブリプロセス

これらの読み取りからゲノムを組み立てるプロセスには、いくつかのステップがあるよ。まず、科学者たちは異なるDNA断片の重なりを見つける。次に、読み取りにあるエラーを修正する。そして、その後、マッチする場所に基づいてこれらの読み取りをつなぐグラフを構築するよ。最後に、このグラフを通じて経路を特定してゲノム配列を再現するんだ。

でも、グラフを簡略化する際に、複雑なことが起こることもあるんだ。ある読み取りが他のものの中に完全にフィットしてしまうことがあって、それが原因で削除されてしまうことがある。これによって、完全で正確なゲノムの表現を形成するために必要な重要な接続が切れてしまうことがある。だから、科学者たちはこのプロセスをゲノムアセンブリの重要な問題だと認識しているんだ。

アセンブリギャップ

読み取りが削除されると、アセンブリにギャップが現れることがあって、これを科学者たちはアセンブリギャップと呼んでいるよ。これらのギャップは、通常、2つのゲノムのバージョン間の遺伝的変異が低い領域で発生することが多いんだ。だから、1つのバージョンが長い読み取りでカバーされると、もう1つのバージョンに属する読み取りが落ちてしまうことがある。これが最終的な配列にギャップを作り出し、正確なアセンブリにとって問題になるんだ。

以前の解決策

研究者たちは、アセンブリギャップの問題に取り組むためにいろんな方法を提案してきたよ。いくつかのアルゴリズムは、読み取りの長さやシーケンシングプロセスによって提供されるカバレッジの量に関する仮定をするんだけど、これらのアプローチは現実のシーケンシングでは必ずしも成立しないことがある特に繰り返しが多い複雑なゲノムではね。

これらの重要な読み取りを復元するために作られたツールの中にはシンプルなケースでは働くけど、より複雑なシナリオでは失敗するものもある。他のものは、データを救うために非常に長い読み取りに頼るけど、それが常に利用可能とは限らないんだ。

アセンブリギャップの計算

アセンブリギャップがどのくらい頻繁に発生するかを理解することで、研究者たちはより良いシーケンシング戦略を選ぶのに役立つんだ。さまざまなシーケンシング設定を分析することで、科学者たちはデータにギャップが現れる可能性を見積もることができる。この知識は、特定のゲノムにどのシーケンシング方法を使うかの決定を導くことができるよ。

この目的のために開発されたある方法は、シーケンシングプロセスをシミュレートして出力を分析することによって機能するんだ。これによって、アセンブリギャップが最も発生しやすい場所を予測し、これらのギャップに寄与する要因を特定することができる。

RAFTの紹介

アセンブリギャップをさらに最小限に抑えるために、RAFTという新しいツールが開発されたよ。このツールは、長いDNAの読み取りを同じ長さの断片に短縮して、より均一な読み取り長分布を作り出すんだ。そうすることで、以前のアセンブリギャップを引き起こした重要な読み取りの削除を防ぐことを目指しているんだ。

RAFTは読み取りのアライメントを評価して、高度に反復的な読み取りの領域だけを削除するよ。目的は、ゲノムの複雑な領域をつなぐのに役立つ読み取りを維持しつつ、全体の読み取り長分布を簡素化することなんだ。

RAFTプロセス

RAFTのワークフローでは、科学者たちは長くてエラーがチェックされた読み取りとアライメント情報からスタートするんだ。このプロセスは、壊すことができる読み取りの部分を特定しつつ、複雑なまたは反復的な領域をカバーするものは保持するようにしている。この二重のアプローチにより、ゲノムのギャップを埋めるのに役立つかもしれない読み取りがそのまま残り、他はサイズを小さく削減されるんだ。

RAFTが読み取りを処理した後、それはゲノムアセンブリツールに渡されて、最終的なゲノム表現を作成するんだ。この更新されたワークフローは、アセンブリギャップを減らし、全体のゲノム品質を向上させるのに効果的だって示されているよ。

RAFTの効果のテスト

RAFTがどれくらい効果的かを評価するために、研究者たちはシミュレーションデータセットと実際のデータセットの両方を使って実験を行ったんだ。RAFTツールで処理した後のアセンブリギャップの数を従来の方法と比べて測定したよ。シミュレーションでは、RAFTがギャップの数を大幅に減少させた。実際のデータセットでテストした際も、RAFTはアセンブルされたゲノムの連続性を改善したことが確認されたんだ。

評価結果

評価の結果、既存のゲノムアセンブリツールと組み合わせてRAFTを使うことで、ギャップを最小限に抑えたより良いアセンブリが得られることが示されたよ。標準的な方法で生成されたデータセットと、RAFTで処理されたデータセットを比較したところ、新しい方法は連続したセグメントが長く、間に中断が少ないアセンブリを生み出したんだ。

RAFTの実行効率も注目すべき点だよ。基本的なアセンブリ方法に比べて追加の処理時間が必要だけど、アセンブリの品質に関する利点があるから、ゲノムシーケンシングワークフローに加える価値があるんだ。

結論

シーケンシングデータからゲノムを組み立てるのは複雑な挑戦を提示するけど、特に2つのハプロタイプの配列間の変異を解決する必要があるときは難しいよ。RAFTの導入は、読み取りの削除によって引き起こされるアセンブリギャップの問題に対する実用的な解決策を提供するんだ。同じ長さの読み取りを作成し、重要なセグメントを保持することで、RAFTはゲノムアセンブリの全体的な品質を向上させるんだ。

今後、シーケンシング技術やアセンブリ方法の継続的な進歩が、さらに正確な遺伝情報のモデルに寄与することが期待されるね。CGProbやRAFTのようなツールは、科学者がゲノムアセンブリの現在の制限に対処する手助けをし、より強固で連続したゲノムへとつながる一歩なんだ。

オリジナルソース

タイトル: Telomere-to-telomere assembly by preserving contained reads

概要: Automated telomere-to-telomere (T2T) de novo assembly of diploid and polyploid genomes remains a formidable task. A string graph is a commonly used assembly graph representation in the overlap-based algorithms. The string graph formulation employs graph simplification heuristics, which drastically reduce the count of vertices and edges. One of these heuristics involves removing the reads contained in longer reads. However, this procedure is not guaranteed to be safe. In practice, it occasionally introduces gaps in the assembly by removing all reads that cover one or more genome intervals. The factors contributing to such gaps remain poorly understood. In this work, we mathematically derived the frequency of observing a gap near a germline and a somatic heterozygous variant locus. Our analysis shows that (i) an assembly gap due to contained read deletion is an order of magnitude more frequent in Oxford Nanopore reads than PacBio HiFi reads due to differences in their read-length distributions, and (ii) this frequency decreases with an increase in the sequencing depth. Drawing cues from these observations, we addressed the weakness of the string graph formulation by developing the RAFT assembly algorithm. RAFT addresses the issue of contained reads by fragmenting reads and producing a more uniform readlength distribution. The algorithm retains spanned repeats in the reads during the fragmentation. We empirically demonstrate that RAFT significantly reduces the number of gaps using simulated datasets. Using real Oxford Nanopore and PacBio HiFi datasets of the HG002 human genome, we achieved a twofold increase in the contig NG50 and the number of haplotype-resolved T2T contigs compared to Hifiasm.

著者: Chirag Jain, S. S. Kamath, M. Bindra, D. Pal

最終更新: 2024-03-12 00:00:00

言語: English

ソースURL: https://www.biorxiv.org/content/10.1101/2023.11.07.565066

ソースPDF: https://www.biorxiv.org/content/10.1101/2023.11.07.565066.full.pdf

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。

著者たちからもっと読む

類似の記事