Simple Science

最先端の科学をわかりやすく解説

# 生物学# 生物情報学

細菌ゲノムを整列させる新しい方法

研究者たちが膨大なバイ菌のDNA配列を揃える新しいアプローチを発表したよ。

― 1 分で読む


ゲノムアライメントの革命ゲノムアライメントの革命課題に取り組んでる。新しい方法が多様な細菌ゲノムを整合させる
目次

リファレンスゲノムにシーケンスを整列させるのは、バイオインフォマティクスで重要なタスクだよ。目的は、いろんな生物のDNAシーケンスを一つのリファレンスに合わせること。これによって、科学者たちは遺伝的な関係を理解し、異なる生物のバリエーションを特定するのに役立つんだ。

従来のシーケンス整列方法はダイナミックプログラミングを使っていて、最良の整列を見つけるんだけど、大きなゲノムを扱うときは遅くなることがあるんだ。だから、研究者たちは精度を犠牲にせずに整列を速く行う方法を探しているのさ。

大規模データベースの課題

大規模な細菌ゲノムのデータベースを扱う時、問題はかなり大きくなる。細菌は驚くほどの遺伝的多様性を示すから、シーケンスの整列がすごく複雑になるんだ。多くの細菌種はオープンパングノームを持っていて、新しいゲノムが新しい遺伝情報をもたらす可能性がある。これは人間のような安定した種とは違って、遺伝的多様性が少ないんだ。

膨大な細菌ゲノムのデータベース内のすべてのシーケンスのインデックスを作成するのは現実的じゃないかもしれない。限られたデータセットならインデックスを作ることもできるかもしれないけど、DNAアーカイブから生成されるデータ量は急速に増えている。すべてをインデックスしなくても整列を行うスケーラブルな方法を見つけるのが課題なんだ。

シーケンスの多様な起源

複数のゲノムからシーケンスを整列させるとき、特定のシーケンスが複数の場所にマッチすることが期待される。これはさらに複雑さを増す要因で、異なる種や同じ種内の異なる場所から来るシーケンスを考慮しなければならない。ユーザーはよく、特定の品質以上のすべての整列を見たいと思うから、さらにプロセスが複雑になるんだ。

知られている細菌の数が増え続けるにつれて、解析すべきシーケンスの数も増えていく。従来のインデックスに基づく方法は、データベースが拡大するにつれて苦労するのは明らかだね。

既存の整列ツール

Phylignは、膨大な数の原核生物のゲノムからシーケンスを整列させることができる数少ないツールの一つ。フィラジェネティック情報を活用したワークフローを使用して、詳細な整列を行う前にk-merに基づく方法でゲノムをフィルタリングするんだ。

この方法には強みがあるけど、近縁のシーケンスに対して最も効果的に機能する傾向がある。シーケンス間の違いが増えると、プレフィルタリングの効果が薄れるんだ。研究者たちはこれを改善する方法を探しているよ。

新しいアプローチ

この研究では、研究者たちは細菌ゲノムにパターンを探す新しい方法でゲノム整列の問題にアプローチしようとしている。細菌DNAには膨大な多様性があるけど、まだ限られた構造の範囲に収束しているんだ。研究者たちは、この限られた範囲を活用して整列を簡単にできるかどうかを問いかけている。

特定のマッチ、つまり「アンカー」を特定することで、より効果的な整列プロセスを作ることを目指している。彼らは細菌ゲノムがよく存在する低次元空間があると信じていて、この空間内でマッチを見つけることで整列を簡素化できると考えているんだ。

プローブのセットを構築

研究者たちは、基本的に大きなDNAシーケンスを「キャッチ」するために使える小さなシーケンスであるプローブのセットを作り始めるんだ。彼らは40,000の小さなシーケンスを生成して、いろんな他のシーケンスにマッチできることを確認する。このプローブは、大きなシーケンスを整列させるためのアンカーとして機能するんだ。

次に、各ゲノムをスキャンして、これらのプローブがマッチできる領域を特定し、さらなる分析のために使用できるアンカーのデータベースを作る。

シードデザートへの対応

この方法の一つの課題は、ゲノムの一部の領域がプローブでカバーされない「シードデザート」になることなんだ。プローブがマッチしない領域があり、整列すべきシーケンスを特定するのが難しくなる。これに対処するために、研究者たちはこれらの領域でのシーケンスキャプチャの二回目のラウンドを行い、より良いカバレッジを確保するためにさらに多くのプローブを追加する。

新しいシードを未カバーの領域に追加することで、整列に十分なアンカーがあることを保証できる。

効率的なインデクシング

膨大な数のゲノムを処理するために、研究者たちはメモリ使用を管理するためにゲノムをバッチでインデックス化する。また、最後にこれらのバッチをマージして包括的なインデックスを作る。複数のシーケンスを連結して効率的なストレージ方法を使用することで、メモリのフットプリントを低く保ちながら、迅速な検索を行う能力を維持できる。

マッチをキャッチ

クエリシーケンスが受信されると、研究者たちはインデクスされたプローブを使用してマッチするシーケンスを特定する。彼らはクエリとプレフィックスやサフィックスを共有するアンカーを探し、似たシーケンスをグループ化する。これにより、シーケンスをより正確に整列させるのに役立つ。

これらのアンカーを特定した後、マッチを結びつけて、それがゲノム全体で正しく整列するようにチェイニング関数を適用する。最後に、詳細な整列アルゴリズムを使用してマッチを洗練させる。

バリエーションへの感度

新しい方法の利点の一つは、シーケンスのバリエーションを扱う能力があること。可変長マッチを許可することで、整列されるシーケンスの変異やエラーに対してより寛容になる。このことで、クエリとリファレンスとの間に大きな違いがあっても、成功する整列を見つける可能性が高まるんだ。

新しいツールのパフォーマンス評価

新しい整列ツールのパフォーマンスを評価するために、研究者たちはいくつかの確立された方法と比較した。さまざまなデータセットと整列シナリオを使用して、彼らのツールがどれくらい良く機能するかを見た。

全体的に、新しいツールは特に長いシーケンスをクエリするときに期待以上の結果を示した。Blastnのような従来のツールよりも多くのマッチを返すことができ、かつそれをより迅速に行ったんだ。

新しいツールのメモリ使用量もかなり少なく、ユーザーは大量のストレージスペースを必要とせずに複雑なクエリを実行できる。

ゲノム整列の未来

シーケンシング技術が進化し続け、より多くのゲノムが利用可能になるにつれて、これらのシーケンスを整列させる課題はますます増えていく。研究者たちは、自分たちの方法がこの成長に対処するためのスケーラブルな方法を提供し、将来の発展のためのフレームワークを提供すると信じているんだ。

細菌ゲノムのユニークな特性に焦点を当て、革新的なインデクシングと整列戦略を用いることで、彼らは世界中の研究者にとってゲノム整列をよりアクセスしやすく、効率的にすることを目指している。

結論

膨大な細菌ゲノムのデータベースからシーケンスを整列させるのは複雑な問題なんだ。従来の方法はデータ量が増え続ける中で相当な課題に直面している。細菌DNAのユニークな特性を活かした新しい戦略を開発することで、研究者たちはゲノミクスの分野で新たな可能性を開いている。

ターゲットプローブを作成し、効率的なインデクシングに重点を置いた提案されたアプローチは、より良い整列技術への道を提供している。さらなる進歩と洗練が続けば、これらの方法が生物間の遺伝的関係の深い洞察を可能にし、生物学の理解を深めることが期待されているんだ。

オリジナルソース

タイトル: LexicMap: efficient sequence alignment against millions of prokaryotic genomes

概要: Alignment against a database of genomes is a fundamental operation in bioinformatics, popularized by BLAST. However, the rate at which microbial genomes are sequenced has continued to increase, and there are now datasets in the millions, far beyond the abilities of existing alignment tools. We introduce LexicMap, a nucleotide sequence alignment tool for efficiently querying moderate length sequences (> 500 bp) such as a gene, plasmid or long read against up to millions of prokaryotic genomes. A key innovation is to construct a small set of probe k-mers (e.g. n = 40,000) which "window-cover" the entire database to be indexed, in the sense that every 500 bp window of every database genome contains multiple seed k-mers each with a shared prefix with one of the probes. Storing these seeds, indexed by the probes with which they agree, in a hierarchical index enables fast and low-memory variable-length seed matching, pseudoalignment, and then full alignment. We show that LexicMap is able to align with higher sensitivity than Blastn as the query divergence drops from 90% to 80% for queries [≥] 1 kb, and then benchmark on small (GTDB) and large (AllTheBacteria and Genbank+RefSeq) databases. We show that LexicMap achieves higher sensitivity and speed and lower memory compared to the state-of-the-art approaches. Alignment of a single gene against 2.34 million prokaryotic genomes from GenBank and RefSeq takes 36 seconds (rare gene) to 15 minutes (16S rRNA gene). LexicMap produces output in standard formats including that of BLAST and is available under MIT license at https://github.com/shenwei356/LexicMap.

著者: Wei Shen, Zamin Iqbal

最終更新: 2024-08-31 00:00:00

言語: English

ソースURL: https://www.biorxiv.org/content/10.1101/2024.08.30.610459

ソースPDF: https://www.biorxiv.org/content/10.1101/2024.08.30.610459.full.pdf

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。

著者たちからもっと読む

類似の記事