ゲノムのリードマッピングの進展
研究者たちは革新的なアルゴリズムとハードウェアを使って読み取りマッピングの効率を向上させている。
― 1 分で読む
目次
リードマッピングは、遺伝情報を分析する上でめっちゃ重要なステップだよ。生物のDNAの断片を既知の参照ゲノムと比べる作業なんだ。このプロセスは、リードという小さな断片から全ゲノム配列を再構築するために欠かせない。でも、リードマッピングは遅くて計算が重いから、かなりのボトルネックになってることが多いんだ。これを改善するために、研究者たちはリードマッピングのプロセスを最適化することに焦点を当ててる。
リードマッピングのプロセスは、いくつかの重要なステップから構成されてる:インデックスの構築、リードからのシードの抽出、インデックスへのクエリ、アンカーのソート、シードのチェイニング。最初のステップであるインデックスの構築では、参照ゲノムの短い配列を格納するデータ構造を作るんだ。この構造があると、リードが参照ゲノムのどこに一致するかを見つけやすくなる。インデックスが作られたら、リードから短い配列であるシードを抽出する。これらのシードを使って、インデックスで一致をすぐにチェックするんだ。
インデックスをクエリした後は、次のステップとして一致する位置、つまりアンカーをソートする。このソートはめっちゃ重要で、リードに対応する参照ゲノムの領域を絞り込むのに役立つ。最後に、シードチェイニングが近くの一致したアンカーを結合して、より長い一致を作り出し、最終的な配列アライメントに備えるんだ。
リードマッピングの課題
リードマッピングは重要なのに、いくつかの主要な課題のせいで遅いままなんだ。最初の課題はスピード。リードマッピングはクエリするインデックス、シードの一致を見つける、配列をアラインするという3つの主なプロセスに依存していて、これが遅くなる原因になってる。メモリ内のデータアクセスにかかる時間が大きなボトルネックになることもあるよ。2つ目の課題は、これらのリードを処理するのに必要な計算パワーに関連してる。リードマッピングの重要な部分である配列アライメントに使われるアルゴリズムは、非常に要求が厳しいことがあるんだ。
これらの課題を考慮すると、各ステップを速くする方法を見つけることが、全体的なゲノム分析を速くするために重要だね。リードマッピングのプロセス改善は、ゲノムアセンブリやパンゲノムへのマッピングなど、他のゲノム関連アプリケーションにも利益をもたらすんだ。
リードマッピングの革新
研究者たちは、最新のハードウェアとインテリジェントなアルゴリズムを組み合わせてリードマッピングの効率を向上させる新しい方法を導入したよ。特定のタスクに合わせて設定できる専用ハードウェアデバイスであるフィールドプログラマブルゲートアレイ(FPGA)を使って、この新しいアプローチはリードマッピングのスピードを大幅に向上させているんだ。
ニアメモリーコンピューティングの利用
革新的な変化の1つは、ニアメモリーコンピューティングを使うこと。つまり、データが保存されているメモリの近くに計算要素を配置するってこと。こうすることで、データが遠くに移動する必要がなくなって、情報アクセスの遅延を大幅に減少できるんだ。FPGAは、リードマッピングで特定の操作に特化させることができるから、このタスクには最適なんだ。
シードマッチングの新しいアルゴリズム
FPGAを使うだけじゃなくて、研究者たちはシードをマッチングするための新しいアルゴリズムも開発したよ。このアプローチはシードボーティングと呼ばれてて、見つかったシードの一致の数に基づいて、参照ゲノム内の潜在的な一致領域をすばやく特定することができるんだ。これは、従来のメソッドからの大きなシフトで、通常、これらの一致を見つけるには膨大な計算が必要だったのに対して、シードボーティングでは簡単にできる。
シードボーティングメソッドは、正しいマッピング位置は不正確な位置に比べて、通常は一致するシードの数が多くなるってアイデアに基づいてる。これらの一致をカウントすることで、アルゴリズムはリードに対応する参照ゲノムの最も可能性の高い領域を迅速に特定できるんだ。
向上したリードマッピングプロセスのワークフロー
新しいリードマッピングツールは、マッピングプロセスを最適化するために協力して機能するいくつかのステージがあるよ。
ステージ1:インデックス構築
この最初のステップでは、参照ゲノムのインデックスを作成するんだ。インデックスは、後のステージでの迅速なアクセスを可能にする、情報の保存を簡素化する方法を使って構築される。構築は1回だけ行われ、その結果として得られたインデックスは異なるリードのために再利用できるんだ。
ステージ2:リードパース
インデックスが準備できたら、次のステップは入力されたリードシーケンスをパースすること。これには、リードを管理しやすいバッチに分解して、より効率的に処理できるようにするんだ。このバッチをFPGAに送ることで、システムは並列処理をサポートできて、操作が大幅に速くなる。
ステージ3:シード抽出
この段階では、バッチごとに各リードを分析してシードを抽出する。抽出プロセスは迅速かつ効率的に設計されていて、これらの短い配列を見つけるのにかかる時間を最適化してるんだ。
ステージ4:インデックスクエリ
抽出されたシードは、構築されたインデックスに対してクエリされる。このクエリステップでは、シードが参照ゲノムに一致するすべての位置のリストが取得される。クエリプロセスは並列に実行されるから、結果も早くなるよ。
ステージ5:位置調整
クエリの後は、一致したシードの位置を調整する次のステップがある。この調整はFPGAで直接処理されて、遅延を最小限に抑えつつ、全体の速度を向上させるんだ。
ステージ6:アンカーソート
アンカーが生成されたら、参照ゲノム内の位置に基づいてソートされる。このソートは、マッピングプロセスの次のステップをスムーズにするのに役立つんだ。
ステージ7:マッピング位置投票
最後のステージはマッピング位置投票プロセス。ここで、アルゴリズムは、それぞれのリードのための最も可能性の高いマッピング位置を特定するための投票メカニズムを適用する。この効率的なステップは、より複雑なメソッドに取って代わることで、精度を犠牲にすることなく計算を速くするんだ。
パフォーマンスの改善
新しいリードマッピングツールは、現在の最先端の方法と比較して、パフォーマンスの面で顕著な改善を示したよ。実際のシーケンシングデータを使った実験で、このアプローチは従来のリードマッパーを大幅に上回ったんだ。
例えば、新しい方法と広く使われているマッパーであるMinimap2を比較すると、新しいツールは特定のタイプのリードに対して最大40倍速いことが示された。この大幅なスピードアップは、FPGA加速と新しいシードボーティングアルゴリズムの組み合わせによるものなんだ。
スピードの実際
この向上したリードマッピングプロセスは、大規模なゲノムデータセットを扱う際に素晴らしい利点を提供するよ。Oxford Nanopore Technologies(ONT)によって生成された長いリードの場合、新しい方法は特に効果的。アルゴリズムの構造は、これらの長くて複雑なリードを効率的に処理できるようになってて、マッピングにかかる時間を大幅に減少させるんだ。
マッピングの精度
スピードだけじゃなくて、高い精度を維持することもリードマッピングでは重要なんだ。新しい方法は、従来のマッピングツールと比べても正確な結果を出せることが示されてるよ。確立されたベンチマークと比較したとき、新しいリードマッパーはさまざまなシーケンシング技術で高い精度を維持しているんだ。
PacBioのような正確な長いリードの場合、マッピングプロセスで使われるパラメータを増やすことで、より良い精度が得られるんだ。この適応性により、新しいツールは異なるアプリケーションに調整できるから、リード技術に関係なく安定したパフォーマンスを維持できるんだ。
結論
要するに、リードマッピングプロセスの課題が、新しくてより効率的な解決策の開発につながったんだ。FPGAのような高度なハードウェアと特化したアルゴリズムを統合することで、研究者たちはリードマッピングを大幅に速くしつつ、精度を保つ方法を作り出したよ。
向上したワークフローは、迅速なゲノムデータ処理を可能にするために協力して機能する重要なステージで構成されている。スピードと精度の両方で有望な結果を持つこの新しいアプローチは、ゲノミクス分野で意味のある影響を与える位置にあり、研究や臨床目的のために遺伝情報のより迅速な分析を促進するんだ。この進展は、ゲノム分析を遅らせていたボトルネックを克服するための大きな一歩を表していて、より迅速で効率的なゲノム研究の扉を開くことになるよ。
タイトル: GateSeeder: Near-memory CPU-FPGA Acceleration of Short and Long Read Mapping
概要: Motivation: Read mapping is a computationally expensive process and a major bottleneck in genomics analyses. The performance of read mapping is mainly limited by the performance of three key computational steps: Index Querying, Seed Chaining, and Sequence Alignment. The first step is dominated by how fast and frequent it accesses the main memory (i.e., memory-bound), while the latter two steps are dominated by how fast the CPU can compute their computationally-costly dynamic programming algorithms (i.e., compute-bound). Accelerating these three steps by exploiting new algorithms and new hardware devices is essential to accelerate most genome analysis pipelines that widely use read mapping. Given the large body of work on accelerating Sequence Alignment, this work focuses on significantly improving the remaining steps. Results: We introduce GateSeeder, the first CPU-FPGA-based near-memory acceleration of both short and long read mapping. GateSeeder exploits near-memory computation capability provided by modern FPGAs that couple a reconfigurable compute fabric with high-bandwidth memory (HBM) to overcome the memory-bound and compute-bound bottlenecks. GateSeeder also introduces a new lightweight algorithm for finding the potential matching segment pairs. Using real ONT, HiFi, and Illumina sequences, we experimentally demonstrate that GateSeeder outperforms Minimap2, without performing sequence alignment, by up to 40.3x, 4.8x, and 2.3x, respectively. When performing read mapping with sequence alignment, GateSeeder outperforms Minimap2 by 1.15-4.33x (using KSW2) and by 1.97-13.63x (using WFA-GPU). Availability: https://github.com/CMU-SAFARI/GateSeeder
著者: Julien Eudine, Mohammed Alser, Gagandeep Singh, Can Alkan, Onur Mutlu
最終更新: 2023-09-29 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2309.17063
ソースPDF: https://arxiv.org/pdf/2309.17063
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://github.com/CMU-SAFARI/GateSeeder
- https://link.springer.com/chapter/10.1007/978-3-030-44534-8_23
- https://safari.ethz.ch/safari_public_wp/wp-content/uploads/2019/08/BitMAC_Poster_ISMB-ECCB-19.pdf
- https://arxiv.org/abs/2106.06433
- https://www.nature.com/articles/sdata201625
- https://ftp-trace.ncbi.nlm.nih.gov/ReferenceSamples/giab/data/AshkenazimTrio/HG002_NA24385_son/NIST_Illumina_2x250bps/reads/D1_S1_L001_R1_001.fastq.gz
- https://ftp-trace.ncbi.nlm.nih.gov/ReferenceSamples/giab/data/AshkenazimTrio/HG002_NA24385_son/PacBio_CCS_15kb_20kb_chemistry2/reads/m64011_190830_220126.fastq.gz
- https://ftp-trace.ncbi.nlm.nih.gov/ReferenceSamples/giab/data/AshkenazimTrio/HG002_NA24385_son/Ultralong_OxfordNanopore/guppy-V3.4.5/HG002_ONT-UL_GIAB_20200204.fastq.gz