Simple Science

最先端の科学をわかりやすく解説

# 生物学# ゲノミクス

新しいツールでゲノム比較が簡単に!

KegAlignは、世界中の研究者のためにDNA配列のアラインメントを簡単にするよ。

― 1 分で読む


KegAlign:速いDNKegAlign:速いDNA比較ムアライメントを加速させる。新しいツールが世界中の研究者のためにゲノ
目次

世界中で、約180万の知られている複雑な生物のDNAの完全なマップを作成しようとする努力が進められていて、このプロジェクトは次の10年での完了を目指しているんだ。DNAを読み取るためのより良い方法が常に開発されているけど、DNAの配列があるだけじゃ不十分。意味を理解するためには、他のDNAの配列と比較する必要があるんだ。これによって、あまり変わらない重要な部分や急速に変化している部分を見つけることができる。DNAの配列を比較するためには、3つの主要なステップを踏むんだ。まず、ペアで配列を整列させる。その次に、整列をフィルタリングして整理する。そして最後に、小さな整列から大きな整列を作成する。

比較の必要性

整列させる最初のステップは必要で、DNAの構造はたくさん変わるから。これらの変化は、セグメントを複製したり、反転させたり、削除したりするなど、いろんな方法で起こる。一度小さな部分が整列したら、科学者たちはデータを整理して意味のある部分に焦点を当て、それらをまとめて、異なる種の間で似ている大きな領域を定義するんだ。

これらの方法を使って、研究者たちはたくさんのデータを生成してきた。でも、完全なゲノムを比較するプロセスは、膨大なコンピュータ時間がかかることがあるんだ。例えば、100の脊椎動物種のゲノムを整列させる標準的なプログラムを使うと、数十年もの処理時間がかかるかもしれない。この課題が原因で、たくさんの科学者が同時に多くのゲノムを配列している進行中のプロジェクトについていくのが難しくなっている。

完全ゲノム整列の障壁

完全なゲノムを定期的に比較できる研究チームはほんのわずかで、主に2つの障害がある。最初の問題は、ゲノム整列に使う主要なツールの遅さで、科学者たちは配列を小さな部分に分割し、複数のコンピュータで同時に多くの仕事を実行しなければならない。これが物流面での頭痛を引き起こし、ワークロードを管理・維持するには高いレベルの技術的専門知識が必要になるんだ。

2つ目の課題は、必要なコンピュータパワーにアクセスすること。多くの研究チームは、豊かな国でもこの種の作業に必要な複雑なコンピュータシステムを取得・維持するのに苦労している。資金を確保し、システムをセットアップし、運用を続けることは大きな障害なんだ。

シンプルさを目指して

最近の作業の目標は、DNA配列を整列させるプロセスを簡素化して、単一のコンピュータで数時間でできるようにすることだった。研究者たちは、整列プロセスを加速するために最新のグラフィックス処理ユニット(GPU)を使用するSegAlignというプログラムを調べたけど、SegAlignはすべての利用可能なハードウェアを十分に活用していないことが分かった。プログラムが動いている間にコンピュータの多くの部分がアイドル状態になってしまうんだ。

この非効率は、近縁のゲノムを整列させるときに特に目立って、特定のポイントでたくさんの作業が必要になり、タスクの完了が遅れる原因になっていた。

プロセスの改善

この効率の問題に対処するために、科学者たちは整列プロセス中のDNAセグメントの組織方法を変更してSegAlignを再設計した。彼らは、最新のGPU技術をよりうまく活用するために、ダイアゴナルパーティショニングという新しい方法を導入した。新しいツールはKegAlignと呼ばれ、オンラインで無料で入手できるんだ。

結果

SegAlignにはいくつかの分野で良い速度があったけど、ほとんどの整列ツールは、特に遠い関係のある種のDNAを整列させるときにはまだ時間がかかる。KegAlignの主な利点は、特に人間とチンパンジーのような非常に似ているゲノムを整列させるときに、リソースをより効率的に管理できることなんだ。

KegAlignは、近縁の種の整列時間を大幅に改善しつつ、遠い関係のある種にも役立つことが分かった。この最適化は、GPUリソースと組み合わせることでより効果的で、全体的な速度向上につながっている。

誰でも整列を可能にする

これらのツールをすべての研究者が利用できるようにするために、KegAlignはGalaxyというシステムに統合された。これによって、科学者たちはオンラインインターフェースを通してKegAlignを簡単に使えるようになった。これにより、誰でも高度なコンピュータ施設なしでDNA配列を整列させることができる。さまざまなタイプの配列を処理でき、さまざまな出力形式を生成できるんだ。

Galaxyシステムは、ユーザーがコンピュータやゲノムに関する深い技術知識を持たなくても、複雑な分析を実行することを可能にする。また、整列プロセスを設定するためのわかりやすい方法も提供していて、世界中の科学者が遺伝データを扱いやすくしているんだ。

結論

研究者たちが地球の全遺伝的風景を理解しようと努力を続ける中で、KegAlignのようなツールは重要な役割を果たしている。ゲノム比較のプロセスを簡素化し、より広いオーディエンスが利用できるようにすることで、科学コミュニティはゲノム配列の急速な進展に追いつくことができる。

この取り組みは、ゲノミクスに直接関与している人々だけでなく、進化、生物学、さまざまな種の関係を理解することにも寄与している。ゲノムを効率的に比較できる能力は、新しい発見への扉を開き、同時に複数の種のDNAを分析できる大規模プロジェクトを可能にする。

研究者たちは、GalaxyのようなプラットフォームやKegAlignのようなツールの使いやすさとアクセスのしやすさが、ゲノミクスの分野でのさらなるコラボレーションと革新につながることを期待している。私たちがゲノムに含まれる広大な情報について学び続けることで、生命そのものの理解も確実に広がるだろう。

未来の方向性

今後は、大規模なゲノム整列を扱えるサービスをさらに開発し、既存のさまざまなツールを統合してワークフローを効率化することを目指している。研究者がデータをより効率的に提出し、分析できるようにするユーザーフレンドリーなソリューションに焦点を当てることで、科学コミュニティは今後のゲノミクスの課題に対処するための準備が整うだろう。

オープンで協力的な環境を育むことで、より迅速な進展と地球上の生命の根本についての理解が深まる。もっと多くの科学者がこの作業に関わることができれば、発見の可能性はほぼ無限大なんだ。

オリジナルソース

タイトル: KegAlign: Optimizing pairwise alignments with diagonal partitioning

概要: Our ability to generate sequencing data and assemble it into high quality complete genomes has rapidly advanced in recent years. These data promise to advance our understanding of organismal biology and answer longstanding evolutionary questions. Multiple genome alignment is a key tool in this quest. It is also the area which is lagging: today we can generate genomes faster than we can construct and update multiple alignments containing them. The bottleneck is in considerable computational time required to generate accurate pairwise alignments between divergent genomes, an unavoidable precursor to multiple alignments. This step is typically performed with lastZ, a very sensitive and yet equally slow tool. Here we describe an optimized GPU-enabled pairwise aligner KegAlign. It incorporates a new parallelization strategy, diagonal partitioning, with the latest features of modern GPUs. With KegAlign a typical human/mouse alignment can be computed in under 6 hours on a machine containing a single NVidia A100 GPU and 80 CPU cores without the need for any pre-partitioning of input sequences: a [~]150x improvement over lastZ. While other pairwise aligners can complete this task in a fraction of that time, none achieves the sensitivity of KegAligns main alignment engine, lastZ, and thus may not be suitable for comparing divergent genomes. In addition to providing the source code and a Conda package for KegAlign we also provide a Galaxy workflow that can be readily used by anyone.

著者: Anton Nekrutenko, B. Gulhan, R. Burhans, R. Harris, M. Kandemir, M. Haeussler

最終更新: 2024-09-03 00:00:00

言語: English

ソースURL: https://www.biorxiv.org/content/10.1101/2024.09.02.610839

ソースPDF: https://www.biorxiv.org/content/10.1101/2024.09.02.610839.full.pdf

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。

著者たちからもっと読む

類似の記事