Simple Science

最先端の科学をわかりやすく解説

# 生物学# 生物情報学

サンガーシーケンシング解析の自動化

sangerFlowは、種の同定のためのDNA分析をスピードアップするよ。

― 1 分で読む


サンガーシーケンシングの簡サンガーシーケンシングの簡素化ためにDNA分析を自動化するよ。sangerFlowは、迅速な種の特定の
目次

サンガーシーケンシングはDNA配列を読むための方法だよ。主にラボで色々な種や微生物を特定するのに使われてるんだ。これって害虫や病気を研究するのに大事なんだよね。科学者たちは特定の遺伝子配列を分析して、どの生物を見ているのかを判断できるんだ。

その分析によく使われるツールがBlastnで、これはDNA配列を大きなデータベースと比べて一致を探すんだ。例えば、科学者はミトコンドリアにある特定の遺伝子を見て昆虫の種を特定できるんだ。同じように、16S rRNAっていう遺伝子を使ってバクテリアを分析したり、28S-ITSっていう遺伝子を使って菌類を研究したりできるよ。

サンガーシーケンシングを手伝うソフトウェアツールはいっぱいあるけど、ほとんどはユーザーが手動でデータを処理しなきゃいけなくて、大量の情報を分析するのが遅くなることがあるんだ。これは、たくさんのサンプルを迅速に処理する必要があるとき、例えばバイオセキュリティの監視イベント中に困ることがあるよ。

この問題を解決するために、新しいツールsangerFlowが開発されたんだ。このツールはサンガーシーケンシングデータを自動で処理するように設計されていて、大きなデータセットから科学者が種を特定するのを簡単にしてくれるんだ。

sangerFlowの仕組み

sangerFlowツールは、生のサンガーシーケンシングデータを取り込んで、素早く結果を返すように作られてるよ。シーケンシングプロセスからの2種類の入力ファイル、.seqファイルと.fastaファイルを使うんだ。

まず、データを2つのチャンネルに分けて処理するんだ。一つはフォワードリード、もう一つはリバースリード。フォワードリードはサンプル名に基づいて名前を変えるよ。曖昧なデータはトリミングされて、最高の品質の情報だけが残されるんだ。リバースリードも同様に処理されて、分析に役立つフォーマットに変換されるよ。

これらのステップが終わったら、フォワードリードとリバースリードが結合される。Clustal Omegaっていうツールを使って、シーケンスの類似性を見つけるためにアラインメントを行うんだ。このアラインメントからコンセンサスシーケンスが生成されて、データの中で最も一般的なシーケンスを表すんだ。

そのシーケンスはBlastnに送られて、ツールが広大なデータベースと照らし合わせて一致を探すよ。結果はXML、HTML、TSVファイルなど、様々なフォーマットで表示できるから、科学者も結果を視覚化しやすいんだ。

さらに、sangerFlowは全サンプルからのトップマッチを示すマスターシートに結果の概要をまとめるんだ。この機能のおかげで、迅速なチェックと素早い種の特定ができるよ。

sangerFlowを使う利点

sangerFlowの大きな利点は、その効率性なんだ。大量のサンプルを処理できるけど、ユーザーが各ステップで手動でデータを扱わなくていいんだ。これは多くのサンプルを短時間で分析しなきゃいけない監視プロジェクトに特に役立つよ。

もう一つの利点は、sangerFlowは最小限のソフトウェアインストールで済むこと。ユーザーはコンピュータにNextflowとSingularityの2つの特定のツールをインストールするだけでいいんだ。これで、異なるソフトウェアバージョンに関連する問題が起こる可能性が減るんだ。

利用可能なユーザーガイドやドキュメントがあるから、色んなスキルレベルの人がsangerFlowを実装しやすくなってるよ。プログラミングに詳しくない人でも効果的に使えるんだ。

実際のアプリケーション

sangerFlowは様々な監視プロジェクトで成功裏に実施されているよ。例えば、何百ものサンプルがこのツールを使って処理されて、実際の状況での能力を示したんだ。

その効果を示すために、研究者たちは公開されているデータセットを使ってテストを行ったんだ。必要なデータをsangerFlowに入力して、自動で処理させたんだ。結果は新しいディレクトリに整理されて、すぐにアクセスできるように関連情報が保存されたよ。

特定のテストでは、研究者たちはsangerFlowの結果を手動処理の方法と比較したんだ。まず、伝統的なツールを使ってシーケンスをクリーンにして分析の準備をしたんだ。その後、同じデータセットでsangerFlowを実行したら、両方の方法が一貫した結果を出したんだ。これでsangerFlowの信頼性が確認されたよ。

まとめ

sangerFlowはサンガーシーケンシングデータの分析を簡単にするために設計された革新的なツールだよ。プロセスを自動化することで、科学者たちは広範な手作業なしで素早く種を特定できるようになるんだ。これは特にバイオセキュリティや害虫管理のような迅速な分析が重要なシナリオで役立つよ。

ツールの効率的なデザインとユーザーフレンドリーなセットアップのおかげで、幅広いユーザーが利用できるようになってるんだ。様々なアプリケーションでの実績があるから、sangerFlowは分子診断や遺伝子特定において大事なリソースなんだ。

要するに、sangerFlowはサンガーシーケンシングデータの分析プロセス全体を効率化して、科学者たちが研究や生物を理解することに集中できるようにしてくれるんだ。

オリジナルソース

タイトル: sangerFlow, a Sanger sequencing-based bioinformatics pipeline for pests and pathogens identification

概要: Sequencing of a Polymerase Chain Reaction product (amplicon) is called amplicon sequencing. Amplicon sequencing allows for reliable identification of an organism by amplifying, sequencing, and analysing a single conserved marker gene or DNA barcode. As this approach generally involves a single gene, it is a light-weight protocol compared to multi-locus or whole genome sequencing for diagnostic purposes; yet considerably reliable. Therefore, Sanger-based high-quality amplicon sequencing is widely deployed for species identification and high-throughput biosecurity surveillance. However, keeping up with the data analysis in a large-scale surveillance or diagnostic settings could be a limiting factor because it involves manual quality control of the raw sequencing data, alignment of the forward and reverse reads, and finally web-based Blastn search of all the amplicons. Here, we present a bioinformatics pipeline that automates the entire analysis. As a result, the pipeline is scalable with high-volume of samples and reproducible. Furthermore, the pipeline leverages the modern open-source Nextflow and Singularity concept, thus it does not require software installation except Nextflow and Singularity, software subscription, or programming expertise from the end users making it widely adaptable. Availability and implementationsangerFlow source code and documentation are freely available for download at GitHub, implemented in Nextflow and Singularity.

著者: M Asaduzzaman Prodhan, M. Power, M. Kehoe

最終更新: 2024-05-14 00:00:00

言語: English

ソースURL: https://www.biorxiv.org/content/10.1101/2024.05.10.593518

ソースPDF: https://www.biorxiv.org/content/10.1101/2024.05.10.593518.full.pdf

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。

類似の記事