Simple Science

最先端の科学をわかりやすく解説

# 生物学# 生物情報学

ゲノムアノテーションの進展:コンパニオンツールがリードを取る

コンパニオンツールは、ゲノムアノテーションを簡素化して、より良い結果とユーザー体験を保証するよ。

― 1 分で読む


コンパニオンツールがゲノムコンパニオンツールがゲノムアノテーションを革新!るよ。ムアノテーションの効率と正確さを向上させCompanionは、研究者のためにゲノ
目次

過去15年で、DNAを読むための新しい技術がかなり進化したんだ。これには、長いDNAの断片を読めるロングリードシーケンシングが含まれてる。シーケンシングのコストも下がったし、これはゲノムを組み立てるためのコンピュータープログラムが改善されたおかげで、多くの種の完全なDNA配列を作成できるようになったんだ。特に、古い方法では読みづらかった複雑なDNAや繰り返しがある種にとってはめっちゃ重要だよ。こうした進展から生まれた一つの野心的なプロジェクトが、地球バイオゲノムプロジェクトで、真核生物グループの推定1000万〜1500万種のうち約150万種の配列を決定することを目指してるんだ。

ゲノム配列を作るのは簡単になったけど、その配列が何を意味するのかを理解する、いわゆるアノテーションはまだ難しい問題だよ。この作業に使われる多くの研究ツールは、遺伝子を定義する際に約55〜70%の精度しか出せないことが多いんだ。これは、異なる生物が異なる遺伝子構造を持っていて、遺伝子がさまざまにスプライスされる方法があるからなんだ。新しい方法でロングリードシーケンシングをRNAに使った場合でも、低品質のアノテーションを生じることがあるよ。

ゲノムアノテーションのプロセスは、遺伝子を見つけたりノンコーディングRNAを特定したりするために、異なる目的を持つ複数のツールを使うことが多いんだ。また、これらのアノテーションを国際データベースに提出するのも、複雑な手続きがあるため難しいことがある。だから、公開されているゲノムアノテーションは少なくて、データを見つけやすく、アクセスしやすく、相互運用可能で再利用可能にするっていう原則に反しているんだ。

ゲノムアノテーションのツール

いくつかの自動化されたツールがゲノムアノテーションを助けるために開発されてるけど、これらの中にはウェブインターフェースのようなユーザーフレンドリーな機能が欠けているものもあり、使いづらいことがあるんだ。一方で、GenSASやMEGANTEのようなウェブベースのツールは使いやすいけど、独自の制限もあるよ。例えば、MEGANTEにはファイルサイズの上限があって、NCBI真核生物アノテーションパイプラインはユーザーがメールでアノテーションをリクエストする必要があるから、プロセスが中央集権化されて遅くなることがあるんだ。

2016年には、アノテーションプロセスを楽にするために、コンパニオンっていうツールが登場したよ。コンパニオンは既存のリファレンスゲノムを使って、正確なアノテーションを提供する手助けをするんだ。異なるツールを使って配列を比較し、遺伝子の位置を予測するよ。コンパニオンの出力は、色々なフォーマットで簡単にダウンロードできるから便利なんだ。視覚的な機能もあって、要約統計や系統樹を使って生成されたアノテーションの質を評価する手助けをするんだ。

寄生虫に特化した少数のユーザーがいるにもかかわらず、コンパニオンは人気が出てきたよ。ベクターや節足動物コミュニティでゲノムアセンブリの数が増えるにつれて、コンパニオンがより大きなゲノムを扱う必要があることが明らかになったんだ。これらの大きなゲノムでのテストでは、コンパニオンツールの一部をアップデートする必要があることが示されたよ。

コンパニオンの改善

新しいバージョンのコンパニオンは、パイプラインとして設定されていて、より速くて信頼性が高くなるようになったんだ。今では最大3GBのゲノムを扱えるけど、1GBくらいのゲノムでのパフォーマンスが最も良いよ。ソフトウェアにはいくつかの新機能や改善が加えられたんだ。バックエンドが最適化されて、ツールがスムーズで迅速に動作するようになってるよ。

コンパニオンのウェブサーバーは、同時に複数のリクエストを処理できる強力なシステムでホストされてるから、ユーザーは遅れなく自分のジョブを実行できるんだ。また、新機能をテストするための別のサーバーも用意されていて、メインのサービスに影響を与えないようになってる。

コンパニオンと他のツールのパフォーマンスを比較するために、同じ入力配列を使ってテストしたんだ。コンパニオンは、GenSASに比べてずっと使いやすく、ジョブを提出するのに必要なクリックが少なくて済んだよ。さらに、コンパニオンの設定はもっとシンプルで、すべてのオプションが1ページに表示されているけど、GenSASは複数のタブを通り抜ける必要があるんだ。

パフォーマンス比較

コンパニオンとGenSASを比較したいくつかのテストでは、コンパニオンが常に優れた結果を出してたよ。例えば、マラリア原虫の比較では、コンパニオンはより多くの遺伝子を見つけただけでなく、遺伝子の位置もより良く一致したんだ。GenSASは特定の遺伝子の特定に苦労していて、これは複数のトランスクリプトを一つの遺伝子にまとめる方法に起因している可能性があるよ。

さらに、真菌種を使った別の比較もあったんだ。両方のツールは総遺伝子数を過小評価してたけど、コンパニオンは使われた指標全体でより一貫した結果を示したんだ。GenSASはヌクレオチドの精度が高かったけど、多くの遺伝子を見逃してたよ。

最後に、ベクター種を使った評価も行われたけど、結果は真菌に関する前のテストとかなり似てたよ。両方のツールが遺伝子数を予測する際に問題があったけど、コンパニオンは遺伝子ドメインを特定する際に高い精度を示したんだ。

全体的に見て、コンパニオンはよりユーザーフレンドリーで、GenSASよりも早く高品質のアノテーションを提供できることが分かったよ。

ゲノムアノテーションの未来

地球バイオゲノムプロジェクトのようなプロジェクトは、何百万種ものゲノムをシーケンスすることを目指していて、これらのゲノムがどうアノテーションされるのかという重要な質問を浮き彫りにしてるんだ。一部のプロジェクトは独自のパイプラインを持っているけど、多くのグループが協力して高品質のゲノムデータを作成しようとしてる。コンパニオンのような十分にテストされたサービスがあれば、各グループが自分たちのシステムを作るよりも時間や労力を節約できるだろうね。

重要な考慮点は、ゲノムをデータベースに提出する際に存在するボトルネックだよ。このプロセスを簡素化しようとする努力があるけど、多くのゲノム配列はアノテーションなしで提出されていて、その有用性を制限してる。コンパニオンは、視覚的なオプションを含むシンプルで無料のサービスを提供することで、これらの問題を解決しようとしてるんだ。

ゲノムアノテーションはまだ課題があることも認識されてるよ。高度なツールがあっても、多くの種、特にベクターに対して高い精度を達成するのは難しいんだ。これは、人間やマラリア原虫のような重要な種に対して手動でのキュレーションが必要であることを強調してる。それでも、コンパニオンは良い初期アノテーションを生成できて、さらなる洗練の出発点として役立つことができるんだ。

要するに、コンパニオンはゲノムアノテーションのための堅牢なウェブサーバーを提供していて、研究者がこの分野での困難に取り組む手助けをしてるんだ。近年、ユーザー数が3倍になってきていて、このツールへの関心が高まってるのが分かるよ、特にもっと多くの種がシーケンスされるようになればね。コンパニオンは、さまざまな生物の研究において科学コミュニティにとって貴重な資源になってるんだ。

オリジナルソース

タイトル: Annotation and visualisation of parasite, fungi and arthropod genomes with Companion

概要: Although sequencing genomes has become increasingly popular, there is still a bottleneck for the annotation of the resulting assemblies. Structural and functional annotation is still challenging as it includes finding the correct gene sequences, annotating other elements such as RNA and being able to submit those data to databases to share it with the community. We developed the Companion web server to allow non-experts to annotate their genome using a reference-based method, enabling them to analyse their results before submitting to public databases. In this update paper, we describe how we included novel methods for gene finding and made the server more efficient to annotate genomes of up to 1 GB in size. The reference set was increased to genomes from the fungi and arthropod kingdoms. We show that Companion outperforms existing comparable tools. GRAPHICAL ABSTRACT O_FIG O_LINKSMALLFIG WIDTH=200 HEIGHT=145 SRC="FIGDIR/small/580948v1_ufig1.gif" ALT="Figure 1"> View larger version (35K): [email protected]@b98a5aorg.highwire.dtl.DTLVardef@12a2d8corg.highwire.dtl.DTLVardef@144b21_HPS_FORMAT_FIGEXP M_FIG C_FIG

著者: Thomas D Otto, W. Haese-Hill, K. Crouch

最終更新: 2024-02-21 00:00:00

言語: English

ソースURL: https://www.biorxiv.org/content/10.1101/2024.02.19.580948

ソースPDF: https://www.biorxiv.org/content/10.1101/2024.02.19.580948.full.pdf

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。

著者たちからもっと読む

類似の記事