Simple Science

最先端の科学をわかりやすく解説

# 生物学# 進化生物学

MATEdb2の進展:動物進化研究のためのリソース

MATEdb2は、動物の進化研究のためのゲノムデータアクセスを拡張するよ。

― 1 分で読む


MATEdb2:MATEdb2:動物ゲノム学の進展究を加速させる。新しいデータベースが動物の進化と遺伝子研
目次

最近、いろんな動物の遺伝情報がめっちゃ増えてきたんだよね。この増加のおかげで、異なる種の関係や進化の過程を研究しやすくなった。でも、科学者たちはこのデータを分析するのにまだ大変なことがあるんだ。データを使う前にちゃんと準備しないといけないからね。新しい高品質のゲノムが定期的に公開されてて、動物の進化に関する難しい質問に答える助けになってるよ。例えば、異なる動物グループの関係とか、DNAの特定の部分の変化についてね。

それに、科学者たちはトランスクリプトームもよく使うんだ。トランスクリプトームは特定の生物のRNAのコレクションで、動物が作るタンパク質に関する情報を得るのに役立つ方法なんだ。この方法は、全ゲノムを研究するよりもコストがかからず、簡単なんだ。あまり研究されてない動物の遺伝子の進化について大事なデータを集めることができるんだよ。

こんだけたくさんのゲノムやトランスクリプトームのデータがあるから、科学者たちは資源に恵まれてる。でも、このデータはちゃんと準備しないと研究に直接使えないんだ。古いデータセットはデータの質が低いことが多くて、研究結果に大きな影響を与えちゃう。データを処理する方法の違いで、結果を比較するのも難しくなったり、間違いが生じたりすることもあるんだ。例えば、トランスクリプトームを組み立てる方法によって、データセットで特定された遺伝子の数が大きく変わることもあるし、異なるデータセット間でタンパク質の標準名が使われてないこともあって、解析のためにデータを合わせるのが難しいんだ。こういう状況は、高度な計算ツールや専門知識が不足してる小規模な研究グループには特に厳しいんだよね。

この課題に対処するために、MATEdbっていうデータベースが作られたんだ。これは、いろんな節足動物や軟体動物の高品質なトランスクリプトームアセンブリを集めたものなんだ。MATEdbの第二版(MATEdb2)がリリースされて、最初のバージョンよりいくつかの重要な点で改善されたよ。

分類群のカバレッジが増えた

最初のMATEdbは335種の節足動物と軟体動物に焦点を当ててたんだけど、特にこれらのグループ内の異なる系統を表示することに力を入れてたんだ。MATEdb2では、ほとんどすべての知られている動物グループから970種を含む大規模なデータセットに拡張されたんだ。これには、これまでこういうデータベースに登場したことのない種も含まれてるよ。分類群のカバレッジを広げることで、研究者たちは生命の多様性や進化の関係をよりよく理解できるんだ。

MATEdb2における種の表示は視覚的に示されていて、動物グループごとのデータセットの数が、データの種類(ゲノムとトランスクリプトーム)で分けられてるんだ。この拡張された範囲は、研究者たちにより包括的なリソースを提供してる。

ゲノムの分析パイプラインの改善

前のMATEdbでは、研究者たちはコーディングDNA配列(CDS)とタンパク質ファイルを公的なリポジトリから直接ダウンロードしてたんだ。でも、これらのファイル間に不一致があって、手動で修正する必要があったから、すごく時間がかかったんだよね。これらの問題は、異なる研究者がゲノムファイルに注釈を付けて発表する方法の不一致から生じたんだ。時には、アップロードされたタンパク質配列が付随するファイルと合わなかったり、さらなる分析が複雑になったりしてたんだ。公的なデータベースでもエラーやデータの欠落があったりして、信頼性が低くなることもあったんだ。

この課題を克服するために、MATEdb2ではコーディング配列とタンパク質ファイルをゲノムのFASTAおよび注釈ファイルから直接取得するための標準化されたパイプラインを導入したんだ。この新しいプロセスは、前のバージョンで遭遇した問題に対応して、研究者たちの作業フローを簡素化してるんだ。

新しい分析パイプラインにはいくつかの重要な改善点があるよ。まず、ゲノムから最も長いタンパク質アイソフォームを取得するための標準化されたプロセスが含まれてるから、一貫性が保たれるんだ。次に、データセットを含めるための質のしきい値が調整されたんだ。元の85%のBUSCOスコアの要件は、より広い分類群の表示を目指すときに厳しすぎることが分かったから、しきい値は70%に下げられたんだ。これにより、高品質のデータを持たないかもしれないが、研究にとって価値のある生物学的に興味深い種も含めることができるようになったんだ。

ゲノムデータの編纂

MATEdb2を更新するために、各種のゲノムアセンブリと注釈ファイルがNCBIデータセットや他のリポジトリから直接ダウンロードリンクを使って集められたんだ。各種の情報源は透明性のために文書化されてて、ダウンロードプロセスを自動化するためのカスタムスクリプトも開発されたよ。

ファイルを取得した後、AGATっていうソフトウェアツールが使われて、最も長いタンパク質アイソフォームを独立させる作業が行われたんだ。このステップで、研究者たちは各遺伝子に最も関連性の高いタンパク質配列を持てるようになったんだ。配列はMATEdb2データベース全体で使われてる共通の命名規則に標準化されて、元の名前を追跡するための変換ファイルも作成された。このプロセスはデータ管理を簡素化し、研究者たちが使いやすくなるんだ。

遺伝子の完全性はBUSCOっていう方法を使って評価されてて、データセットにどれだけの完全な遺伝子と断片化された遺伝子が含まれてるかを測定するんだ。MATEdb2に含まれる種の75%以上が元の85%の完全性のしきい値を満たしてたけど、約25%の種、特にあまり研究されてないクマムシや環形動物みたいなものについては、重要な種を含めるためにしきい値が70%に下げられたんだ。場合によっては、特定のトランスクリプトがしきい値をわずかに下回っていても、その系統的重要性から追加されることもあったんだ。

遺伝子レパートリーの機能的注釈

各種の最も長いタンパク質アイソフォーム遺伝子リストが編纂された後、この情報はeggNOG-mapperっていうソフトウェアツールを使って注釈されるんだ。それに加えて、FANTASIAっていう新しいパイプラインも使われたよ。FANTASIAは、タンパク質の言語モデルに基づく方法で、全タンパク質セットの注釈を行えるんだ。この高度なアプローチは、タンパク質配列を文のように扱って、自然言語処理の技術を使って情報を抽出するんだ。

新しい機能的注釈プロセスは、研究者たちに予測された遺伝子オントロジー(GO)用語だけじゃなく、言語モデルから得られた生のタンパク質埋め込みも提供するんだ。この埋め込みは、タンパク質配列やその潜在的な機能についてのさらなる洞察を示してくれる。こういった強化された注釈アプローチを使うことで、MATEdb2は動物の進化を研究するための価値あるツールやデータを研究者たちに提供することを目指してるんだ。

結論

MATEdb2のリリースは、前のバージョンに比べて大きな改善を示していて、動物の進化を研究する研究者向けに利用可能なデータが広がり、分析プロセスが洗練されたんだ。分類群のカバレッジを増やして、データの編纂と注釈により標準化されたアプローチを実施することで、MATEdb2はこの分野の研究を促進することを目的としてるんだ。これによって、研究者たちは異なる動物種の関係や、時間とともにどのように進化してきたのかについての重要な質問に取り組むための豊富なリソースを手に入れられるんだ。高品質のゲノムやトランスクリプトームデータにアクセスできることで、科学者たちは地球上の生命の複雑さや、それを形成してきた進化のプロセスをよりよく理解できるようになるんだよ。

オリジナルソース

タイトル: MATEdb2, a collection of high-quality metazoan proteomes across the Animal Tree of Life to speed up phylogenomic studies

概要: Recent advances in high throughput sequencing have exponentially increased the number of genomic data available for animals (Metazoa) in the last decades, with high-quality chromosome-level genomes being published almost daily. Nevertheless, generating a new genome is not an easy task due to the high cost of genome sequencing, the high complexity of assembly, and the lack of standardized protocols for genome annotation. The lack of consensus in the annotation and publication of genome files hinders research by making researchers lose time in reformatting the files for their purposes but can also reduce the quality of the genetic repertoire for an evolutionary study. Thus, the use of transcriptomes obtained using the same pipeline as a proxy for the genetic content of species remains a valuable resource that is easier to obtain, cheaper, and more comparable than genomes. In a previous study, we presented the Metazoan Assemblies from Transcriptomic Ensembles database (MATEdb), a repository of high-quality transcriptomic and genomic data for the two most diverse animal phyla, Arthropoda and Mollusca. Here, we present the newest version of MATEdb (MATEdb2) that overcomes some of the previous limitations of our database: (1) we include data from all animal phyla where public data is available, (2) we provide gene annotations extracted from the original GFF genome files using the same pipeline. In total, we provide proteomes inferred from high-quality transcriptomic or genomic data for almost 1000 animal species, including the longest isoforms, all isoforms, and functional annotation based on sequence homology and protein language models, as well as the embedding representations of the sequences. We believe this new version of MATEdb will accelerate research on animal phylogenomics while saving thousands of hours of computational work in a plea for open, greener, and collaborative science.

著者: Rosa Fernandez, G. I. Martinez-Redondo, C. Vargas-Chavez, K. Eleftheriadi, L. Benitez-Alvarez, M. Vazquez-Valls

最終更新: 2024-06-18 00:00:00

言語: English

ソースURL: https://www.biorxiv.org/content/10.1101/2024.02.21.581367

ソースPDF: https://www.biorxiv.org/content/10.1101/2024.02.21.581367.full.pdf

ライセンス: https://creativecommons.org/licenses/by-nc/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。

類似の記事