新しいツールが孤児酵素遺伝子を特定する
DeepESが腸の健康に関連する孤児酵素の候補遺伝子を明らかにした。
― 1 分で読む
最近の技術の進展により、科学者たちは多くのタンパク質の配列を読むことができるようになった。その中には、生物の化学反応を早める酵素も含まれている。KEGGやBRENDAのような大規模なデータベースがあり、これらの酵素に関する情報を保持している。しかし、多くの酵素はその配列がリストされていない。配列データがないけれども機能がわかっている酵素を孤児酵素と呼ぶ。
孤児酵素は結構一般的なんだ。例えば、KEGGデータベースに詳述されている代謝反応の約20.8%に関与している。また、登録されている酵素の少なくとも22.4%が孤児として分類されている。これにより、配列情報が欠けているためにこれらの酵素の生物学的機能を研究することが難しくなり、特に腸内細菌が執り行うような複雑なプロセスを理解する上でギャップが生じてしまう。これは腸の炎症や癌のような健康問題に影響を及ぼす可能性がある。
孤児酵素の役割をよりよく理解するためには、既知の配列に頼らずに遺伝子情報と機能をつなげる方法を見つけることが重要だ。最近の人工知能、特に深層学習の進展により、タンパク質の機能や構造を予測するのに効果的であることが証明されている。現在、配列に基づいて酵素を分類するための多くのツールが存在している。
この記事では、孤児酵素遺伝子を特定することを目指す新しいツール「DeepES」を紹介する。このツールは、既存の遺伝子情報とRClassという新しい分類システムを使って、孤児酵素に関連する候補遺伝子の検索をサポートする。
孤児酵素の問題
孤児酵素は研究者にとって大きな課題を提供する。タンパク質の機能を特定するための従来の方法は、既知のタンパク質に対して配列を照合することに依存している。しかし、このアプローチは孤児酵素には機能せず、既知の配列がないため、膨大な配列データとこれらの配列が生物学的機能にどのように関連しているのかの理解にギャップが生じてしまう。
この制限は腸内細菌の研究で特に重要だ。腸内での短鎖脂肪酸の生成など多くのプロセスは孤児酵素によって媒介されている。これらの酵素を理解しないと、腸内細菌の機能やそれが人間の健康に与える影響をつかむことが難しくなる。
DeepESの紹介
DeepESは孤児酵素に関連する遺伝子を特定するために設計されたフレームワークだ。これは、特定の化合物を生成するために一緒に働く遺伝子のグループである生合成遺伝子クラスター(BGC)を使用して、孤児酵素を编码する可能性のある候補遺伝子を評価するという主要なアイデアに基づいている。
DeepESは主に三つのステップで動作する:
- ゲノム内の連続した遺伝子のタンパク質配列を収集する。
- RClass分類器を使って、各遺伝子がさまざまな酵素反応に対応する確率を予測する。
- 最後に、予測された確率に基づいて特定の化学反応を行う酵素を生成する可能性がある遺伝子かどうかを評価する。
DeepESの動作方法
このツールを構築するために、研究者たちはタンパク質配列とRClass分類システムからデータを収集し始めた。RClassは、詳細な酵素活性の説明に依存せずに化学変化の種類に基づいて反応をカテゴライズする方法を提供する。つまり、RClassを使うことで、酵素が完全には理解されていない場合でも反応を分類できる。
DeepESは、機械学習を使ってデータを分析するモデルを採用している。最初のデータセットには数百万のエントリが含まれていたが、あまりにも長い配列や特定のアミノ酸を含むものは分析用に除外された。この洗練されたデータセットを使って、モデルがパターンを認識し、予測を行うトレーニングを行った。
DeepESの検証
DeepESが効果的かどうかを確認するために、研究者たちはその予測を従来の方法、具体的には配列の類似性を探すBLASTツールと比較した。彼らは検証用に小さなデータセットを作成し、一連のトレーニングとテストのステップを通じて検証を行った。
結果は、DeepESが配列が知られていない場合でも酵素の機能について正確な予測を行えることを示した。これは、フレームワークが多くのケースで従来の方法を上回っていることを示しており、孤児酵素の理解にギャップを埋める可能性を強調している。
生合成遺伝子クラスター
生物システム内では、多くの関連遺伝子がゲノム内で近くに見つかる。このグループは生合成遺伝子クラスターと呼ばれ、細胞がさまざまな化合物を生成する方法を理解する上で重要だ。これらのクラスターを研究することで、DeepESは孤児酵素遺伝子の潜在的な位置を効率的に特定することを目指している。
このフレームワークは、連続的に遺伝子のグループを評価し、特定の酵素をコードする遺伝子セットの可能性を示すスコアを割り当てる。このスライディングウィンドウアプローチは、効果的に候補遺伝子を絞り込むのに役立つ。
DeepESの実際の孤児酵素への応用
研究者たちは、ヒト腸内細菌に由来する代表的な遺伝子のセットにDeepESを適用し、これらの微生物に特有の孤児酵素の候補遺伝子を特定した。彼らは腸の健康に関連する代謝経路に関連する酵素リストに焦点を当てた。
DeepESは、数多くの孤児酵素の候補遺伝子を成功裏に特定し、主要な代謝経路に関与する潜在的な酵素を特定する有用性を強化した。結果は、DeepESが従来の方法と比較して、単一の遺伝子を孤立して調べる場合に比べて、遺伝子候補を効果的に絞り込めることを示した。
結果と発見
DeepESは、特に短鎖脂肪酸の生成に関与する孤児酵素に関連する遺伝子を特定するのに成功した。この発見は重要で、短鎖脂肪酸は腸の健康から全体的な代謝まで、人間の健康に重要な役割を果たしている。
研究者たちは孤児酵素に関連する多くの候補遺伝子を見つけ、DeepESがこれらの見つけにくい遺伝子を効果的にスクリーニングできることを示した。彼らはまた、モデルによって行われた予測を確認するためにさらに実験的検証の重要性を指摘した。
制限と今後の方向性
DeepESには限界もある。例えば、RClassは研究者が従来の方法よりも広範に酵素を分類できるようにするが、それでも酵素活性の不均衡な代表性を生む可能性がある。さらに、すべての酵素反応がRClassを使用して分類されているわけではないため、いくつかの孤児酵素は特定されないままであるかもしれない。
加えて、DeepESが行った予測はさらに実験的検証が必要だ。研究者たちは、モデルの発見の正確性を確認するために、これらの実世界のテストが必要であると強調している。
結論
DeepESは孤児酵素遺伝子の探索において重要な進展を示している。生合成遺伝子クラスターからの情報を活用し、独自の分類システムを採用することで、人間の健康に関連する酵素の機能に関する研究の新たな道を開いた。この革新的なツールは、配列データと生物学的理解の間のギャップを埋める潜在能力を示しており、特に腸内細菌とその健康への影響において重要だ。今後、研究者たちは酵素の機能やそれが代謝や健康に与える影響について貴重な洞察を明らかにできることを期待している。
タイトル: DeepES: Deep learning-based enzyme screening to identify orphan enzyme genes
概要: MotivationProgress in sequencing technology has led to determination of large numbers of protein sequences, and large enzyme databases are now available. Although many computational tools for enzyme annotation were developed, sequence information is unavailable for many enzymes, known as orphan enzymes. These orphan enzymes hinder sequence similarity-based functional annotation, leading gaps in understanding the association between sequences and enzymatic reactions. ResultsTherefore, we developed DeepES, a deep learning-based tool for enzyme screening to identify orphan enzyme genes, focusing on biosynthetic gene clusters and reaction class. DeepES uses protein sequences as inputs and evaluates whether the input genes contain biosynthetic gene clusters of interest by integrating the outputs of the binary classifier for each reaction class. The validation results suggested that DeepES can capture functional similarity between protein sequences, and it can be implemented to explore orphan enzyme genes. By applying DeepES to 4744 metagenome-assembled genomes, we identified candidate genes for 236 orphan enzymes, including those involved in short-chain fatty acid production as a characteristic pathway in human gut bacteria. Availability and implementationDeepES is available at https://github.com/yamada-lab/DeepES. Model weights and the candidate genes are available at Zenodo (https://doi.org/10.5281/zenodo.11123900).
著者: Takuji Yamada, K. Hirota, F. Salim
最終更新: 2024-05-10 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.05.09.592857
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.05.09.592857.full.pdf
ライセンス: https://creativecommons.org/licenses/by-nc/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。