STRPsearch:タンパク質解析の新しい時代
新しいソフトウェアが構造的タンデムリピートタンパク質の特定を効率化するよ。
― 1 分で読む
目次
タンデムリピートタンパク質(TRP)は、繰り返し配列を含むタンパク質のグループだよ。これらのタンパク質は、いろんな生物学的な機能で重要な役割を果たしてるんだ。特別なTRPの一種で、構造化タンデムリピートタンパク質(STRP)と呼ばれるものは、繰り返し配列だけじゃなくて、特定の構造的特徴によっても認識されるんだ。
TRPの重要性
TRPは、生物の中で多くの重要な活動に関わってる。例えば、あるTRPはDNAのコピー作成に関与してたり、他のTRPは免疫システムが感染に反応するために必要なタンパク質の一部だったりする。最近、TRPの健康への関連性や新しいタンパク質設計に使われる可能性があるから、ますます注目されてるんだ。
データベースの役割
科学が進歩するにつれて、タンパク質の構造に関する膨大なデータが集められてる。一つの主な情報源は、217,000以上のタンパク質構造を保存しているProtein Data Bank(PDB)なんだ。研究者たちはこのデータを使ってタンパク質を研究し、どう機能するかを理解してる。ただ、このデータを分析するのは難しいことがあって、特にTRPを特定するのは大変なんだ。
RepeatsDB:重要なリソース
RepeatsDBは、STRPの注釈と分類に特化したデータベースなんだ。研究者たちは実験的な構造を調べて、このデータベースのデータを慎重にキュレーションしてる。RepeatsDBの各エントリーには、繰り返し領域やその位置を含むタンパク質の異なる部分に関する情報が含まれてる。このキュレーションによって、STRPを研究するためのツールを開発する際に信頼できるデータが確保されてるんだ。
STRPsearch:新しいツール
STRPsearchは、さまざまなタンパク質構造中の構造化タンデムリピートタンパク質を素早く正確に特定するために設計された新しいソフトウェアなんだ。これはRepeatsDBのキュレーションデータから構築された2つのライブラリに依存してる。最初のライブラリは代表単位ライブラリ(RUL)と呼ばれ、特定のリピートユニットが含まれてる。2つ目は三重単位ライブラリ(TUL)で、3つのリピートユニットの組み合わせが含まれてる。
STRPsearchの動作
STRPsearchを実行するには、ユーザーがタンパク質構造を入力する必要があるんだ。その後、プログラムはそのタンパク質内の繰り返し構造パターンを探すんだ。アルゴリズムは、提供された構造をTUL内のものと整列させることでこれを行うんだ。このプロセスではFoldseekというツールが使われてて、クエリ構造をデータベース内のターゲット構造と迅速に比較するのを手助けしてくれる。これが終わった後、STRPsearchは与えられたタンパク質に出現するさまざまなタイプの繰り返し構造の可能性を評価するんだ。
リピート領域の特定
次の段階では、STRPsearchが前の整列に基づいて最も可能性の高い一致を選ぶんだ。もし同じタンパク質に複数のリピートタイプが見つかったら、STRPsearchはそれを認識して分類できるんだ。このソフトウェアは、タンパク質の構造を特定されたリピートユニットのサイズに合わせた小さな部品に分解するんだ。さらに、RULの代表ユニットとこれらのフラグメントを比較するためにTM-alignという別のツールを使うんだ。
結果の分析
STRPsearchの出力には、いくつかの有用な情報が含まれてる。リピート領域の分類や、関与するユニットの境界を詳述したJSONファイルを提供するんだ。このソフトウェアはリピート領域のトリムされた構造をPDBフォーマットで生成し、PyMOLで視覚的に表示することもできる。また、リピートユニットの位置を強調した各残基のTMスコアプロファイルも生成されるんだ。
パフォーマンス評価
STRPsearchはさまざまなタンパク質構造に対してテストされ、効果を評価されてるんだ。知られているSTRPの約80%を正しく特定できて、偽陽性の率も低かったんだ。つまり、リピート領域の存在を正確に検出できて、不正確な予測を最小限に抑えられるということ。
他のツールとの比較
RepeatsDB-liteやTAPOのような既存のソフトウェアと比較した場合、STRPsearchはスピードと精度の面で優れてるんだ。もちろん、他のツールもSTRPを検出するけど、ネガティブ構造の特定に苦労して高い偽陽性率になっちゃうんだ。STRPsearchは、平均してわずか9秒で各タンパク質構造を処理するから、競合他社に比べてかなり速いんだ。
大規模データベースでのSTRPsearchの実行
STRPsearchは、膨大な数のタンパク質構造を含む大規模データベースのPDBやAlphaFoldDBにも適用されたんだ。ソフトウェアは、何千もの構造をSTRPを持つものとして特定し、大量のデータセットを扱うスケーラビリティと効果を証明したんだ。
結論
STRPsearchは、構造的タンデムリピートタンパク質を研究するための貴重なツールなんだ。RepeatsDBからキュレーションされたデータをうまく活用し、先進的な計算手法を取り入れることで、STRPを特定、分類、分析する効率的な手段を提供してる。パフォーマンスも他の既存ツールを超えてるから、タンパク質構造分析の分野では必須のリソースとなってるんだ。このソフトウェアは、TRPの生物学的機能における役割をよりよく理解したり、さまざまなタンパク質設計の応用を助けたりすることができるんだ。STRPsearchは、タンパク質とその構造を扱う研究者にとって重要な資産として際立ってるよ。
タイトル: STRPsearch: fast detection of structured tandem repeat proteins
概要: MotivationState-of-the-art prediction methods are generating millions of publicly available protein structures. Structured Tandem Repeats Proteins (STRPs) constitute a subclass of tandem repeats characterized by repetitive structural motifs. STRPs exhibit distinct propensities for secondary structure and form regular tertiary structures, often comprising large molecular assemblies. They can perform important and diverse biological functions due to their highly degenerated sequences, which maintain a similar structure while displaying a variable number of repeat units. This suggests a disconnection between structural size and protein function. However, automatic detection of STRPs remains challenging with current state-of-the-art tools due to their lack of accuracy and long execution times, hindering their application on large datasets. In most cases, manual curation is the most accurate method for detecting and classifying them, making it impossible to inspect millions of structures. ResultsWe present STRPsearch, a novel computational tool for rapid identification, classification, and mapping of STRPs. Leveraging the manually curated entries in RepeatsDB as the known conformational space of the STRPs, STRPsearch utilizes the latest advancements in structural alignment techniques for a fast and accurate detection of repeated structural motifs in protein structures, followed by an innovative approach to map units and insertions through the generation of TM-score graphs. STRPsearch can serve researchers in structural bioinformatics and protein science as an efficient and practical tool for analysis and detection of STRPs. Availability and implementationSTRPsearch is coded in Python, all the scripts and the associated documentation are available at https://github.com/BioComputingUP/STRPsearch. [email protected], [email protected] Supplementary informationSupplementary data are available..
著者: Alexander Miguel Monzon, S. Mozaffari, P. N. Arrias, D. Clementel, D. Piovesan, C. Ferrari, S. C. E. Tosatto
最終更新: 2024-07-13 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.07.10.602726
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.07.10.602726.full.pdf
ライセンス: https://creativecommons.org/licenses/by-nc/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。