新しい方法でタンパク質構造の検証が改善されたよ
研究者たちがタンパク質モデルの誤りを特定する新しいアプローチを発表した。
― 1 分で読む
何年も前から、科学者たちはタンパク質の理解とその構造について研究してきた。これに関する主要なリソースが、タンパク質データバンク(PDB)で、ここではタンパク質や他の大きな分子に関する情報が集められている。PDBには現在、20万以上のエントリーがあり、X線結晶構造解析やNMR、最近ではクライオ電子顕微鏡などの方法で得られた構造が含まれている。各研究は通常、データの最良の解釈を表すモデルで終わるけど、実験技術の限界から間違いが起こることもある。
1990年代、研究者たちはこれらのタンパク質構造をエラーがないか確認する必要があることを認識した。それ以来、これらのモデルの幾何学的や他の特性に基づいて質を評価する方法が開発された。これらの方法は、期待に合わない原子間の不自然な角度や距離など、構造内の潜在的な問題を特定するのに役立つ。
最近、より進んだ計算ツールを使ってタンパク質構造の検証をさらに改善する新しい技術が登場した。これらの新しい方法は、タンパク質の異なる部分間の予測された関係を分析し、それを実験から得られた観察データと比較することができる。このアプローチは、特にデータの局所解像度が高くないときにエラーを特定するのに役立つ。
タンパク質構造の質の重要性
科学者たちがタンパク質のモデルを作成する時、彼らは実験データに頼っている。しかし、これらの実験からは不確実性が生じて、現実を正確に反映しないモデルができることがある。結合長や角度のような特性は、モデリングプロセス中に人工的に制約されることがあり、特定の検証ツールの有用性を制限する場合がある。だから、これらのモデルが正しいことを確保するために信頼できる検証技術を持つことが重要だ。
エラーは様々な方法で発生する。特定のエラーの一つ、シーケンスレジスターエラーは、モデルがタンパク質のバックボーンを正しく表しても、個々のアミノ酸の識別をその位置に基づいて誤ってラベル付けする時に起こる。このエラーは、実験データの質が弱い領域で特に導入しやすい。
これらのエラーに対処するために、研究者たちはディープラーニングツールからのデータを分析して、タンパク質モデル内で各アミノ酸がどこにあるべきかを予測する新しい方法を開発した。これらの予測をPDBのモデルと比較することで、研究者は潜在的なエラーを特定し、修正を提案できる。
研究の概要
この研究では、タンパク質構造を検証する方法が紹介された。この方法は、PDBに登録されたモデル内のシーケンスレジスターエラーを特定することに焦点を当てている。これは、特にAlphaFold 2から得られた残基間距離と接触の予測に依存している。
研究者たちは、クライオ電子顕微鏡またはX線結晶構造解析で決定されたタンパク質モデルをPDBから選び、特に解像度が3〜5Åの構造に焦点を当てた。これらのモデルを収集した後、新しい検証方法を適用して潜在的なレジスターエラーを特定した。
研究の目的は以下のタスクを達成することだった:
- タンパク質構造内の潜在的なレジスターエラーを特定する。
- これらの予測を高解像度の結晶構造と照合する。
- 特定されたエラーを修正した後のモデルの正確性の改善を評価する。
- 異なる検証方法の効果を比較する。
方法の選択
タンパク質モデルの選択
研究を始めるにあたり、研究者たちはまずクライオ電子顕微鏡またはX線結晶構造解析で決定されたすべての構造のリストを集めた。これには、解像度が3.0〜5.0Åのモデルが含まれる。それぞれの構造は個々の鎖に分解され、20万以上のタンパク質鎖のデータセットができた。
ヌクレオチドやリガンドのみからなる鎖はデータセットから除外された。さらに、1,000残基以上を含む鎖も予測を作成するのが難しいため除外された。残ったデータセットは、シーケンス同一性に基づいてクラスタに整理された。
AlphaFold 2による予測
クラスタが確立された後、研究者たちはAlphaFold 2を使って各クラスタの残基間距離を予測した。これらの予測は、異なる残基が空間内でどれだけ近くに位置するかの確率を提供する。これらの距離予測から、研究者はアミノ酸間の接続を可視化するために接触マップを作成した。
これらの予測は、計算負荷を処理するために設計された強力なコンピュータグリッドで行われた。予測された接触マップを手に入れた研究者たちは、データセット内の構造を検証する作業に進むことができた。
検証のための接触マップの整列
モデルの検証は、AlphaFold 2からの予測された接触マップと登録されたモデルの観察された接触を比較することから始まった。これらのマップを整列させることで、研究者は不一致が存在するエリアを特定できた。整列が異なるシーケンスレジスターがより良い一致をもたらすことを示した場合、この不一致が潜在的なレジスターエラーとしてフラグされる。
研究者たちは、予測における偽陽性を最小限に抑えるためにフィルターも使用した。彼らは予測されたエラーの信頼性を評価するための3つの基準を設定し、確実に堅牢な予測だけが報告されるようにした。
高解像度構造の選択
特定されたレジスターエラーをさらに検証するために、研究者たちは先に特定されたクラスタと100%のシーケンス同一性を共有する高解像度構造を探した。これらの構造は、解像度が少なくとも2.5ÅのX線結晶構造解析を用いて解決される必要があった。
これらの高解像度の対照を分析することで、研究者は予測されたエラーが低解像度の構造に実際の問題を示しているかどうかを判断することができた。もし高解像度の構造が予測されたエラーを含んでいなかった場合、それはそのエラーが本物である可能性が高いという主張を強化した。
予測されたエラーの修正
潜在的なレジスターエラーが見つかった登録モデルに対して、研究者たちは正しいシーケンスレジスターの提案に基づいた修正版を作成した。これは、問題のある残基を予測モデルから適切なものに置き換えることを含んだ。
修正が行われた後、研究者は実験データと修正後の構造との間の局所的な相関メトリックを比較することで、修正されたモデルの質を評価した。改善が見られれば、修正が効果的であったことを示す。
結果と分析
予測されたエラーの頻度
指定された解像度範囲内でPDBエントリーを処理した結果、研究者たちは多数の潜在的なレジスターエラーを特定した。具体的には、約12,674の潜在的なエラーが分析された約16,662の構造の中でフラグされ、これはエントリーの約17%に相当し、データセットにおけるエラーの顕著な存在を示している。
さらに調査したところ、これらの予測されたエラーの多くは比較的少数の残基に影響を及ぼしており、その2/3は15残基以下であった。これらのエラーを修正するために必要なシフトのほとんどは小さく、2/3以上がわずか1残基のシフトを必要とした。
異なる方法におけるエラー率の比較
研究者たちは、クライオ電子顕微鏡で決定された構造に見られる予測エラーをX線結晶構造のものと比較した。彼らは、クライオEM構造が予測エラーを含む可能性が高いことが分かった、提出年や解像度にかかわらず。
興味深いことに、予測エラーを含むクライオEM構造の割合は年々減少する傾向にあり、これはクライオEMデータ取得と分析への信頼が高まっていることを反映している可能性がある。
高解像度構造に対する検証
予測されたレジスターエラーを検証するために、研究者たちは高解像度構造の小さなデータセットを調べた。彼らは、予測されたエラーの大多数を成功裏に相互検証し、多くのエラーが高解像度モデルで確認された。
結果を分析したところ、高解像度の構造が予測されたエラーを含んでいない場合、79%のケースで提案された修正を強く支持することが分かった。
構造質の改善
予測されたレジスターエラーを修正した後、研究者たちは修正されたモデルの質を評価した。彼らは局所的な相関係数の改善を確認し、80%のケースで修正後にモデルの互換性が向上したことを示した。この結果は、新しく導入された検証方法の効果を強調している。
他の検証ツールとの比較
研究者たちは、結果を他の確立された検証ツールと比較した。新しい方法は、他の方法が見逃す可能性のある構造内のエラーを特定する能力があることを示した。
特に、この研究は新しい方法によって予測されたエラーの一部が既存のツールで確認されたが、多くはそうではなかったことを強調している。これは、タンパク質構造検証の分野での継続的な改善の道を提供する。
結論
つまり、この新しいタンパク質構造の検証方法の導入は、タンパク質モデル内のエラーを特定・修正する機会を広げたということだ。先進的な計算技術から得られた予測を利用することで、研究者たちは以前は見逃されていたかもしれないエラーに対処できる。
分析の結果、PDBのタンパク質構造の中には特にクライオ電子顕微鏡で決定された低解像度モデルにおいて、潜在的なレジスターエラーが顕著に存在することが明らかになった。高解像度構造に対する検証は、この方法の信頼性を示し、数多くの修正がモデルの質を改善する結果につながった。
全体として、この研究は構造生物学における継続的な改善の重要性と、検証プロセスに先進的な計算技術を組み込むことの利点を強調している。このアプローチは、研究者たちがタンパク質モデルの正確性を向上させるための強力なツールを提供し、最終的にはこの分野での信頼できる科学的発見や分析をサポートすることになる。
タイトル: Using deep learning predictions reveals a large number of register errors in PDB deposits
概要: The accuracy of the information in the Protein Data Bank (PDB) is of great importance for the myriad downstream applications that make use of protein structural information. Despite best efforts, the occasional introduction of errors is inevitable, especially where the experimental data are of limited resolution. We have previously established a novel protein structure validation approach based on spotting inconsistencies between the residue contacts and distances observed in a structural model and those computationally predicted by methods such as AlphaFold 2. It is particularly well-suited to the detection of register errors. Importantly, the new approach is orthogonal to traditional methods based on stereochemistry or map-model agreement, and is resolution-independent. Here we identify thousands of likely register errors by scanning 3-5[A] resolution structures in the PDB. Unlike most methods, application of our approach yields suggested corrections to the register of affected regions which we show, even by limited implementation, lead to improved refinement statistics in the vast majority of cases. A few limitations and confounding factors such as fold-switching proteins are characterised, but we expect our approach to have broad application in spotting potential issues in current accessions and, through its implementation and distribution in CCP4, helping ensure the accuracy of future deposits.
著者: Daniel J Rigden, F. Sanchez Rodriguez, A. J. Simpkin, G. Chojnowski, R. Keegan
最終更新: 2024-07-23 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.07.19.604304
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.07.19.604304.full.pdf
ライセンス: https://creativecommons.org/licenses/by-nc/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。