タンパク質構造予測の進展と限界
AlphaFoldがタンパク質の構造を予測する方法とその課題を調べる。
― 1 分で読む
タンパク質は生物にとって欠かせない分子だよ。彼らの機能は形に大きく依存していて、その形はアミノ酸の配列によって決まるんだ。この形を予測するプロセスは複雑で、タンパク質がどのように働くかを理解したり、新しい薬を開発したりする上で重要なんだ。
機械学習の役割
機械学習、特に「AlphaFold」というモデルを使うことで、タンパク質構造の予測方法が大きく変わったんだ。AlphaFoldはアミノ酸の配列だけでタンパク質の3D形状を予測できるよ。各部位にスコアをつけて、予測の精度を示すんだ。
AlphaFoldの仕組み
AlphaFoldは、さまざまな種でのアミノ酸の変化に関する情報を使って、タンパク質内での相互作用を推測するんだ。似ている配列をたくさん調べて、それらのアミノ酸が空間でどのように配置されるかのパターンを見つけるんだ。
AlphaFoldは、いくつかの異なる方法で訓練された複数のニューラルネットワークを使ってるよ。中には配列データだけを使うものもあれば、既存のタンパク質構造を使って訓練するものもあるんだ。プロセスは、似たような配列をグループ化するために複数の配列アラインメント(MSA)を作成することで始まる。このMSAがニューラルネットワークに送られて、タンパク質構造を予測するんだ。
AlphaFoldの重要な特徴は「リサイクリング」方法で、予測を繰り返し洗練させて精度を高めるんだ。これによって、各タンパク質のために複数の予測構造が得られて、それが質でスコアされるんだ。
タンパク質のダイナミクス
タンパク質は固定された構造じゃなくて、時間とともに形が変わることがあって、これらの変化は彼らの機能にとって重要なんだ。これらの動きを研究するために、科学者たちは分子動力学(MD)シミュレーションのような方法を開発して、タンパク質が時間とともにどのように振る舞うかを追跡するんだ。しかし、これらのシミュレーションは、必要とする時間や計算リソースによって制限されることがあるんだ。
いくつかの進んだ技術を使えば、研究者たちは計算があまり必要なくタンパク質の潜在的な形をもっと探索できるんだ。とはいえ、これらの方法は多くの場合、タンパク質の振る舞いに関する事前の知識が必要なんだ。
AlphaFoldの制限
AlphaFoldは静的な構造を予測するのには優れているけど、複数の形やコンフォメーションが存在するタンパク質には苦労してるんだ。最近の努力では、MSAの構築方法を変えることで、これらの複数の状態を調べるようにAlphaFoldを適応させようとしているよ。
例えば、MSAからランダムに異なる配列を選ぶことで、研究者たちはAlphaFoldにさまざまなタンパク質の形を効果的に予測させてるんだ。他の方法では、似たような配列をまとめて、より良い予測を生成するんだ。
四つのタンパク質の研究
この研究では、AlphaFoldがこれらのタンパク質の構造をどれだけ正確に予測できるか、特にその動きに関して、四つの異なるタンパク質を見たよ。
1. 牛膵臓トリプシン阻害剤(BPTI)
BPTIは特定の酵素を阻害する小さなタンパク質だよ。たくさん研究されてきたから、比較のための豊富なデータがあるんだ。分析の結果、AlphaFoldは既知の結晶形に似た構造を予測するけど、実際に観察される多様な配置をすべて捉えることはできていないんだ。
2. トロンビン
トロンビンは血液凝固に重要な役割を果たすよ。このタンパク質の予測は、非活性型を捉えることができず、既知の構造がたくさんあるのに研究者たちを驚かせた。これは、AlphaFoldの訓練データにバイアスがある可能性を示唆しているよ。
3. キャメリッドナノボディ
ナノボディは、医学で重要なアプリケーションを持つ小さな抗体断片なんだ。このモデルはナノボディの結合状態を予測するのはうまくいったけど、非結合状態の予測はあまり正確ではなかったんだ。
4. 抗ヘマグルチニン抗体
この抗体は特にCDR-H3と呼ばれる領域で大きな形状変化を示すよ。予測はほとんど不十分で、抗体が取る可能性のあるさまざまな状態を表現できていなかったんだ。
予測構造の作成方法
研究者たちはAlphaFoldを使って、MSAのセットアップやリサイクリングパラメータを変更しながら、これらのタンパク質の構造を予測したよ。そして、予測と既知の実験データを比較して、その精度を評価したんだ。
AlphaFoldの予測は、RMSD(予測された構造が既知のものとどれだけ異なるかを測る指標)や、pLDDTやpTMスコアのような他の指標を使って評価されたんだ。これらの指標は予測された構造の質を反映しているよ。
分析には、時間の経過によるタンパク質の動きに関する追加の洞察を提供する分子動力学シミュレーションも含まれていたんだ。予測された集合体とこれらのシミュレーションを比較することで、研究者たちはAlphaFoldが真の多様性とダイナミクスを捉える能力を判断したんだ。
発見と観察
BPTI: 研究では、AlphaFoldの予測が既知の構造と密接に一致していたけど、特定の研究で観察されたコンフォメーションの範囲を完全には捉えていなかったんだ。予測は結晶構造を重視する傾向があったのは、訓練バイアスが原因かもしれないね。
トロンビン: AlphaFoldは活性型をうまく予測できたけど、非活性型を見逃していて、現在の訓練データの制限を示しているよ。
キャメリッドナノボディ: 結合型の予測は満足いく結果だったけど、非結合型はあまり正確には表現されていなくて、ダイナミックな振る舞いを予測するのが難しいことを再確認させられたね。
抗ヘマグルチニン抗体: 予測はこの抗体の機能を理解するために必要な柔軟性を捉えるには不十分だったんだ。
結論
AlphaFoldはタンパク質構造予測においてかなりの進展を遂げて、薬の設計や分子生物学の分野に貢献しているよ。ただ、研究は、タンパク質の動的な特性やコンフォメーション状態を捉えることにはまだ大きな制限があることを示しているんだ。
予測を改善するためには、構造データを生成するためのより良い方法やタンパク質のダイナミクスを理解することが重要だよ。高品質な実験データを集めることは必須で、予測モデルの性能は与えられる情報の質に大きく依存しているからね。MSAのサブサンプリングのようなさまざまな戦略が予測を改善できるけど、それでもタンパク質の機能を理解するために重要なコンフォメーションを見逃すかもしれないんだ。
予測方法をさらに洗練させて、実験データを統合することで、タンパク質やそれが生物学的プロセスで果たす役割の理解を深められるんだ。
タイトル: Assessing AF2's ability to predict structural ensembles of proteins
概要: Recent breakthroughs in protein structure prediction have enhanced the precision and speed at which protein configurations can be determined, setting new benchmarks for accuracy and efficiency in the field. However, the fundamental mechanisms of biological processes at a molecular level are often connected to conformational changes of proteins. Molecular dynamics (MD) simulations serve as a crucial tool for capturing the conformational space of proteins, providing valuable insights into their structural fluctuations. However, the scope of MD simulations is often limited by the accessible timescales and the computational resources available, posing challenges to comprehensively exploring protein behaviors. Recently emerging approaches have focused on expanding the capability of AlphaFold2 (AF2) to predict conformational substates of protein structures by manipulating the input multiple sequence alignment (MSA). These approaches operate under the assumption that the MSA also contains information about the heterogeneity of protein structures. Here, we benchmark the performance of various workflows that have adapted AF2 for ensemble prediction focusing on the subsampling of the MSA as implemented in ColabFold and compare the obtained structures with ensembles obtained from MD simulations and NMR. As test cases, we chose four proteins namely the bovine pancreatic inhibitor protein (BPTI), thrombin and two antigen binding fragments (antibody Fv and nanobody), for which reliable experimentally validated structural information (X-ray and/or NMR) was available. Thus, we provide an overview of the levels of performance and accessible timescales that can currently be achieved with machine learning (ML) based ensemble generation. In three out of the four test cases, we find structural variations fall within the predicted ensembles. Nevertheless, significant minima of the free energy surfaces remain undetected. This study highlights the possibilities and pitfalls when generating ensembles with AF2 and thus may guide the development of future tools while informing upon the results of currently available applications.
著者: Monica Lisa Fernandez-Quintero, J. R. Riccabona, F. C. Spoendlin, A.-L. M. Fischer, J. R. Loeffler, P. K. Quoika, T. P. Jenkins, J. A. Ferguson, E. Smorodina, A. H. Laustsen, V. Greiff, S. Forli, A. Ward, C. Deane
最終更新: 2024-04-17 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.04.16.589792
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.04.16.589792.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。