AlphaFold2のタンパク質構造予測: 洞察と驚き
AlphaFold2の予測とタンパク質構造の可能な誤解についての考察。
― 1 分で読む
目次
タンパク質がどう働くかを理解するのは、生物がどう機能するかや、タンパク質に関連する病気がどう起こるかを知るためにめっちゃ大事なんだ。科学者たちはよく、タンパク質の構造を調べるために、タンパク質結晶学や冷却電子顕微鏡(クライオEM)みたいな方法を使ってる。でも、これらの方法はピザが届くのを待つよりも時間がかかることがあって、結果が出るのに数ヶ月や数年かかることもあるんだ。だから、研究者たちはコンピュータを使ってタンパク質の構造を予測するより速い方法を探してるんだ。
アルファフォールド2の登場
2020年、グーグルディープマインドが発表した深層学習ベースのモデル、アルファフォールド2(AF2)が登場して、大きな変化があったんだ。これは、似たような既知の構造をテンプレートにせずにタンパク質の構造を予測する能力が劇的に向上したんだ。まるで難しいパズルを解くための近道を見つけたみたいだね!すぐにアルファフォールドタンパク質構造データベース(AFDB)が作られて、214百万以上のモデルが並んでるってさ。
アルファフォールド2の仕組み
AF2は、マルチプルシーケンスアラインメント(MSA)と呼ばれる幅広いタンパク質配列のセットを使ってる。この配列を分析することで、どのアミノ酸のペアが一緒に変わってきたのかを特定できるんだ。これがAF2がタンパク質が3次元空間でどう折りたたまれるかを予測する手助けをする。構造を予測するだけじゃなく、AF2は2つのクオリティスコアも提供するんだ。最初のpLDDTは局所的な構造に対するモデルの自信の程度を示し、2つ目のPAEは全体的な構造の信頼性を示す。だいたい、自信のある予測ほど、結果を見た後に強い飲み物が必要になる可能性が低いってわけ。
リピートタンパク質の研究
AF2は、タンデムリピートとして知られる繰り返しのある配列を持つタンパク質の研究に特に役立ってるんだ。これらのタンパク質は多様で、単一のアミノ酸を繰り返したり、数百回も繰り返したりすることがある。驚くことに、タンパク質の約14%はこれらのリピートで構成されてるけど、まだちゃんと理解されてないんだ。
2014年、RepeatsDBというデータベースが作られて、これらの繰り返し構造を分類・注釈するのに役立ってる。5種類の異なるリピートタンパク質が認識されていて、それぞれ独自の特徴があるんだ。あるクラスは病気に関連する短いリピートを含んでたり、他のクラスは線維状の構造や複雑に折りたたまれた形を持ってたりする。
最近、研究者たちはこれらのクラスの一つに属するベータソレノイドタンパク質に注目してる。このタンパク質は、ねじれた長い形に繰り返されるベータストランドのパターンを持ってる。これがタンパク質の中で最高のねじれに聞こえるけど、実はまだ理解されてないことが多いんだ。
ムチン22の興味深いケース
一つ面白い発見は、ムチン22という人間のタンパク質に関すること。繰り返しの配列が混ざると、AF2はそれでも非常に自信のあるベータソレノイド構造を予測するんだ。でも、モデルは変で、実際のタンパク質では起こるべきじゃないグルタミン酸残基が内部で積み重なってることになってる。これが大きな疑問を呼んだんだ:AF2は、本来存在すべきではない場合でも、ベータソレノイドを予測するのに過剰な期待を抱いているのか?
モデルの構築とテスト
研究者たちは、ランダムな20アミノ酸の配列を繰り返してモデルを作り、それをAF2にかけたんだ。結果、多くのモデルが自信のあるベータソレノイドになったんだけど、配列はランダムだった。研究者たちは、これらのモデルが本当にベータソレノイドを代表しているのかを分類してみた。
すると、多くのモデルが自信満々だったけど、変な特徴を含んでた-たとえば、意味のない方法で積み重なった負に帯電した残基みたいなのがね。普通、そんな構造はタンパク質の中に隠れてるもので、外に出てくることはないから。
モデルの検証
彼らの発見が意味をなすか確かめるために、Verify3Dというソフトウェアツールを使った。このツールは、予測されたタンパク質の構造が設計に基づいて妥当かどうかを評価するんだ。いくつかのモデルは良いスコアを得たけど、他のは足りなかったりして、AF2の自信が間違ってる可能性があることを示してた。
いくつかのケースでは、自信満々の予測を出したモデルが、内部でコンフリクトを持っていて信じがたいものだった。まるで、熱心な友達が素晴らしいアイデアだと説得しようとしてるのに、こっちはその欠陥が明らかに見えてるみたいな感じ。
他のモデルとの違い
AF2だけじゃなくて、ESMFoldやRoseTTAFold-All-Atom(RFAA)っていう新しいモデルも結果を比較するのに使われたんだ。驚くべきことに、これらの代替モデルはAF2の予測としばしば意見が食い違ってた。AF2が高い自信を持ってスコアを出す一方、ESMFoldやRFAAはそのモデルを疑わしいと頻繁に指摘してたんだ。
AF2はベータソレノイド構造に関する独自の盲点を持っていて、多くの配列を自信のある予測として誤解してしまうみたいだった。
ただの偶然じゃない
最初、研究者たちはランダムな配列が自然の既知のタンパク質と似たような部分を持ってて、AF2を誤解させてるんじゃないかと思った。でも、データベースと徹底的に照合した後、重要な一致を生み出したのはほんの少数の配列だけだった。ほとんどの配列はただのユニークなものだった。
分子動力学と不安定性
モデルの安定性をテストするために、科学者たちはいくつかの選ばれたモデルで分子動力学というシミュレーションを行ったんだ。高い自信を持つモデルと自然のベータソレノイド構造を比較してみた。
結果はどうだったかって?実際のタンパク質は形をしっかり維持してたけど、AF2のモデルは曲がったり、回ったり、一般的に反抗的なティーンエイジャーのように振る舞ってたんだ。
大きな視点
これらの比較やテストを通じて、一つのことがはっきりしてきた:アルファフォールド2は、特定のリピートタンパク質を研究している科学者たちを誤解させるかもしれない。生成された予測の多くは過剰に自信があって現実的じゃなかった。AF2は多くの点で革新的だけど、研究者たちはその結果を信じるとき、特にその構造に関しては注意が必要なんだ。
まだ学ぶことはたくさんあって、研究者たちはこのバイアスがもっと欠陥のある配列にも影響を与えるかを探りたいと思ってる。彼らはもっと多様な配列の混合を作って、AF2の傾向が他の場合にも当てはまるか見てみる計画を立ててるんだ。
結論
アルファフォールド2は素晴らしいツールかもしれないけど、 quirks(癖)があることは忘れちゃいけない。まるで、コーヒーを淹れるための素敵なガジェットを見つけたけど、時々はちょっと濃すぎるって感じだね。この研究の発見は、技術が私たちを助けることができるけど、その出力を批判的に評価して、限界を意識する必要があるってことを思い出させてる。
科学者たちがこれらのモデルから学び続けることで、タンパク質構造の謎をさらに解明し、生命の基本的な構成要素をもっとクリアに理解できるようになるだろう。これからも実験や研究が待ってるから、タンパク質構造の世界が私たちの前に広がっていくのが楽しみだね。
タイトル: AlphaFold 2, but not AlphaFold 3, predicts confident but unrealistic beta-solenoid structures for repeat proteins
概要: AlphaFold 2 has revolutionised protein structure prediction but, like any new tool, its performance on specific classes of targets, especially those potentially under- represented in its training data, merits attention. Prompted by a highly confident prediction for a biologically meaningless, scrambled repeat sequence, we assessed AF2 performance on sequences comprised perfect repeats of random sequences of different lengths. AF2 frequently folds such sequences into {beta}-solenoids which, while ascribed high confidence, contain unusual and implausible features such as internally stacked and uncompensated charged residues. A number of sequences confidently predicted as {beta}-solenoids are predicted by other advanced methods as intrinsically disordered. The instability of some predictions is demonstrated by Molecular Dynamics. Importantly, other Deep Learning-based structure prediction tools predict different structures or {beta}-solenoids with much lower confidence suggesting that AF2 alone has an unreasonable tendency to predict confident but unrealistic {beta}-solenoids for perfect repeat sequences. The potential implications for structure prediction of natural (near-)perfect sequence repeat proteins are also explored.
著者: Olivia S. Pratt, Luc G. Elliott, Margaux Haon, Shahram Mesdaghi, Rebecca M. Price, Adam J. Simpkin, Daniel J. Rigden
最終更新: Oct 30, 2024
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.10.30.621056
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.10.30.621056.full.pdf
ライセンス: https://creativecommons.org/licenses/by-nc/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。