EMSequenceFinder: タンパク質モデリングの新時代
クライオEMマップからのタンパク質配列割り当てを改善する画期的な方法。
Dibyendu Mondal, Vipul Kumar, Tadej Satler, Rakesh Ramachandran, Daniel Saltzberg, Ilan Chemmama, Kala Bharath Pilla, Ignacia Echeverria, Benjamin M. Webb, Meghna Gupta, Klim Verba, Andrej Sali
― 1 分で読む
目次
タンパク質がどう機能するかを理解するには、その構造を知るのがめっちゃ大事なんだ。まるでジグソーパズルを箱の絵を見ずに解こうとするみたいなもので、科学者たちはタンパク質の構造をはっきり見られないと困っちゃう。そんな中、クライオ電子顕微鏡(クライオEMって略されるんだ)っていうすごい技術があって、科学者たちがタンパク質を自然な状態で詳しく観察する手助けをしてくれるんだ。
クライオEMは大きな分子構造を研究するためのスーパーヒーローみたいなもので、研究者たちがこれらの構造を原子に近い解像度で見ることを可能にしてる。この方法は最近めっちゃ広まって、タンパク質がどう作られているか、どう動くかを理解するのが楽になった。でも、どんなスーパーヒーローにも課題はあるんだ!
タンパク質モデルを作るプロセス
クライオEMを使ってタンパク質の構造の完全なモデルを作るのは、ケーキを焼くレシピに従うのに似てる(美味しい匂いは別として)。科学者たちが最初にやるのは、密度マップでタンパク質の主なフレームワークを特定すること。これがトレースできたら、次はそのバックボーンの断片に正しいアミノ酸配列を割り当てる。この後、隙間をサイドチェーンやループで埋めてモデルを完成させるんだ。
でも、これを全部やるのは言うほど簡単じゃない。従来の方法でかなり自動化されてるけど、特に高解像度マップ(3.5Åよりクリアーな詳細のもの)ではうまくいくけど、解像度が落ちると難しくなる。正しい配列を見つけるのは、散らかったパントリーで好きなおやつを探すようなもので、何を見ているか分かりにくいんだ!
現在の方法の限界
4-8Åの中解像度では、既存の方法はしばしば苦労してる。ツールはバックボーンをトレースできるけど、4Åより悪いマップだと配列を割り当てるのが難しい。タンパク質のパズルのピースがすごくぼやけてるなら、どこにハマるかを見つけるのは難しいよね!
手動で調整することで助けにはなるけど、面倒だしいつも信頼できるわけじゃない。だから、より良い方法が必要なんだ。
EMSequenceFinderの登場
低解像度マップでの配列割り当ての問題を解決するために、EMSequenceFinderっていう新しい方法が開発されたんだ。これを信頼できるサイドキックみたいに想像して、科学者たちが正しいアミノ酸配列をより早く、正確に見つける手助けをしてくれる。
この方法はベイズスコアリング関数を使って、20種類の標準アミノ酸タイプが密度マップにどれだけフィットするかをランク付けするんだ。まるで手がかりを集めて謎を解くような感じ。そして畳み込みニューラルネットワーク(CNN)を活用して、タンパク質バックボーンの断片に対して最高のスコア配列を予測するんだ。
EMSequenceFinderの仕組み
EMSequenceFinderは、クライオEMマップ、バックボーントレース、アミノ酸配列を入力として取り込む。これらの配列をフィット具合でランク付けするって感じ。靴下を色別に分けるみたいに、どの配列がタンパク質の構造に一番合ってるか教えてくれる。
CNNは、以前のクライオEMマップと対応するタンパク質構造から膨大なデータを分析する重要な役割を果たす。これって人間がやったら何年もかかるけど、コンピュータなら数秒でできちゃう。このトレーニングされたCNNを使って、EMSequenceFinderは与えられたバックボーン構造に最適な配列を見つけることができる。
EMSequenceFinderのパフォーマンス
テストでは、EMSequenceFinderは中解像度のクライオEMマップのバックボーン断片の約77.8%に配列を正確に割り当てられることが示された。科学者たちがこの方法をSARS-CoV-2ウイルスの非構造タンパク質2(NSP2)を調べるのに使ったとき、かなりうまくいったんだ。解像度が3.7から7.0Åの間で、EMSequenceFinderは4Åで95%から6Åで約50%の精度を維持してた。
これは、数字を推測するところから実際にパズルを解くところまで行くみたいなもので、サイドキックとしてはなかなかのもんだ!
精度の重要性
なんでこの精度がそんなに重要かというと、タンパク質の完全で正確なモデルは、科学者がその機能を理解するだけじゃなく、薬や治療法の設計にも役立つから。宝探しの前に詳細な地図を持つようなもので、探してるものが見つけやすくなるんだ。
EMSequenceFinderをテストする
EMSequenceFinderが本物か確認するために、他の最先端の方法と比較された。結果は、特に中解像度マップで他の方法より優れていることを示した。他のツールが苦労してる間に、EMSequenceFinderは一貫してより良い結果を出してた。
まるで材料が欠けたレシピでケーキを焼こうとするみたい。EMSequenceFinderは全ての材料が揃ったレシピで、綺麗なケーキを作る手助けをする - つまり、完全なタンパク質モデルを作るのさ。
現実世界での応用
EMSequenceFinderの現実世界での応用は多岐にわたる。配列を正確に割り当てることが可能になったことで、科学者たちはより効率的に、余計な推測が少なく作業できるようになった。まるで重要な試験の前に勉強グループから秘密のノートをもらったみたい!
結論
要するに、タンパク質の構造を研究することは生物学を理解し、新しい治療法を開発するために必要不可欠なんだ。クライオ電子顕微鏡はこの分野で大きな進展を遂げたけど、特に低解像度ではまだ課題が残ってる。EMSequenceFinderの登場で、研究者たちはタンパク質モデルに正確に配列を割り当てる信頼できる方法を手に入れたことで、複雑なバイオ分子の世界をよりよくナビゲートできるようになったんだ。
科学者たちがこれらの課題に立ち向かい続ける限り、私たちは彼らが命の謎を1つずつ解き明かしていくのを期待するばかり。次の医療のブレイクスルーや生物メカニズムのより深い理解が待ってる中、未来は明るい!だから、技術とそれを使う勇敢な科学者たちに乾杯しよう!タンパク質の構造がより良くなり、興味深い発見がすぐそこに待ってることに乾杯!
タイトル: Recognizing amino acid sidechains in a medium resolution cryo-electron density map
概要: Building an accurate atomic structure model of a protein into a cryo-electron microscopy (cryo-EM) map at worse than 3 [A] resolution is difficult. To facilitate this task, we devised a method for assigning the amino acid residue sequence to the backbone fragments traced in an input cryo-EM map (EMSequenceFinder). EMSequenceFinder relies on a Bayesian scoring function for ranking 20 standard amino acid residue types at a given backbone position, based on the fit to a density map, map resolution, and secondary structure propensity. The fit to a density is quantified by a convolutional neural network that was trained on [~]5.56 million amino acid residue densities extracted from cryo-EM maps at 3-10 [A] resolution and corresponding atomic structure models deposited in the Electron Microscopy Data Bank (EMDB). We benchmarked EMSequenceFinder by predicting the sequences of 58,044 distinct [a]-helix and {beta}-strand fragments, given the fragment backbone coordinates fitted in their density maps. EMSequenceFinder identifies the correct sequence as the best-scoring sequence in 77.8% of these cases. We also assessed EMSequenceFinder on separate datasets of cryo-EM maps at resolutions from 4 to 6 [A]. The accuracy of EMSequenceFinder (63.5%) was better than that of two tested state-of-the-art methods, including findMysequence (45%) and sequence_from_map in Phenix (12.9%). We further illustrate EMSequenceFinder by threading the SARS-CoV-2 NSP2 sequence into eight cryo-EM maps at resolutions from 3.7 to 7.0 [A]. EMSequenceFinder is implemented in our open-source Integrative Modeling Platform (IMP) program. Thus, it is expected to be helpful for integrative structure modeling based on a cryo-EM map and other information, such as models of protein complex components and chemical crosslinks between them.
著者: Dibyendu Mondal, Vipul Kumar, Tadej Satler, Rakesh Ramachandran, Daniel Saltzberg, Ilan Chemmama, Kala Bharath Pilla, Ignacia Echeverria, Benjamin M. Webb, Meghna Gupta, Klim Verba, Andrej Sali
最終更新: 2024-12-12 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.12.10.627859
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.12.10.627859.full.pdf
ライセンス: https://creativecommons.org/licenses/by-nc/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。