カスタム酵素とデザインにおけるAIの役割
科学者たちはAIを使ってバイオケミストリー研究を強化するための特注酵素を作り出した。
Sergio Romero-Romero, Alexander E. Braun, Timo Kossendey, Noelia Ferruz, Steffen Schmidt, Birte Höcker
― 1 分で読む
魔法のポーションがあれば、すべてがうまくいくって思ったことある?生化学の世界では、科学者たちがそれに似たものを作ろうとしてるんだ。それがカスタムメイドの酵素。これらの小さなタンパク質は工場の労働者みたいなもので、体内の化学反応を加速させる手助けをしてる。目標は、特定の仕事をうまくこなせる酵素をデザインすることなんだ。
先進的なコンピュータープログラムのおかげで、ゼロからこれらの酵素を作ることが可能になった。研究者たちは、まるでブロックを組み立てるかのように、自分たちが望む形にぴったりはまるタンパク質を開発しているんだ。超効果的な薬のバインダーを作ったり、生き物の内部で働くタンパク質を生産したり、既存の酵素を改良して新しい機能を追加したりもできる。
でも、小さな分子に結合できる酵素を作ったり、複雑な反応を実行したりするのは、まだまだ課題がある。まるで四角いペグを丸い穴に入れようとしてるみたい。科学者たちは、タンパク質のビルディングブロックを正確に配置しつつ、全体の構造が効率的に機能するためにコンパクトである必要があるんだ。
最近、人工知能(AI)が登場した。AIはタンパク質がどう折りたたまれて組み合わさるかを予測できるから、デザインプロセスが早く効率的になった。この新しい技術はすごくエキサイティングで、酵素デザインに大きな影響を与えてる。AIを使って、科学者たちはユニークなタンパク質の配列や構造を生成するための新しいツールを開発した。
でも、タンパク質の物理的な構造をデザインするだけじゃなくて、タンパク質の「言語」を理解することも重要なんだ。科学者たちは、自然言語処理(NLP)ツールを使って、配列から直接タンパク質を作る方法を模索している。このアプローチは新たな可能性を開き、研究者たちがタンパク質配列の広大な世界を探求できるようにしている。
大規模な言語モデル(LLM)を活用することで、科学者たちは新しいタンパク質の配列を分析したり、注釈をつけたり、さらには生成したりできる。ProtGPT2というモデルは、異なる構造とサイズを持つユニークなタンパク質の配列を生成できる能力を示した。他のモデルは、特定のタンパク質ファミリーに焦点を当てて調整されている。
この研究では、科学者たちはトリオースリン酸アイソメラーゼ(TIM)反応という特定の反応を触媒できる機能的な酵素を作ることに興味を持っている。この酵素は、いくつかの代謝経路で重要な役割を果たし、細胞がエネルギーバランスを維持するのを助けている。自然の酵素とは異なる新しいタンパク質を生成することで、研究者たちはこれらの新しい配列がどのくらい機能するかを評価したいと考えている。
TIMのような酵素の作成
TIM酵素は本当にすごいんだ。一つの分子を別の分子に変えるのを手伝ってくれる。このプロセスは、細胞をエネルギーで満たすために必須なんだ。TIMは、特定の仕事に完璧にフィットする熟練の労働者みたいなもので、そのタスクを効率的に実行できる独特の構造を持っている。
研究者たちは新しいTIM酵素を作るために、自然の酵素がなぜそんなに効果的かを考慮する必要があった。彼らは、その形と機能を真似つつ、際立つほど独自のタンパク質をデザインすることを目指していた。すでに、科学の魔法が始まる準備が整っていた。
2つの異なるAI駆動のアプローチが、新しいTIM配列を生成するために採用された。最初の方法は、特定のタグに基づいて結果を生成する条件付きモデルZymCTRLを使用した。2つ目のアプローチは、条件なしに配列を生成するProtGPT2を使用した。つまり、より広いデータベースのタンパク質を利用しているってこと。
最終的な目標は、TIM反応を効率的に触媒できるタンパク質を生成することだった。そのために、研究者たちはフィルターを使って最も有望な候補だけを選別した。彼らは、長さや同一性を見ながら、新しい配列が既存の酵素とは異なることを確認したんだ。
配列の豊富さ
ZymCTRLを使って、研究者たちはTIM入力に基づいて驚くべき90,000の潜在的な酵素配列を生成した。すごいと思うけど、これらの配列を注意深く精査することが重要だった。自然のTIMに似ているけど、あまり似すぎていないものに焦点を当てる必要があったんだ。
フィルタリングが重要だった。例えば、既存のタンパク質と35%以上の同一性を持つ配列は捨てた。これにより、新しい配列が十分にユニークであることを保証した。まあ、一日の仕事としては悪くないでしょ?
フィルタリングの後、彼らは多様な配列のプールを得て、その多くは自然のTIM酵素に見られる典型的な長さを模倣していた。これらの配列はさらに評価され、酵素が効果的に機能するために必要な基本的な特性を維持しているかどうかを確認した。
最終的な選択の中から、12の有望な新しい配列が出てきた。研究者たちは、これらの候補が実際に仕事を果たせるかどうかをテストするのを楽しみにしていた。
タンパク質のテスト
新しいTIM配列が選ばれたら、実際に機能するか確認する時が来た。研究者たちは、最も有望な候補を取って、科学研究でよく使われる普通の細菌E. coliで厳しいテストを行った。
目標は、これらの新しいタンパク質が自然のTIM酵素なしで細菌の成長を助けられるかどうかを見ることだった。基本的に、新しいタンパク質が効果的であれば、細菌は繁栄する。そうでなければ、成長に苦戦することになるんだ。
結果が出て、12の選ばれた配列の中から、3つが本当に有望で、細菌の成長を効果的に助けた。その中で、SpokenTIM9が最高のパフォーマンスを見せた。この小さなタンパク質は、スポーツチームのスター選手のように、強い成長ポテンシャルを示したんだ。
SpokenTIM9は自然のTIMほど効率的ではなかったけど、その独自のデザインを考慮すれば、パフォーマンスは素晴らしかった。これにより、AI駆動のアプローチで新しい酵素をゼロから作ることができる可能性があることが示された。
フィルタリングと洗練の技術
研究者たちが作業を続ける中で、フィルタリングプロセスをもっと改善できることに気づいた。結局のところ、優れたチームには戦略を見直すことが必要なんだ。彼らは、配列を選ぶ際の基準を再評価することで、成功の可能性を高めようとしていた。
たとえば、タンパク質配列のネットチャージにもっと注目した。タンパク質が溶解性を保つのが重要で、そうしないと仕事をする時にべたついたり塊になったりするからね。研究者たちはまた、生成されたタンパク質の疎水性特性を分析して、不要な相互作用を避けるようにした。
ProtGPT2モデルの微調整も行われた。自然のTIM配列に条件を付けることで、研究者たちはさらに良い候補を生成できた。新しいフィルタリング方法を適用した結果、望ましい特性を持つ配列が得られたんだ。
新しい世代の酵素
洗練された戦略を駆使して、研究者たちは機能的なTIMを探し続けた。彼らは12の新しい候補を選び、gptTIMsと名付けた。テストの結果、これらの新しいタンパク質のうち2つが細菌の成長を助けることができ、微調整プロセスが効果的だったことを証明したんだ。
ZymCTRLとProtGPT2プロセスの組み合わせにより、研究者たちは機能的な酵素の新しいバッチを作成することができた。これはエキサイティングな瞬間で、酵素デザインの分野におけるAIの可能性を示している。
SpokenTIM9を生み出す
SpokenTIM9が最高の候補として認識され、科学者たちはその特性をさらに深く研究することに焦点を当てた。彼らはテスト用にクリーンなサンプルを確保するため、細菌からタンパク質を精製した。
彼らが見つけたのは励みになるものだった。SpokenTIM9の構造は自然のTIM酵素に似ていて、効果的に機能する兆しだった。彼らは、ビフィジカル測定を通じてその良い折りたたみ状態を確認した。これは新しいスポーツカーのエンジンをチェックするみたいなもんだ。
彼らはまた、その活性を調べ、ラボでTIM反応をどれだけ効率的に触媒できるかを試してみた。SpokenTIM9は期待を示したが、自然のTIMの約30倍の効率的ではなかった。でも、ゼロから作られた酵素としては驚くべき達成だったんだ。
結論と今後の方向性
AIを使ってカスタム酵素を作る旅は、すごくエキサイティングだった。研究者たちは、タンパク質の言語を理解し、複雑なタスクを実行できる新しい配列をデザインする上で大きな進展を遂げた。
機能的な酵素の成功した生成は、タンパク質デザインの新しい時代を示している。まだ克服すべき課題はあるけど、オーダーメイドの酵素を作る可能性は、医療や産業など、いろんな分野での進展を期待させる。
探求と洗練を続ければ、次にどんな革新が生まれるかわからない。酵素デザインの未来は明るく、私たち全員にとって役立つ発見で満ちていること間違いなしだ。結局のところ、誰もが少しの魔法を手に入れたいと思うよね?
タイトル: De novo design of triosephosphate isomerases using generative language models
概要: The design of proteins with tailored functions is of immense interest to biotechnology, medicine, and the chemical industry. While protein design is rapidly evolving with the use of AI techniques, the design of complex enzymes remains a challenge. Here, we present the use of two large language models (LLMs), ZymCTRL and ProtGPT2, for the generation of de novo enzymes that catalyze the triosephosphate isomerase (TIM) reaction. Natural TIM enzymes are obligatory oligomers that catalyze a multi-step isomerization reaction near the diffusion limit. This makes TIM an ideal target to assess the generative ability of protein language models. Newly generated sequences were filtered to obtain a set of twelve candidates from each approach for experimental validation. Multiple constructs from both language models exhibit the intended function in vivo through their ability to complement a TIM-deficient E. coli strain. In-depth characterization of the best-behaving artificial enzyme reveals behavior and catalytic efficiency close to its natural counterparts. These findings support the use of conditional and fine-tuned unconditional LLMs for the generation of complex enzymes.
著者: Sergio Romero-Romero, Alexander E. Braun, Timo Kossendey, Noelia Ferruz, Steffen Schmidt, Birte Höcker
最終更新: 2024-11-10 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.11.10.622869
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.11.10.622869.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。