AIモデルによるタンパク質工学の進展
言語モデルは、医療のためのタンパク質設計を変えている。
― 1 分で読む
目次
タンパク質は全ての生き物にとって重要だよ。細胞の中でいろんな役割を果たしてる。科学者たちは、医療や研究に使う新しいタンパク質を作る方法をずっと探してるんだ。最近の人工知能の進展、特に言語モデルを使ったものは、タンパク質の設計と生産をもっと効率的にできそうな期待を持たせてる。
言語モデルって何?
言語モデルは、データのパターンを学べるコンピュータープログラムのこと。自然言語処理に使われることが多いけど、最近ではタンパク質の配列みたいな生物学的データを理解するのにも使われてる。単に言葉を見るのではなく、タンパク質を構成するアミノ酸の配列を分析するんだ。
タンパク質言語モデルの現在の限界
従来のタンパク質言語モデルには限界があるんだ。既知のアミノ酸のセットからしかタンパク質を生成できないから、新しいアミノ酸や改変された形のタンパク質を作れないんだ。この制約が、科学者たちがタンパク質設計の可能性を十分に探るのを妨げてる。
化学言語モデルの可能性
化学言語モデルは違ってて、原子レベルで小さな分子を分析するんだ。すべての原子、結合、構造を考慮するから、分子間の相互作用をより詳しく理解できる。研究者たちは、これらの化学モデルがタンパク質を理解し生成するのに使えることを見つけた。タンパク質を原子の詳細に分解することで、標準的な遺伝コードを超えたタンパク質を作れるようになるんだ。
原子ごとにタンパク質を生成する
重要な発見の一つは、これらの化学言語モデルがタンパク質を原子ごとに生成できること。これには、タンパク質を定義する分子情報のさまざまなレベル、アミノ酸の基本的な配列からより複雑な構造まで理解することが含まれる。これらのモデルを使うことで、自然界には存在しない修飾されたサイドチェーンを持つ新しいタイプのタンパク質を作れるんだ。
新しい化学空間を探索する
研究は、これらのモデルがタンパク質を作るだけでなく、化学化合物の領域も探索できることを示してる。つまり、タンパク質を小さな薬のような分子と組み合わせて、まったく新しい化合物を生成できるんだ。この化合物は、特定の病気、例えば癌の治療に使われる可能性があって、健康な細胞を傷つけずに病んだ細胞をターゲットにする薬を設計できる。
タンパク質工学の重要性
タンパク質工学は多くの科学分野で重要だよ。エンジニアは、ウイルスや癌と戦うため、また遺伝病を治療するためにタンパク質を修正する。言語モデルがこのプロセスを助けられれば、研究と開発が大いに加速されるだろう。タンパク質構造の予測がより正確になれば、科学者は効果的な治療法を早く設計できるんだ。
モデルをトレーニングするために使われるデータセット
これらの言語モデルを効果的にトレーニングするために、研究者たちは様々なデータセットを集めた。50から150アミノ酸で構成されるタンパク質に焦点を当てたんだ。これは多くの機能的タンパク質の一般的なサイズ rangeだから。データセットには、科学者たちがタンパク質の構造とその機能を記録するデータベースのタンパク質が含まれてる。
研究者たちは、人工的なデータセットも作成した。そこには不自然なアミノ酸を持つように修正されたタンパク質や、小さな分子に結びついたタンパク質が含まれてる。これによって、モデルはより広範な例から学ぶことができ、新しいタンパク質を生成する能力がさらに向上するんだ。
言語モデルのトレーニングプロセス
トレーニングプロセスでは、タンパク質データをモデルが理解できるフォーマットに解析する。これには、タンパク質の構造を原子的な要素を表す線形文字列に変換することが含まれる。モデルはこれらの文字列を分析して、これまで見た文脈に基づいて次の部分を予測して学ぶ。
モデルはこれらの配列の中のパターンを認識するように設計されてる。トレーニングの後、新しい配列を生成することで、本物のタンパク質の特性を模倣することができる。
パフォーマンス評価
新しいタンパク質配列を生成した後、研究者たちはそれらがどれだけ実際のタンパク質に対応しているかを評価する。彼らは、タンパク質がその配列に基づいてどう折りたたまれるかを予測するAlphaFoldのようなツールを使用する。この評価により、生成されたタンパク質が有効な配列を持つだけでなく、信頼できる構造も持っていることを確保するんだ。
彼らは、生成されたサンプルのかなりの割合が、確かに正確に予測できる構造を持つタンパク質であることを発見した。これはモデルが効果的に学んでいることを示してる。
修正されたタンパク質の生成
標準的なタンパク質を生成するだけでなく、モデルは不自然なアミノ酸を含むタンパク質を作るようにも任されてた。モデルは、既存の配列を変更して新しい要素を取り入れる方法を学んだ、それでも構造的には安定さを保ってる。
この能力は、現在の生物学的システムではサポートされていない全く新しい機能や特性を持つタンパク質を作る扉を開くんだ。
抗体薬物複合体
これらの言語モデルのもう一つのエキサイティングな応用は、抗体薬物複合体の設計だ。これは、癌のような病気の標的療法に使われる特別なタンパク質。特定の細胞を認識して結びつく抗体と、それらの細胞を殺す薬をつなげるんだ。
研究者たちはさまざまな小さな分子に抗体を結びつける実験をした。タンパク質と薬の両方を理解するために言語モデルをトレーニングすることで、治療的な文脈でより良い結果をもたらす新しい組み合わせを生成できるんだ。
結果
これらの実験の結果、言語モデルは一般的に知られているタンパク質に似た新しいタンパク質を生み出すのに成功したことが示された。生成されたタンパク質は良好な構造的整合性を保っていて、アミノ酸配列とタンパク質の機能の間に意味のある関係を学んでいることを示してる。
研究は、これらのモデルが科学者たちがバイオ分子設計にアプローチする方法を変える可能性を持っていることを明らかにした。今までは既知のタンパク質だけを使っていたが、これからは全く新しい分子を多様な用途で作り出すことができるようになるんだ。
将来の方向性
最初の結果は期待できるけど、まだやるべきことがたくさんある。今後の取り組みは、モデルの精度を改善し、その範囲を広げることに焦点を当てる予定。これには、より大きなタンパク質や複雑な構造を生成する方法を開発することが含まれる。
さらに、モデルがタンパク質の三次元形状をどれだけ正確に予測できるかも重要。正確な3D表現がないと、新しく生成されたタンパク質が意図した通りに機能するか確かめるのが難しいんだ。
結論
言語モデルを使ったタンパク質生成の進展は、タンパク質工学における重要なステップを意味してる。アミノ酸配列から原子の表現へ焦点を移すことで、研究者たちはタンパク質設計の新しい可能性を見出せるんだ。不自然なタンパク質を作成し、化学化合物の空間を探索する能力は、医療やバイオテクノロジーの分野においてワクワクする機会を提供してる。
技術が進展し続けることで、新しいタンパク質や治療法を発見する可能性はますます広がって、バイオ分子科学の新しいフロンティアを切り開いていくんだ。
タイトル: Atom-by-atom protein generation and beyond with language models
概要: Protein language models learn powerful representations directly from sequences of amino acids. However, they are constrained to generate proteins with only the set of amino acids represented in their vocabulary. In contrast, chemical language models learn atom-level representations of smaller molecules that include every atom, bond, and ring. In this work, we show that chemical language models can learn atom-level representations of proteins enabling protein generation unconstrained to the standard genetic code and far beyond it. In doing so, we show that language models can generate entire proteins atom by atom -- effectively learning the multiple hierarchical layers of molecular information that define proteins from their primary sequence to their secondary, and tertiary structure. We demonstrate language models are able to explore beyond protein space -- generating proteins with modified sidechains that form unnatural amino acids. Even further, we find that language models can explore chemical space and protein space simultaneously and generate novel examples of protein-drug conjugates. The results demonstrate the potential for biomolecular design at the atom level using language models.
著者: Daniel Flam-Shepherd, Kevin Zhu, Alán Aspuru-Guzik
最終更新: 2023-08-16 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2308.09482
ソースPDF: https://arxiv.org/pdf/2308.09482
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。