Simple Science

最先端の科学をわかりやすく解説

# 生物学# 生物情報学

AIを使った抗体デザインの進展

AIは治療用抗体のデザインと開発を向上させてるよ。

― 1 分で読む


AIが抗体開発を変革中AIが抗体開発を変革中治療用抗体の設計を再定義する。
目次

私たちの免疫システムは健康を保つために欠かせないものだよ。主に2つの部分から成り立っていて、自然免疫システムと獲得免疫システムがあるんだ。獲得免疫システムは抗体っていうタンパク質を使って病気と戦うんだ。この抗体は私たちの体が病原体を標的にして排除するために作られるんだ。

最近、科学者たちは抗体を工学的に作ることを始めていて、150以上の治療用抗体を開発してさまざまな病気に対応しているよ。この工学的なプロセスは簡単じゃなくて、抗体のある機能を最適化すると、別の領域で効果が減ってしまうこともあるんだ。

抗体設計におけるAIの役割

人工知能(AI)は抗体設計の分野で大きな進展を遂げているんだ。AIを使うことで、科学者たちは欲しい特性を持った新しくて多様な抗体の選択肢をすぐに生成できるから、従来の方法と比べて時間が大幅に節約できるんだ。でも、AI技術が増えてくると、その性能を測るための一貫した基準を設定することが重要になってくるよ。

現在の抗体設計の評価方法は、実際に抗体がどれだけ効果的かを明確に表すことのできないシンプルな指標に頼っていることが多いんだ。これを改善するために、研究者たちは抗体の特性、例えば安定性や結合強度に関するさまざまな研究からデータを集めるプロジェクトを作ったんだ。

抗体のフィットネスランドスケープ(FLAb)

どの抗体がうまく機能するのかを理解するために、フィットネスランドスケープ(FLAb)という新しいツールが開発されたんだ。FLAbは、抗体のターゲットへの結合の良さや安定性などの重要な抗体特性をカバーする複数の研究から実験データを集めるよ。

FLAbが、通常の長い実験プロセスを経る前に新しい抗体設計を効果的にフィルタリングするモデルを作る手助けをしてくれることを期待しているんだ。

以前の研究を基にする

以前にもタンパク質の機能を予測するためのベンチマークを設定する試みがあったんだ。それがエンジニアが新しいタンパク質設計を作成するのに役立つ。注目すべきプロジェクトには、タンパク質を分類するクリティカルアセスメントオブファンクションアノテーション(CAFA)や、タンパク質の特性を予測する能力に基づいてさまざまなモデルを評価するタスクアセスメントオブプロテインエンベッディング(TAPE)があるよ。

でも、これらの以前の試みには抗体データが含まれていなかったから、抗体のフィットネスに特化した新しいデータベースが必要なんだ。抗体の配列や構造データを集めた既存のデータベースはあるけど、抗体の有効性を評価するのに重要なフィットネスメトリクスが含まれていないんだ。

抗体の開発可能性を定義する

効果的な抗体を作るには、通常6つの重要な特性を考慮するんだ:

  1. 高い発現レベル
  2. 異なる条件での強い安定性
  3. 免疫反応を引き起こす低いレベル
  4. ターゲットに対する高い親和性
  5. 集塊が形成される低い可能性
  6. 複数のターゲットに反応する低い傾向

この取り組みでは、17の抗体データのグループを集めたよ。このコレクションにある各抗体には、これら6つの特性に関連するさまざまなパフォーマンスメトリクスが含まれているんだ。目標は、新しい抗体設計がどれだけパフォーマンスを発揮できるかをモデルが正確に予測できるかどうかを確認することなんだ。

深層学習モデルの評価

特定のモデルが抗体の効果をどれだけ予測できるかを評価するために、体系的なアプローチが作られたんだ。研究者たちは、各モデルの入力として抗体の配列や構造を使い、その予測能力を測定するよ。

評価には、モデルの信頼性と実際のフィットネスメトリクスとの関係を確認することも含まれるんだ。信頼性は「パープレキシティ」と呼ばれる値で示されていて、パープレキシティが低いほどモデルはその予測に自信を持っているってことなんだ。

次の配列の部分を予測することだけに焦点を当てたモデルや、構造を評価して予測を作成するモデルなど、さまざまなタイプのモデルが試されているよ。従来の物理に基づくモデルと比較するために、ロゼッタエネルギー計算のデータも含まれているんだ。

予測の相関関係

研究者たちは、これらのモデルからの可能性が実際に測定されたフィットネスと相関するかどうかを調べたんだ。評価では、いくつかのモデルがさまざまなデータセットで異なる成功レベルを示したけど、ProGen2-Smallというモデルは特にうまくいったんだ。

特定のケースでは、どの抗体の変異がより安定であるかを正しく予測できたんだけど、逆に他の状況では、特に免疫反応を評価する際にモデルが信頼スコアを誤って割り当てることもあったんだ。

予測トレンドの理解

研究者たちは、モデルが基本的特性の予測に優れているのか、外部要因に影響される特性の予測に優れているのかを調べたんだ。彼らは、モデルが安定性のような内因性特性については比較的良く機能するのに対し、結合親和性や免疫反応のような外因性特性についてはあまり良くないことを発見したよ。

また、モデルが同じ起源の抗体データを予測する場合と異なるタイプの抗体データを予測する場合でパフォーマンスが異なることも分かった。モデルは、同じ抗体の変異を区別する際にはより良く機能し、異なるファミリーの抗体を比較する場合よりもパフォーマンスが良かったんだ。

モデルのパフォーマンスに影響を与える要因

研究者たちは、深層学習モデルのさまざまな側面がそのパフォーマンスにどのように影響を与えるかを調べたんだ。彼らは、モデルのサイズやパラメータの数が、特定のアーキテクチャやトレーニングデータの種類よりも予測に大きな影響を与えることを発見したよ。

例えば、大きなモデルは通常、特に安定性のような特性についての予測を行うのにより良い結果を示すんだけど、結合親和性や免疫反応に関する予測では、モデルのサイズが大きくなるにつれて同じような改善が見られなかったんだ。

構造と配列の影響

研究者たちは、モデルで構造情報を使うと予測結果が良くなるのかを知りたかったんだ。彼らは、配列ベースのモデルと構造データを使用したモデルを比較したよ。

全体的に、配列ベースのモデルはさまざまな基準でのパフォーマンスが良く、特に熱安定性の予測で優れていたんだ。本来、構造モデルは物理的な構造に関する事前にエンコードされた情報を持っているから有利なはずだけど、彼らには予測をさらに高める特定の抗原データが欠けていたんだ。

進化の信号と物理的フィットネス

別の調査では、モデルが実際のフィットネス特性よりも進化的な関係を優先するかどうかを調べたんだ。多くの場合、進化的データに依存するモデルは、よりよいパフォーマンスを提供する可能性のある変異よりも、進化によって保存された変異を優先することがあるんだ。

その結果、一部のモデルは物理的な特性よりも進化的なパターンに基づいて抗体に対してより高い信頼を与えることがあって、予測に悪影響を及ぼす可能性があるよ。未来の開発では、物理的原則と進化的データを統合して精度を改善することが含まれるかもしれないね。

結論と今後の方向性

研究者たちは抗体の特性に特化したデータベースを成功裏に作成し、さまざまな深層学習モデルをベンチマークしたんだけど、どのモデルもテストされたすべての特性とよく相関しているわけではなかったんだ。

結果からは、外部要因に影響される特性よりも内因性特性の方が予測しやすいことが示されているよ。さらに、モデルのパラメータの数が成功の大きな要因のようで、トレーニングデータやモデル設計の詳細よりも重要みたい。

今後の研究では、構造データや物理に基づく原則、新しいフィットネスデータを統合してモデルを強化する可能性があるんだ。ただ、特に結合親和性を予測するタスクのように、これらのモデルを効果的に訓練するためには、より多くのデータポイントが必要なんだ。

研究者たちは、より詳細なメトリクスやデータを集め続けているから、計算的な方法を通じてより信頼できる効果的な抗体療法を作り出すことを目指しているんだ。

オリジナルソース

タイトル: FLAb: Benchmarking deep learning methods for antibody fitness prediction

概要: The successful application of machine learning in therapeutic antibody design relies heavily on the ability of models to accurately represent the sequence-structure-function landscape, also known as the fitness landscape. Previous protein bench-marks (including The Critical Assessment of Function Annotation [33], Tasks Assessing Protein Embeddings [23], and FLIP [6]) examine fitness and mutational landscapes across many protein families, but they either exclude antibody data or use very little of it. In light of this, we present the Fitness Landscape for Antibodies (FLAb), the largest therapeutic antibody design benchmark to date. FLAb currently encompasses six properties of therapeutic antibodies: (1) expression, (2) thermosta-bility, (3) immunogenicity, (4) aggregation, (5) polyreactivity, and (6) binding affinity. We use FLAb to assess the performance of various widely adopted, pretrained, deep learning models for proteins (IgLM [28], AntiBERTy [26], ProtGPT2 [11], ProGen2 [21], ProteinMPNN [7], and ESM-IF [13]); and compare them to physics-based Rosetta [1]. Overall, no models are able to correlate with all properties or across multiple datasets of similar properties, indicating that more work is needed in prediction of antibody fitness. Additionally, we elucidate how wild type origin, deep learning architecture, training data composition, parameter size, and evolutionary signal affect performance, and we identify which fitness landscapes are more readily captured by each protein model. To promote an expansion on therapeutic antibody design benchmarking, all FLAb data are freely accessible and open for additional contribution at https://github.com/Graylab/FLAb.

著者: Michael Chungyoun, J. A. Ruffolo, J. J. Gray

最終更新: 2024-01-15 00:00:00

言語: English

ソースURL: https://www.biorxiv.org/content/10.1101/2024.01.13.575504

ソースPDF: https://www.biorxiv.org/content/10.1101/2024.01.13.575504.full.pdf

ライセンス: https://creativecommons.org/licenses/by-nc/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。

類似の記事

機械学習レコメンダーシステムのトレーニング安定性を改善する

この研究は、YouTubeみたいなプラットフォームのレコメンデーションモデルのトレーニングの安定性を高めることに焦点を当ててるよ。

― 1 分で読む