ペプチド毒性テストの進展
新しい方法がヘモリティックペプチドの毒性予測を改善して、安全な薬の開発につながる。
― 1 分で読む
目次
新薬の開発とテストは複雑でお金がかかるプロセスなんだ。時間もかかるし、リスクもいっぱいある。薬を作る旅は、病気の理解から臨床試験までいくつかのステップがあるんだ。最近、ペプチドベースの薬に対する関心が高まってて、従来の薬よりもいくつかの利点があるんだ。これらの利点には、効果の高さ、より正確なターゲティング、免疫反応を引き起こす可能性の低さ、他の薬との相互作用リスクの低さが含まれるよ。これらの薬の開発コストも他の薬に比べて低い。
2016年から2023年の間に、31のペプチド薬がFDAに承認されて、これはこの期間に承認された全薬の8%以上を占めてるんだ。それに、現在200以上のペプチドが臨床試験中で、さらに約600が初期研究段階にある。ポテンシャルがあるにも関わらず、多くのペプチド薬はテスト中に失敗するのが主な理由は、安全性と効果の基準を満たさないから。これには、体がこれらの薬を吸収して処理するのがうまくいかないことが大きな理由だよ。だから、早い段階でこれらの薬の特性をテストして改善できることがすごく重要なんだ。
毒性テストの重要性
ペプチドベースの薬を開発する際の主な課題の一つが毒性で、これには主に3つのタイプがある:細胞に影響を与える細胞毒性、赤血球にダメージを与える血液毒性、アレルギー反応を引き起こす免疫毒性。ヘモリティック濃度(HC50)は、ペプチドがどれだけ毒性を持っているかを評価するためによく使われる指標だ。これは、通常の条件下で人間の赤血球を50%破壊するのに必要なペプチドの量を示すんだ。多くの陽イオン性アミノ酸を持つペプチドは、これらの細胞の負に帯電した表面と相互作用するため、赤血球にダメージを与える傾向がある。
最近、どのペプチドが血液毒性があるかを予測するためのいくつかのコンピューターベースのメソッドが作られた。これらのツールのほとんどは、血液毒性ペプチドの特定のデータベースからのデータに依存している。一部の注目すべき機械学習アプローチが開発されて、血液毒性ペプチドの予測を向上させている。これらのツールは、予測の正確性を高めることを目指していて、効率性とコスト効果も確保してるんだ。
血液毒性ペプチドの予測の課題
血液毒性ペプチドの予測において進展があったけど、まだ改善の余地がある。多くの既存のメソッドは、すべての脊椎動物に広く当てはまるデータを使用していて、人間への応用には特異性が足りないかもしれない。それに、これらのメソッドはペプチドのHC50値を予測する方法を提供しないことが多く、これは薬の開発において重要な要素なんだ。
この課題に取り組むために、HemoPI2という新しいメソッドが提案された。このメソッドは、血液毒性ペプチドの検証済みデータセットで訓練されて、機械学習と最先端の予測アルゴリズムを組み合わせて、より正確な予測を提供するんだ。
データ収集と前処理
HemoPI2のデータは、血液毒性ペプチドに関する実験情報を含む包括的なデータベースから集められた。3147のペプチドが1つのデータベースから集められ、560が別のデータベースから集められたんだ。これは、既知のHC50値を持つものに焦点を当てている。非天然アミノ酸を含むペプチドや、アミノ酸が6個未満のペプチドはデータセットから除外された。もしペプチドに複数のHC50値があれば、平均を計算してその全体的な血液毒性の挙動を表すんだ。
HemoPI2の最終データセットは、1926のユニークなペプチドからなり、それぞれの血液毒性濃度とペアになっていて、研究者がHC50値に基づいてペプチドを分類できるようになっている。特定の基準を使って、HC50が≤ 100 μMのペプチドは血液毒性ありとラベル付けされ、より高い値のものは非血液毒性と分類された。
分類と回帰アプローチ
この研究において回帰分析の主なターゲットは、負の対数HC50(pHC50)で、これによってHC50値の広い範囲を分析しやすくしている。これは生物学データを扱うための一般的な方法で、予測モデルのパフォーマンスを向上させる。
予測モデルのために、データはランダムにトレーニングセットと独立したテストセットに分けられた。トレーニングセットは、5分割交差検証アプローチを使ってモデルを開発し、検証するために使用された。この方法では、データを5つの部分に分けてモデルのパフォーマンスをしっかりテストするんだ。
ペプチドを正確に説明するためには、特徴抽出が重要だ。アミノ酸組成、ジペプチド組成、物理化学的特性など、ペプチド配列からさまざまな記述子が導き出された。合計1092の特徴が抽出され、予測モデルを生成する基礎を形成している。
血液毒性ペプチドの分析
アミノ酸組成
血液毒性ペプチドと非血液毒性ペプチドのアミノ酸組成を調べると、明確な違いが見つかった。システイン、フェニルアラニン、グリシン、ロイシンなどの疎水性残基が、非血液毒性ペプチドに比べて血液毒性ペプチドに多く含まれていることがわかった。これは、特定のアミノ酸が血液毒性に貢献する重要性を強調している。
位置の好み
ペプチド配列内の異なるアミノ酸がどのように配置されているかを見ることで、さらに洞察が得られた。特定の疎水性残基は、血液毒性ペプチドの開始部分により多く存在していて、非血液毒性ペプチドはより多くの陽イオン性残基が見られた。この情報は、血液毒性ペプチドと非血液毒性ペプチドを区別する予測モデルを洗練させる手助けになるかもしれない。
モチーフ分析
モチーフ分析が行われて、血液毒性ペプチドと非血液毒性ペプチド内の重要な配列パターンが特定された。血液毒性ペプチドに特有のいくつかのユニークなモチーフが見つかって、より正確な予測ツールの開発に役立つかもしれない。これらのモチーフを特定することは、予測の正確性を高めるだけでなく、血液毒性に関与するメカニズムの理解を深める助けにもなる。
相関分析
相関分析が行われて、ペプチドから抽出された特徴とそのHC50濃度との関係を特定した。これにより、血液毒性を決定するのに影響力のある特定の特性が浮き彫りになった。これらの相関関係を知っていることで、研究者が安全なペプチドを設計するのに役立つんだ。
機械学習モデル
血液毒性ペプチドと非血液毒性ペプチドを分類するために、多様な機械学習分類器が使用された。Extra Trees、サポートベクターマシン、ランダムフォレストなどのモデルが使われ、パフォーマンスのレベルは様々だった。特に、ランダムフォレストモデルは、処理できる特徴の複雑さと豊かさに基づいて強力な予測能力を示した。
従来の機械学習モデルに加えて、高度なタンパク質言語モデルがペプチド配列からの文脈情報を捉えるために利用された。これらのモデルは、膨大なデータセットのタンパク質配列で訓練され、高次元の埋め込みを生成して、血液毒性の予測を大幅に向上させたんだ。
精度向上のためのハイブリッドモデル
予測精度を最大化するために、モチーフからの特徴情報と機械学習モデルを組み合わせたハイブリッドアプローチが取られた。重み付けスコアリング技術を適用して、モチーフベースのメソッドからの予測を機械学習の出力と統合し、分類を洗練させた。この方法では、真陽性率と偽陽性率のバランスを取りながら、より情報に基づいた予測ができるようになった。
HC50値予測のための回帰モデル
HC50値を直接予測するための回帰モデルも開発された。ランダムフォレストやExtra Trees回帰器などのさまざまな手法が利用され、期待される結果を示している。言語モデルからの埋め込みを使用することで、予測の精度がさらに向上し、治療用ペプチド開発により適用できるようになった。
パフォーマンス評価
予測モデルのパフォーマンスを評価することは、その信頼性を確立するのに重要なんだ。分類の場合、感度、特異度、精度といった指標が使われ、回帰分析では、ピアソン相関係数と平均絶対誤差を使用して予測の精度を評価した。
HemoPI2メソッドは、血液毒性を予測する既存のツールと比較され、優れたパフォーマンスが明らかになった。HemoPI2は高い曲線下面積(AUC)を達成し、血液毒性と非血液毒性ペプチドを区別するのに効果的であることを示している。
結論
HemoPI2は、ペプチドの主な配列に基づいて血液毒性ペプチドを分類し定量化する能力において重要な進展を示す。治療用ペプチド開発における実用的な応用に焦点を当てているこのツールは、薬の発見プロセスを効率化し、より安全なペプチドベースの薬の設計を向上させる可能性がある。機械学習、構造分析、モチーフの特定の組み合わせにより、HemoPI2はこの分野の研究者にとって価値あるリソースとして位置付けられている。
この取り組みは、ペプチドの毒性と治療指数の理解に大きな影響を与える可能性があり、薬の設計における患者の安全性を優先するさらなる発展への道を開く。HemoPI2がオンラインで自由に利用できるようにすることで、科学コミュニティがさまざまな応用のためにこのツールを活用でき、最終的にはペプチド治療の進展に寄与することが期待される。
アミノ酸組成、位置の好み、ユニークなモチーフ、相関の発見に関する詳細は、ペプチド薬の設計を改善するための継続的な研究に向けた豊かな基盤を提供している。
タイトル: Prediction of Hemolytic Peptides and their Hemolytic Concentration (HC50)
概要: Several peptide-based drugs fail in clinical trials due to their toxicity or hemolytic activity against red blood cells (RBCs). Existing methods predict hemolytic peptides but not the concentration (HC50) required to lyse 50% of RBCs. In this study, we developed a classification model and regression model to identify and quantify the hemolytic activity of peptides. Our models were trained and validated on 1924 peptides with experimentally determined HC50 against mammalian RBCs. Analysis indicates that hydrophobic and positively charged residues were associated with higher hemolytic activity. Our classification models achieved a maximum AUC of 0.909 using a hybrid model of ESM-2 and a motif-based approach. Regression models using compositional features achieved R of 0.739 with R{superscript 2} of 0.543. Our models outperform existing methods and are implemented in the web-based platform HemoPI2 and standalone software for designing hemolytic peptides with desired HC50 values (http://webs.iiitd.edu.in/raghava/hemopi2/). HighlightsO_LIDeveloped classification and regression models to predict hemolytic activity and HC50 values of peptides. C_LIO_LIA hybrid model combining machine learning and motif prediction excels in accuracy. C_LIO_LIBenchmarking of the existing classification methods on independent datasets. C_LIO_LIWeb server, standalone software, and pip package for hemolytic activity prediction of peptides/proteins. C_LI
著者: Gajendra P.S. Raghava, A. S. Rathore, N. Kumar, S. Choudhury, N. K. Mehta
最終更新: 2024-07-24 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.07.23.604887
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.07.23.604887.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。