抗生物質耐性に対抗する新しい方法
研究者たちがE. coliに対する抗菌ペプチドの効果を予測するツールを開発した。
― 1 分で読む
1940年代、抗生物質は細菌感染から人々が回復する手助けをし、死亡率を下げることで医学を変えたんだ。でも、すぐに抗生物質耐性やアレルギーといった新しい問題が出てきた。2000年代初めには、多くの抗生物質があまり効かなくなり、毎年約500万人が亡くなっている。この数字は2050年までに1000万に増えるかもしれない。伝統的な抗生物質に対する細菌の耐性が増してきていて、これは今や深刻なグローバルな問題で、新しい感染症治療法が必要なんだ。
この問題に立ち向かうために、研究者たちはより特異的で耐性を引き起こす可能性の少ない生物学的基盤の代替治療に注目してる。期待される分野の一つは、抗菌ペプチド(AMP)やモノクローナル抗体(mAbs)などのペプチドとタンパク質を使うこと。AMPは、耐性のある薬に対しても効果的に様々な細菌と戦うことができる。彼らは迅速に働き、細菌が耐性になる可能性を減少させるための独自の方法を使う。AMPは、その特別な構造によって細菌の膜を破壊できるので、負に帯電した細胞をターゲットにできる。
データベースの役割
AMPへの関心が高まる中、研究者たちはこれらのペプチドに関する貴重な情報を保存するためにいくつかのデータベースを作成した。最初の主要なデータベースは、2004年に始まった抗菌ペプチドデータベース(APD)で、腫瘍、ウイルス、真菌、細菌と戦う能力を含む、多くの異なる特性を持つペプチドに関する詳細な情報が含まれている。時間が経つにつれて、CAMPR4やDBAASP v3など、ペプチドの構造や機能に関する重要な詳細を提供する公共データソースが増えてきた。これらのリソースは、新しい医薬品の開発やAMP研究の進展に不可欠だよ。
最近、AMPの配列を予測し設計するためのツールが増えてきた。AI4AMPやAMPDiscoverなど、いくつかのツールは特に結核と戦うペプチドを予測することに焦点を当てている。ただ、これらの方法はペプチドがどれだけ効果的か、細菌の成長を止めるためにどれだけ必要かを測ることができないことが多い。最近の研究は、E. coliのような細菌に影響を与えるために必要な最小限のペプチド量をより良く理解することを目指しているんだ。
我々の研究の取り組み
AMPがどれだけ効果的かを予測するために、E. coliに対するペプチドの最小抑制濃度(MIC)値を推定する方法を作った。主な目標の一つは、科学者がこの細菌を効果的にターゲットにできるペプチドを設計するのを助けることだった。EIPpredというスタンドアロンソフトウェアと、このタスクを支援するためのウェブプラットフォームを開発した。俺たちのサーバーは、大規模にタンパク質中の抗菌ペプチドをスキャンし、効果を予測し、どの部分のペプチドがMIC値に影響を与えるかを特定する。
データセットの収集
まず、E. coliに対する3,929のペプチドとそのMIC値に関する情報を含むデータセットを集めた。このデータセットは以前の研究から得たもので、3,143のペプチドを含むトレーニングセットと786の小さなバリデーションセットに分けた。どちらのセットでも、ペプチドの長さを一致させてバイアスを避けたよ。
さらに、498のペプチドを使って別の独立したデータセットを作成し、トレーニングセットやバリデーションセットのペプチドとは一切重複しないようにした。この新しいデータセットは、我々の方法の性能をテストするために欠かせなかった。
研究アプローチ
我々は5フォールド交差検証というプロセスを使い、予測が正確であることを確認した。この技術はデータを5つの部分に分けて、4つの部分を使ってモデルを訓練し、1つの部分をテストする。これにより、ミスを減らし、モデルのパフォーマンスをより明確に把握できる。さらに、BLASTというツールを使って、既知の抗菌ペプチドと比較して類似のペプチドを見つけた。このステップで、バリデーションペプチドの効果を予測する手助けになった。
ペプチドの特徴
予測モデルを作成するために、ペプチドの特徴を分析する必要があった。ペプチド配列から様々なタイプの特徴を調べて、幅広い情報を集めた。9,000以上の特徴が計算され、ペプチドの構成のさまざまな側面をカバーしている。
また、パターンに基づいてアミノ酸に値を割り当てるバイナリプロファイルも作成した。このステップは、ペプチドの長さが効果に与える影響を理解するのに役立った。例えば、ペプチドを長さに基づいて4つのグループに整理し、それぞれの特性をよりよく分析できるようにした。
機械学習技術
我々の研究では、ペプチドの特徴とそのMIC値との関係を構築するためにいくつかの機械学習モデルを実装した。最も適したモデルを見つけるため、12種類の回帰アルゴリズムを使用した。ランダムフォレスト回帰(RFR)が全モデルの中で最も高い精度を示し、特に全ての構成特徴を使用した時に優れていた。
異なる特徴セットを試してみて、ペプチドの構成に基づいたものが最も良い成果を上げることがわかった。5〜20アミノ酸の長さのペプチドに依存したモデルも、より良い予測をもたらした。
結果とパフォーマンス
我々の研究結果は、正しい特徴を使うことでMIC予測の精度が大幅に向上することを示した。RFRモデルは、実際のMIC値との相関において高スコアを達成し、特にトップ1,000の特徴を選択したときに顕著だった。この方法で、無関係な情報を減らし、より信頼性の高い予測につながった。
また、我々のモデルが既存の方法と比較してペプチドの効果をどれだけ予測できるかを調べた。RFRモデルは他のモデルよりもMIC値の予測で優れた性能を示し、基本的な計算方法でも信頼性のある結果を得られた。
ウェブサーバーの開発
予測を利用しやすくするため、EIPpredという使いやすいウェブプラットフォームを作った。このサイトでは、ユーザーがE. coliに対するペプチドの抑制活性を予測したり、新しいペプチド変異体をデザインしたりできる。プラットフォームを使えば、研究者は予測されたMIC値に基づいて効果的な領域を見つけるためにタンパク質配列をスキャンできる。
結論
細菌、特にE. coliは進化を続けていて、抗生物質の耐性に対抗する新しい方法を見つけることが不可欠だ。我々の研究は、E. coliに対する抗菌ペプチドの効果を迅速かつ効率的に予測するツールの開発に焦点を当てている。さまざまな機械学習技術を活用し、広範なデータを集めることで、伝統的な抗生物質の効果が失われる時代に、研究者がより良い治療オプションをデザインする手助けができるモデルを提供したんだ。
このツールは科学コミュニティにとって重要なリソースとなり、細菌感染に対応する新しいペプチドの設計と予測を可能にする。今後は、これらのモデルをさらに改善し、他の有害な細菌への適用範囲を広げて、抗生物質耐性の問題に対するより多くの解決策を提供していく必要があるよ。
タイトル: Prediction of inhibitory peptides against E. coli with desired MIC value
概要: In the past, several methods have been developed for predicting antibacterial and antimicrobial peptides, but only limited attempts have been made to predict their minimum inhibitory concentration (MIC) values. In this study, we trained our models on 3,143 peptides and validated them on 786 peptides whose MIC values have been determined experimentally against Escherichia coli (E. coli). The correlational analysis reveals that the Composition Enhanced Transition and Distribution (CeTD) attributes strongly correlate with MIC values. We initially employed the similarity search strategy utilizing BLAST to estimate MIC values of peptides but found it inadequate for prediction. Next, we developed machine learning techniques-based regression models using a wide range of features, including peptide composition, binary profile, and embeddings of large language models. We implemented feature selection techniques like minimum Redundancy Maximum Relevance (mRMR) to select the best relevant features for developing prediction models. Our Random forest-based regressor, based on selected features, achieved a correlation coefficient (R) of 0.78, R-squared (R{superscript 2}) of 0.59, and a root mean squared error (RMSE) of 0.53 on the validation dataset. Our best model outperforms the existing methods when benchmarked on an independent dataset of 498 inhibitory peptides of E. coli. One of the major features of the web-based platform EIPpred developed in this study is that it allows users to identify or design peptides that can inhibit E. coli with the desired MIC value (https://webs.iiitd.edu.in/raghava/eippred). HighlightsO_LIPrediction of MIC value of peptides against E.coli. C_LIO_LIAn independent dataset was generated for comparison. C_LIO_LIFeature selection using the mRMR method. C_LIO_LIA regressor method for designing novel inhibitory peptides. C_LIO_LIA web server and standalone package for predicting the inhibitory activity of peptides. C_LI
著者: Gajendra P.S. Raghava, N. Bajiya, N. Kumar
最終更新: 2024-07-22 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.07.18.604028
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.07.18.604028.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。