Fortschritte bei der Vorhersage allosterischer Stellen mit KI
Neue Methoden im maschinellen Lernen verbessern die Vorhersagen von allosterischen Stellen in Proteinen.
― 5 min Lesedauer
Inhaltsverzeichnis
Allosterie ist 'ne Art, wie Proteine ihre Aktivität regulieren. Das passiert, wenn ein Molekül, das Ligand heisst, an 'nen Platz am Protein bindet, der nicht die Hauptaktionsstelle ist. Die meisten Medikamente wirken, indem sie direkt an die Hauptaktionsstelle eines Proteins andocken. Wissenschaftler glauben aber, dass alle Proteine irgendwie Allosterie zeigen. Wenn ein bestimmtes Protein dieses Verhalten bisher nicht gezeigt hat, könnte das daran liegen, dass die speziellen Bedingungen wie die richtigen Moleküle oder bestimmte Änderungen in der Proteinstruktur fehlen.
Medikamente, die Allosterie nutzen, werden oft besser von Patienten vertragen als solche, die an die Hauptaktionsstelle binden. Im Gegensatz dazu bleiben die Hauptaktionsstellen bei ähnlichen Proteinen meist gleich, was bedeutet, dass ein Medikament mehrere verwandte Proteine beeinflussen könnte. Allosterische Medikamente hingegen binden an unterschiedliche Bereiche der Proteinoberfläche, die weniger konsistent zwischen verwandten Proteinen sind. Das öffnet die Tür zur Entwicklung effektiver Behandlungen für Proteine, die schwer direkt anvisiert werden können.
Maschinelles Lernen zur Vorhersage allosterischer Stellen
Jüngste Fortschritte beinhalten den Einsatz von Methoden des maschinellen Lernens zur Vorhersage allosterischer Stellen an Proteinen. Spezielle Werkzeuge wurden entwickelt, um Taschen in Proteinstrukturen zu identifizieren, wo diese Wechselwirkungen auftreten könnten. Beliebte Methoden dafür sind PASSer und seine Updates, die diese Bereiche erkennen, indem sie sich die Proteinstrukturen anschauen.
Frühere Methoden haben jedoch nicht das volle Potenzial fortgeschrittener Modelle genutzt, die aus grossen Mengen an Protein-Daten lernen. Um die Vorhersagen zu verbessern, haben Forscher ein spezifisches Sprachmodell namens ProtBERT auf einem grossen Datensatz mit Fokus auf allostere Proteine trainiert. Dieses Modell wurde darauf trainiert, zwei Aufgaben gleichzeitig zu erledigen: die Vorhersage allosterischer Reste und die Bestimmung der Proteinstruktur. Die Idee hinter diesem dualen Ansatz ist, dass das Lernen über die Struktur des Proteins dem Modell helfen könnte, allosterische Stellen besser zu identifizieren.
Der Prozess und die verwendeten Daten
Die AlloSteric-Datenbank ist eine regelmässig aktualisierte Informationsquelle über Proteine, die allosterisches Verhalten zeigen. Bei der Vorbereitung der Daten für das Modelltraining haben Forscher den Datensatz bereinigt und nach Proteinen mit weniger als 30 % Ähnlichkeit gefiltert. Insgesamt konzentrierten sie sich auf 207 einzigartige Proteine und teilten sie in Trainings- und Testsets auf.
Jedes einzelne Protein hat normalerweise etwa 20 Taschen, in denen Allosterie stattfinden könnte. Allerdings gab es deutlich weniger positive Proben, da nur etwa 8 % der Taschen als allosterisch identifiziert wurden. Dieses Ungleichgewicht machte die Vorhersage allosterischer Stellen besonders herausfordernd.
Der Ansatz beinhaltete das Einspeisen von Strukturen von Proteinen und deren Sequenzen in ein Tool namens FPocket, das Taschen identifiziert. Parallel dazu wurde das ProtBERT-Modell feinjustiert, um relevante Merkmale aus den Proteinsequenzen zu extrahieren. Die Merkmale von FPocket und ProtBERT wurden dann kombiniert, um komplexere Modelle wie XGBoost und automatisierte maschinelles Lernen (AutoML) Systeme zu trainieren.
Training der Modelle
XGBoost und AutoML wurden mit Kombinationen von Merkmalen der beiden genannten Methoden trainiert. Dabei wurde klassifiziert, ob eine Tasche im Protein allosterisch ist oder nicht. XGBoost ist ein Entscheidungsbaum-basiertes Modell, das für seine Effizienz bekannt ist, und AutoML automatisiert den Prozess der Modellauswahl und -schulung, was es einfacher macht, das leistungsstärkste Modell zu finden.
Bei der Bewertung der Modellergebnisse lag der Schwerpunkt auf dem F1-Score, der sowohl Präzision als auch Rückruf berücksichtigt und somit eine bessere Wahl für unausgewogene Datensätze wie diesen ist. Es wurde eine signifikante Verbesserung der Modelle beobachtet, die die feinjustierten ProtBERT-Merkmale nutzten, im Vergleich zu denen, die nur grundlegende Merkmale verwendeten.
Ergebnisse und Analyse
Nach dem Training zeigte das Modell eine starke Fähigkeit, allosterische Taschen zu klassifizieren. Das feinjustierte ProtBERT-Modell erzielte eine Leistungssteigerung im Vergleich zu seiner ursprünglichen Form. Das leistungsstärkste Modell erreichte einen beeindruckenden F1-Score. Das deutet darauf hin, dass die Kombination aus strukturellen Merkmalen und Sprachmodellmerkmalen die Vorhersagen effektiv verbessert hat.
Die Ergebnisse wurden durch eine Fallstudie zu einem bestimmten Protein, das für seine allosterischen Stellen bekannt ist, weiter validiert. Das Modell sagte mit hoher Zuversicht die beste allosterische Tasche korrekt voraus und zeigte, dass das Modell zuverlässig relevante Stellen in Proteinen identifizieren kann.
Visualisierung der Aufmerksamkeitsmechanismen des Modells
Um Einblicke zu erhalten, wie das Modell seine Vorhersagen trifft, visualisierten die Forscher die Aufmerksamkeitsmechanismen des ProtBERT-Modells. Diese Visualisierung hilft zu zeigen, auf welche Teile des Proteins das Modell sich konzentriert, während es Vorhersagen trifft. In tieferen Schichten des Modells neigt die Aufmerksamkeit dazu, sich auf Reste zu richten, die für allosterische Wechselwirkungen entscheidend sind.
Diese Analyse zeigte, dass das Modell nicht nur den Abstand zwischen verschiedenen Resten betrachtet, sondern auch ihre spezifischen Rollen im allosterischen Prozess. Es wurde beobachtet, dass das Modell konservierten Resten mehr Gewicht verleiht, die eine wichtige Rolle in der Wechselwirkung mit anderen Molekülen spielen, die die Proteinfunktion beeinflussen.
Die Bedeutung und Zukunft der Allosterie-Forschung
Die Studie hebt die Bedeutung des Verständnisses von Allosterie in Proteinen hervor, da sie den Weg für die Entwicklung besserer Medikamente mit weniger Nebenwirkungen ebnen kann. Durch den Einsatz fortschrittlicher Techniken des maschinellen Lernens können Forscher diese allosterischen Stellen effizienter identifizieren als mit früheren Methoden.
Zukünftige Forschungen könnten sich darauf konzentrieren, diese Modelle weiter zu verbessern. Der Einsatz fortschrittlicherer Sprachmodelle und grösserer Datensätze könnte die Vorhersagegenauigkeit erhöhen und letztendlich zu effektiveren Behandlungen für verschiedene Krankheiten führen, die mit Proteinfehlfunktionen verbunden sind.
Fazit
Zusammenfassend ist Allosterie ein kritischer Aspekt der Proteinfunktion, der bedeutende Auswirkungen auf das Design von Medikamenten hat. Durch die Anwendung innovativer Techniken des maschinellen Lernens und grosser Protein-Datensätze machen Forscher Fortschritte bei der Identifizierung allosterischer Stellen, was wertvolle Einblicke für die pharmazeutische Entwicklung bietet. Durch die Verfeinerung dieser Ansätze profitiert das Feld von verbesserten Vorhersagefähigkeiten, was neue therapeutische Strategien und bessere Patientenergebnisse eröffnet.
Titel: DeepAllo: Allosteric Site Prediction using Protein Language Model (pLM) with Multitask Learning
Zusammenfassung: Allostery, the process by which binding at one site perturbs a distant site, is being rendered as a key focus in the field of drug development with its substantial impact on protein function. The identification of allosteric sites is a challenging task and several techniques have been developed, including Machine Learning (ML) to predict allosteric sites that utilize both static and pocket features. Our work, DeepAllo, is the first study that combines fine-tuned protein language model (pLM) with FPocket features and shows an increase in prediction performance of allosteric sites over previous studies. The pLM model was fine-tuned on Allosteric Dataset (ASD) in Multitask Learning (MTL) setting and was further used as a feature extractor to train XGBoost and AutoML models. The best model predicts allosteric pockets with 89.66% F1 score and 90.5% of allosteric pockets in the top 3 positions, outperforming previous results. A case study has been performed on proteins with known allosteric sites, which shows the proof of our approach. Moreover, an effort was made to explain the pLM by visualizing its attention mechanism among allosteric and non-allosteric residues.
Autoren: Attila Gursoy, M. Khokhar, O. Keskin
Letzte Aktualisierung: 2024-10-13 00:00:00
Sprache: English
Quell-URL: https://www.biorxiv.org/content/10.1101/2024.10.09.617427
Quell-PDF: https://www.biorxiv.org/content/10.1101/2024.10.09.617427.full.pdf
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an biorxiv für die Nutzung seiner Open-Access-Interoperabilität.