Fortschritte in der Peptid-Sequenzierung mit Deep Learning
Wissenschaftler verbessern die Peptid-Analyse-Techniken mit Hilfe von Deep-Learning-Einsichten.
― 6 min Lesedauer
Inhaltsverzeichnis
- Die Rolle von Trypsin in der Peptid-Analyse
- Herausforderungen bei der Peptid-Sequenzierung
- Deep Learning in der Massenspektrometrie
- Die Grenzen von Deep Learning-Modellen angehen
- Das Casanova De Novo Sequencing Model
- Testen des aktualisierten Modells
- Beobachtungen zur Modellleistung
- Die Rolle von Batch-Effekten
- Training eines universelleren Modells
- Fazit
- Originalquelle
Proteomik ist das Studium von Proteinen in einer biologischen Probe. Wenn Wissenschaftler Proteine analysieren, können sie herausfinden, wie sie funktionieren und welche Rolle sie für Gesundheit und Krankheit spielen. Ein wichtiges Werkzeug in der Proteomik ist die Massenspektrometrie (MS), eine Technik, die dabei hilft, die Moleküle innerhalb einer Probe zu identifizieren und zu messen.
Eine gängige Methode in der Massenspektrometrie ist die tandem Massenspektrometrie (MS/MS). Bei dieser Technik werden Proteine zuerst in kleinere Stücke zerlegt, die Peptide genannt werden. Das passiert normalerweise mit einem Enzym namens Trypsin. Trypsin ist beliebt, weil es zuverlässig Proteine an bestimmten Stellen schneidet und dabei konsistente und nützliche Ergebnisse für die Analyse liefert.
Die Rolle von Trypsin in der Peptid-Analyse
Trypsin zielt auf bestimmte Aminosäuren in Proteinen ab, speziell auf Lysin (K) und Arginin (R). Wenn Trypsin ein Protein schneidet, enden die resultierenden Peptide normalerweise mit diesen basischen Aminosäuren, was sie in der Massenspektrometrie leichter identifizierbar macht. Das führt zu qualitativ hochwertigen Daten, die für eine genaue Analyse unerlässlich sind.
Obwohl Trypsin weit verbreitet ist, können auch alternative Enzyme oder eine Mischung aus verschiedenen Enzymen von Vorteil sein. Mehrere Enzyme zu verwenden, kann die Proteine in überlappende Fragmente zerlegen, was helfen könnte, mehr Peptide zu detektieren und einen breiteren Überblick über die in einer Probe vorhandenen Proteine zu erhalten.
Herausforderungen bei der Peptid-Sequenzierung
Bei der Analyse von Peptiden nutzen Wissenschaftler oft Datenbanken, um die sequenzierten Peptide mit bekannten Proteinen zu vergleichen und abzugleichen. Das ist normalerweise unkompliziert, wenn das verwendete Enzym zum Verdauen das Standard-Trypsin ist. Datenbanken können die Trypsin-Verdauung simulieren, um mögliche Peptidsequenzen zu generieren.
Allerdings kann diese Methode Peptide verpassen, die von anderen Enzymen oder durch verschiedene Prozesse produziert werden. Wenn Wissenschaftler die Sequenz der Peptide direkt aus ihren Massenspektren identifizieren wollen, wird es komplizierter. Jüngste Fortschritte im Deep Learning, einer Art von künstlicher Intelligenz, wurden genutzt, um dieses Problem anzugehen.
Deep Learning in der Massenspektrometrie
Deep Learning-Modelle können aus bestehenden Daten lernen, um die Peptidsequenzen genauer vorherzusagen. Diese Modelle können lernen, wie sich verschiedene Enzyme verhalten, und sollten theoretisch gut abschneiden, selbst wenn sie auf Peptide aus nicht-tryptischen Verdauungen stossen. Trotz dieses Potenzials wurden die meisten dieser Modelle hauptsächlich mit Daten von trypsinverdauten Peptiden trainiert.
Das heisst, wenn sie mit Daten von anderen Enzymen arbeiten, könnten die Modelle nicht so gut abschneiden. Wenn beispielsweise ein Deep Learning-Modell ein Peptid sieht, das sowohl von „PEPTIDEK“ (Trypsin-Verdauung) als auch von „PEPTIDKE“ (nicht Trypsin) stammen könnte, könnte es unfairerweise das erste bevorzugen, weil es besser zu den Regeln der Trypsin-Verdauung passt.
Die Grenzen von Deep Learning-Modellen angehen
Um die Leistung der Deep Learning-Modelle bei nicht-tryptischen Daten zu verbessern, haben Forscher verschiedene Ansätze ausprobiert. Eine Methode besteht darin, ein einzelnes Modell mit Daten von verschiedenen Enzymen zu trainieren. Das könnte dem Modell helfen, über verschiedene Verdauungstypen zu generalisieren. Eine andere Strategie besteht darin, mehrere Modelle zu trainieren, die jeweils speziell für Daten von einem Enzym konzipiert sind. Obwohl das effektiv sein kann, bringt es Probleme mit sich, wie die Notwendigkeit, eine grosse Menge Daten für jedes Enzym zu haben, und die Möglichkeit, dass die Modelle sich nicht gut an neue Enzymkombinationen anpassen.
Eine vorgeschlagene Lösung ist, Informationen über das Verdauungsenzym direkt im Modell zu berücksichtigen. Das bedeutet, dass das Modell bei den Vorhersagen auch berücksichtigt, welches Enzym verwendet wurde, um die Peptide zu produzieren. So könnte das Modell seine Vorhersagen basierend auf den spezifischen Verdauungsmustern der verschiedenen Enzyme anpassen.
Das Casanova De Novo Sequencing Model
Casanovo ist ein Deep Learning-Modell, das für die Peptidsequenzierung aus Massenspektrometriedaten entwickelt wurde. Das ursprüngliche Modell konzentriert sich auf Massendaten und Ladeinformationen sowie auf die Sequenz der Peaks in einem Spektrum. Um Casanova zu verbessern, haben die Forscher eine Version namens Casanovoenz erstellt, die einen zusätzlichen Schritt enthält, der das verwendete Verdauungsenzym berücksichtigt.
In diesem aktualisierten Modell wird jedes Enzym durch einen hochdimensionalen Vektor dargestellt. Wenn das Modell Massenspektrometriedaten verarbeitet, kombiniert es diese Enzyminformationen mit den anderen Daten, die es zur Vorhersage von Peptidsequenzen verwendet.
Testen des aktualisierten Modells
Die Forscher erwarteten, dass die Hinzufügung von Enzyminformationen die Genauigkeit des Modells, insbesondere für nicht-tryptische Verdauungen, verbessern würde. Sie trainierten Casanovoenz mit einer Vielzahl von Daten aus verschiedenen Enzymen und bewerteten dann seine Leistung im Vergleich zu einer Standardversion von Casanova ohne Enzyminformationen.
Überraschenderweise zeigten die Ergebnisse keine signifikante Verbesserung. Das neue Modell lieferte nur einen leichten Anstieg der Genauigkeit, was darauf hindeutet, dass das blosse Wissen um das verwendete Enzym nicht so vorteilhaft war wie erwartet.
Beobachtungen zur Modellleistung
Weitere Untersuchungen ergaben, dass beide Modelle eine Tendenz zu bestimmten terminalen Aminosäuren aufwiesen, was wahrscheinlich auf die Struktur der Trainingsdaten zurückzuführen ist. Beispielsweise war erkennbar, dass die Modelle ihre Vorhersagen schnell anpassen konnten, wenn die Forscher die Enzyminformationen in den Testdaten manipulierten.
Das deutet darauf hin, dass die Modelle zwar bestimmte Muster lernen können, die damit zusammenhängen, wie verschiedene Enzyme sich verhalten, aber das blosse Hinzufügen der Enzymidentität als Eingabe die Leistung nicht drastisch verbessert.
Die Rolle von Batch-Effekten
Ein weiterer Faktor, der die Leistung der Modelle beeinflusste, wurde als Batch-Effekte identifiziert. Batch-Effekte treten auf, wenn Unterschiede in den Daten aus Variationen in der Durchführung von Experimenten und nicht aus den biologischen Proben selbst entstehen. Um dem entgegenzuwirken, implementierten die Forscher eine Strategie, um sicherzustellen, dass Daten aus verschiedenen Experimenten (oder Batches) während des Trainings und der Tests nicht ineinander übergingen.
Durch die sorgfältige Koordination, wie die Spektren über die Batches verteilt wurden, stellten sie fest, dass die erwarteten Vorteile aus der Einbeziehung von Enzyminformationen nicht verwirklicht wurden, wenn die Batch-Effekte minimiert wurden.
Training eines universelleren Modells
Angesichts dieser Erkenntnisse entschieden die Forscher, einen anderen Ansatz zu verfolgen. Statt das bestehende Modell weiter zu modifizieren, entschieden sie sich, eine neue Version von Casanova zu erstellen, die mit Daten von verschiedenen Enzymen trainiert wurde. Dieses neue Modell kombinierte Trainingsdaten aus sowohl tryptischen als auch nicht-tryptischen Verdauungen und erzielte dabei eine durchweg hohe Leistung.
Als sie dieses Modell testeten, zeigte es signifikante Verbesserungen bei der Verarbeitung von nicht-tryptischen Daten, ohne die Leistung bei tryptischen Datensätzen negativ zu beeinflussen. Dieses Ergebnis verdeutlichte, dass ein gut abgerundetes Modell, das auf einem vielfältigen Datensatz trainiert ist, effektiver sein könnte, als einfach zu versuchen, Enzyminformationen in ein bestehendes Modell zu integrieren.
Fazit
Die Studie hebt hervor, wie wichtig es ist, die Strukturierung der Daten und die Auswirkungen verschiedener Faktoren auf die Modellleistung in der Proteomik zu berücksichtigen. Während Bemühungen, Enzyminformationen in Deep Learning-Modelle einzubeziehen, ihre Vorzüge haben, wurde deutlich, dass ein ganzheitlicherer Ansatz, Modelle auf diversen Datensätzen zu trainieren, die besten Ergebnisse bringen kann.
Künftige Forschungen könnten auch zusätzliche Arten von Informationen über die Enzymidentität hinaus erkunden, wie Details zur Probenvorbereitung oder Instrumenteneinstellungen. Dies könnte zu noch genaueren und robusteren Modellen für die Peptidsequenzierung führen, die letztendlich den Wissenschaftlern helfen, komplexe biologische Systeme besser zu verstehen.
Titel: Accounting for digestion enzyme bias in Casanovo
Zusammenfassung: A key parameter of any proteomics mass spectrometry experiment is the identity of the enzyme that is used to digest proteins in the sample into peptides. The Casanovo de novo sequencing model was trained using data that was generated with trypsin digestion; consequently, the model prefers to predict peptides that end with the amino acids "K" or "R." This bias is desirable when the Casanovo is used to analyze data that was also generated using trypsin but can be problematic if the data was generated using some other digestion enzyme. In this work, we modify Casanovo to take as input the identify of the digestion enzyme, alongside each observed spectrum. We then train Casanovo with data generated using several different restriction enzymes, and we demonstrate that the resulting model successfully learns to capture enzyme-specific behavior. However, we find, surprisingly, that this new model does not yield a significant improvement in sequencing accuracy relative to a model trained without the enzyme information but using the same training set. This observation may have important implications for future attempts to make use of experimental metadata in de novo sequencing models.
Autoren: William Stafford Noble, C. Melendez, J. Sanders, M. Yilmaz, W. Bittremieux, W. Fondrie, S. Oh
Letzte Aktualisierung: 2024-05-21 00:00:00
Sprache: English
Quell-URL: https://www.biorxiv.org/content/10.1101/2024.05.16.594602
Quell-PDF: https://www.biorxiv.org/content/10.1101/2024.05.16.594602.full.pdf
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an biorxiv für die Nutzung seiner Open-Access-Interoperabilität.