Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Biologie# Bioinformatik

Cascadia: Peptid-Sequenzierung aus DIA-Daten vorantreiben

Ein neues Modell verbessert die Proteinanalytik mit Massenspektrometrie-Daten.

― 6 min Lesedauer


Cascadia verwandelt dieCascadia verwandelt diePeptid-Analyse.Peptidsequenzen.Genauigkeit und Entdeckung vonEin neues Modell verbessert die
Inhaltsverzeichnis

Proteine sind wichtige Bestandteile von lebenden Organismen und spielen eine zentrale Rolle in der Struktur, Funktion und Regulation der Gewebe und Organe des Körpers. Um Proteine zu verstehen, muss man ihre Struktur und Funktion studieren, und eine wichtige Methode dafür ist die Massenspektrometrie. Mit Massenspektrometrie können Wissenschaftler die Zusammensetzung von Proteinen analysieren, indem sie sie in kleinere Stücke, sogenannte Peptide, zerlegen, die dann hinsichtlich ihrer Sequenzen untersucht werden.

Eine der Herausforderungen bei der Analyse von Proteinen durch Massenspektrometrie besteht darin, die Reihenfolge der Aminosäuren in einem Peptid basierend auf den gesammelten Daten aus Experimenten zu bestimmen. Diese Aufgabe nennt man De Novo Sequenzierung, was bedeutet, die Aminosäuresequenz eines Peptids ohne vorheriges Wissen darüber zu bestimmen, was dieses Peptid ist. Das ist ein komplexer Prozess, besonders wenn man es mit grossen Datensätzen aus modernen Massenspektrometrietechniken zu tun hat.

Massenspektrometrie-Techniken

Traditionell wurde bei der Massenspektrometrie zur Proteinanalytik eine Methode namens data-dependent acquisition (DDA) verwendet. Bei diesem Ansatz sammelt das Massenspektrometer Daten zu einem Peptid gleichzeitig. Jedes Mal, wenn es ein Peptid erkennt, erzeugt es ein Fragmentierungsspektrum, das eine visuelle Darstellung des Massenspektrums des Peptids ist. Wissenschaftler können dieses Spektrum direkt mit einer einzelnen Peptidsequenz verknüpfen, was es relativ einfach macht, die Sequenz zu bestimmen.

Allerdings ist ein neuerer Ansatz namens data-independent acquisition (DIA) entstanden. Bei DIA sammelt das Massenspektrometer Daten von vielen Peptiden gleichzeitig, was bedeutet, dass ihre Signale durcheinander geraten können. Das führt zu einem komplexeren Datensatz, weil die Informationen über ein einzelnes Peptid über mehrere Spektren verteilt sind. Das macht es viel schwieriger, die Peptidsequenz zu bestimmen, da nicht klar ist, welche Teile der Daten zu welchem Peptid gehören.

Werkzeuge zur Proteinsequenzierung

Es wurden mehrere Werkzeuge entwickelt, um die Herausforderungen der de novo Sequenzierung, insbesondere im Kontext von DIA-Daten, zu bewältigen. Einige davon nutzen Maschinenlernmodelle, speziell eine Art namens Transformer. Transformer sind darauf ausgelegt, mit Datensequenzen zu arbeiten, was sie für Aufgaben der Proteinsequenzierung geeignet macht. Sie behandeln das Sequenzierungsproblem als eine Übersetzung einer Darstellung des Massenspektrums in eine Sequenz von Aminosäuren.

Eine gängige Methode ist es, Pseudo-Spektren aus DIA-Daten zu erstellen, die den in DDA erzeugten Spektren ähneln. Allerdings hat diese Methode ihre Grenzen. Nicht alle Peptide erzeugen ein klares Signal in DDA, was bedeutet, dass viele Peptide mit niedrigerer Konzentration übersehen werden können. Ausserdem kann das Erscheinungsbild von DIA-Spektren erheblich von denen abweichen, die durch DDA erzeugt werden, was es bestehenden Modellen, die auf DDA-Daten trainiert wurden, erschwert, auf DIA-Datensätzen gut abzuschneiden.

Eine andere Methode nutzt ein spezifisches Deep-Learning-Modell, DeepNovo-DIA, das für die Arbeit mit DIA-Daten entwickelt wurde. Dieses Modell umfasst verschiedene Komponenten, um Daten so zu verarbeiten, dass die Beziehungen zwischen verschiedenen Spektren und den Sequenzen der Aminosäuren erfasst werden.

Einführung von Cascadia: Ein neues Modell zur Peptidsequenzierung

Ein neues Modell namens Cascadia wurde entwickelt, um einige der Einschränkungen bestehender Methoden anzugehen. Cascadia zielt darauf ab, die de novo Sequenzierung aus DIA-Daten zu verbessern, indem systematisch kleine Dateneinheiten, die „erweiterte Spektren“ genannt werden, extrahiert werden. Diese erweiterten Spektren integrieren Informationen aus benachbarten Spektren, um ein vollständigeres Bild der Signale zu einem spezifischen Peptid zu liefern.

Cascadia nutzt eine auf Transformers basierende Architektur, die es ihm ermöglicht, die erweiterten Spektren zu verarbeiten und die Peptidsequenzen effektiv vorherzusagen. Das Modell wird mit einer grossen Sammlung annotierter DIA-Daten trainiert, und die Ergebnisse zeigen, dass es bestehende Methoden signifikant übertrifft.

Der Arbeitsablauf von Cascadia

Cascadia funktioniert, indem es zuerst ein beobachtetes Spektrum sammelt und eine latente Darstellung jedes Peaks in diesem Spektrum erstellt. Eine Transformer-Dekodierschicht verwendet dann diese Darstellung, um die Aminosäuresequenz des Peptids vorherzusagen. Das Modell muss zwei Hauptprobleme überwinden:

  1. In einem DIA-Experiment ist das Signal für ein einzelnes Peptid über mehrere Spektren verteilt. Um dies zu lösen, nutzt Cascadia mehrere Spektren, die zeitlich nahe beieinander liegen, sodass das Modell so viele relevante Informationen wie möglich sammeln kann.

  2. Es gibt keine einzelne bekannte Vorläufermasse zur Vorhersage der Peptidsequenz. Stattdessen erfasst Cascadia Daten aus allen verfügbaren Spektren und verarbeitet sie gemeinsam. Diese Flexibilität ermöglicht es dem Modell, Peptidinformationen zu extrahieren, ohne sich ausschliesslich auf ein bekanntes Vorläufer-Signal zu stützen.

In der Praxis bedeutet das, dass Cascadia das rohe MS/MS-Signal direkt verwenden kann und nicht von anfänglichen Merkmals-Extraktionsschritten abhängt. Das ist ein bedeutender Fortschritt, da es dem Modell ermöglicht, alle relevanten Merkmale aus den Eingabedaten zu untersuchen.

Leistungsbewertung von Cascadia

Um zu messen, wie gut Cascadia abschneidet, bewerten die Forscher die Anzahl der unterschiedlichen Peptidsequenzen, die das Modell identifiziert und mit einer Referenzdatenbank abgleicht. Dieser Prozess unterscheidet sich von traditionellen Methoden, die oft auf Spektren basieren, die von einer Suchmaschine identifiziert werden können. Durch die Verwendung eines peptidbasierten Ansatzes spiegelt die Bewertung die tatsächliche Anzahl der in einem Massenspektrometrie-Lauf entdeckten Peptide wider.

Cascadia hat gezeigt, dass es viele mehr Peptide entdeckt als bestehende Methoden und demonstriert eine starke Leistung über verschiedene Datensätze hinweg. Zum Beispiel kann Cascadia bei einem hohen Präzisionsschwellenwert viele unterschiedliche Peptide genau vorhersagen, bei denen DeepNovo-DIA Schwierigkeiten hat. Diese Verbesserung ist besonders bemerkenswert für Peptide mit niedrigerer Konzentration, die möglicherweise kein starkes Signal in traditionellen Methoden erzeugen.

Anwendung von Cascadia zur Entdeckung von Kodierungsvarianten

Die Fähigkeiten von Cascadia gehen über die blosse Identifizierung von Peptiden hinaus. Es wurde auch in Studien eingesetzt, um Kodierungsvarianten zu entdecken, das sind Veränderungen in der Aminosäuresequenz von Proteinen, die wichtige Auswirkungen auf Krankheiten und biologische Funktionen haben können.

In Experimenten mit DIA-Daten aus menschlichen Hautproben konnte Cascadia Varianten identifizieren, die durch andere Sequenzierungsmethoden bestätigt wurden. Dieser Beweis unterstützt die Zuverlässigkeit des Cascadia-Modells bei der Bereitstellung genauer Peptidvorhersagen.

Entdeckung neuer Antikörpersequenzen

Cascadia wurde auch angewendet, um menschliche Plasma-Proben zu analysieren, um neuartige Peptide, insbesondere von Antikörpern, zu entdecken. Antikörper sind hochgradig variable Proteine, die eine entscheidende Rolle in der Immunantwort spielen. Die Analyse ergab viele potenzielle Antikörpersequenzen, die nicht mit bestehenden Referenzdatenbanken übereinstimmten, was darauf hindeutet, dass Cascadia helfen könnte, neue Antikörpervarianten zu identifizieren, die noch nicht dokumentiert sind.

Durch den Vergleich dieser Vorhersagen mit einer Referenzdatenbank bestätigten die Forscher, dass ein erheblicher Teil der vorhergesagten Antikörperpeptide gut mit bekannten Sequenzen übereinstimmt und damit die Effektivität von Cascadia bei der Peptidentdeckung weiter validiert wird.

Fazit

Zusammenfassend stellt Cascadia einen bedeutenden Fortschritt im Bereich der Proteomik dar, insbesondere bei der Analyse von Massenspektrometrie-Daten. Seine Fähigkeit, Daten effektiver als frühere Modelle zu verarbeiten, ermöglicht eine breitere Palette von Peptidentdeckungen, einschliesslich Peptide mit niedrigerer Konzentration und neuartiger Sequenzen.

Cascadia bietet Forschern ein leistungsstarkes Werkzeug zur Erforschung von Proteinstrukturen und -funktionen, was potenziell zu neuen Einblicken in verschiedenen Bereichen wie Immunologie, forensische Wissenschaft und Umweltstudien führen kann. Während die Technologie der Massenspektrometrie weiter voranschreitet, werden Methoden wie Cascadia entscheidend sein, um mit der zunehmenden Komplexität biologischer Daten Schritt zu halten.

Zukünftige Entwicklungen werden sich wahrscheinlich darauf konzentrieren, Cascadia für spezifische Anwendungen zu verfeinern, die Sensitivität weiter zu verbessern und zusätzliche Datenmerkmale zu integrieren, die die Leistung steigern könnten.

Originalquelle

Titel: A transformer model for de novo sequencing of data-independent acquisition mass spectrometry data

Zusammenfassung: A core computational challenge in the analysis of mass spectrometry data is the de novo sequencing problem, in which the generating amino acid sequence is inferred directly from an observed fragmentation spectrum without the use of a sequence database. Recently, deep learning models have made significant advances in de novo sequencing by learning from massive datasets of high-confidence labeled mass spectra. However, these methods are primarily designed for data-dependent acquisition (DDA) experiments. Over the past decade, the field of mass spectrometry has been moving toward using data-independent acquisition (DIA) protocols for the analysis of complex proteomic samples due to their superior specificity and reproducibility. Hence, we present a new de novo sequencing model called Cascadia, which uses a transformer architecture to handle the more complex data generated by DIA protocols. In comparisons with existing approaches for de novo sequencing of DIA data, Cascadia achieves state-of-the-art performance across a range of instruments and experimental protocols. Additionally, we demonstrate Cascadias ability to accurately discover de novo coding variants and peptides from the variable region of antibodies.

Autoren: William Stafford Noble, J. Sanders, B. Wen, P. Rudnick, R. Johnson, C. C. Wu, S. Oh, M. J. MacCoss

Letzte Aktualisierung: 2024-06-04 00:00:00

Sprache: English

Quell-URL: https://www.biorxiv.org/content/10.1101/2024.06.03.597251

Quell-PDF: https://www.biorxiv.org/content/10.1101/2024.06.03.597251.full.pdf

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an biorxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel