Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Biologie# Bioinformatik

Fortschrittliche phylogenetische Analyse mit SPRTA

Eine neue Methode verbessert die phylogenetische Zuverlässigkeit in Studien zur genomischen Epidemiologie.

Nicola De Maio, N. Ly-Trong, B. Q. Minh, N. Goldman

― 7 min Lesedauer


SPRTA: Eine neue Ära inSPRTA: Eine neue Ära inder PhylogenetikGesundheitsreaktionen.genomischen Daten für bessereSPRTA verbessert die Analyse von
Inhaltsverzeichnis

Die Untersuchung von genomischen Daten ist wichtig, um zu verstehen, wie sich verschiedene Arten, einschliesslich Viren, im Laufe der Zeit entwickeln. Eines der Hauptwerkzeuge in dieser Forschung ist die Phylogenetik, die Wissenschaftlern hilft, eine baumartige Struktur zu erstellen, die die Beziehungen zwischen verschiedenen Genomen darstellt. Während traditionelle Methoden diese Beziehungen schätzen können, berücksichtigen sie oft nicht, wie zuverlässig diese Schätzungen sind.

Dieses Problem kann besonders für Forscher, die grosse Mengen genomischer Daten analysieren, ein grosses Hindernis darstellen. Wenn Forscher zum Beispiel ein Virus während eines Ausbruchs untersuchen, müssen sie sicherstellen, dass ihre Ergebnisse genau sind. Sie wollen wissen, welche Mutationen zu bestimmten Eigenschaften des Virus geführt haben und wie sich diese Mutationen unter verschiedenen Stämmen verbreitet haben.

Grundlagen der phylogenetischen Methoden

Phylogenetische Methoden helfen dabei, die evolutionäre Geschichte von Genomen darzustellen. Forscher können Ansätze wie maximale Wahrscheinlichkeit, Parsimonie und heuristische Methoden verwenden, um einen phylogenetischen Baum zu erstellen. Dieser Baum zeigt, wie verschiedene Genome miteinander verwandt sind, aber diese Methoden erstellen normalerweise nur einen Baum, ohne zu überprüfen, wie sicher oder unsicher diese Schätzung ist.

Um dieses Problem anzugehen, haben Wissenschaftler eine Technik namens Bootstrap-Analyse entwickelt, speziell die Bootstrap-Methode von Felsenstein. Mit dieser Methode können Forscher den Originaldatensatz viele Male (oft 100 bis 1000 Mal) neu samplen, um mehrere Bäume zu erstellen. Indem sie untersuchen, wie viele dieser Bäume bestimmte Gruppen (Kladengruppen) enthalten, können die Forscher diesen Kladengruppen eine Unterstützungsbewertung zuweisen. Das hilft zu zeigen, wie zuverlässig die abgeleiteten Beziehungen sind.

Herausforderungen bei bestehenden Methoden

Obwohl Felsensteins Bootstrap weit verbreitet ist, hat es Nachteile, wenn es auf genomische Epidemiologie angewendet wird, besonders bei grossen Datensätzen von Ausbrüchen. Zu den Herausforderungen gehören:

  1. Hoher Rechenaufwand: Die Schätzung phylogenetischer Bäume mit Bootstrap-Methoden kann sehr ressourcenintensiv sein, was es schwierig macht, diese Methoden während Pandemien anzuwenden, wenn Forscher mit Millionen von Genomen arbeiten.

  2. Einfluss von "Rogue Taxa": Einige genomischen Sequenzen können aufgrund von Unsicherheit oder Kontamination weniger zuverlässig sein. Diese "Rogue Taxa" können die Unterstützungswerte interner Äste in Bäumen beeinflussen und zu irreführenden Schlussfolgerungen führen.

  3. Einschränkungen der Unterstützungswerte: Bootstrap-Unterstützungswerte konzentrieren sich oft auf Kladengruppen anstatt auf einzelne Mutationen, was möglicherweise relevanter ist, um zu verstehen, wie sich ein Virus verbreitet und verändert.

  4. Unsicherheit bei kurzen Ästen: In der genomischen Epidemiologie definieren oft nur wenige Mutationen eine Kladengruppe, was zu niedrigen Unterstützungswerten führt und die Methode übermässig vorsichtig machen kann.

  5. Bayessche Methoden: Diese Methoden können Unsicherheit besser messen, erfordern jedoch oft erhebliche Rechenressourcen, was sie für grosse Datensätze unpraktisch macht.

Bedarf an einem neuen Ansatz

Mit dem Aufkommen der genomischen Epidemiologie, besonders während Pandemien, gibt es einen klaren Bedarf an neuen Methoden, die die phylogenetische Zuverlässigkeit effizienter bewerten können. Dabei soll der Fokus darauf liegen, wie Mutationen sich entwickeln, anstatt nur auf Kladengruppen.

Um diese Lücke zu schliessen, haben Forscher eine neue Massnahme namens SPRTA (SPR-basierte Baumbeurteilung) eingeführt. Dieser neue Ansatz lässt sich von bestehenden Methoden inspirieren, verbessert deren Schwächen und ist somit geeignet für die Analyse grosser genomischer Datensätze.

Prinzipien von SPRTA

SPRTA verschiebt den Fokus von der Häufigkeit, mit der eine Kladengruppe in neu sampelten Bäumen erscheint, hin zur Beurteilung der Zuverlässigkeit von Mutationsereignissen entlang phylogenetischer Äste. Das bedeutet, dass SPRTA konkret untersucht, wie und wann die Mutationen aufgetreten sind, anstatt nur zu schauen, ob Gruppen von Genomen verwandt sind.

Schlüsselk Konzepte hinter SPRTA

  • Multiple Sequenzanpassung: Forscher beginnen mit einer Sammlung von Genomen, die angepasst wurden, um Ähnlichkeiten und Unterschiede zu identifizieren.

  • Phylogenetischer Baum: Mit Methoden wie maximaler Wahrscheinlichkeit erstellen die Forscher einen Baum, der vorschlägt, wie diese Genome verwandt sein könnten.

  • Unterstützungswert: Für jeden Ast des Baumes (der zwei Genome verbindet) weist SPRTA einen Unterstützungswert zu. Dieser Wert spiegelt die Zuverlässigkeit der Aussage wider, dass ein Genom von einem anderen entwickelt wurde.

  • Subtree Prune and Regraft (SPR): Anstatt nur kleine Änderungen an der Baumstruktur vorzunehmen, berücksichtigt SPRTA das Verlegen ganzer Teilbäume. Damit wird eine umfassendere Untersuchung möglicher evolutionärer Geschichten ermöglicht.

Beurteilung der Astzuverlässigkeit

Für einen bestimmten Ast des Baumes bewertet SPRTA viele alternative Baumstrukturen, die durch SPR-Bewegungen erhalten wurden. Jede dieser alternativen Platzierungen wird hinsichtlich ihrer Wahrscheinlichkeit auf Basis der genomischen Daten bewertet. Das hilft zu bestimmen, wie viel Vertrauen in die ursprüngliche Platzierung der Genome entlang des Baumes gesetzt werden kann.

Rechenleistung von SPRTA

Eine der herausragenden Eigenschaften von SPRTA ist ihre rechentechnische Effizienz. Sie kann parallel zur phylogenetischen Bauminferierung ausgeführt werden, ohne nennenswerte Zeit- oder Ressourcenanforderungen hinzuzufügen. Im Vergleich zu traditionellen Methoden wie Felsensteins Bootstrap hat SPRTA eine deutlich reduzierte Laufzeit und Speicherauslastung gezeigt, insbesondere bei grossen genomischen Datensätzen.

Anwendung auf SARS-CoV-2-Genome

Um die Wirksamkeit von SPRTA zu demonstrieren, haben Forscher sie auf einen grossen Datensatz von SARS-CoV-2-Genomen angewendet, die während der COVID-19-Pandemie gesammelt wurden. Dieser Datensatz umfasste über 2 Millionen Genome, was ihn zu gross für traditionelle phylogenetische Methoden machte.

Die Schätzung des phylogenetischen Baumes unter Verwendung einer Software namens MAPLE dauerte etwa zehn Tage. Nach der Erstellung des Baumes benötigte die SPRTA-Bewertung gerade einmal über sieben Stunden auf einem einzigen Kern, was die Bewertung der Unterstützung einzelner Genomplatzierungen umfasst.

Ergebnisse und Beobachtungen

Durch diese Analyse fanden die Forscher heraus, dass viele Genome unsichere Platzierungen hatten. Sie entdeckten:

  • Eine erhebliche Anzahl von Genomen hatte nicht genügend Mutationen, um einen klaren evolutionären Pfad zu bieten.

  • Viele interne Äste des phylogenetischen Baumes zeigten ebenfalls Unsicherheiten, was Schwierigkeiten bei der Verfolgung der Ahnengeschichte bestimmter Genome verriet.

  • Die Analyse hob spezifische Mutationen hervor, die eine hohe Variabilität aufwiesen, was Fragen zur Zuverlässigkeit und zum potenziellen Einfluss auf das Verständnis der Evolution des Virus aufwarf.

Wie SPRTA mutational Studien verbessert

Im Gegensatz zu bestehenden Methoden, die sich auf Kladengruppen konzentrieren, liefert SPRTA Einblicke in individuelle Mutationen und deren evolutionäre Geschichte. Das ist besonders wertvoll für epidemiologische Studien, bei denen das Verständnis spezifischer Mutationen Entscheidungen über öffentliche Gesundheitsstrategien und Impfstoffentwicklungen beeinflussen kann.

Forscher können einen phylogenetischen Baum betrachten, der mit SPRTA-Werten annotiert ist, um ein klareres Bild sowohl der zuverlässigen als auch der unsicheren Teile des Datensatzes zu erhalten. Das ermöglicht eine fundiertere Analyse darüber, wie sich das Virus verbreitet und mutiert, und verbessert die Vorhersagemodelle für zukünftige Ausbrüche.

Fazit

Da die Grösse und Komplexität genomischer Daten weiter wachsen, haben traditionelle Methoden Schwierigkeiten, Schritt zu halten, was zu potenziellen Fehlern in der Interpretation führen kann. Mit der Einführung von SPRTA haben Forscher ein leistungsstarkes Werkzeug, das nicht nur den rechentechnischen Anforderungen grosser Datensätze gerecht wird, sondern auch den Fokus auf das Verständnis der evolutionären Dynamik einzelner Mutationen verschiebt.

Dieser neue Ansatz verbessert die Zuverlässigkeit der phylogenetischen Analyse in der genomischen Epidemiologie und liefert wichtige Informationen, um schnell auf Herausforderungen im Bereich der öffentlichen Gesundheit zu reagieren. So eröffnet SPRTA neue Wege für die Forschung sowohl in der Dynamik von Infektionskrankheiten als auch in der Evolutionsbiologie, die Wissenschaftlern und Gesundheitsbehörden helfen, effektiver auf zukünftige Pandemien zu reagieren.

Zusammenfassend wird eine Methode wie SPRTA, da die genomische Epidemiologie immer wichtiger wird, sicherlich eine Schlüsselrolle dabei spielen, genaue und zuverlässige Interpretationen von genomischen Daten zu gewährleisten und somit im Kampf gegen Infektionskrankheiten weltweit zu unterstützen.

Originalquelle

Titel: This is SPRTA: assessing phylogenetic confidence at pandemic scales

Zusammenfassung: Phylogenetics plays a central role in evolutionary biology and genomic epidemiology. Assessing phylogenetic confidence and reliability is therefore crucial and methods to do this, such as Felsensteins bootstrap, are among the most used in modern science. However, methods based on Felsensteins bootstrap suffer from excessive computational demand, and are unsuitable for large datasets. Furthermore, most of these methods emerge from a cladistic framework which makes their results hard to interpret in the context of genomic epidemiology. We propose SPRTA (" SPR-based Tree Assessment"), an efficient and interpretable approach to assess confidence in phylogenetic trees. SPRTA shifts the paradigm of phylogenetic support measurement from evaluating the confidence in clades (groupings of taxa) to genome evolution histories, for example assessing if a lineage evolved from another considered lineage or not. This focus on evolutionary histories is particularly valuable in genomic epidemiology, where typically the evolutionary and transmission history of a pathogen are of interest, not clade content. We illustrate the use of SPRTA by investigating a global SARS-CoV-2 phylogenetic tree relating > 2M genomes, highlighting plausible alternative evolutionary origins of many SARS-CoV-2 variants. We have implemented SPRTA within the free and open source maximum likelihood phylogenetic software MAPLE, available from https://github.com/NicolaDM/MAPLE.

Autoren: Nicola De Maio, N. Ly-Trong, B. Q. Minh, N. Goldman

Letzte Aktualisierung: 2024-10-21 00:00:00

Sprache: English

Quell-URL: https://www.biorxiv.org/content/10.1101/2024.10.21.619398

Quell-PDF: https://www.biorxiv.org/content/10.1101/2024.10.21.619398.full.pdf

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an biorxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel