Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Biologie# Bioinformatik

Verbesserung der Kern-Gen-Identifikation in metagenomisch assemblierten Genomen

CELEBRIMBOR bietet einen besseren Weg, um Kern-Gene in unvollständigen Genomen zu finden.

― 5 min Lesedauer


CELEBRIMBOR verbessertCELEBRIMBOR verbessertdie Entdeckung vonKern-Genen.finden.unvollständigen bakteriellen Genomen zuNeue Methode hilft, Kern-Gene in
Inhaltsverzeichnis

Metagenomisch assemblierte Genome (MAGs) entstehen, indem man die DNA von gemischten Gruppen von Mikroorganismen analysiert. Diese Genome sind ziemlich wichtig, weil sie einen grossen Teil der bakteriellen Genome darstellen, die öffentlich zugänglich sind. Die Erstellung von MAGs hängt von speziellen Computerprogrammen ab, die beim Zusammenstellen und Überprüfen der Qualität dieser Genome helfen.

Die Bedeutung von Kern-Genen

Ein wesentlicher Teil der Analyse bakterieller Genome, einschliesslich MAGs, besteht darin, "Kern"-Gene zu identifizieren. Kern-Gene sind diejenigen, die in fast allen Genomen einer bestimmten Art vorkommen. Diese Gene sind entscheidend, um die grundlegenden Funktionen und Merkmale zu verstehen, die eine Art definieren. Aber da MAGs oft unvollständige Informationen haben, wegen Fehlern im Zusammenstellungsprozess, können nicht alle Kern-Gene identifiziert werden. Das führt zu einer Unterschätzung der Gesamtzahl der Kern-Gene einer Art.

Herausforderungen bei der Identifizierung von Kern-Genen

Aktuelle Methoden zur Schätzung der Anzahl von Kern-Genen in unvollständigen Genomen stützen sich hauptsächlich auf statistische Modelle, die die Häufigkeit berücksichtigen, mit der Gene in verschiedenen Genomen auftreten. Leider können diese Methoden von Fehlern bei der Vorhersage oder Gruppierung von Genen betroffen sein. Es gibt Modelle, die versuchen, den Prozess zu verbessern, indem sie die Anordnung der Gene betrachten, aber diese konzentrieren sich nicht speziell auf MAGs. Die häufigen Zusammenstellungsfehler in MAGs können es noch schwieriger machen, Kern-Gene zu finden und korrekt zu identifizieren.

Einführung von CELEBRIMBOR

Um diese Herausforderungen anzugehen, wird eine neue Methode namens CELEBRIMBOR vorgeschlagen. CELEBRIMBOR ist darauf ausgelegt, die Schwellenwerte zur Identifizierung von Kern-Genen in MAGs anzupassen. Diese Methode berücksichtigt die Vollständigkeit der Genome – wie viel eines Genoms genau dargestellt ist – zusammen mit der Häufigkeit des Auftretens von Genen. Dadurch zielt CELEBRIMBOR darauf ab, eine bessere Schätzung der Anzahl der Kern-Gene zu liefern, indem es einen zuverlässigereren Ansatz zur Behandlung von Genbeobachtungen verwendet.

Wie CELEBRIMBOR funktioniert

CELEBRIMBOR arbeitet mit einem Workflow, der den Prozess der Analyse einer grossen Sammlung von Genomen automatisiert. Es beginnt damit, die Gene in den Genomen mithilfe eines speziellen Werkzeugs vorherzusagen. Als nächstes organisiert es die Gene basierend auf ihrem Vorhandensein oder Fehlen in verschiedenen Proben. Um zu bewerten, wie vollständig jedes Genom ist, verwendet es bekannte Marker-Gene. Der entscheidende Schritt besteht darin, einen neuen Schwellenwert für die Identifizierung von Kern-Genen auf der Basis der gesammelten Daten über Genhäufigkeit und Vollständigkeit zu berechnen.

Anpassung der Identifizierung von Kern-Genen

Normalerweise wird ein Gen als Kern-Gen klassifiziert, wenn es in 95% oder mehr der analysierten Genome vorkommt. Aufgrund unvollständiger Daten könnten jedoch einige Gene, die Kern-Gene sein sollten, in den Proben nicht so häufig vorkommen. CELEBRIMBOR verwendet ein Modell, das simuliert, wie oft Gene in Genomen beobachtet werden sollten, um den Schwellenwert für Kern-Gene besser zu schätzen. Das Ziel ist es, ein Gleichgewicht zu finden zwischen der genauen Identifizierung von Kern-Genen und der Minimierung des Risikos, nicht-Kern-Gene fälschlicherweise als Kern-Gene zu kennzeichnen.

Testen von CELEBRIMBOR mit simulierten Daten

Um zu bewerten, wie gut CELEBRIMBOR funktioniert, haben Forscher simulierte Datensätze erstellt, indem sie zufällige Segmente von DNA aus vollständigen Genomen von Escherichia coli entfernt haben. Die Änderungen an den Proben ahmen die Art von Fehlern nach, die in echten MAGs zu sehen sind. Mit sowohl CELEBRIMBOR als auch anderen traditionellen Methoden verglichen sie, wie viele Kern-Gene vor und nach diesen Modifikationen identifiziert werden konnten.

Die Ergebnisse zeigten, dass mit steigendem Schwellenwert zur Identifizierung von Kern-Genen die Anzahl der identifizierten Kern-Gene signifikant abnahm. Ohne Anpassungsmethoden wurden sehr wenige Kern-Gene gefunden, wenn der Schwellenwert über einen bestimmten Punkt erhöht wurde. Im Gegensatz dazu erlaubte CELEBRIMBOR eine viel klarere Schätzung der Kern-Gene, unabhängig von der verwendeten Methode zur Gruppierung der Gene.

Einblicke in die rechnerische Effizienz

Die Analyse betrachtete auch die benötigte Verarbeitungszeit für jede Methode und zeigte, dass eine Methode schneller und effizienter war als die andere. Während beide Methoden eine beträchtliche Menge an Computerspeicher benötigten, war die schnellere Methode, die sich auf Proteine konzentrierte, besser geeignet für den Umgang mit grösseren Datensätzen.

Die Rolle von MAGs im Verständnis bakterieller Vielfalt

MAGs sind besonders nützlich, wenn man Bakterien studiert, die nicht einfach im Labor gezüchtet werden können. Sie tragen zu unserem Verständnis der Vielfalt von Bakterien bei und liefern essentielle Informationen für verschiedene wissenschaftliche Bereiche, einschliesslich Epidemiologie und Evolutionsbiologie. CELEBRIMBOR verbessert die Fähigkeit von Forschern, Kern-Gene zu identifizieren, selbst wenn sie mit unvollständigen genetischen Daten konfrontiert sind. Diese Fähigkeit ist entscheidend für die Analyse, wie Bakterien sich entwickeln und verbreiten.

Einschränkungen und Überlegungen

Trotz ihrer Vorteile geht CELEBRIMBOR davon aus, dass die fehlenden Daten in den Genomen zufällig auftreten. Wenn bestimmte Regionen eines Genoms während des Zusammenstellungsprozesses eher Fehler aufweisen, könnte diese Annahme nicht zutreffen. Infolgedessen könnten echte Kern-Gene in diesen problematischen Regionen übersehen werden.

Fazit

CELEBRIMBOR ist darauf ausgelegt, den Prozess der Analyse grosser Datensätze von metagenomisch assemblierte Genomen zu optimieren. Durch die Bereitstellung einer genaueren Möglichkeit zur Identifizierung von Kern-Genen können Forscher zuverlässigere Einblicke in die evolutionären Beziehungen und Merkmale verschiedener bakterieller Arten gewinnen. Dieses Tool ist ein bedeutender Fortschritt für Wissenschaftler, die die Komplexität und Vielfalt des mikrobiellen Lebens untersuchen wollen, insbesondere in Situationen, in denen traditionelle Methoden aufgrund unvollständiger Daten versagen.

Während die Wissenschaft sich weiterentwickelt, werden Tools wie CELEBRIMBOR eine entscheidende Rolle dabei spielen, Forschern zu helfen, die Geheimnisse der mikrobiellen Vielfalt und Funktion zu entschlüsseln und den Weg für detailliertere Studien in der Zukunft zu ebnen.

Originalquelle

Titel: CELEBRIMBOR: Pangenomes from metagenomes

Zusammenfassung: SummaryMetagenome Assembled Genomes (MAGs) are often incomplete, with sequences missing due to errors in assembly or low coverage. Incomplete MAGs present a particular challenge for identification of shared genes within a microbial population, known as core genes, as a core gene missing in only a few assemblies will result in it being mischaracterized at a lower frequency. Here, we present CELEBRIMBOR, a snakemake pangenome analysis pipeline which uses a measure of genome completeness to automatically adjust the frequency threshold at which core genes are identified, enabling accurate core gene identification in MAGs. Availability and implementationCELEBRIMBOR is published under open source Apache 2.0 licence at https://github.com/bacpop/CELEBRIMBOR and is available as a Docker container. Supplementary material is available in the online version of the article.

Autoren: John Lees, J. Hellewell, S. T. Horsfield, J. von Wachsmann, T. Gurbich, R. D. Finn, Z. Iqbal, L. W. Roberts

Letzte Aktualisierung: 2024-04-09 00:00:00

Sprache: English

Quell-URL: https://www.biorxiv.org/content/10.1101/2024.04.05.588231

Quell-PDF: https://www.biorxiv.org/content/10.1101/2024.04.05.588231.full.pdf

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an biorxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel