Neue Methode zur Messung der Genomgrösse von Pflanzen
MGSE bietet eine zuverlässige Methode zur Schätzung der Genomgrössen von Pflanzen mithilfe von Mapping-Daten.
Boas Pucker, S. Natarajan, J. Gehrke
― 6 min Lesedauer
Inhaltsverzeichnis
- Historische Methoden zur Messung der Genomgrösse
- Die Herausforderungen bei der Messung der Genomgrösse
- Eine neue Methode: Mapping-basierte Genomgrössenabschätzung (MGSE)
- Analysierte Datensätze
- Schätzung der A. thaliana Genomgrösse mit MGSE
- Bewertung der Genomgrösse von Beta vulgaris
- Oryza sativa Genomgrössenabschätzung
- Anwendungen über verschiedene Pflanzenarten hinweg
- Leistung und Ausblick auf die Zukunft von MGSE
- Fazit
- Originalquelle
- Referenz Links
Pflanzen haben Genome, die ganz schön komplex sein können, und die Grösse dieser Genome zu messen, ist nicht so einfach. Während wir die Grösse von Chromosomen unter dem Mikroskop messen können, bleibt die Gesamtlänge aller DNA in einer einzelnen Zelle oft unbekannt. Das gilt besonders für gängige Modellpflanzen wie Arabidopsis thaliana, die seit Jahren untersucht wird.
Historische Methoden zur Messung der Genomgrösse
Früher haben Wissenschaftler verschiedene biochemische Methoden verwendet, um die Genomgrössen zu schätzen. Dazu gehörten Techniken wie Reassoziationskinetik, Feulgen-Photometrie, quantitative Gel-Blot-Hybridisierung, Southern Blotting und Durchflusszytometrie. Diese Methoden benötigten normalerweise ein Referenzgenom, was bedeutet, dass sie die Probe mit einer bekannten Sequenz verglichen.
Mit den Fortschritten in der Technologie kam das Next-Generation-Sequencing, das es Wissenschaftlern ermöglicht, DNA-Sequenzen effektiver zu analysieren. Dieser neue Ansatz basiert darauf, Muster in kleinen DNA-Segmenten zu finden, die als k-mers bekannt sind. Verschiedene Tools wurden entwickelt, um diese k-mers zu analysieren, darunter JellyFish, Kmergenie, Tallymer, Kmerlight und Genomic Character Estimator (gce). Obwohl diese neueren Methoden wertvolle Einblicke bieten, benötigen sie typischerweise eine grössere Menge an sequenzierten Daten.
Die Herausforderungen bei der Messung der Genomgrösse
Trotz Verbesserungen bei den Messtechniken bleiben einige Herausforderungen bestehen. Einige Bereiche der Pflanzen-Genome, wie die Nukleolus-organisierenden Regionen (NOR) und Zentromere, sind schwer zusammenzustellen. Das bedeutet, dass die Grösse eines Genoms nicht direkt aus der Grösse seiner Assemblierung abgeleitet werden kann. Tatsächlich könnte die Assemblierungsgrösse nur eine untere Grenze für die tatsächliche Genomgrösse bieten.
Die Schätzungen zur Genomgrösse von A. Thaliana schwanken stark, wobei einige frühere Schätzungen Grössen von nur 70 Millionen Basenpaaren (Mbp) oder bis zu 211 Mbp vorschlugen. Neuere Studien zeigen jedoch, dass genauere Schätzungen normalerweise zwischen 125 Mbp und 165 Mbp liegen. Diese Inkonsistenz kann oft aus Unterschieden in den verwendeten Methoden oder den spezifischen analysierten Proben resultieren.
MGSE)
Eine neue Methode: Mapping-basierte Genomgrössenabschätzung (Ein vielversprechender neuer Ansatz zur Schätzung der Genomgrösse ist die Mapping-basierte Genomgrössenabschätzung (MGSE). Diese Methode nutzt ein Python-Skript, um Lesemapping-Daten zu analysieren und die Abdeckungsinformationen zu verarbeiten, um die Grösse eines Genoms vorherzusagen. MGSE ist anders als frühere Tools, da es kurze und lange Reads aus verschiedenen Sequenzierungstechnologien verarbeiten kann.
Um MGSE effektiv einzusetzen, wurden Datensätze von spezifischen Pflanzenvarianten, wie verschiedenen A. thaliana-Zugängen, analysiert. Indem ein hochwertiges Referenzgenom für das Mapping verwendet wurde, berechnet das Skript die durchschnittliche Abdeckung der Nukleotide in der Region. Das ist entscheidend, um die Gesamtgenomgrösse abzuschätzen.
Analysierte Datensätze
Die Forschung nutzte verschiedene Sequenzierungsdatensätze von A. thaliana-Zugängen, wie Columbia-0 (Col-0) und Niederzenz-1 (Nd-1). Diese Datensätze wurden aus öffentlichen Datenbanken bezogen und beinhalteten Lesemappings gegen Referenzgenome. Auch für andere Pflanzen wie Beta vulgaris wurden verschiedene Zugänge analysiert, um die breitere Anwendbarkeit von MGSE zu bewerten.
Schätzung der A. thaliana Genomgrösse mit MGSE
Mit MGSE schätzten die Wissenschaftler die Genomgrössen der A. thaliana-Zugänge Col-0 und Nd-1. Verschiedene Referenzregionen wurden getestet, um die beste Anpassung zur Berechnung der Abdeckung zu finden. Die Schätzungen wurden dann mit Ergebnissen aus anderen Tools wie GenomeScope und gce verglichen.
Für Col-0 sagten die Schätzungen eine Genomgrösse voraus, die unter der grössten berichteten Assemblierungsgrösse lag. MGSE schien vielversprechend zu sein, da die Variation zwischen verschiedenen Proben gering war und eng mit den Durchschnitten nahezu vollständiger Genomsequenzen übereinstimmte. Im Gegensatz dazu boten die anderen Tools unterschiedliche Vorhersagen, wobei einige viel niedrigere Genomgrössen berichteten.
Als die MGSE-Methode auf Nd-1 angewendet wurde, lieferte sie ebenfalls Schätzungen, die im Vergleich zu anderen Methoden zuverlässiger waren. Die Analyse deutete darauf hin, dass die Genomgrösse von Nd-1 etwa 138-140 Mbp betragen sollte.
Bewertung der Genomgrösse von Beta vulgaris
Als nächstes wurde MGSE verwendet, um die Grösse der Beta vulgaris-Genome zu schätzen. Angesichts der Komplexität ihres Genoms erforderte die Vorhersage der Grösse, die Sequenzierungsdaten aus verschiedenen Sorten zu berücksichtigen. Die Analyse zeigte, dass frühere Schätzungen als Unterbewertungen betrachtet werden sollten, während MGSE einen angemessenen Bereich für die tatsächliche Genomgrösse lieferte, der etwa zwischen 600 und 758 Mbp lag.
Obwohl einige Proben eine geringe Abdeckung zeigten, was darauf hindeuten könnte, dass sie zu einer anderen Unterart gehören, schnitt MGSE im Allgemeinen gut bei der Schätzung der Genomgrössen von Beta vulgaris ab.
Oryza sativa Genomgrössenabschätzung
Oryza sativa, eine wichtige Nahrungspflanze, wurde ebenfalls mit MGSE analysiert. Mit einer kürzlich berichteten vollständigen Genomsequenz bewertete die Methode verschiedene Sequenzierungsdaten, um die Genomgrösse zu schätzen. Die Ergebnisse von MGSE lagen nahe an der vermuteten vollständigen Genomgrösse, was seine Effektivität hervorhob.
Anwendungen über verschiedene Pflanzenarten hinweg
MGSE wurde entwickelt, um über eine breite Palette von Pflanzenarten hinweg zu arbeiten. Die Analyse umfasste Brachypodium distachyon, Solanum lycopersicum und Zea mays, unter anderen. Im Allgemeinen waren die von MGSE erzeugten Vorhersagen ähnelt denen anderer Tools, boten jedoch manchmal stabilere Schätzungen.
Im Fall von Brachypodium distachyon schätzte MGSE die Genomgrösse leicht über der Assemblierungsgrösse, während andere Tools oft niedrigere Werte voraussagten. Bei Zea mays zeigte MGSE eine verbesserte Leistung im Vergleich zu anderen Methoden.
Leistung und Ausblick auf die Zukunft von MGSE
MGSE funktioniert am besten, wenn es auf hochwertige Genomassemblierungen angewendet wird, und erfordert eine genaue Berechnung der Abdeckung jeder Position. Ein wesentlicher Vorteil von MGSE ist die Fähigkeit, Reads von kontaminierender DNA auszuschliessen und dabei Fälle mit hoher Kontamination effektiv zu behandeln.
Zukünftige genomische Studien werden voraussichtlich hochkontinuierliche Assemblierungen und Lesemappings erzeugen, wodurch MGSE eine wertvolle Ressource für Forscher darstellt. Darüber hinaus hat MGSE das Potenzial, Genome von komplexen und polyploiden Arten zu analysieren, in denen mehrere Kopien von Genen existieren können.
Eine bemerkte Herausforderung ist die Variation im GC-Gehalt über verschiedene genomische Regionen hinweg, die zu Sequenzierungsbias führen kann. Diese Bias zu adressieren, ist entscheidend, um die Vorhersagen der Genomgrösse weiter zu verfeinern.
Insgesamt, mit der kontinuierlichen Entwicklung von Long-Read-Sequenzierungstechnologien, könnte MGSE ein wichtiges Werkzeug für Forscher in der Pflanzen-Genomik werden und könnte auch auf verschiedene Arten ausserhalb von Pflanzen anwendbar sein.
Fazit
Die Suche nach einer genauen Messung der Genomgrössen in Pflanzen bleibt eine herausfordernde, aber notwendige Aufgabe. Die Einführung von MGSE bietet einen neuen Weg für Forscher, Genomgrössen effektiv zu schätzen und die Probleme anzugehen, mit denen frühere Methoden konfrontiert waren. Durch die Nutzung hochwertiger Assemblierungen und Lesemappings kann MGSE wertvolle Einblicke liefern, die unser Verständnis der Pflanzen-Genetik verbessern. Während diese Methode weiterhin getestet und verfeinert wird, verspricht sie, zuverlässige Genomgrössenschätzungen über eine breite Palette von Pflanzenarten hinweg anzubieten.
Titel: Mapping-based genome size estimation
Zusammenfassung: While the size of chromosomes can be measured under a microscope, obtaining the exact size of a genome remains a challenge. Biochemical methods and k-mer distribution-based approaches allow only estimations. An alternative approach to estimate the genome size based on high contiguity assemblies and read mappings is presented here. Analyses of Arabidopsis thaliana and Beta vulgaris data sets are presented to show the impact of different parameters. Oryza sativa, Brachypodium distachyon, Solanum lycopersicum, Vitis vinifera, and Zea mays were also analyzed to demonstrate the broad applicability of this approach. Mapping-based Genome Size Estimation (MGSE) and additional scripts are available on GitHub: https://github.com/bpucker/MGSE.
Autoren: Boas Pucker, S. Natarajan, J. Gehrke
Letzte Aktualisierung: 2024-10-24 00:00:00
Sprache: English
Quell-URL: https://www.biorxiv.org/content/10.1101/607390
Quell-PDF: https://www.biorxiv.org/content/10.1101/607390.full.pdf
Lizenz: https://creativecommons.org/licenses/by-nc/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an biorxiv für die Nutzung seiner Open-Access-Interoperabilität.