Genetische Variationen mit GraffiTE untersuchen
GraffiTE hilft dabei, transposable Elemente und genetische Unterschiede zwischen Arten zu analysieren.
― 7 min Lesedauer
Inhaltsverzeichnis
- Die Rolle von TEs in der Genetik
- Pangenomik: Ein neuer Ansatz zur Untersuchung von Genomen
- Einführung von GraffiTE: Ein neues Werkzeug für die genomische Analyse
- Praktische Anwendungen von GraffiTE
- Wie GraffiTE funktioniert: Ein Schritt-für-Schritt-Überblick
- Vorteile der Verwendung von GraffiTE
- Bewertung von Daten aus der realen Welt
- Fallstudien zu verschiedenen Arten
- Fazit
- Originalquelle
- Referenz Links
Transposable Elemente (TEs) sind wiederholende Sequenzen, die in fast allen eukaryotischen Organismen vorkommen. Sie haben die einzigartige Fähigkeit, sich innerhalb ihres Wirtsgenoms zu vermehren und auszubreiten. Diese Elemente können Variationen im genetischen Erbgut einer Art schaffen, die sich auf Merkmale und Eigenschaften auswirken können. Bei Menschen sind derzeit nur einige TE-Familien aktiv, aber sie tragen zu zehntausenden Unterschieden zwischen Individuen bei, die als polymorphe mobile Elemente (PMEs) bekannt sind. Interessanterweise haben andere Arten wie Drosophila melanogaster weniger TEs, aber eine höhere Anzahl aktiver Familien.
Die Rolle von TEs in der Genetik
Mit den Fortschritten in der Sequenzierungstechnologie haben Forscher zunehmend Interesse an der Untersuchung von pMEs gewonnen. Diese Elemente helfen, die Populationsstrukturen und genetische Vielfalt zu verstehen. Sie können als genetische Marker dienen, um Vererbungsmuster und mögliche Auswirkungen auf Krankheiten oder Anpassungen zu verfolgen. Im Grunde spielen pMEs eine bedeutende Rolle bei der Variation in Genomen und bieten Material für die Evolution.
Die Erkennung und Klassifizierung von pMEs ist jedoch aufgrund ihrer wiederholenden Natur und unterschiedlichen Längen eine Herausforderung. Viele Methoden wurden entwickelt, um diese Elemente zu identifizieren, besonders mit dem Aufkommen der Langread-Sequenzierung, die sich als effektiver erwiesen hat, um vollständige Sequenzen zu erfassen. Folglich wurden neue Werkzeuge entwickelt, um verschiedene genetische Variationen, einschliesslich pMEs, zu erkennen.
Pangenomik: Ein neuer Ansatz zur Untersuchung von Genomen
Die Untersuchung von pMEs passt in ein grösseres Feld, das als Pangenomik bekannt ist und mehrere Genome gleichzeitig analysiert. Dieser Ansatz ermöglicht es den Forschern, die genetische Vielfalt besser zu verstehen, da er Variationen einschliesst, die möglicherweise übersehen werden, wenn man ein einzelnes Referenzgenom betrachtet. Pangenomik verbessert die Schätzungen darüber, wie häufig oder selten bestimmte genetische Variationen sind, was besonders nützlich in Bereichen wie der Krankheitsforschung und Landwirtschaft ist.
In der Pangenomik sind Graph-Genome eine flexible Möglichkeit, genomische Variationen darzustellen. Diese Graphen verwenden Knoten, um gemeinsame Segmente zu symbolisieren, und Blasen für Variationen. Diese Struktur ermöglicht es Forschern, verschiedene genetische Variationen effektiv abzubilden.
Einführung von GraffiTE: Ein neues Werkzeug für die genomische Analyse
Um Forschern zu helfen, TE-Einfügungs-Polymorphismen zu untersuchen, wurde die GraffiTE-Pipeline entwickelt. GraffiTE ist dafür ausgelegt, pMEs in jedem Organismus zu analysieren, der eine Liste von TE-Sequenzen zur Verfügung hat. Es bietet verschiedene Methoden zur Erkennung und Berichterstattung von pMEs, die sowohl Genomassemblierungen als auch Langread-Sequenzierungsdaten nutzen. Der Prozess ist benutzerfreundlich gestaltet, sodass Forscher umfassende Analysen mit nur einem Befehl durchführen können.
Die GraffiTE-Pipeline hat einen strukturierten Ansatz, der aus drei Hauptschritten besteht: Suche nach strukturellen Varianten (SVS), Filterung nach pMEs und Graph-Genotypisierung. Zuerst sucht sie nach Unterschieden zwischen einem Referenzgenom und anderen Assemblierungen oder Langread-Daten. Als nächstes filtert sie diese Ergebnisse, um nur die wahrscheinlich pMEs zu behalten. Schliesslich kann sie die erkannten pMEs genotypisieren, um zu bestimmen, ob sie homozygot oder heterozygot sind, was bedeutet, dass überprüft wird, ob das Individuum ein oder zwei Kopien des Elements hat.
Praktische Anwendungen von GraffiTE
Die Wirksamkeit von GraffiTE wurde sowohl mit synthetischen als auch mit echten Daten nachgewiesen. Das Werkzeug wurde verwendet, um pMEs in Menschen, Drosophila melanogaster, Mais und Cannabis sativa zu untersuchen. Jede dieser Studien hebt die Flexibilität von GraffiTE hervor, verschiedene Forschungsfragen anzugehen.
Zum Beispiel hat GraffiTE bei der Analyse des menschlichen Genoms tausende von verschiedenen pME-Loci gefunden und damit genetische Unterschiede zwischen Individuen beleuchtet. Bei Drosophila melanogaster identifizierte es eine hohe Anzahl dynamisch wechselnder TEs, was die Variabilität dieser Elemente in natürlichen Populationen zeigt.
Die Analyse von Mais konzentrierte sich auf einen bestimmten genetischen Locus, sodass die Forscher zwischen echten pMEs und anderen strukturellen Variationen unterscheiden konnten. Schliesslich ermöglichte GraffiTE bei Cannabis sativa, wo es nur begrenzte vorherige Kenntnisse über seine TEs gibt, die Entdeckung zahlreicher pMEs und zeigt somit seine Anwendbarkeit bei weniger untersuchten Organismen.
Wie GraffiTE funktioniert: Ein Schritt-für-Schritt-Überblick
GraffiTE arbeitet in drei Hauptphasen:
SV-Suche: Es vergleicht ein Referenzgenom mit entweder alternativen Assemblierungen oder Langread-Datensätzen. Dieser Schritt identifiziert strukturelle Varianten, die Veränderungen im Genom anzeigen.
Annotation und Filterung: Die erkannten Varianten werden dann gefiltert, um wahrscheinlich pMEs zu behalten. Dabei werden die Sequenzen mit bekannten TE-Bibliotheken mithilfe eines Tools namens RepeatMasker verglichen.
Graph-Genotypisierung: Der letzte Schritt besteht darin, kurze oder lange Reads einem Graph-Genom zuzuordnen, das die identifizierten pMEs darstellt. Dieser Schritt ermöglicht es den Forschern, ein klareres Bild davon zu bekommen, welche Varianten in bestimmten Proben vorhanden sind.
Vorteile der Verwendung von GraffiTE
Eine der Hauptstärken von GraffiTE ist seine Fähigkeit, verschiedene Datentypen zu verarbeiten, egal ob es sich um Genomassemblierungen oder Langread-Sequenzen handelt. Diese Flexibilität macht es vorteilhaft für Forscher, die mit verschiedenen Organismenmodellen arbeiten. Ausserdem erzeugt es Ausgaben in gängigen Formaten, die eine weiterführende Analyse und den Austausch unter Forschern erleichtern.
Das modulare Design von GraffiTE bedeutet, dass Komponenten hinzugefügt oder ersetzt werden können, wenn neue Methoden verfügbar werden. Dies stellt sicher, dass die Pipeline relevant und auf dem neuesten Stand der genetischen Forschung bleibt.
Bewertung von Daten aus der realen Welt
Die Leistung von GraffiTE wurde sowohl mit simulierter als auch mit tatsächlicher genomischer Daten bewertet. Die Bewertungen haben gezeigt, dass GraffiTE hohe Rückrufraten erzielt, was bedeutet, dass es einen erheblichen Anteil an pMEs erkennt, ohne viele echte Positivfälle zu verpassen.
Im Vergleich zu bestehenden Tools hat GraffiTE in verschiedenen Szenarien bei der Erkennung von pMEs besser abgeschnitten. Im Kontext der Humangenetik identifizierte es effektiv signifikante Variationen, die zum Verständnis der genetischen Vielfalt beitragen.
Fallstudien zu verschiedenen Arten
Menschen
Bei Menschen hat GraffiTE tausende von einzigartigen pME-Loci entdeckt, indem mehrere diploide Genomassemblierungen analysiert wurden. Es hat frühere Erkenntnisse über die Häufigkeit und Verteilung dieser Elemente in der menschlichen Bevölkerung bestätigt und Einblicke in genetische Vielfalt und potenzielle Gesundheitsimplikationen gegeben.
Drosophila melanogaster
Im Fall von Drosophila melanogaster zeigte GraffiTE, wie aktive TEs stark zwischen geografischen Stämmen variieren können. Diese Studie verstärkte das bestehende Wissen über die dynamische Natur der TEs in dieser Art und hob die Effektivität von GraffiTE bei der Erfassung dieser Unterschiede hervor.
Mais
Durch den Fokus auf einen bestimmten Bereich im Mais identifizierte GraffiTE verschiedene Variationen am bz-Locus. Diese Analyse demonstrierte die Fähigkeit des Tools, echte pMEs von anderen Variationen zu unterscheiden, und zeigte seine Anwendung in der Landwirtschafts- und Züchtungsforschung.
Cannabis sativa
Der Einsatz von GraffiTE bei Cannabis sativa zeigte eine Fülle zuvor unentdeckter pMEs. Dieser Fall legt nahe, dass GraffiTE eine entscheidende Rolle bei der Erforschung neuartiger Arten spielen kann, insbesondere von solchen mit wenig erforschten TE-Populationen.
Fazit
GraffiTE ist ein wichtiges Werkzeug für Forscher, die an der Untersuchung von transponierbaren Elementen und deren genetischen Implikationen bei verschiedenen Organismen interessiert sind. Es kombiniert Benutzerfreundlichkeit mit fortschrittlichen Analysefähigkeiten, was die Erkundung genetischer Vielfalt und die Rolle von TEs in der Evolution ermöglicht.
Die laufende Entwicklung von GraffiTE zielt darauf ab, seine Funktionen zu verbessern, indem Benutzerfeedback einfliesst und sich an neue Forschungsbedürfnisse angepasst wird. Während sich genombasierte Studien weiterentwickeln, werden Werkzeuge wie GraffiTE entscheidend sein, um die Komplexität genetischer Variation und deren Beiträge zur Anpassung und Evolution von Arten zu entschlüsseln.
Titel: A Unified Framework to Analyze Transposable Element Insertion Polymorphisms using Genome-graphs
Zusammenfassung: Transposable Elements are ubiquitous mobile DNA sequences evolving among their hosts genomes, generating insertion polymorphisms that contribute to genomic diversity. We present GraffiTE, a flexible pipeline to analyze polymorphic mobile elements. By integrating state-of-the-art structural variant detection algorithms and graph genomes, GraffiTE identifies polymorphic mobile elements from genomic assemblies and/or long-read sequencing data, and genotypes these variants using short or long read sets. Benchmarking on simulated and real datasets reports high precision and recall rates. GraffiTE is designed to allow non-expert users to perform comprehensive analyses, including in models with limited transposable element knowledge and is compatible with various sequencing technologies. GraffiTE is freely available at https://github.com/cgroza/GraffiTE. Here, we demonstrate the versatility of GraffiTE by analyzing human, Drosophila melanogaster, maize, and Cannabis sativa pangenome data. These analyses reveal the landscapes of polymorphic mobile elements and their frequency variations across individuals, strains, and cultivars.
Autoren: Clement Goubert, C. Groza, X. Chen, T. J. Wheeler, G. Bourque
Letzte Aktualisierung: 2024-07-30 00:00:00
Sprache: English
Quell-URL: https://www.biorxiv.org/content/10.1101/2023.09.11.557209
Quell-PDF: https://www.biorxiv.org/content/10.1101/2023.09.11.557209.full.pdf
Lizenz: https://creativecommons.org/licenses/by-nc/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an biorxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://github.com/cgroza/GraffiTE
- https://lh3.github.io/minimap2/minimap2.html
- https://ftp-trace.ncbi.nlm.nih.gov/ReferenceSamples/giab/release/references/GRCh37/
- https://ftp-trace.ncbi.nlm.nih.gov/ReferenceSamples/giab/data/AshkenazimTrio/analysis/NIST_S
- https://github.com/Dfam-consortium/FamDB
- https://github.com/cgroza/GraffiTE/tree/main/paper#giabhg002-benchmark
- https://github.com/marbl/HG002
- https://ftp-trace.ncbi.nlm.nih.gov/giab/ftp/data/AshkenazimTrio/HG002_NA24385_son/NIST_HiS
- https://ftp-trace.ncbi.nlm.nih.gov/ReferenceSamples/giab/data/AshkenazimTrio/HG002_NA2438
- https://ftp-trace.ncbi.nlm.nih.gov/ReferenceSamples/giab/data/AshkenazimTrio/analysis/NIST_
- https://github.com/oushujun/PopTEvo