ROADIES: Ein neues Tool für die genomische Analyse
ROADIES optimiert die Analyse von genomischen Daten und erstellt effizient und genau Artbäume.
― 6 min Lesedauer
Inhaltsverzeichnis
Die Genomsequenzierung schreitet schnell voran und ermöglicht es Wissenschaftlern, die DNA vieler verschiedener Organismen genauer und gründlicher zu kartieren als je zuvor. In den kommenden Jahren könnten Tausende, sogar Millionen dieser DNA-Sequenzen verfügbar sein. Diese wertvollen Informationen können helfen, wichtige Fragen darüber zu beantworten, wie Arten im Laufe der Zeit miteinander verwandt sind. Allerdings ist die Analyse dieser Daten komplex und erfordert viele detaillierte Schritte. Daher wächst der Bedarf, automatisierte Systeme zu schaffen, die diese Sequenzen effizient analysieren und genaue Bäume erstellen können, die zeigen, wie verschiedene Arten miteinander verwandt sind.
Der Bedarf an Automatisierung
Trotz der hohen Nachfrage nach automatisierten Werkzeugen in der Analyse genomischer Daten ist es nach wie vor eine Herausforderung, Systeme zu entwickeln, die diese Art von Artbäumen genau ableiten können. Es gibt keine spezifische Methode, die sich für diese Aufgabe weltweit durchgesetzt hat. Die aktuellen Methoden versuchen oft, die Unterschiede zu berücksichtigen, die aus Gensequenzen resultieren, die aufgrund evolutionärer Veränderungen nicht immer perfekt übereinstimmen. Diese Prozesse erfordern jedoch typischerweise viel manuelle Arbeit und sind fehleranfällig. Ein zentrales Problem ist, dass traditionelle Analysemethoden stark auf präzisen Genannotationen basieren, die kompliziert sein können und spezialisiertes Wissen erfordern.
Die Analyse besteht aus mehreren Schritten, darunter die Auswahl und Annotation von Genen bestimmter Arten, das Finden ähnlicher Gene in anderen Arten und die Wahl der besten Methoden zum Vergleichen und Analysieren dieser Gene. Jeder Schritt kann zeitaufwändig und komplex sein, was den Bedarf an Automatisierung verstärkt.
Einführung von ROADIES
Um diese Herausforderungen zu bewältigen, haben wir ein Tool namens ROADIES entwickelt. Dieses Tool Automatisiert den Prozess der Erstellung von Artbäumen aus Rohgenomsequenzen und sorgt gleichzeitig für Genauigkeit, Zuverlässigkeit und Geschwindigkeit. Der Name ROADIES steht für "Referenzfrei, Orthologiefrei, Alignmentsfrei, Diskrepanzbewusstes Schätzen von Artbäumen", was die wichtigsten Merkmale hervorhebt:
Referenzfrei: ROADIES benötigt kein Referenzgenom oder Annotationen. Dieser Ansatz reduziert Verzerrungen und vereinfacht den Analyseprozess.
Orthologiefrei: Das Tool muss keine orthologen Gene identifizieren (Gene in verschiedenen Arten, die von einem gemeinsamen Vorfahren abstammen). Es kann Gentrees analysieren, die mehrere Kopien von Genen enthalten, und reduziert so Fehler, die mit der Orthologiedetektion verbunden sind.
Alignmentsfrei: ROADIES erstellt intern Alignments und benötigt keine vorhandenen Alignments von den Nutzern.
Diskrepanzbewusst: Das Tool verwaltet effektiv die Unstimmigkeiten, die in Gentrees aufgrund unterschiedlicher evolutionärer Geschichten auftreten können.
ROADIES wurde mit drei grossen Datensätzen getestet: Säugetieren, Vögeln und Trauermücken, und hat vielversprechende Ergebnisse in Bezug auf Genauigkeit und Geschwindigkeit im Vergleich zu traditionellen Methoden gezeigt.
Erfolge von ROADIES
Bei der Bewertung der Leistung von ROADIES an den Datensätzen von 240 plazentaren Säugetieren zeigte es eine hohe Übereinstimmung mit etablierten Forschungen. Zum Beispiel produzierte es einen Baum, der eng mit dem Referenzbaum übereinstimmte, was auf genaue Beziehungen zwischen den Arten hinweist. Die Analyse zeigte auch, dass ROADIES zuverlässige Phylogenien erzeugen kann, selbst wenn die Anzahl der Gentrees steigt.
Einer der bedeutendsten Vorteile von ROADIES ist die Geschwindigkeit, die es bietet. Es kann grosse Mengen an genomischen Daten in viel kürzerer Zeit verarbeiten als herkömmliche Methoden, die oft Wochen oder Monate in Anspruch nehmen. ROADIES kann Geschwindigkeiten erreichen, die mehr als 176 Mal schneller sind als traditionelle Ansätze.
Darüber hinaus wurde ROADIES auch an Datensätzen von 100 Trauermücken-Genomen und 363 Vogel-Genomen getestet. Es erzielte hohe Unterstützungswerte für die geschätzten Beziehungen und bestätigte damit seine Wirksamkeit über verschiedene Datensatztypen hinweg.
Die Betriebsmodi von ROADIES
ROADIES bietet den Nutzern drei verschiedene Betriebsmodi, um Genauigkeit und Geschwindigkeit in Einklang zu bringen:
Genauer Modus: Dies ist die Standardeinstellung, die die höchste Genauigkeit bietet, indem detaillierte Alignments und robuste Baumabschätzungsmethoden verwendet werden.
Ausgewogener Modus: Dieser Modus findet eine Balance zwischen Geschwindigkeit und Genauigkeit, indem schnellere Methoden zur Schätzung von Gentrees verwendet werden, während eine gute Zuverlässigkeit beibehalten wird.
Schneller Modus: Wie der Name schon sagt, priorisiert dieser Modus die Geschwindigkeit über die Genauigkeit und eignet sich für Nutzer, die schnelle Ergebnisse benötigen und eine geringere Präzision akzeptieren können.
Die ROADIES-Pipeline
Der Arbeitsablauf von ROADIES besteht aus mehreren Schritten, beginnend mit der zufälligen Auswahl von Gensequenzen aus den Eingangsgenomen. Jede Gensequenz wird als separate Einheit für die Analyse behandelt. Das Tool führt paarweise Alignments durch, um homologe Sequenzen über alle Genome hinweg zu finden, filtert low-quality Alignments heraus und führt dann multiple Sequenzalignments durch.
Anschliessend werden Gentrees aus den multiplen Sequenzalignments geschätzt. Schliesslich konstruiert ROADIES einen Artbaum basierend auf den gesammelten Gentrees. Der gesamte Prozess ist hochgradig konfigurierbar, sodass Nutzer verschiedene Parameter je nach ihren spezifischen Anforderungen anpassen können.
Leistung und Ergebnisse
ROADIES hat seine Fähigkeit unter Beweis gestellt, phylogenetische Bäume genau und effizient über verschiedene Datensätze hinweg zu erzeugen. Zum Beispiel zeigte das Tool eine starke Leistung bei der Generierung einer Phylogenie von 240 plazentaren Säugetieren und erreichte einen niedrigen Distanzwert im Vergleich zum etablierten Referenzbaum. Diese Übereinstimmung legt nahe, dass ROADIES in der Lage ist, evolutionäre Beziehungen genau abzuleiten, selbst in komplexen Datensätzen.
Im Fall der Trauermücken und Vögel hielt ROADIES ebenfalls hohe Genauigkeits- und Geschwindigkeitsniveaus. Die Ergebnisse bestätigen weiter, dass ROADIES über verschiedene Arten und Datensätze hinweg eingesetzt werden kann, was es vielseitig für die biologische Forschung macht.
Die Zukunft von ROADIES
Die Entwicklung von ROADIES ist nur der Anfang. Da genomische Daten weiterhin in Grösse und Komplexität wachsen, wird die Nachfrage nach effizienten und genauen Analysetools wie ROADIES nur zunehmen. Zukünftige Verbesserungen umfassen die Erkundung von Möglichkeiten zur Nutzung von GPU-Technologie zur weiteren Beschleunigung von Berechnungsaufgaben, die Verbesserung der Skalierbarkeit für noch grössere Datensätze und die Verfeinerung von Methoden zur Wurzelbildung und Unsicherheitsquantifizierung.
Durch kontinuierliche Aktualisierungen und Verbesserungen von ROADIES zielt man darauf ab, ein Tool zu schaffen, das nicht nur effektiv, sondern auch benutzerfreundlich für Forscher in verschiedenen Bereichen ist und die genomische Analyse zugänglich und effizient macht.
Fazit
ROADIES stellt einen bedeutenden Fortschritt in der Automatisierung der Analyse genomischer Daten dar. Es geht auf die Komplexitäten und Herausforderungen ein, die dieses Feld traditionell behindert haben, und bietet einen effizienten, genauen und flexiblen Ansatz zur Konstruktion von Artbäumen aus Rohgenomsequenzen. Mit seinen vielversprechenden Ergebnissen und der weiteren Entwicklung ist ROADIES gut positioniert, um eine wertvolle Ressource für Forscher zu werden, die an evolutionärer Biologie und verwandten Bereichen arbeiten.
Titel: Accurate, scalable, and fully automated inference of species trees from raw genome assemblies using ROADIES
Zusammenfassung: Inference of species trees plays a crucial role in advancing our understanding of evolutionary relationships and has immense significance for diverse biological and medical applications. Extensive genome sequencing efforts are currently in progress across a broad spectrum of life forms, holding the potential to unravel the intricate branching patterns within the tree of life. However, estimating species trees starting from raw genome sequences is quite challenging, and the current cutting-edge methodologies require a series of error-prone steps that are neither entirely automated nor standardized. In this paper, we present ROADIES, a novel pipeline for species tree inference from raw genome assemblies that is fully automated, easy to use, scalable, free from reference bias, and provides flexibility to adjust the tradeoff between accuracy and runtime. The ROADIES pipeline eliminates the need to align whole genomes, choose a single reference species, or pre-select loci such as functional genes found using cumbersome annotation steps. Moreover, it leverages recent advances in phylogenetic inference to allow multi-copy genes, eliminating the need to detect orthology. Using the genomic datasets released from large-scale sequencing consortia across three diverse life forms (placental mammals, pomace flies, and birds), we show that ROADIES infers species trees that are comparable in quality with the state-of-the-art approaches but in a fraction of the time. By incorporating optimal approaches and automating all steps from assembled genomes to species and gene trees, ROADIES is poised to improve the accuracy, scalability, and reproducibility of phylogenomic analyses. Code and Data availabilityThe source code of ROADIES is freely available under the MIT License on GitHub (https://github.com/TurakhiaLab/ROADIES), and the documentation for ROADIES is available at https://turakhia.ucsd.edu/ROADIES/. The details of the input datasets used in the manuscript are listed in Supplementary Tables 1-3. All inferred gene trees and species trees are to be deposited to Dryad with links to be made available on the aforementioned GitHub repository. [email protected]
Autoren: Yatish Turakhia, A. Gupta, S. Mirarab
Letzte Aktualisierung: 2024-06-01 00:00:00
Sprache: English
Quell-URL: https://www.biorxiv.org/content/10.1101/2024.05.27.596098
Quell-PDF: https://www.biorxiv.org/content/10.1101/2024.05.27.596098.full.pdf
Lizenz: https://creativecommons.org/licenses/by-nc/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an biorxiv für die Nutzung seiner Open-Access-Interoperabilität.