Fortschritte in der Genomannotation: Begleitwerkzeug übernimmt die Führung
Das Begleittool vereinfacht die Genomanalyse und sorgt für bessere Ergebnisse und ein besseres Benutzererlebnis.
― 6 min Lesedauer
Inhaltsverzeichnis
In den letzten 15 Jahren haben sich die Technologien zum Lesen von DNA echt verbessert. Dazu gehört auch das Long-Read-Sequencing, das längere DNA-Stücke lesen kann. Die Kosten für das Sequencing sind ebenfalls gesunken. Diese Veränderungen, zusammen mit besseren Computerprogrammen zum Zusammenfügen von Genomen, haben es den Wissenschaftlern ermöglicht, komplette DNA-Sequenzen für viele Arten zu erstellen. Das ist besonders wichtig für Arten mit komplexer oder repetitiver DNA, die mit älteren Methoden schwer zu lesen waren. Ein ambitioniertes Projekt, das aus diesen Fortschritten hervorgegangen ist, ist das Earth BioGenome Project, das plant, rund 1,5 Millionen von geschätzten 10-15 Millionen Arten in der eukaryotischen Gruppe zu sequenzieren.
Auch wenn es einfacher geworden ist, Genome zu sequenzieren, bleibt es knifflig herauszufinden, was diese Sequenzen bedeuten – das nennt man Annotation. Viele Forschungstools, die für diese Aufgabe verwendet werden, erreichen oft nur eine Genauigkeit von etwa 55-70%, wenn es darum geht, Gene zu definieren. Dieses Problem rührt daher, dass verschiedene Organismen unterschiedliche Genstrukturen haben, inklusive verschiedener Möglichkeiten, wie Gene zusammengefügt werden können. Selbst neuere Methoden, die Long-Read-Sequencing für RNA verwenden, können immer noch zu qualitativ schlechten Annotationen führen.
Der Prozess der Genomannotation umfasst oft mehrere Tools, die unterschiedliche Zwecke erfüllen, wie das Finden von Genen oder das Identifizieren von nicht-codierender RNA. Ausserdem kann es schwierig sein, diese Annotationen an internationale Datenbanken zu übermitteln, da die Verfahren oft kompliziert sind. Das führt dazu, dass viele Genomannotation nicht leicht für die Öffentlichkeit zugänglich sind, was den Prinzipien widerspricht, die Daten findbar, zugänglich, interoperabel und wiederverwendbar machen wollen.
Tools für die Genomannotation
Es wurden mehrere automatisierte Tools entwickelt, um bei der Genomannotation zu helfen. Allerdings fehlen einigen dieser Tools benutzerfreundliche Features wie Web-Schnittstellen, was die Benutzung erschwert. Auf der anderen Seite gibt es webbasierte Tools wie GenSAS und MEGANTE, die einfacher zu benutzen sind, aber ihre eigenen Einschränkungen haben. Zum Beispiel hat MEGANTE eine maximale Dateigrösse, und die NCBI Eukaryotic Annotation Pipeline verlangt von den Nutzern, Annotationen per E-Mail anzufordern, was den Prozess zentralisiert und verlangsamen kann.
2016 wurde ein Tool namens Companion vorgestellt, das den Annotierungsprozess erleichtern soll. Companion nutzt vorhandene Referenzgenome, um genaue Annotationen zu liefern. Es verwendet verschiedene Tools, um die Sequenzen zu vergleichen und die Genpositionen vorherzusagen. Die Ergebnisse von Companion können in verschiedenen Formaten einfach heruntergeladen werden, was es für die Nutzer praktisch macht. Es hat auch visuelle Features wie Zusammenfassungsstatistiken und phylogenetische Bäume, die den Nutzern helfen, die Qualität der generierten Annotationen zu bewerten.
Trotz einer kleinen Nutzergruppe, die sich auf Parasiten konzentriert, wurde Companion populär. Als die Anzahl der Genomassemblierungen in den Vektor- und Arthropodengemeinschaften zunahm, wurde klar, dass Companion grössere Genome verarbeiten musste. Tests mit diesen grösseren Genomen zeigten, dass einige Teile des Companion-Tools aktualisiert werden mussten, um effizient zu arbeiten.
Verbesserungen in Companion
Die neue Version von Companion ist als Pipeline eingerichtet, um es schneller und zuverlässiger zu machen. Es kann jetzt Genome bis zu 3 GB Grösse verarbeiten, obwohl es bei Genomen um die 1 GB am besten läuft. Es wurden mehrere neue Features und Verbesserungen an der Software vorgenommen. Das Backend wurde optimiert, um sicherzustellen, dass das Tool reibungslos und schnell läuft.
Der Companion-Webserver ist auf einem leistungsstarken System gehostet, das mehrere Anfragen gleichzeitig verarbeiten kann. Das ermöglicht den Nutzern, ihre Jobs ohne Verzögerungen auszuführen. Es gibt auch einen separaten Server, der für das Testen neuer Features verwendet wird, ohne den Hauptdienst zu beeinträchtigen.
Um die Leistung von Companion mit anderen Tools zu vergleichen, wurden Tests mit denselben Eingabesequenzen durchgeführt. Companion erwies sich als viel einfacher zu bedienen im Vergleich zu GenSAS, da weniger Klicks nötig waren, um einen Job einzureichen. Ausserdem ist die Einrichtung in Companion einfacher, da alle Optionen auf einer Seite verfügbar sind, während GenSAS durch mehrere Tabs navigiert werden muss.
Leistung Vergleich
In mehreren Tests, die Companion und GenSAS verglichen, lieferte Companion durchgehend bessere Ergebnisse. Zum Beispiel fand Companion in einem Vergleich mit den Plasmodium-Arten nicht nur eine grössere Anzahl von Genen, sondern hatte auch eine bessere Übereinstimmung bei den Gene-Positionen. GenSAS hatte Schwierigkeiten, bestimmte Gene zu identifizieren, was möglicherweise an der Art liegt, wie es mehrere Transkripte zu einem einzigen Gen kombiniert.
Ein weiterer Vergleich wurde mit Pilzarten durchgeführt. Während beide Tools die Gesamtzahl der Gene zu niedrig einschätzten, zeigte Companion konsistentere Ergebnisse über die verwendeten Metriken. Obwohl GenSAS eine höhere Nukleotidgenauigkeit aufwies, verpasste es dennoch viele Gene.
Eine abschliessende Bewertung wurde mit einer Vektorart durchgeführt. Die Ergebnisse waren dem Vergleich mit den Pilzen etwas ähnlich. Auch wenn beide Tools Probleme mit der Vorhersage der Genanzahl hatten, zeigte Companion eine höhere Genauigkeit bei der Identifizierung von Genbereichen.
Insgesamt erwies sich Companion als benutzerfreundlicher und lieferte qualitativ hochwertige Annotationen schneller als GenSAS.
Die Zukunft der Genomannotation
Projekte wie das Earth BioGenome Project zielen darauf ab, Genome für Millionen von Arten zu sequenzieren, was wichtige Fragen darüber aufwirft, wie diese Genome annotiert werden. Einige Projekte haben ihre eigenen Pipelines dafür, aber viele Gruppen arbeiten zusammen, um hochwertige Genomdaten zu erstellen. Ein gut getesteter Dienst wie Companion könnte Zeit und Aufwand sparen, verglichen mit jeder Gruppe, die ihre eigenen Systeme erstellt.
Ein wichtiger Punkt ist der Engpass, der beim Einreichen von Genomen an Datenbanken besteht. Auch wenn es Bemühungen gibt, diesen Prozess zu optimieren, werden viele genomische Sequenzen ohne Annotationen eingereicht, was ihre Nützlichkeit einschränkt. Companion zielt darauf ab, diese Probleme zu lösen, indem es einen einfachen, kostenlosen Dienst anbietet, der visuelle Optionen beinhaltet und qualitativ hochwertige Annotationen produziert.
Es gibt auch das Bewusstsein, dass die Genomannotation immer noch eine Herausforderung darstellt. Selbst mit fortschrittlichen Tools bleibt es für viele Arten, wie Vektoren, schwierig, hohe Genauigkeit zu erreichen. Das hebt den Bedarf an manueller Kuratierung für Schlüsselarten wie Menschen und Plasmodium hervor. Trotzdem kann Companion gute erste Annotationen erzeugen, die als Ausgangspunkt für weitere Verfeinerung dienen können.
Zusammenfassend lässt sich sagen, dass Companion einen robusten Webdienst für die Genomannotation bietet, der Forschern hilft, die laufenden Schwierigkeiten in diesem Bereich zu bewältigen. Die Nutzerzahl hat sich in den letzten Jahren verdreifacht, was auf ein wachsendes Interesse an dem Tool hindeutet, besonders seit mehr Arten sequenziert werden. Companion ist eine wertvolle Ressource für die wissenschaftliche Gemeinschaft, insbesondere in der Untersuchung verschiedener Organismen.
Titel: Annotation and visualisation of parasite, fungi and arthropod genomes with Companion
Zusammenfassung: Although sequencing genomes has become increasingly popular, there is still a bottleneck for the annotation of the resulting assemblies. Structural and functional annotation is still challenging as it includes finding the correct gene sequences, annotating other elements such as RNA and being able to submit those data to databases to share it with the community. We developed the Companion web server to allow non-experts to annotate their genome using a reference-based method, enabling them to analyse their results before submitting to public databases. In this update paper, we describe how we included novel methods for gene finding and made the server more efficient to annotate genomes of up to 1 GB in size. The reference set was increased to genomes from the fungi and arthropod kingdoms. We show that Companion outperforms existing comparable tools. GRAPHICAL ABSTRACT O_FIG O_LINKSMALLFIG WIDTH=200 HEIGHT=145 SRC="FIGDIR/small/580948v1_ufig1.gif" ALT="Figure 1"> View larger version (35K): [email protected]@b98a5aorg.highwire.dtl.DTLVardef@12a2d8corg.highwire.dtl.DTLVardef@144b21_HPS_FORMAT_FIGEXP M_FIG C_FIG
Autoren: Thomas D Otto, W. Haese-Hill, K. Crouch
Letzte Aktualisierung: 2024-02-21 00:00:00
Sprache: English
Quell-URL: https://www.biorxiv.org/content/10.1101/2024.02.19.580948
Quell-PDF: https://www.biorxiv.org/content/10.1101/2024.02.19.580948.full.pdf
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an biorxiv für die Nutzung seiner Open-Access-Interoperabilität.