DFAST_QC: Ein wichtiges Werkzeug zur Validierung von Genomen
DFAST_QC sorgt für eine genaue Kennzeichnung von Genomen für bessere biologische Forschung.
― 6 min Lesedauer
Inhaltsverzeichnis
Öffentliche Genomdatenbanken spielen eine wichtige Rolle in der biologischen Forschung. Diese Datenbanken speichern genetische Informationen von verschiedenen Organismen, was Wissenschaftlern hilft, Studien effizienter durchzuführen. Genau Daten, einschliesslich der Details zu jedem Genom, sind entscheidend. Wenn Genome falsch beschriftet sind, kann das zu Missverständnissen und Fehlern in der Forschung führen, was problematisch sein kann, wenn Wissenschaftler diese Informationen für ihre Arbeit nutzen.
Um sicherzustellen, dass Genome die richtigen taxonomischen Bezeichnungen haben, verwendet das National Center for Biotechnology Information (NCBI) seit 2018 eine Methode namens Average Nucleotide Identity (ANI). Diese Methode hilft Wissenschaftlern, die genetische Zusammensetzung von zwei Genomen zu vergleichen und festzustellen, ob sie zur selben Art gehören. Generell deutet eine 95%ige Ähnlichkeit in der genetischen Zusammensetzung darauf hin, dass zwei Genome zur gleichen Art gehören. Die Daten in diesen Datenbanken sind mit einem System namens NCBI Taxonomy organisiert, das hilft, Konsistenz bei der Benennung verschiedener Organismen zu wahren.
Was ist DFAST_QC?
DFAST_QC ist ein Tool, das erstellt wurde, um Genome in der DNA-Datenbank von Japan (DDBJ) zu validieren, die ein Mitglied der globalen Gemeinschaft für genetisches Datenteilung ist. Dieses Tool sorgt dafür, dass die an die DDBJ eingereichten Genome korrekt beschriftet und von hoher Qualität sind. DFAST_QC kann online über den DFAST-Webservice genutzt werden, der Wissenschaftlern bei der Genomannotation und Dateneinreichung hilft. Es kann auch als eigenständiges Tool auf einem PC verwendet werden.
DFAST_QC identifiziert schnell die taxonomische Gruppe eines Genoms mithilfe der NCBI-Taxonomie. Es verwendet eine Methode namens Mash, um die Ähnlichkeit zu schätzen, und ein anderes Tool, Skani, um ANI genau zu berechnen. Ausserdem überprüft es die Qualität der Genome, indem es bewertet, wie vollständig sie sind und ob sie kontaminiert sind. Es kann auch Genome mit einer separaten Datenbank namens GTDB vergleichen, die zusätzliche Informationen zur Klassifizierung liefert.
Wie DFAST_QC funktioniert
DFAST_QC verwendet ein zweistufiges Verfahren, um die Taxonomie von Genomen zu überprüfen, was Zeit spart und gleichzeitig die Genauigkeit gewährleistet. Um DFAST_QC zu verwenden, müssen Wissenschaftler nur eine einfache FASTA-Datei bereitstellen, die ein Format zum Speichern von DNA-Sequenzen ist. Im ersten Schritt berechnet DFAST_QC die genetische Distanz mithilfe von MASH aus Sketch-Dateien, die basierend auf Referenzgenomen erstellt wurden. Im zweiten Schritt wird Skani verwendet, um eine überschaubarere Sketch-Datei zu erstellen und den Prozess zu beschleunigen. Danach wird ANI berechnet, um die taxonomische Gruppe des analysierten Genoms zu bestimmen. Wenn verfügbar, wendet es spezifische ANI-Schwellenwerte für verschiedene Arten an oder standardmässig 95%.
Zur Qualitätseinschätzung verwendet DFAST_QC ein Tool namens CheckM. Dieses Tool bewertet die Vollständigkeit und Kontaminationslevel des Genoms. Das Marker-Set für CheckM wird automatisch basierend auf den Ergebnissen der taxonomischen Überprüfung ausgewählt. DFAST_QC überprüft auch die Grösse des Genoms, um sicherzustellen, dass sie in den erwarteten Bereichen liegt. Wenn der Benutzer es wünscht, kann DFAST_QC Arten mithilfe von GTDB identifizieren, indem es deren repräsentative Genome abfragt.
Einrichtung von Referenzdaten
DFAST_QC stützt sich auf zwei Hauptquellen für Referenzdaten: NCBI Datasets und GTDB. Forscher können auf diese Daten zugreifen und sie mit Python-Skripten verwalten, die mit DFAST_QC bereitgestellt werden.
Referenzdaten von NCBI
DFAST_QC beginnt damit, Metadaten über genomische Assemblierungen aus GenBank zu sammeln, wo es Typstämme identifiziert, die wichtige Referenzgenome sind. Es filtert alle Genome heraus, die aufgrund bestimmter Kriterien nicht geeignet sind. Sobald die Genome ausgewählt sind, lädt DFAST_QC sie herunter und erstellt eine Datenbank, um Informationen sowohl aus den Metadaten als auch aus den Genomassemblierungsdaten zu speichern. Danach wird eine konsolidierte Sketch-Datei mithilfe von MASH erstellt, um sich auf die taxonomischen Überprüfungen vorzubereiten.
Referenzdaten von GTDB
Für GTDB lädt DFAST_QC repräsentative Genome zusammen mit ihren Metadatendateien herunter. Es richtet auch eine SQL-Datenbank ein, die speziell für effektive Suchen innerhalb der GTDB konzipiert ist, und erstellt eine Sketch-Datei ähnlich wie bei den NCBI-Daten.
Testen von DFAST_QC
Um zu überprüfen, wie gut DFAST_QC funktioniert, wurden eine Reihe von Tests durchgeführt. Die für diese Tests verwendeten Referenzdaten enthielten über 22.000 Typgenome von NCBI und über 113.000 repräsentative Genome von GTDB. Zwei Datensätze wurden erstellt, um die Genauigkeit von DFAST_QC zu bewerten. Der erste Datensatz enthielt über 5.000 zufällig ausgewählte Nicht-Typgenome aus GenBank, während der zweite Datensatz aus 10.000 zufällig ausgewählten Genomen bestand, die aus Metagenomdaten zusammengefügt wurden.
Beide Datensätze wurden mit den Standard-Einstellungen von DFAST_QC bearbeitet. Die Ergebnisse des ersten Datensatzes zeigten, dass DFAST_QC die Artennamen in nahezu allen Fällen übereinstimmend erkannt hat. Von 5.184 Fällen wurden nur vier Abweichungen gemeldet. Diese Abweichungen stammen wahrscheinlich entweder von falschen Beschriftungen der Genome oder von Inkonsistenzen innerhalb des taxonomischen Systems. Viele der nicht übereinstimmenden Fälle lagen immer noch sehr nahe bei der richtigen Art, was darauf hinweist, dass DFAST_QC ziemlich effektiv bei seiner Identifizierung ist.
Im zweiten Datensatz zeigte DFAST_QC Konsistenz mit den Ergebnissen eines anderen Tools, GTDB-Tk, was seine Zuverlässigkeit bei der Identifizierung auf Artenebene bestätigt.
Einschränkungen und zukünftige Verbesserungen
Obwohl DFAST_QC sich als genau erwiesen hat, wenn ein Referenzgenom verfügbar ist, hat es Einschränkungen. Für Arten, die kein sequenziertes Typgenom haben, kann DFAST_QC keinen Artennamen mit Sicherheit zuordnen. Das ist ein erhebliches Problem, da viele Arten derzeit kein sequenziertes Typgenom haben. Glücklicherweise verbessert sich diese Situation langsam aufgrund verschiedener Sequenzierungsprojekte und wachsender Empfehlungen zur Ablage von Genomsequenzen zusammen mit neuen Artdeskriptionen.
Die Möglichkeit, gegen GTDB-repräsentative Genome zu suchen, kann auch helfen, einige dieser Einschränkungen anzugehen, insbesondere für Genome, die nicht genügend Referenzdaten aufweisen.
Vergleich von DFAST_QC mit anderen Tools
Im Gegensatz zu anderen Tools zur Genomidentifikation konzentriert sich DFAST_QC ausschliesslich darauf, Artennamen zuzuordnen und bietet keine detaillierte phylogenetische Analyse auf höheren taxonomischen Ebenen. Diese Wahl ist absichtlich getroffen, da das Hauptziel von DFAST_QC darin besteht, die korrekte Beschriftung von Genomen sicherzustellen, bevor sie in öffentlichen Datenbanken eingereicht werden.
DFAST_QC ist so konzipiert, dass es mit begrenzten Computerressourcen arbeitet. Es benötigt typischerweise weniger als 2 GB Speicher und kann die taxonomische Identifizierung in etwa 30 Sekunden abschliessen. Die Software enthält einen minimalen Satz vorgefertigter Referenzdaten, was die Installation auf persönlichen Computern im Vergleich zu Ansätzen, die umfangreiche Referenzdatensätze erfordern, erleichtert.
Fazit
DFAST_QC ist ein wichtiges Tool zur Validierung prokaryotischer Genome, das sicherstellt, dass sie genau beschriftet und von hoher Qualität sind. Durch die Nutzung sowohl der NCBI- als auch der GTDB-Taxonomien zur Artenidentifizierung unterstützt es die Integrität der genomischen Daten in der wissenschaftlichen Forschung. Mit seiner benutzerfreundlichen Oberfläche und der Möglichkeit, auf persönlichen Maschinen betrieben zu werden, hilft DFAST_QC Forschern, die möglicherweise nicht mit Kommandozeilentools vertraut sind, und fördert so bessere Datenpraktiken in der wissenschaftlichen Gemeinschaft. Der Fokus auf eine genaue Genombewertung verstärkt seine Bedeutung in den laufenden Bemühungen, die Zuverlässigkeit genomischer Informationen in verschiedenen Forschungsbereichen zu verbessern.
Titel: DFAST_QC: Quality Assessment and Taxonomic Identification Tool for Prokaryotic Genomes
Zusammenfassung: MotivationAccurate taxonomic assignments of genomic data are crucial across various biological databases. With a rapid increase in submitted genomes in recent years, ensuring precise classification is important to maintain database integrity. Mislabeled genomes can confuse researchers, hinder analyses, and produce false results. Therefore, there is a critical need for computationally efficient tools that ensure accurate taxonomic classification for data to be deposited into genomic databases. ResultsHere we introduce DFAST_QC, a quality control and taxonomic classification tool of prokaryotic genomes based on NCBI and GTDB taxonomies. We benchmarked DFAST_QCs performance against NCBI taxonomy assignments, showing high consistency with them. Our results demonstrate that DFAST_QC achieves high consistency to NCBI taxonomy classification. Availability and implementationDFAST_QC is implemented in Python and is available both as a web service (https://dfast.ddbj.nig.ac.jp/dqc) and as a stand-alone command line tool. The source code is available under the GPLv3 license at: https://github.com/nigyta/dfast_qc, and the conda package is also available from Bioconda. The data and scripts used for the benchmarking process are publicly available on GitHub (https://github.com/Mohamed-Elmanzalawi/DFAST_QC_Benchmark). [email protected] Supplementary informationSupplementary data are available at Bioinformatics online.
Autoren: Yasuhiro Tanizawa, M. Elmanzalawi, T. Fujisawa, H. Mori, Y. Nakamura
Letzte Aktualisierung: 2024-07-24 00:00:00
Sprache: English
Quell-URL: https://www.biorxiv.org/content/10.1101/2024.07.22.604526
Quell-PDF: https://www.biorxiv.org/content/10.1101/2024.07.22.604526.full.pdf
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an biorxiv für die Nutzung seiner Open-Access-Interoperabilität.