Analyse von DNA-Sequenzen mit k-Mers und Entropie
Lern, wie du DNA-Sequenzen effektiv mit k-Mers und Shannon-Entropie analysierst.
Gavin Huttley, Katherine Caley, Robert McArthur
― 6 min Lesedauer
Inhaltsverzeichnis
- Unsicherheit messen mit Shannon-Entropie
- Diversität berechnen mit Jensen-Shannon-Divergenz
- Dinge mit Algorithmen beschleunigen
- Daten für die Verarbeitung vorbereiten
- Wichtige Sequenzen auswählen
- Schnelle Datenverarbeitung
- Einen phylogenetischen Baum erstellen
- Wie gut wählen wir Sequenzen aus?
- Bekommen wir vielfältige Sequenzen?
- Die Geschwindigkeit unserer Werkzeuge
- Fazit: Die richtigen Werkzeuge für den Job wählen
- Originalquelle
Ein k-mer ist ein kleiner Teil einer grösseren Sequenz, die aus Buchstaben besteht. Denk daran wie an ein Wort in einem Satz, wobei die Länge des Wortes von der Anzahl der Buchstaben abhängt. Wenn du eine DNA-Sequenz nimmst, wäre ein k-mer eine Sequenz von k Buchstaben, die aus dieser DNA entnommen wird.
Shannon-Entropie
Unsicherheit messen mitWie finden wir jetzt heraus, wie viele dieser K-Mers vorhanden sind? Die Antwort ist, ihre Häufigkeit zu betrachten und ein schickes Diagramm zu erstellen, das k-mer-Wahrscheinlichkeitsvektor genannt wird. Um ein Gefühl dafür zu bekommen, wie unsicher wir über diese Zahlen sind, können wir etwas namens Shannon-Entropie verwenden. Stell es dir wie eine Punktzahl vor, die uns sagt, wie durcheinander unsere Buchstaben in der Sequenz sind.
Wenn du eine DNA-Sequenz hast, in der alle vier Buchstaben (A, T, C, G) gleichmässig vertreten sind, ist die Unsicherheitsbewertung hoch. Wenn diese Sequenz jedoch nur aus einem Buchstaben besteht – sagen wir, nur A's – dann gibt es da kein Geheimnis. Die Punktzahl fällt auf Null.
Jensen-Shannon-Divergenz
Diversität berechnen mitShannon-Entropie ist super, aber wir können noch einen Schritt weiter gehen, indem wir schauen, wie unterschiedlich die Sequenzen zueinander sind. Hier kommt die Jensen-Shannon-Divergenz ins Spiel. Sie hilft uns zu messen, wie ähnlich oder unterschiedlich unsere Sequenzen basierend auf ihren k-mer-Wahrscheinlichkeitsvektoren sind.
Stell dir vor, du hast eine Sammlung von DNA-Sequenzen. Jede hat ihr eigenes k-mer-Häufigkeitsdiagramm. Mit JSD können wir herausfinden, ob zwei Sequenzen wie beste Freunde sind oder ob sie sich kaum kennen.
Dinge mit Algorithmen beschleunigen
Wenn wir DNA studieren, wollen wir effizient sein. Die direkte Berechnung der JSD kann langsam sein, wenn wir nicht aufpassen. Aber wir können die Sache einfacher machen, indem wir die k-mer-Zählungen, die gesamte Shannon-Entropie und die Anzahl der Sequenzen gleichzeitig im Blick behalten. So können wir schnell durch alle Daten schauen.
Daten für die Verarbeitung vorbereiten
Bevor wir mit der Analyse starten, müssen wir unsere Sequenzen in das richtige Format bringen. Es gibt einen speziellen Befehl namens prep
, der alle unsere Sequenzen wie einen gut sortierten Schrank organisiert. Er kann verschiedene Dateitypen verarbeiten und sie in ein Format umwandeln, das schneller zu bearbeiten ist.
Sobald das erledigt ist, haben wir eine ordentlich Datei, die alles enthält, was wir brauchen, um loszulegen.
Wichtige Sequenzen auswählen
Wenn wir repräsentative Sequenzen finden wollen, gibt es Werkzeuge, die uns helfen, die besten auszuwählen. Zum Beispiel hilft uns ein Befehl namens nmost
, Sequenzen zu finden, die die interessantesten Einblicke bieten. Es ist wie die bunten Bonbons in einer Süssigkeitentüte zu finden.
Ein anderer Befehl namens [MAX](/de/keywords/max--k3dlq2w)
hilft uns, unsere Auswahl basierend auf bestimmten Statistiken zu optimieren. Wenn wir zum Beispiel ein paar Sequenzen auswählen wollen, die zusammen viel Diversität zeigen, ist das der Befehl, den wir verwenden.
Schnelle Datenverarbeitung
Um die Analyse reibungslos zu gestalten, können Daten in eine kleinere Grösse komprimiert werden. Das bedeutet weniger Durcheinander im Speicher, was immer schön ist. Die Kernalgorithmen laufen schneller als wenn wir alles auf traditionelle Weise machen, dank smarter Werkzeuge, die den Prozess beschleunigen.
Einen phylogenetischen Baum erstellen
Wenn wir verstehen wollen, wie unterschiedlich Sequenzen verwandt sind, können wir einen Baum erstellen, der ihre Beziehungen zeigt. Hier glänzt der Befehl ctree
. Er zeigt uns, wie ähnlich oder unterschiedlich DNA-Sequenzen anhand ihrer Abstände sind.
Diese Methode verwendet etwas, das man Mash-Distanzen nennt, um zu schätzen, wie viele Veränderungen zwischen zwei Sequenzen stattgefunden haben. Es ist wie zu messen, wie weit zwei Verwandte in einem Familienstammbaum auseinanderliegen.
Wie gut wählen wir Sequenzen aus?
Um zu testen, wie effektiv die verschiedenen Befehle beim Auswählen repräsentativer Sequenzen sind, haben wir einige Experimente mit synthetischen Daten durchgeführt. Wir haben geschaut, wie gut dvs max
bekannte vielfältige Abstammungen finden konnte. Einfach gesagt, wir wollten sehen, ob es die seltenen Schätze unter den üblichen Verdächtigen finden kann.
Indem wir verschiedene Zusammensetzungen von Sequenzen simuliert haben, konnten wir erkennen, wie gut unsere Werkzeuge abschneiden. Es stellte sich heraus, dass die Länge der Sequenzen eine entscheidende Rolle spielte. Längere Sequenzen gaben uns bessere Chancen, die einzigartigen zu identifizieren.
Bekommen wir vielfältige Sequenzen?
Als wir uns die Sequenzen ansahen, bemerkten wir, dass diejenigen, die mit unseren speziellen Befehlen ausgewählt wurden, eine höhere Chance hatten, vielfältig zu sein, als wenn wir sie zufällig ausgewählt hätten. Es ist wie ein gutes Auge für seltene Sammlerstücke zu haben – du weisst, wonach du suchen musst!
Wir testeten dies mit vielen Alignments von verschiedenen Säugetieren. Die Ergebnisse zeigten, dass unsere Befehle einen anständigen Job bei der Auswahl von Sequenzen gemacht haben, die genetisch unterschiedlicher waren.
Die Geschwindigkeit unserer Werkzeuge
In Bezug auf die Leistung wurden unsere Werkzeuge so entwickelt, dass sie eine grosse Menge an Daten schnell verarbeiten können. Wir fanden heraus, dass mit steigender Anzahl von Sequenzen die benötigte Zeit zur Analyse in einer schönen linearen Weise anstieg. Das bedeutet weniger Warten und mehr Handeln – genau das, was wir wollen!
Mit der richtigen Ausstattung, wie einem leistungsstarken Computer, fiel die Verarbeitungszeit für unsere Befehle deutlich. Wir konnten 10.560 komplette mikrobielle Genome in nur wenigen Minuten durchsehen!
Fazit: Die richtigen Werkzeuge für den Job wählen
Wenn du in die Welt der DNA-Analyse eintauchst, ist unser Rat, beim Befehl nmost für deine Sequenzauswahl zu bleiben. Er greift auf die maximale Anzahl einzigartiger k-mers zurück – wie sicherzustellen, dass du eine gute Vielfalt in deinem Keksglas hast.
Je nachdem, womit du arbeitest, möchtest du vielleicht unterschiedliche k-Grössen für die besten Ergebnisse verwenden. Wenn du beispielsweise Sequenzen eines typischen Bakteriums betrachtest, wäre eine Länge von 12 eine gute Wahl. Für das Studium von Genen könntest du mit einer Länge von 6 erfolgreich sein.
Indem du diese Tipps befolgst und unsere Werkzeuge nutzt, kannst du die komplexe Welt der DNA-Sequenzen effektiver navigieren. Also leg los, mische und kombiniere diese k-mers und entdecke die faszinierende Welt der Sequenzen!
Titel: diverse-seq: an application for alignment-free selecting and clustering biological sequences
Zusammenfassung: The algorithms required for phylogenetics -- multiple sequence alignment and phylogeny estimation -- are both compute intensive. As the size of DNA sequence datasets continues to increase, there is a need for a tool that can effectively lessen the computational burden associated with this widely used analysis. diverse-seq implements computationally efficient alignment-free algorithms that enable efficient prototyping for phylogenetic workflows. It can accelerate parameter selection searches for sequence alignment and phylogeny estimation by identifying a subset of sequences that are representative of the diversity in a collection. We show that selecting representative sequences with an entropy measure of k-mer frequencies correspond well to sampling via conventional genetic distances. The computational performance is linear with respect to the number of sequences and can be run in parallel. Applied to a collection of 10.5k whole microbial genomes on a laptop took [~]8 minutes to prepare the data and 4 minutes to select 100 representatives. diverse-seq can further boost the performance of phylogenetic estimation by providing a seed phylogeny that can be further refined by a more sophisticated algorithm. For [~]1k whole microbial genomes on a laptop, it takes [~]1.8 minutes to estimate a bifurcating tree from mash distances. The diverse-seq algorithms are not limited to homologous sequences. As such, they can improve the performance of other workflows. For instance, machine learning projects that involve non-homologous sequences can benefit as representative sampling can mitigate biases from imbalanced groups. diverse-seq is a BSD-3 licensed Python package that provides both a command-line interface and cogent3 plugins. The latter simplifies integration by users into their own analyses. It is available via the Python Package Index and GitHub. Statement of needAccurately selecting a representative subset of biological sequences can improve the statistical accuracy and computational performance of data sampling workflows. In many cases, the reliability of such analyses is contingent on the sample capturing the full diversity of the original collection (e.g. estimating large phylogenies Parks et al., 2018; Zhu et al., 2019). Additionally, the computation time of algorithms reliant on numerical optimisation, such as phylogenetic estimation, can be markedly reduced by having a good initial estimate. Existing tools to the data sampling problem require input data in formats that themselves can be computationally costly to acquire. For instance, tree-based sequence selection procedures can be efficient, but they rely on a phylogenetic tree or a pairwise genetic distance matrix, both of which require alignment of homologous sequences (Balaban et al., 2019; e.g. Widmann et al., 2006). Adding both the time for sequence alignment and tree estimation presents a barrier to their use. The diverse-seq sequence selection algorithms are linear in time for the number of sequences and more flexible than published approaches. While the algorithms do not require sequences to be homologous, when applied to homologous sequences, the set selected is comparable to what would be expected based on genetic distance. The diverse-seq clustering algorithm is linear in time for the combined sequence length. For homologous sequences, the estimated trees are approximations to that estimated from an alignment by IQ-TREE2 (Minh et al., 2020).
Autoren: Gavin Huttley, Katherine Caley, Robert McArthur
Letzte Aktualisierung: 2024-11-11 00:00:00
Sprache: English
Quell-URL: https://www.biorxiv.org/content/10.1101/2024.11.10.622877
Quell-PDF: https://www.biorxiv.org/content/10.1101/2024.11.10.622877.full.pdf
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an biorxiv für die Nutzung seiner Open-Access-Interoperabilität.