Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Biologie# Genomik

Untersuchung von Nicht-Konversionsfehlern in DNA-Methylierungsstudien

Dieser Artikel untersucht die Auswirkungen von Nicht-Konversionsfehlern in der DNA-Methylierungsforschung.

― 10 min Lesedauer


Fehler bei derFehler bei derMethylierungsstudieaufgedecktbeheben.DNA-Methylierungsforschung erkennen undFehler in der
Inhaltsverzeichnis

Cytosin-Methylierung ist ne wichtige chemische Veränderung, die bei DNA passieren kann. Das passiert oft in speziellen Bereichen, die Heterochromatin heissen, und steht im Zusammenhang damit, dass Gene abgeschaltet werden. Eine Methode, um diese Veränderung zu studieren, ist die Bisulfit-Behandlung. Dabei wird Natriumbisulfit zur DNA hinzugefügt, was unmethylierte Cytosin-Bereiche in Uracil verwandelt. Später, in einem Schritt, der PCR genannt wird, werden die Uracile in Thymin umgewandelt. Methylierte Cytosine bleiben unverändert. Nach einem Sequenzierungsprozess werden die resultierenden DNA-Fragmente mit einem Referenzgenom ausgerichtet. Indem man die Anzahl der Thymine und Cytosine an jeder Position zählt, können Wissenschaftler herausfinden, wie viele Zellen Methylierung an bestimmten Stellen haben.

Ein grosses Problem bei der Bisulfit-Behandlung ist, dass sie die DNA schädigen kann und man viel Ausgangsmaterial braucht, um gute Ergebnisse zu bekommen. Frühere Forschungen haben einige der ersten weitreichenden Blicke auf Methylierung im ganzen Genom geliefert, waren aber auf komplizierte und empfindliche Methoden angewiesen, was sie schwer skalierbar für grössere Proben machte. Um diesen Prozess zu vereinfachen, wurde eine Methode namens 'Tagmentation' entwickelt. Diese Technik nutzt ein spezielles Enzym namens Tn5-Transposase, das die DNA schneiden und gleichzeitig bestimmte Tags daran anbringen kann. Diese Vorgehensweise benötigt viel weniger Ausgangsmaterial als ältere Methoden, steht aber immer noch vor Herausforderungen.

Der ursprüngliche Tagmentationsprozess nutzte ein einziges Tag und hatte einen komplexen Schritt, um ein zweites anzubringen. Eine neuere Anpassung hat das verbessert, indem sie zwei Tags verwendete und den Prozess so vereinfachte, dass die Probleme mit zu viel Ausgangsmaterial möglicherweise verringert werden könnten. In dieser neueren Methode zielen bestimmte Schritte darauf ab, Lücken, die während der Anfangsprozesse entstanden sind, zu füllen, was theoretisch die ursprünglichen Methylierungsmuster in der genomischen DNA nicht verändern sollte. Die Verwendung von zwei Tags hat auch den Vorteil, dass man DNA besser verstehen kann, weil man originale und komplementäre Stränge unterscheiden kann, was die Menge an Informationen, die gesammelt werden, potenziell erhöht.

Trotz der Fortschritte hängt die Bestimmung des tatsächlichen Methylierungsstatus immer noch stark von der zuverlässigen Umwandlung unmethylierter Cytosine in Thymin ab. Ein Qualitätskontrollschritt, den Forscher unternehmen, ist, eine Probe von unmethyliertem Kontroll-DNA hinzuzufügen, um zu messen, wie gut die Umwandlung erfolgt. In einer idealen Situation würden alle unmethylierten Cytosine in Thymin umgewandelt. Allerdings haben frühere Studien gezeigt, dass ein kleiner Prozentsatz von Sequenzen unkonvertiert blieb. Forscher haben vorgeschlagen, dass diese Fehler möglicherweise durch seltene Brüche in der DNA-Struktur entstehen, die eine Kettenreaktion im Fragment verursachen könnten. Wenn diese Fragmente dann mit methylieren Nukleotiden verlängert werden, könnte das zu einer ungenauen Darstellung des tatsächlichen Methylierungsstatus führen.

Dieser Artikel hat das Ziel, das Problem der Nicht-Umwandlungsfehler bei der Verwendung von Strand-Displacement-Tagmentation zu beleuchten. Zuerst werden wir untersuchen, wo und wie diese Fehler auftreten. Wir werden auch einen Weg präsentieren, um statistisch für diese Fehler bei der Untersuchung echter Methylierungsniveaus zu rechnen und zeigen, dass zuverlässige Methylierungsniveaus trotz solcher Probleme verstanden werden können.

Nicht-Umwandlungsfehler

Wenn man mit den Nicht-Umwandlungsfehlern von Cytosinen in DNA umgeht, ist es wichtig zu identifizieren, wo diese Fehler auftreten und wie häufig sie sind. Wir haben das in drei Organismen untersucht: Arabidopsis thaliana (eine Pflanze), Drosophila melanogaster (Fruchtfliegen) und Phage λ (ein Virus). Da die Genome dieser Organismen keine Cytosin-Methylierung aufweisen, müssen alle in den Ergebnissen gesehenen unmethylierten Cytosine auf Fehler zurückzuführen sein.

Wir haben uns auf einen spezifischen Bereich der Chloroplasten-DNA von A. thaliana konzentriert, da die andere Hälfte Ähnlichkeiten mit ihrer nuklearen DNA aufweist. Unser Ansatz veränderte die Konzentration des Tn5-Enzyms und die Anzahl der Zyklen in der PCR-Amplifikation, um nach möglichen Fehlern durch diese Faktoren zu suchen. Wir fanden hohe Raten von Nicht-Umwandlung, manchmal bis zu 17%. Das war überraschend, weil die Methylierungsniveaus in den Chloroplasten von A. thaliana normalerweise sehr niedrig sind. Während es einige Variationen je nach Proben gab, schien es, dass diese hohen Raten nicht mit irgendeiner bestimmten Art oder den spezifischen verwendeten Methoden verbunden waren.

Durch die Analyse der Verteilung der Nicht-Umwandlung haben wir Sequenzen in drei Gruppen kategorisiert. Der Grossteil der Reads – etwa 71% – zeigte keine Fehler. Die restlichen Reads wurden zwischen jenen aufgeteilt, die völlig unkonvertiert waren, und jenen, die eine Mischung aus konvertierten und unkonvertierten Basen aufwiesen. Diese Verteilung zeigte, dass zwei verschiedene Prozesse an der Entstehung dieser Fehler beteiligt sein könnten. Diese Erkenntnis steht im Gegensatz zu früheren Berichten über Fehlerquoten bei Säugetieren, die viel niedrigere Werte aufwiesen.

Bei näherer Betrachtung fanden wir heraus, dass Nicht-Umwandlungsfehler eher am Ende der Reads auftraten. Das könnte wahrscheinlich daran liegen, dass die Qualität der Sequenz generell mit der Länge abnimmt. Allerdings deuten die hohen Qualitätswerte, die in den meisten Reads beobachtet wurden, darauf hin, dass andere Faktoren eine Rolle spielen könnten. Ausserdem deutete unsere Forschung darauf hin, dass diese Fehler je nach dem untersuchten DNA-Strang variieren könnten, da einige Stränge höhere Fehlerquoten aufwiesen als andere.

Variation im Genom

Als nächstes haben wir untersucht, ob die Nicht-Umwandlungsraten im gesamten Genom konsistent sind. Bei der Analyse des Chloroplasten von A. thaliana haben wir signifikante Variationen in den Fehlerquoten über 150 bp Segmente festgestellt. Einige Bereiche hatten bis zu fünfmal mehr Fehler als andere, was bei verschiedenen getesteten Proben konsistent war. Die beobachtete Varianz war deutlich grösser als das, was man von zufälligen Sampling-Fehlern erwarten würde.

Bei der Untersuchung möglicher Gründe für diese Unterschiede haben wir schwache Korrelationen zwischen den Nicht-Umwandlungsraten und der Abdeckung jedes Segments festgestellt. Mit anderen Worten, Bereiche mit vielen Reads hatten nicht unbedingt niedrigere Fehlerquoten. Interessanterweise gab es positive Korrelationen zwischen Nicht-Umwandlungsraten und GC-Gehalt, was darauf hindeutet, dass bestimmte Regionen des Genoms von Natur aus anfälliger für Fehler sein könnten.

Unsere Erkenntnisse deuten darauf hin, dass Nicht-Umwandlungsfehler nicht zufällig sind, sondern von den spezifischen Eigenschaften der zu analysierenden DNA abhängen könnten. Diese Schlussfolgerung wirft wichtige Überlegungen auf, wie wir Fehlerquoten für grössere Teile des Genoms basierend auf nur wenigen Segmenten schätzen.

Tn5-Transposase und Nicht-Umwandlungsfehler

Zusammenfassend haben wir festgestellt, dass Nicht-Umwandlungsfehler in unterschiedlichen Organismen in hoher Rate auftreten und innerhalb von Reads sowie im gesamten Genom variieren. Es scheint, dass diese Fehler aus zwei verschiedenen Prozessen resultieren, einer der zu völlig unkonvertierten Reads führt und einer der zu teilweise unkonvertierten Reads führt, wobei dies besonders auf die Enden der Sequenzen biased ist.

Die führende Theorie ist, dass die Tn5-Transposase Brüche in der DNA erzeugt, die bei der Reparatur oder Verlängerung dieser Fragmente durch die Bst-Polymerase zu weiteren Komplikationen führen können, wenn methylierte Nukleotide verwendet werden. Das bedeutet, dass das, was als unmethyliert gedacht war, aufgrund dieser technischen Fehler im Laborprozess ungenau als methyliert dargestellt werden könnte.

Die Konsequenzen dafür für andere Prozesse müssen berücksichtigt werden. Während die Methoden zur Verwendung von methylieren Nukleotiden während bestimmter Schritte erhebliche Umwandlungsfehler einführen könnten, ist es wahrscheinlich, dass auch andere Techniken ähnliche Probleme haben könnten. Wenn einsträngige Brüche in beiden Fällen auftreten, könnte das beeinflussen, wie Methylierungsniveaus berichtet werden.

Wie gehen wir mit diesen Nicht-Umwandlungsfehlern um? Eine Methode, die angewendet wurde, besteht darin, Reads herauszufiltern, die mehrere unkonvertierte Cytosine enthalten. Allerdings könnte dieser Ansatz bei Pflanzen, wo Methylierung wichtige Funktionen hat, nicht so effektiv sein. Andere haben vorgeschlagen, verschiedene Bewertungssysteme basierend auf der Anzahl und dem Standort unkonvertierter Cytosine zu verwenden. Dennoch übersehen diese Methoden oft die Komplexität der teilweise unkonvertierten Reads und adressieren nicht ausreichend die grösseren Implikationen für die tatsächliche Methylierung.

Glücklicherweise, da diese Fehler in einer kontrollierten Laborumgebung und nicht in lebenden Zellen entstehen, können wir sie statistisch modellieren. Das ermöglicht uns, die Muster dieser Fehler besser zu verstehen und unsere Methoden zur Schätzung wahrer Methylierungsniveaus zu verfeinern.

Methylierungs-Schätzungen und Probengrösse

Bei der Schätzung durchschnittlicher Methylierungsniveaus ist es entscheidend zu erkennen, dass die Präsenz von Nicht-Umwandlungsfehlern die Ergebnisse verzerren kann. Diese Fehler beeinflussen die scheinbare Anzahl methylierter Cytosine und können zu irreführenden Schlussfolgerungen führen, wenn sie nicht richtig adressiert werden. Unsere Forschungen zeigen jedoch, dass der Einfluss dieser Fehler auf die statistischen Durchschnitte weniger schwerwiegend ist als die inhärenten Variationen, die während des Sampling-Prozesses selbst auftreten.

Um zu untersuchen, wie diese Nicht-Umwandlungsfehler die Schätzungen der durchschnittlichen Methylierung beeinflussen könnten, führten wir Simulationen durch. Diese Simulationen beinhalteten sowohl konvertierte als auch unkonvertierte Reads, was es uns ermöglichte zu beobachten, wie gut wir die tatsächlichen Methylierungsniveaus wiederherstellen konnten. Wir variierten die Anzahl der Reads und fanden heraus, dass die Erhöhung der Anzahl der Reads einen viel grösseren positiven Einfluss auf die Genauigkeit unserer Schätzungen hatte, als einfach nur die Umwandlungsfehler zu korrigieren.

Das deutet darauf hin, dass in der Praxis die beste Möglichkeit, um genaue Methylierungs-Schätzungen sicherzustellen, die Erhöhung der Probengrösse ist. Das kann erreicht werden, indem man mehr Daten durch tiefere Sequenzierung generiert oder mehrere Regionen in die Analyse einbezieht, was biologisch sinnvoll sein kann und die Robustheit der Ergebnisse verbessert.

Zudem zeigt unsere Erkenntnis, dass, obwohl Nicht-Umwandlungsfehler potenziell eine Aufwärtsverzerrung in den geschätzten Methylierungsniveaus erzeugen, unsere Ergebnisse zeigen, dass, wenn statistisch berücksichtigt, die Mittelwerte tendenziell eng mit den tatsächlichen Werten übereinstimmen, ohne systematische Verzerrung. Das zeigt die Effektivität statistischer Korrekturen beim Umgang mit Ungenauigkeiten und hebt die Bedeutung hervor, die Probengrösse als entscheidenden Faktor zur Verbesserung der Qualität unserer Schätzungen zu berücksichtigen.

Klassifizierung von Methylierungszuständen

In manchen Situationen könnten Forscher mehr daran interessiert sein, zu klassifizieren, ob ein Bereich der DNA methyliert ist oder nicht, als die genauen Methylierungsniveaus zu quantifizieren. Um beispielsweise Fragen zur Genregulation zu klären, kann es durchaus nützlich sein, zu verstehen, ob ein Bereich in Kategorien von unmethyliert, gene-body-ähnlich methyliert oder transponierbare Elemente (TE)-ähnlich methyliert fällt.

Um diese Klassifizierung zu erreichen, können wir ein Modell verwenden, das die Evidenz basierend auf beobachteten Mustern von konvertierten und unkonvertierten Reads bewertet. In Bereichen, die unmethyliert sein sollten, würden alle unkonvertierten Cytosine Fehler zugeordnet werden. Umgekehrt würden wir in gene-body-ähnlicher methylierten DNA erwarten, dass Methylierung an bestimmten Stellen vorhanden ist, aber nicht an anderen.

Unsere Analysen zeigten, dass die Bereiche, von denen erwartet wurde, dass sie unmethyliert sind, tatsächlich diese Eigenschaften aufwiesen, während TEs, von denen bekannt ist, dass sie aktiv reguliert sind, grösstenteils als TE-ähnlich methyliert klassifiziert wurden. Der Klassifizierungsprozess ergab ähnliche Ergebnisse wie frühere Studien, was die Konsistenz dieser Erkenntnisse selbst in Anwesenheit von Nicht-Umwandlungsfehlern unterstreicht.

Die Klassifizierungen der Gen-Methylierung waren variabler, was die komplexe Natur der Genregulation widerspiegelt. Diese Variabilität könnte auch von den Nicht-Umwandlungsfehlern und unterschiedlichen Methoden der Klassifizierungsansätze stammen, was zu den Unterschieden führt, die zwischen unseren Ergebnissen und früheren Studien beobachtet werden.

Fazit

Zusammenfassend lässt sich sagen, dass die Verwendung von Strand-Displacement-Tagmentation die Bisulfit-Sequenzierung zugänglicher gemacht hat, um Methylierungsmuster in DNA zu studieren. Allerdings führt diese Methode zu signifikanten Nicht-Umwandlungsfehlern, die die Ergebnisse komplizieren können. Das Verständnis dieser Fehler und ihrer Quellen ist entscheidend für die akkurate Interpretation von Methylierungsdaten.

Wir haben gezeigt, dass, während Nicht-Umwandlungsfehler Schätzungen von Methylierung beeinflussen können, geeignete statistische Modelle effektiv zur Anpassung dieser Fehler beitragen können. Die Erhöhung der Probengrösse ist ebenfalls entscheidend, um die Zuverlässigkeit der durchschnittlichen Methylierungsschätzungen zu verbessern, was es Forschern ermöglicht, bedeutungsvollere Einblicke in die Rolle der Cytosin-Methylierung zu gewinnen.

Insgesamt, obwohl Herausforderungen bestehen, eröffnen die Fortschritte in den Tagmentationsprotokollen, gepaart mit verbesserten Methoden zur Behandlung von Nicht-Umwandlungsfehlern, Möglichkeiten für ein tieferes Verständnis der DNA-Methylierung und ihrer biologischen Bedeutung.

Originalquelle

Titel: Bisulphite sequencing in the presence of cytosine-conversion errors

Zusammenfassung: Bisulphite treatment of DNA converts unmethylated cytosines to thymine, and is a common method to infer the methylation status of cytosines when coupled with sequencing. Tagmentation approaches to bisulphite sequencing use a transposase to simultaneously make double-stranded breaks and ligate adaptors to the resulting fragments, allowing for higher throughput with less starting material. However, it has also been noted that certain tagmentation protocols have an unusually high number unmethylated cytosines that are not converted to thymine. Here we describe this phenomenon in detail, and find that results are consistent with single strand nicks by the transposase, followed by strand displacement of part or all of the DNA fragment, leading to erroneous incorporation of methylated cytosines. Nevertheless we show that these errors can be accounted for in downstream analysis and need not impede biological conclusions. We provide a Python package to allow users to implement this framework. Ultimately the additional effort of accounting for errors must be traded off against the scalability of the protocol in planning experiments.

Autoren: Magnus Nordborg, T. J. Ellis, V. Nizhynska, R. Pisupati, A. Molla-Morales

Letzte Aktualisierung: 2024-09-19 00:00:00

Sprache: English

Quell-URL: https://www.biorxiv.org/content/10.1101/2024.09.16.613193

Quell-PDF: https://www.biorxiv.org/content/10.1101/2024.09.16.613193.full.pdf

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an biorxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel