Enquête sur les erreurs de non-conversion dans les études de méthylation de l'ADN
Cet article examine l'impact des erreurs de non-conversion dans la recherche sur la méthylation de l'ADN.
― 13 min lire
Table des matières
La Méthylation de la cytosine est un changement chimique important qui peut se produire dans l'ADN. Ça arrive souvent dans des zones spécifiques appelées hétérochromatine et est lié à des gènes qui sont désactivés. Une façon d'étudier ce changement est d'utiliser une méthode appelée traitement au bisulfite. Ce processus consiste à ajouter du bisulfite de sodium à l'ADN, ce qui transforme les régions non méthylées de la cytosine en uracile. Plus tard, lors d'une étape connue sous le nom de PCR, les uraciles sont transformés en thymine. Les cytosines méthylées restent inchangées. Après un processus de séquençage, les fragments d'ADN résultants sont alignés avec un génome de référence. En comptant le nombre de bases de thymine et de cytosine à chaque position, les scientifiques peuvent comprendre combien de cellules ont de la méthylation à des sites spécifiques.
Cependant, un gros problème avec le traitement au bisulfite est qu'il peut endommager l'ADN, nécessitant beaucoup de matériel de départ pour obtenir de bons résultats. Les premières recherches ont offert certains des premiers aperçus étendus sur la méthylation à travers le génome mais reposaient sur des méthodes compliquées et délicates, ce qui les rendait difficiles à mettre à l'échelle pour des échantillons plus grands. Pour faciliter ce processus, une méthode appelée 'tagmentation' a été développée. Cette technique utilise une enzyme spéciale appelée Tn5 transposase qui peut couper l'ADN et y attacher certaines étiquettes en même temps. Cette approche nécessite beaucoup moins de matériel de départ par rapport aux anciennes méthodes, mais elle rencontre quand même des défis.
Le processus de tagmentation original impliquait l'utilisation d'une seule étiquette et une étape complexe pour en attacher une deuxième. Une nouvelle adaptation a amélioré ça en utilisant deux étiquettes et en simplifiant le processus d'une manière qui pourrait réduire les problèmes liés à l'utilisation de trop de matériel de départ. Dans cette nouvelle méthode, certaines étapes visent à combler les lacunes laissées lors des processus initiaux, ce qui théoriquement ne devrait pas altérer les motifs de méthylation originaux dans l'ADN génomique. L'utilisation de deux étiquettes a aussi l'avantage de permettre une meilleure compréhension de l'ADN parce que les brins originaux et complémentaires peuvent être différenciés, ce qui pourrait augmenter la quantité d'infos recueillies.
Malgré les avancées, déterminer le véritable statut de méthylation repose toujours beaucoup sur la conversion fiable des cytosines non méthylées en thymine. Une étape de contrôle qualité que les chercheurs prennent est d'inclure un échantillon d'ADN de contrôle non méthylé pour mesurer à quel point la conversion se produit bien. Dans une situation idéale, toutes les cytosines non méthylées se transformeraient en thymine. Cependant, des études passées ont trouvé qu'un petit pourcentage de séquences restait non converti. Les chercheurs ont suggéré que ces erreurs pourraient se produire à cause de rares ruptures dans la structure de l'ADN qui pourraient provoquer une réaction en chaîne à travers le fragment. Si ces fragments sont ensuite prolongés avec des nucléotides méthylés, ça pourrait conduire à une représentation inexacte du véritable statut de méthylation.
Cet article vise à décomposer le problème des erreurs de non-conversion lors de l'utilisation de la tagmentation à déplacement de brin. D'abord, on va explorer où et comment ces erreurs se produisent. On va aussi présenter un moyen de prendre en compte ces erreurs de manière statistique en examinant les niveaux de méthylation réels, montrant que des niveaux de méthylation fiables peuvent encore être compris en présence de tels problèmes.
Erreurs de Non-Conversion
Quand on traite des erreurs de non-conversion des cytosines dans l'ADN, il est important d'identifier où ces erreurs se produisent et leur fréquence. On a étudié ça dans trois organismes : Arabidopsis thaliana (une plante), Drosophila melanogaster (la mouche des fruits) et le phage λ (un virus). Étant donné que les génomes de ces organismes n'ont pas de méthylation de la cytosine, toutes les cytosines non méthylées vues dans les résultats doivent être dues à des erreurs.
On s'est concentré sur une région spécifique de l'ADN chloroplastique d'A. thaliana, car l'autre moitié partage des similarités avec son ADN nucléaire. Notre approche a modifié la concentration de l'enzyme Tn5 et le nombre de cycles dans l'amplification PCR pour rechercher d'éventuelles erreurs dues à ces facteurs. On a trouvé des taux élevés de non-conversion, parfois jusqu'à 17 %. C'était surprenant parce que les niveaux de méthylation dans le chloroplaste d'A. thaliana sont généralement très bas. Bien qu'il y ait eu des variations selon les échantillons, il semblait que ces taux élevés n'étaient pas liés à une espèce particulière ni aux méthodes spécifiques utilisées.
En regardant la distribution de la non-conversion, on a classé les séquences en trois groupes. La majorité des lectures, environ 71 %, ne montrait pas d'erreurs. Les lectures restantes étaient partagées entre celles qui étaient complètement non converties et celles qui avaient un mélange de bases converties et non converties. Cette distribution a révélé que deux processus différents pourraient être impliqués dans la cause de ces erreurs. Cette découverte contraste avec les rapports antérieurs sur les taux d'erreurs chez les mammifères, qui ont enregistré des niveaux beaucoup plus bas.
En regardant de plus près, on a trouvé que les erreurs de non-conversion avaient tendance à se produire davantage vers la fin des lectures. Ça pourrait probablement être parce que la qualité de la séquence diminue généralement le long de sa longueur. Cependant, les scores de qualité élevés observés dans la plupart des lectures suggèrent que d'autres facteurs pourraient être en jeu. De plus, notre recherche a indiqué que ces erreurs pourraient varier selon quel brin d'ADN est examiné, car certains brins présentaient des taux d'erreur plus élevés que d'autres.
Variation À Travers le Génome
Ensuite, on a examiné si les taux de non-conversion étaient cohérents à travers le génome. En analysant le chloroplaste d'A. thaliana, on a observé une variation significative des taux d'erreur à travers des segments de 150 pb. Certaines régions avaient jusqu'à cinq fois plus d'erreurs que d'autres, ce qui était cohérent à travers différents échantillons testés. La variance observée était beaucoup plus grande que ce qui serait attendu d'erreurs de sampling aléatoires.
En explorant les raisons possibles de ces différences, on a remarqué de faibles corrélations entre les taux de non-conversion et la couverture de chaque segment. En d'autres termes, les zones avec beaucoup de lectures n'avaient pas nécessairement des taux d'erreur plus bas. Fait intéressant, il y avait des corrélations positives entre les taux de non-conversion et la teneur en GC, suggérant que certaines régions du génome pourraient être intrinsèquement plus sujettes aux erreurs.
Nos résultats indiquent que les erreurs de non-conversion ne sont pas aléatoires mais pourraient dépendre des caractéristiques spécifiques de l'ADN analysé. Cette conclusion soulève d'importantes considérations sur la façon dont nous estimons les taux d'erreur pour de plus grandes portions du génome en nous basant sur juste quelques segments.
Tn5 Transposase et Erreurs de Non-Conversion
Pour résumer les observations, on a trouvé que les erreurs de non-conversion se produisent à un taux élevé à travers différents organismes et varient au sein des lectures et à travers le génome. Il semble que ces erreurs résultent de deux processus différents, l'un conduisant à des lectures entièrement non converties et l'autre à des lectures partiellement non converties, en particulier biaisées vers les extrémités des séquences.
La théorie principale est que la Tn5 transposase crée des ruptures dans l'ADN qui peuvent entraîner des complications supplémentaires lorsque la polymérase Bst répare ou prolonge ces fragments en utilisant des nucléotides méthylés. Cela signifie que ce qui devait être des sites non méthylés pourrait être représenté de manière inexacte comme méthylé à cause de ces erreurs techniques dans le processus de laboratoire.
Les implications de cela pour d'autres processus doivent être prises en compte. Bien que les méthodes d'employer des nucléotides méthylés pendant certaines étapes puissent introduire des erreurs de conversion substantielles, il est probable que d'autres techniques puissent également rencontrer des problèmes similaires. Si des ruptures de brins simples se produisent dans les deux cas, cela pourrait avoir un impact sur la façon dont les niveaux de méthylation sont rapportés.
Comment faire face à ces erreurs de non-conversion ? Une méthode qui a été employée inclut le filtrage des lectures contenant plusieurs cytosines non converties. Cependant, cette approche peut ne pas fonctionner aussi efficacement chez les plantes, où la méthylation a des fonctions importantes. D'autres ont suggéré d'utiliser différents systèmes de notation basés sur le nombre et l'emplacement des cytosines non converties. Pourtant, ces méthodes négligent souvent les complexités des lectures partiellement non converties et n'arrivent pas à traiter adéquatement les implications plus larges pour la véritable méthylation.
Heureusement, comme ces erreurs apparaissent dans un cadre de laboratoire contrôlé plutôt que dans des cellules vivantes, on peut les modéliser statistiquement. Cela nous permet de mieux comprendre les modèles de ces erreurs et d'affiner nos méthodes pour estimer les niveaux de méthylation réels.
Estimations de Méthylation et Taille d'Échantillon
Lorsqu'on estime les niveaux moyens de méthylation, il est crucial de reconnaître que la présence d'erreurs de non-conversion peut fausser les résultats. Ces erreurs affectent le nombre apparent de cytosines méthylées, conduisant à des conclusions trompeuses si elles ne sont pas correctement traitées. Cependant, nos recherches indiquent que l'impact de ces erreurs sur les moyennes statistiques est moins sévère que les variances inhérentes qui surviennent durant le processus d'échantillonnage lui-même.
Pour étudier comment ces erreurs de non-conversion pourraient affecter les estimations de méthylation moyenne, nous avons réalisé des simulations. Ces simulations incluaient à la fois des lectures converties et non converties, nous permettant d'observer dans quelle mesure nous pouvions récupérer les niveaux de méthylation réels. On a varié le nombre de lectures et constaté que l'augmentation du nombre de lectures avait un impact positif beaucoup plus important sur la précision de nos estimations que la simple correction des erreurs de conversion.
Cela suggère qu'en pratique, la meilleure façon d'assurer des estimations de méthylation précises est d'augmenter la taille de l'échantillon. Cela peut se faire en générant plus de données par un séquençage plus approfondi ou en incorporant plusieurs régions dans l'analyse, ce qui peut avoir du sens biologique et améliorer la robustesse des résultats.
De plus, malgré le fait que les erreurs de non-conversion créent un biais potentiel à la hausse dans les niveaux de méthylation estimés, nos résultats montrent que lorsqu'elles sont prises en compte statistiquement, les moyennes estimées ont tendance à s'aligner étroitement avec les valeurs réelles sans biais systématique. Cela indique l'efficacité des corrections statistiques pour traiter les inexactitudes tout en soulignant l'importance de considérer la taille de l'échantillon comme un facteur crucial pour améliorer la qualité de nos estimations.
Classification des États de Méthylation
Dans certaines situations, les chercheurs peuvent être plus intéressés à classer si une région de l'ADN est méthylée ou non, plutôt qu'à quantifier les niveaux exacts de méthylation. Pour aborder des questions sur la régulation des gènes, par exemple, comprendre si une région tombe dans les catégories de non méthylé, méthylé de type corps de gène, ou méthylé de type élément transposable (TE) peut être très utile.
Pour obtenir cette classification, on peut utiliser un modèle qui évalue les preuves basées sur les modèles observés de lectures converties et non converties. Par exemple, dans les zones qui devraient être non méthylées, toutes les cytosines non converties seraient attribuées à des erreurs. À l'inverse, dans l'ADN méthylé de type corps de gène, on s'attendrait à une méthylation à des sites spécifiques mais pas à d'autres.
Nos analyses ont montré que les régions qui devaient être non méthylées affichaient effectivement ces caractéristiques, tandis que les TE connus pour être activement régulés étaient principalement classés comme méthylés de type TE. Le processus de classification a donné des résultats similaires à des études antérieures, soulignant la cohérence de ces résultats même en présence d'erreurs de non-conversion.
Les classifications de méthylation des gènes étaient plus variées, reflétant la nature complexe de la régulation des gènes. Cette variabilité peut également découler des erreurs de non-conversion et des méthodes de classification différentes, menant à des différences observées entre nos résultats et les études précédentes.
Conclusion
Pour résumer, l'utilisation de la tagmentation à déplacement de brin a rendu le séquençage au bisulfite plus accessible pour étudier les motifs de méthylation dans l'ADN. Cependant, cette méthode introduit des erreurs de non-conversion significatives qui peuvent compliquer les résultats. Comprendre ces erreurs et leurs sources est essentiel pour interpréter avec précision les données de méthylation.
Nous avons montré que bien que les erreurs de non-conversion puissent impacter les estimations de méthylation, des modèles statistiques appropriés peuvent ajuster efficacement ces erreurs. Augmenter la taille des échantillons est aussi crucial pour améliorer la fiabilité des estimations de méthylation moyenne, permettant aux chercheurs de recueillir des insights plus significatifs sur le rôle de la méthylation de la cytosine.
Dans l'ensemble, bien que des défis subsistent, les avancées dans les protocoles de tagmentation, associées à de meilleures méthodes pour traiter les erreurs de non-conversion, ouvrent des opportunités pour une compréhension plus profonde de la méthylation de l'ADN et de son importance biologique.
Titre: Bisulphite sequencing in the presence of cytosine-conversion errors
Résumé: Bisulphite treatment of DNA converts unmethylated cytosines to thymine, and is a common method to infer the methylation status of cytosines when coupled with sequencing. Tagmentation approaches to bisulphite sequencing use a transposase to simultaneously make double-stranded breaks and ligate adaptors to the resulting fragments, allowing for higher throughput with less starting material. However, it has also been noted that certain tagmentation protocols have an unusually high number unmethylated cytosines that are not converted to thymine. Here we describe this phenomenon in detail, and find that results are consistent with single strand nicks by the transposase, followed by strand displacement of part or all of the DNA fragment, leading to erroneous incorporation of methylated cytosines. Nevertheless we show that these errors can be accounted for in downstream analysis and need not impede biological conclusions. We provide a Python package to allow users to implement this framework. Ultimately the additional effort of accounting for errors must be traded off against the scalability of the protocol in planning experiments.
Auteurs: Magnus Nordborg, T. J. Ellis, V. Nizhynska, R. Pisupati, A. Molla-Morales
Dernière mise à jour: 2024-09-19 00:00:00
Langue: English
Source URL: https://www.biorxiv.org/content/10.1101/2024.09.16.613193
Source PDF: https://www.biorxiv.org/content/10.1101/2024.09.16.613193.full.pdf
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.