Avancées dans l'analyse de la méthylation de l'ADN spécifique aux cellules
Des chercheurs proposent de nouvelles méthodes pour étudier la méthylation de l'ADN dans différents types de cellules.
― 11 min lire
Table des matières
Ces dernières années, les scientifiques ont fait d'énormes progrès pour comprendre comment nos gènes peuvent causer des maladies comme le diabète, Alzheimer et les problèmes cardiaques. Un des trucs clés, c'est que plein de facteurs génétiques influencent comment les gènes sont activés ou désactivés, grâce à une couche de contrôle appelée Épigénome. L'épigénome, c'est plein de changements chimiques dans notre ADN qui affectent l'activité des gènes. Cette compréhension a amené les chercheurs à voir comment ces changements sont liés au développement de maladies complexes.
L'épigénome est super flexible, il change tout au long de notre vie, dans différents Types de cellules, et en réponse à l'environnement. Cette variabilité rend l'étude de l'épigénome compliquée comparé aux variations génétiques plus stables. Donc, les chercheurs doivent faire attention en concevant leurs études pour identifier les variations épigénétiques liées aux maladies complexes.
Un des types de modification épigénétique les plus étudiés, c'est la Méthylation de l'ADN, qui consiste à ajouter un petit groupe chimique à l'ADN. La plupart des recherches jusqu'à présent ont utilisé des technologies qui scannent plein de zones de l'ADN en même temps. Mais avec les avancées en séquençage, les scientifiques peuvent maintenant analyser plus facilement la méthylation de l'ADN sur des échantillons plus grands. Le profil de méthylation de l'ADN d'un échantillon dépend surtout du type de tissu ou de cellule dont il provient.
Choisir le bon tissu pour l'analyse est super important, surtout quand on étudie des maladies comme Alzheimer, où le tissu cérébral est directement pertinent. En regardant des tissus "bulk", comme le sang entier, les chercheurs font face à un défi car ces échantillons contiennent un mélange de différents types de cellules, chacune avec son propre profil de méthylation. Du coup, les différences entre ces types de cellules peuvent mener à des résultats trompeurs quand les chercheurs essaient de relier la méthylation de l'ADN à des maladies spécifiques.
Les chercheurs doivent être conscients des différents types de cellules dans chaque échantillon pour éviter de fausses associations dans leurs études. Même s'il existe des méthodes pour ajuster ces différences, les changements uniques dans les types de cellules rares peuvent passer inaperçus parce qu'ils sont dilués par les types de cellules plus communs. Identifier les types de cellules spécifiques liés aux changements de méthylation de l'ADN est crucial pour comprendre quels gènes et fonctions biologiques sont impliqués dans certaines maladies.
L'Importance d'une Analyse Spécifique aux Cellules
Il y a une forte demande pour des analyses spécifiques aux cellules de la méthylation de l'ADN, mais générer les données nécessaires est compliqué. De nouvelles données expérimentales provenant de populations cellulaires uniques, obtenues via des méthodes comme le tri cellulaire par fluorescence, peuvent nécessiter des coûts, du temps et des efforts importants. Bien que certaines données de référence pour des types de cellules spécifiques aient été générées, les tailles d'échantillons sont souvent petites et les études peuvent manquer de puissance.
Pour aider, certaines méthodes informatiques ont été développées permettant aux chercheurs d'obtenir des profils spécifiques aux cellules sans avoir besoin d'isoler les cellules au préalable. Ces méthodes reposent souvent sur la connaissance ou l'estimation de la proportion de différents types de cellules présentes dans chaque échantillon. Le succès de ces approches dépend de l'exactitude de l'estimation de la composition des types cellulaires, car des inexactitudes pourraient mener à des conclusions erronées.
En général, en évaluant la méthylation de l'ADN, les scientifiques ont trouvé qu'une petite fraction seulement des variations peut être attribuée avec précision à des types cellulaires individuels. Cela suggère que comprendre comment les profils des différents types de cellules se combinent en un profil de tissu bulk est complexe, ce qui augmente la probabilité d'erreurs lorsqu'on essaie de décomposer ces mélanges en contributions de types cellulaires individuels.
Nouvelles Approches avec le Séquençage Long
Dans cette étude, les chercheurs proposent une nouvelle approche computationnelle qui utilise les avancées du séquençage long. Cette technologie permet aux scientifiques d'analyser de plus longues segments d'ADN en une fois, capturant non seulement la séquence génétique, mais aussi le statut de méthylation de l'ADN en même temps. L'idée clé est de classifier chaque lecture de séquençage selon le type de cellule spécifique d'où elle provient. Une fois classées, les lectures sont regroupées par type de cellule pour créer des profils uniques de méthylation de l'ADN pour chaque type de cellule.
L'objectif de cette étude est de voir si cette nouvelle approche peut produire des résultats fiables, même avec des limitations. D'abord, les connaissances existantes sur la méthylation spécifique aux types de cellules nécessitent souvent de regarder à travers de nombreuses régions différentes du génome. Chaque lecture peut ne fournir qu'un petit segment, soulevant des questions sur la quantité d'informations uniques qui seront présentes pour classifier précisément le type de cellule.
Deuxièmement, la plupart des méthodes pour évaluer la méthylation de l'ADN donnent une valeur continue en agrégeant les mesures à travers une population de cellules. Cela crée un scénario où il peut être plus facile de distinguer différents types de cellules. Cependant, pour une seule molécule d'ADN, le statut de méthylation est un simple oui ou non, rendant la classification plus compliquée.
Pour évaluer la faisabilité de leur méthode, les chercheurs se concentrent sur les principaux types de cellules sanguines. Ils veulent poser trois questions cruciales : Est-ce que les chercheurs peuvent classifier les types de cellules en utilisant seulement de petits segments d'ADN ? Les signatures uniques pour chaque type de cellule se trouvent-elles souvent assez à travers le génome ? Et y a-t-il suffisamment d'informations dans une seule lecture pour classifier précisément les types de cellules ?
Classification des Types de Cellules
La recherche a montré que les profils de méthylation de l'ADN peuvent efficacement définir les types de cellules. La première étape a été de déterminer s'il est possible de prédire les types de cellules en utilisant seulement un petit segment du génome. Les chercheurs ont construit des Classificateurs en utilisant des données de méthylation de l'ADN de cinq types de cellules sanguines purifiées. Ils ont testé différentes combinaisons d'au moins cinq sites de méthylation de l'ADN, en examinant jusqu'à 20 000 paires de bases du génome pour la classification.
Les résultats étaient prometteurs. Les classificateurs ont pu prédire avec précision les types de cellules, avec plusieurs algorithmes de machine learning donnant des résultats solides. Bien que tous les classificateurs aient mieux performé que de simples devinettes, les chercheurs avaient besoin d'un niveau de précision plus élevé pour leurs objectifs.
Pour évaluer combien de classificateurs ont atteint un niveau de précision minimal, ils ont découvert qu'environ 31 % des classificateurs ont dépassé le seuil d'identification correcte de 90 % des échantillons. Parmi les différents algorithmes utilisés pour générer des classificateurs, Random Forest a produit les résultats les plus précis.
Les chercheurs ont aussi découvert qu'augmenter le nombre de sites de méthylation de l'ADN dans un classificateur améliorait sa précision, mais pas de manière linéaire. Un saut clair de performance a eu lieu lors du passage de cinq à vingt sites, et des améliorations continues ont été notées même après l'inclusion de plus de sites.
Ils ont également examiné comment la distance entre les sites de méthylation de l'ADN influençait la précision. Les résultats suggèrent que les signatures pour différents types de cellules sont souvent regroupées dans des régions du génome. Cela souligne l'idée que les motifs de méthylation de l'ADN ne se produisent pas au hasard, mais sont plutôt façonnés par le contexte biologique.
Simplifier le Processus de Classification
Une des stratégies pour améliorer l'exactitude globale de la classification des types de cellules est de se concentrer sur la prédiction de moins de types de cellules à la fois. Cela signifie créer des classificateurs qui visent à distinguer un type de cellule spécifique de tous les autres. Lorsque les chercheurs ont réentraîné les classificateurs pour simplifier le problème de cette manière, ils ont vu des améliorations en précision.
Par exemple, en regroupant les types de cellules sanguines et en formant des classificateurs pour identifier les lymphocytes contre les cellules myéloïdes, la précision moyenne a considérablement augmenté. Ils ont observé des augmentations similaires de performance pour les classificateurs conçus pour différencier d'autres types de cellules sanguines. Cela signifiait aussi que moins de sites de méthylation de l'ADN étaient nécessaires pour atteindre le niveau de précision souhaité.
En plus, utiliser des données provenant de sources plus complètes, comme le séquençage bisulfite de génome entier, a aidé à augmenter le potentiel de succès des classificateurs. Cette méthode de séquençage a permis de couvrir un plus grand nombre de sites de méthylation de l'ADN, résultant en des taux de précision plus élevés. Même si cette méthode nécessite des tailles d'échantillons plus importantes, la sensibilité améliorée dans l'estimation des niveaux de méthylation de l'ADN et la capture de plus de caractéristiques ont finalement montré que cela valait le coup.
Défis et Directions Futures
Malgré les résultats prometteurs, il y a encore beaucoup de défis à relever. Un obstacle majeur est la dépendance à un nombre limité de jeux de données de formation. Les chercheurs pensent qu'élargir ces jeux de données pour inclure plus de références de types cellulaires peut améliorer les résultats. De plus, les démographies au sein des données de formation peuvent limiter la performance des classificateurs lorsqu'ils sont appliqués à des populations plus diverses.
Un autre défi réside dans le fait que les méthodes utilisées reposent fortement sur l'exactitude de l'identification du statut de méthylation de l'ADN à partir des données de séquençage long. Les variations dans ces estimations peuvent introduire des erreurs dans les classificateurs résultants. De plus, jusqu'à présent, les chercheurs se sont concentrés sur la méthylation de l'ADN à des sites spécifiques, ce qui signifie que d'autres modifications qui pourraient fournir un contexte utile pour certains types de cellules ont été laissées de côté.
Conclusion
Cette étude démontre le potentiel d'utiliser des technologies de séquençage long pour créer des profils de méthylation de l'ADN spécifiques aux cellules à partir d'échantillons de tissus mélangés. En utilisant des données existantes provenant de cellules sanguines purifiées, les chercheurs ont pu distinguer avec précision certains types de cellules sanguines majeurs sur une grande partie du génome. Cette approche a beaucoup de promesses, surtout à mesure que les technologies de séquençage s'améliorent et que des profils de référence plus complets sont générés.
Comprendre comment les perturbations de la méthylation de l'ADN peuvent affecter les maladies nécessitera une analyse plus approfondie des types de cellules spécifiques. L'ambition ultime est d'étudier la méthylation de l'ADN au niveau des cellules individuelles pour obtenir des insights sur le rôle de ces modifications dans les maladies, tout comme les pratiques actuelles pour examiner l'expression génique.
Alors que les chercheurs continuent à développer ces découvertes, l'espoir est d'établir des modèles efficaces capables d'analyser les motifs de méthylation de l'ADN à travers divers types de tissus et organismes, enrichissant notre compréhension de la relation complexe entre l'épigénétique et la santé.
Titre: Leveraging epigenetic signatures to determine the cell-type of origin from long read sequencing data
Résumé: DNA methylation differs across tissue- and cell-types with important implications for the analysis of disease-associated differences in tissues such as blood. To uncover the biological processes affected by epigenetic dysregulation, it is essential for epigenetic studies to generate data from the appropriate cell-types. Here we propose a framework to do this computationally from long-read sequencing data, bypassing the need to isolate subtypes of cells experimentally. Using reference data for six common blood cell-types, we evaluate the potential of this approach for attributing reads to specific cells using sequencing data generated from whole blood. Our analyses show that cell-type can be accurately classified using small regions of the genome comparable in size to those generated by long-read sequencing platforms, although the accuracy of classification varies across different regions of the genome and between cell-types. We found that for approximately one third of the genome it is possible to accurately discriminate reads originating from lymphocytes and myeloid cells with the prediction of more specialised subtypes of blood cell-types also encouraging. Our approach provides an alternative computational method for generating cell-specific DNA methylation profiles for epigenetic epidemiology, accelerating our ability to reveal critical insights of the role of the epigenome in health and disease.
Auteurs: Eilis Hannon, J. Mill
Dernière mise à jour: 2024-06-03 00:00:00
Langue: English
Source URL: https://www.biorxiv.org/content/10.1101/2024.06.03.597114
Source PDF: https://www.biorxiv.org/content/10.1101/2024.06.03.597114.full.pdf
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.