OBTENEZ : Un nouvel outil pour la régulation de la transcription
GET améliore la compréhension des facteurs de transcription dans différents types de cellules humaines.
― 9 min lire
Table des matières
- Le Rôle des Facteurs de Transcription
- Avancées Technologiques
- Présentation de GET
- Performance de GET
- Transférabilité de GET
- Prédiction des Éléments Régulateurs
- Identification des Facteurs Régulateurs Clés
- Aperçus sur les Interactions des Facteurs de Transcription
- Construction d'un Catalogue Structurel
- Étude de Cas : Le Rôle de PAX5
- Directions Futures pour GET
- Conclusion
- Source originale
- Liens de référence
La régulation de la transcription est un domaine d'étude super important qui joue un rôle clé dans plein de processus biologiques, y compris dans diverses maladies humaines comme les troubles génétiques et les cancers. Ce processus implique un ensemble de protéines appelées Facteurs de transcription qui interagissent avec des régions spécifiques de l'ADN pour contrôler l'expression des gènes, c'est-à-dire comment les gènes s'activent ou se désactivent. La capacité des cellules à réguler l'activité des gènes est cruciale pour leur bon fonctionnement.
Le Rôle des Facteurs de Transcription
Les facteurs de transcription sont des protéines qui se lient à des séquences d'ADN spécifiques pour réguler la transcription des gènes. Ils travaillent avec d'autres protéines, appelées coactivateurs et médiateurs, pour aider l'ARN polymérase II, l'enzyme responsable de la fabrication de l'ARN à partir de l'ADN, à faire son job. Différents types de cellules ont des ensembles uniques de régions régulatrices, mais les interactions de base entre protéines et ADN tendent à rester constantes entre différents types de cellules, tant que les conditions environnantes sont les mêmes.
Bien qu'on ait une bonne idée de comment certains facteurs de transcription fonctionnent, on se concentre souvent sur des types cellulaires individuels. Ça rend difficile de voir comment différents facteurs de transcription collaborent pour créer des motifs d'expression génique variés dans différents types cellulaires.
Avancées Technologiques
Les récentes avancées en technologie de séquençage et en apprentissage automatique ont aidé les scientifiques à examiner l'expression des gènes et les caractéristiques régulatrices non codantes à travers de nombreux types cellulaires. Les méthodes traditionnelles ont des limites, car elles ne peuvent souvent faire que des prédictions basées sur des types cellulaires déjà entraînés. Ça réduit leur capacité à appliquer les résultats à de nouvelles cellules.
Les modèles de base émergents, comme GPT et ESM, promettent beaucoup dans ce domaine. Ces modèles sont construits sur une large gamme de données, ce qui leur permet d'apprendre des motifs et des relations généraux à travers différents contextes biologiques. Dans la régulation de la transcription, un modèle de base peut aider à comprendre les interactions complexes impliquées et à adapter les prédictions pour des tâches ou des conditions spécifiques.
Présentation de GET
On vous présente le General Expression Transformer (GET), un modèle de base conçu spécifiquement pour étudier la régulation de la transcription à travers 213 types cellulaires humains. GET est super efficace et adaptable, apprenant à partir de données d'Accessibilité de la chromatine, ce qui donne un aperçu de la manière dont certaines régions de l'ADN sont accessibles pour les facteurs de transcription. Le modèle prédit non seulement l'expression génique avec précision dans des types cellulaires familiers et inconnus, mais s'adapte aussi bien aux différentes techniques de séquençage.
GET s'est révélé plus efficace que les modèles précédents pour identifier les éléments régulateurs et comprendre la fonction de divers facteurs de transcription. Grâce à GET, on peut obtenir des aperçus précieux sur presque chaque gène à travers plusieurs types cellulaires.
Performance de GET
GET prédit efficacement l'expression des gènes à travers différents types cellulaires, montrant un haut niveau de précision comparable aux résultats expérimentaux. Il a aussi démontré une capacité à généraliser des résultats des cellules fœtales aux cellules adultes sans avoir besoin de se réentraîner. Cette adaptabilité fait de GET un outil puissant pour extraire des mécanismes régulateurs communs qui pourraient être pertinents à différents stades de vie.
Pour évaluer la performance de GET, on a exclu certains types cellulaires durant l'entraînement et on a trouvé qu'il pouvait toujours prédire l'expression génique avec une impressionnante précision. Par exemple, quand on prévoit l'expression dans des astrocytes fœtaux, les prédictions de GET s'alignent de près avec les données observées.
Transférabilité de GET
Une des caractéristiques les plus importantes de GET est sa capacité à être utilisé à travers différentes plateformes de génération de données. Ça veut dire qu'il peut prédire avec succès l'expression des gènes à partir de différents types de données, comme le séquençage multiome à partir de ganglions lymphatiques ou de cellules tumorales de glioblastome. Le modèle maintient son pouvoir prédictif peu importe les différences dans la manière dont les données sont collectées.
En utilisant GET dans différents setups expérimentaux, les chercheurs peuvent recueillir des informations sur les éléments régulateurs dans de nouvelles conditions. C'est particulièrement utile pour comprendre comment ces éléments fonctionnent dans les cellules cancéreuses, où la régulation des gènes devient souvent perturbée.
Prédiction des Éléments Régulateurs
GET excelle aussi à prédire les éléments régulateurs qui conduisent à l'expression dans des types cellulaires jamais vus auparavant. En utilisant une méthode similaire à un essai de rapporteur massivement parallèle (MPRA), GET peut évaluer l'activité régulatrice de nombreux séquences génétiques sans avoir été entraîné sur ces données spécifiques.
Les prédictions faites par GET s'alignent bien avec les résultats expérimentaux, confirmant encore plus sa validité et son utilité dans la découverte d'éléments régulateurs dans divers contextes.
Identification des Facteurs Régulateurs Clés
La capacité du modèle à analyser les données d'accessibilité de la chromatine lui permet d'identifier les éléments régulateurs cis (CRE) dans des types cellulaires spécifiques. Ces éléments peuvent servir de cibles précieuses pour des recherches plus approfondies, surtout pour comprendre des processus biologiques complexes comme la régulation de l'hémoglobine.
Grâce à GET, les chercheurs ont pu identifier des facteurs de transcription clés comme GATA, qui joue un rôle significatif dans la régulation des niveaux d'hémoglobine fœtale. Ce processus d'identification est essentiel pour comprendre et potentiellement manipuler l'expression génique à des fins thérapeutiques.
Aperçus sur les Interactions des Facteurs de Transcription
GET va au-delà de la simple prédiction de l'expression génique ; il fournit aussi des aperçus sur comment les facteurs de transcription interagissent entre eux. En analysant les interactions mot-mot, les chercheurs peuvent identifier des réseaux de facteurs de transcription qui collaborent dans différents contextes biologiques.
Ces interactions peuvent aider à expliquer plein de phénomènes biologiques, y compris comment certains facteurs peuvent coopérer ou rivaliser pour réguler l'expression des gènes. Comprendre ces dynamiques peut révéler de nouvelles cibles pour le développement de médicaments et les interventions thérapeutiques.
Construction d'un Catalogue Structurel
En utilisant les prédictions faites par GET, les chercheurs ont commencé à construire un catalogue structurel des interactions des facteurs de transcription. Ça implique de prédire les structures tridimensionnelles de ces protéines et comment elles interagissent entre elles.
En utilisant des techniques de modélisation avancées comme AlphaFold, les scientifiques peuvent visualiser comment les facteurs de transcription se rassemblent et forment des complexes. Cette information structurelle est cruciale pour comprendre les fondements biochimiques de la régulation génique et comment des altérations peuvent conduire à des maladies.
Étude de Cas : Le Rôle de PAX5
Un exemple notable de l'utilité de GET est son application au gène PAX5, qui est significatif dans le contexte de la leucémie lymphoblastique aiguë des précurseurs des cellules B (B-ALL). Ce gène est souvent muté dans divers cas de leucémie, et comprendre ses réseaux régulateurs peut donner des aperçus sur la maladie.
À travers l'analyse de PAX5 avec GET, les chercheurs ont identifié des interactions spécifiques de facteurs de transcription qui pourraient être affectées par des mutations, comme la mutation G183S. Cette mutation altère la capacité de liaison de PAX5, éclairant comment cela peut contribuer au développement de la leucémie.
Directions Futures pour GET
Bien que GET ait fait des progrès significatifs dans la compréhension de la régulation de la transcription, il y a des domaines à améliorer. Par exemple, le modèle s'appuie principalement sur des données d'accessibilité de la chromatine et peut avoir du mal avec des facteurs de transcription étroitement liés en raison de motifs de liaison similaires. Les futures versions de GET pourraient inclure des informations biologiques plus détaillées, comme des données provenant de divers essais qui mesurent la liaison et l'activité des facteurs de transcription.
En élargissant ses capacités, GET pourrait aider les chercheurs à obtenir une image plus claire de la régulation génique et de la manière dont différentes variantes génétiques affectent les processus biologiques. Cela pourrait améliorer notre compréhension des traits complexes et des troubles, ouvrant la voie à de nouvelles stratégies thérapeutiques.
Conclusion
GET représente une avancée significative dans l'étude de la régulation de la transcription à travers un large éventail de types cellulaires humains. En intégrant des ensembles de données divers et en utilisant des techniques de modélisation sophistiquées, GET atteint un haut niveau de précision dans la prédiction de l'expression génique. Son adaptabilité en fait un outil précieux tant dans la recherche fondamentale que dans les applications cliniques.
Alors que les chercheurs continuent d'explorer les complexités de la régulation génique, des modèles comme GET seront cruciaux pour dévoiler les réseaux complexes qui régissent le comportement des gènes dans différents contextes biologiques. Les aperçus obtenus grâce à ces études ont le potentiel de faire avancer les domaines de la génétique, de la génomique, et de la médecine personnalisée.
Titre: GET: a foundation model of transcription across human cell types
Résumé: Transcriptional regulation, involving the complex interplay between regulatory sequences and proteins, directs all biological processes. Computational models of transcription lack generalizability to accurately extrapolate in unseen cell types and conditions. Here, we introduce GET, an interpretable foundation model designed to uncover regulatory grammars across 213 human fetal and adult cell types. Relying exclusively on chromatin accessibility data and sequence information, GET achieves experimental-level accuracy in predicting gene expression even in previously unseen cell types. GET showcases remarkable adaptability across new sequencing platforms and assays, enabling regulatory inference across a broad range of cell types and conditions, and uncovering universal and cell type specific transcription factor interaction networks. We evaluated its performance on prediction of regulatory activity, inference of regulatory elements and regulators, and identification of physical interactions between transcription factors. Specifically, we show GET outperforms current models in predicting lentivirus-based massive parallel reporter assay readout with reduced input data. In fetal erythroblasts, we identify distal (>1Mbp) regulatory regions that were missed by previous models. In B cells, we identified a lymphocyte-specific transcription factor-transcription factor interaction that explains the functional significance of a leukemia-risk predisposing germline mutation. In sum, we provide a generalizable and accurate model for transcription together with catalogs of gene regulation and transcription factor interactions, all with cell type specificity.
Auteurs: Raul Rabadan, X. Fu, S. Mo, A. Buendia, A. Laurent, A. Shao, M. d. M. Alvares-Torres, T. Yu, J. Tan, J. Su, R. Sagatelian, A. A. Ferrando, A. Ciccia, Y. Lan, D. M. Owens, T. Palomero, E. P. Xing
Dernière mise à jour: 2024-07-03 00:00:00
Langue: English
Source URL: https://www.biorxiv.org/content/10.1101/2023.09.24.559168
Source PDF: https://www.biorxiv.org/content/10.1101/2023.09.24.559168.full.pdf
Licence: https://creativecommons.org/licenses/by-nc/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.