LÉGENDE : Une nouvelle méthode pour l'analyse génétique
Voici LEGEND, une méthode pour analyser l'expression des gènes à travers les types de cellules et les tissus.
Xiaobo Sun, T. Deng, M. Huang, K. Xu, Y. Lu, Y. Xu, S. Chen, Q. Tao, N. Xie, H. Wu
― 10 min lire
Table des matières
- Importance de l'identification des modèles d'expression génique
- Méthodes computationnelles pour l'analyse de l'expression génique
- Présentation de LEGEND : Une nouvelle méthode pour l'analyse génique
- Le processus de prétraitement des données
- Le cadre de LEGEND
- Étape I : Pseudo-étiquetage
- Étape II : Clustering des gènes
- Pertinence biologique de LEGEND
- Sélection des clusters de gènes
- Analyse d'enrichissement
- Analyse de co-fonction
- Modèles d'expression génique et pertinence anatomique
- Identification des interactions géniques associées aux maladies
- Analyse des voies géniques connues
- Amélioration de l'efficacité du clustering des gènes
- Conclusion
- Source originale
La Séquençage d'ARN à cellule unique (scRNA-seq) est une méthode utilisée pour examiner l'activité des gènes dans des cellules individuelles. Ça aide les scientifiques à recueillir des infos détaillées sur comment les gènes fonctionnent dans différents types de cellules et comment ces processus changent dans des tissus complexes et des maladies. Cependant, une limitation du scRNA-seq est qu'il ne fournit pas d'infos sur l'emplacement de chaque cellule dans le tissu. Ça rend difficile de comprendre comment les fonctions des gènes se rapportent à l'environnement tissulaire environnant.
Pour surmonter ce problème, des chercheurs ont développé la Transcriptomique résolue spatialement (SRT), qui leur permet d'analyser les modèles d'expression des gènes dans les tissus tout en préservant un certain contexte spatial. La SRT offre de nouvelles opportunités pour examiner comment différents types de cellules sont répartis dans les tissus et comment ils interagissent entre eux. Cependant, les technologies SRT actuelles sacrifient souvent la capacité d'étudier des cellules individuelles en détail ou de couvrir toute l'étendue de l'activité génique. Cela rend difficile l'identification précise des caractéristiques de chaque cellule sur la base de mesures spatiales.
Combiner les infos des deux, SRT et scRNA-seq, peut aider les chercheurs à identifier les modèles d'expression des gènes de façon plus efficace. En analysant ensemble les données d'expression génique spatiale et à cellule unique, les scientifiques peuvent obtenir des aperçus plus profonds sur comment les gènes fonctionnent tant au niveau tissulaire qu'au niveau des cellules individuelles.
Importance de l'identification des modèles d'expression génique
Identifier les modèles d'expression génique est super important pour comprendre comment les gènes fonctionnent et interagissent dans divers processus biologiques, comme le développement cellulaire et l'organisation des tissus. Dans le contexte de scRNA-seq et SRT, les chercheurs se concentrent sur plusieurs types clés de modèles d'expression génique :
Gènes différemment exprimés (DEG) : Ces gènes montrent des niveaux d'expression différents entre des types de cellules ou des régions tissulaires spécifiques, aidant à identifier des biomarqueurs potentiels spécifiques à certaines conditions.
Gènes exprimés de manière variable : Ça inclut des gènes hautement variables (HVG) dans scRNA-seq, qui mettent en évidence des gènes qui changent radicalement d'expression entre différents types de cellules, et des gènes variables spatialement (SVG) dans SRT qui montrent une variation d'expression entre les régions tissulaires.
Gènes co-exprimés : Ces gènes tendent à être exprimés ensemble, indiquant des relations fonctionnelles possibles ou des voies partagées.
Comprendre ces modèles peut révéler comment les processus biologiques fonctionnent et donner des aperçus sur les mécanismes de la maladie. Par exemple, examiner les gènes co-exprimés peut aider les scientifiques à identifier des groupes de gènes qui sont liés et pourraient interagir dans des voies spécifiques, éclairant leurs rôles dans les maladies.
Méthodes computationnelles pour l'analyse de l'expression génique
Beaucoup de méthodes computationnelles ont été créées pour identifier les modèles d'expression génique dans les données scRNA-seq et SRT. Certaines méthodes se concentrent sur la recherche de gènes co-exprimés, comme scGeneClust, CS-CORE, COTAN pour scRNA-seq, et CNN-Preg, Giotto, STUtility, et SPARK pour SRT. Cependant, ces méthodes ont souvent des limitations.
La plupart des méthodes existantes analysent soit les données SRT soit celles de scRNA-seq seules, ce qui peut mener à l'identification de relations géniques plus faibles qui ne prennent pas en compte la complexité des interactions entre différents types de cellules et régions tissulaires.
Beaucoup de méthodes SRT évaluent l'expression génique à des points spatiaux individuels sans tenir compte de la façon dont ces points se rapportent les uns aux autres dans le contexte global du tissu.
Enfin, les méthodes actuelles n'utilisent pas efficacement les gènes co-exprimés identifiés pour des applications en aval, comme identifier des gènes avec des modèles d'expression spatiale spécifiques ou améliorer l'efficacité de l'information pour des algorithmes analytiques.
Présentation de LEGEND : Une nouvelle méthode pour l'analyse génique
Pour répondre à ces limitations, nous présentons une nouvelle méthode appelée LEGEND. Cette méthode identifie des gènes co-exprimés à travers les types de cellules et les domaines tissulaires en utilisant des principes de la théorie de l'information. LEGEND évalue la pertinence, la redondance et la complémentarité des gènes dans les ensembles de données SRT et scRNA-seq de manière semi-supervisée.
À travers ce processus, LEGEND construit un graphique qui visualise les relations entre les gènes. En se basant sur ce graphique, les gènes sont regroupés en clusters, qui représentent des modules de gènes co-exprimés et fonctionnellement liés. Nous avons testé LEGEND sur des ensembles de données provenant du cerveau adulte de souris et du cortex préfrontal dorsolatéral humain (DLPFC) et trouvé que les gènes au sein du même cluster affichaient des modèles d'expression spatiale similaires.
Comparé à sept méthodes existantes et une version adaptée de LEGEND qui n'utilise pas de données scRNA-seq, LEGEND a montré de meilleures performances en matière de Clustering de gènes en termes de co-expression de gènes entre différents types de cellules et de cohérence spatiale à travers les domaines tissulaires. Grâce à une analyse plus poussée, LEGEND a efficacement regroupé des gènes co-fonctionnels en clusters, alignant leurs modèles d'expression avec des structures anatomiques et des connexions à des maladies.
Le processus de prétraitement des données
Pour l'analyse des données scRNA-seq et SRT, nous suivons une procédure standard de prétraitement des données. Cela inclut :
Filtrage des gènes indésirables : Nous excluons les gènes qui ne sont pas informatifs, comme les gènes mitochondriaux et les gènes de spike-in utilisés pour la calibration.
Exclusion des gènes rarement détectés : Les gènes détectés dans moins de 10 cellules dans les ensembles de données scRNA-seq ou dans moins de 10 spots dans les ensembles de données SRT sont également supprimés.
Suppression des cellules de faible qualité : Nous filtrons les cellules dans les ensembles de données scRNA-seq qui ont moins de 200 gènes détectés pour assurer la qualité des données.
Normalisation et log-transformation : Enfin, nous normalisons les comptes d'expression des gènes pour tenir compte des différences de taille de bibliothèque, suivie d'une transformation logarithmique pour stabiliser la variance.
Le cadre de LEGEND
Le cadre LEGEND contient deux étapes principales :
Étape I : Pseudo-étiquetage
Dans cette étape initiale, LEGEND génère des pseudo-étiquettes pour les spots spatiaux dans les données SRT, ce qui aide à regrouper des spots similaires en domaines spatiaux. L'objectif ici est d'identifier des zones dans le tissu où l'activité génique est similaire.
Étape II : Clustering des gènes
La deuxième étape exploite les pseudo-étiquettes pour évaluer la similarité et la discriminabilité des modèles d'expression des gènes en termes de pertinence, redondance, et complémentarité. Ces évaluations sont utilisées pour construire un graphique de redondance, permettant un regroupement efficace des gènes co-exprimés.
Les gènes partageant des relations fortes basées sur ces critères sont regroupés, représentant des groupes de gènes co-exprimés et fonctionnellement liés.
Pertinence biologique de LEGEND
Pour évaluer l'importance biologique des clusters de gènes identifiés par LEGEND, nous avons réalisé une étude de cas utilisant des ensembles de données du gyrus temporal moyen (MTG) d'individus sains et de patients atteints de la maladie d'Alzheimer (AD).
Sélection des clusters de gènes
Nous avons classé les clusters de gènes en fonction de leur pertinence et sélectionné les meilleurs pour une analyse plus approfondie. Cela nous a permis de comparer des groupes de gènes provenant d'échantillons malades et témoins pour comprendre leur implication potentielle dans des processus biologiques.
Analyse d'enrichissement
Pour mettre en évidence la pertinence biologique des ensembles de gènes identifiés, nous avons effectué une analyse d'enrichissement pour les processus d'ontologie des gènes (GO) et les voies KEGG pour voir comment ces groupes de gènes se rapportent à des processus biologiques connus. Les résultats ont montré que les gènes du groupe malade étaient significativement plus susceptibles d'être associés à des processus biologiques liés à l'AD, tandis que le groupe normal avait davantage de processus liés au cerveau.
Analyse de co-fonction
Nous avons mené une analyse de co-fonction pour évaluer comment les gènes au sein des voies identifiées interagissent les uns avec les autres. L'analyse a révélé que les gènes des groupes maladie et normal montraient une forte cohérence fonctionnelle, indiquant encore plus la pertinence des clusters de gènes identifiés.
Modèles d'expression génique et pertinence anatomique
En examinant visuellement les modèles d'expression génique grâce au clustering, nous avons découvert que les clusters identifiés par LEGEND s'alignaient avec des structures anatomiques spécifiques. Par exemple, plusieurs clusters de gènes provenant des ensembles de données AD ont montré des modèles d'expression spatiale distincts correspondant à des couches connues du cortex humain. Cette découverte souligne la capacité de LEGEND à lier l'activité génique à des contextes biologiques spécifiques.
Identification des interactions géniques associées aux maladies
Nous avons également évalué la capacité de LEGEND à découvrir des interactions géniques associées aux maladies, en particulier dans le contexte de la maladie d'Alzheimer. En analysant les changements dans les réseaux d'interaction génique entre des états sains et malades, nous avons trouvé des changements notables dans les interactions impliquant des gènes associés à l'AD.
Analyse des voies géniques connues
En examinant les voies établies liées à l'AD, nous avons observé des changements significatifs dans les interactions géniques parmi les voies principales, mettant en lumière les mécanismes moléculaires contribuant à la maladie.
Amélioration de l'efficacité du clustering des gènes
LEGEND aide également à sélectionner des gènes représentatifs qui conservent des informations précieuses tout en réduisant la redondance. En utilisant ces gènes sélectionnés comme entrée pour des algorithmes de clustering, nous avons obtenu une meilleure précision tant dans les tâches de clustering spatial que de cellule unique par rapport aux méthodes existantes.
Conclusion
En résumé, LEGEND est présenté comme un outil puissant pour intégrer les informations des données scRNA-seq et SRT afin d'identifier des groupes de gènes co-exprimés et leurs interactions. Il démontre une performance supérieure en matière de clustering des gènes, révélant des aperçus biologiquement pertinents sur des maladies comme Alzheimer. Cette méthode aide non seulement à identifier les interactions géniques altérées, mais améliore également la précision du clustering, en faisant une approche prometteuse pour la recherche future dans l'analyse de l'expression génique.
Titre: LEGEND: Identifying Co-expressed Genes in Multimodal Transcriptomic Sequencing Data
Résumé: Identifying co-expressed genes across tissue domains and cell types is essential for revealing co-functional genes involved in biological or pathological processes. While both single-cell RNA-sequencing (scRNA-seq) and spatially-resolved transcriptomic (SRT) data offer insights into gene co-expression patterns, current methods typically utilize either data type alone, potentially diluting the co-functionality signals within co-expressed gene groups. To bridge this gap, we introduce LEGEND, a novel computational method that integrates scRNA-seq and SRT data for identifying groups of co-expressed genes at both cell type and tissue domain levels. LEGEND employs an innovative hierarchical clustering algorithm designed to maximize intra-cluster redundancy and inter-cluster complementarity, effectively capturing more nuanced patterns of gene co-expression and spatial coherence. Enrichment and cofunction analyses further showcase the biological relevance of these gene clusters, and their utilities in exploring context-specific novel gene functions. Notably, LEGEND can reveal shifts in gene-gene interactions under different conditions, furnishing insights for disease-associated gene crosstalk. Moreover, LEGEND can be utilized to enhance the annotation accuracy of both spatial spots in SRT and single-cells in scRNA-seq, and pioneers in identifying genes with designated spatial expression patterns. LEGEND is available at https://github.com/ToryDeng/LEGEND.
Auteurs: Xiaobo Sun, T. Deng, M. Huang, K. Xu, Y. Lu, Y. Xu, S. Chen, Q. Tao, N. Xie, H. Wu
Dernière mise à jour: 2024-10-29 00:00:00
Langue: English
Source URL: https://www.biorxiv.org/content/10.1101/2024.10.27.620451
Source PDF: https://www.biorxiv.org/content/10.1101/2024.10.27.620451.full.pdf
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.