Modélisation des interactions génétiques avec des techniques de données courbées
De nouvelles méthodes améliorent la compréhension des interactions génétiques et des types de cancer.
― 11 min lire
Table des matières
Dans beaucoup de systèmes naturels, on voit des comportements complexes qui peuvent être décrits avec des modèles plus simples. Par exemple, même si le génome humain a des milliers de gènes, on peut étudier ses fonctions de manière efficace parce que ces gènes travaillent ensemble d'une manière qui produit des traits plus simples. Quand on veut comprendre cette organisation, on utilise des techniques pour réduire des données complexes en formes plus simples tout en gardant les relations importantes entre les points de données.
Beaucoup de méthodes traditionnelles peuvent aider avec ce processus, mais elles ont souvent du mal à connecter différents groupes de données qui sont dispersés. Elles peuvent bien capter les relations locales mais échouent à représenter le motif global quand les points de données sont éloignés. Pour améliorer cela, on a développé une méthode appelée "-VAE," qui utilise une technique spéciale pour lisser l'organisation des points de données dans des dimensions inférieures.
On a testé cette méthode sur différents types de données d'expression génique, y compris le séquençage RNA en vrac provenant de divers tissus cancéreux et le séquençage RNA unicellulaire dans des études de cellules souches. Notre méthode nous a permis de trouver des motifs liés à différents types de cancer et de s'adapter facilement à des types de tissus complètement nouveaux.
Dans la nature, de nombreux systèmes ont des états à haute dimension qui peuvent produire des comportements simples. Par exemple, le comportement des molécules de gaz peut souvent être décrit avec une équation simple, même si de nombreuses variables sont impliquées. De la même manière, les gènes interagissent d'une manière qui peut être résumée en moins de dimensions. De bons modèles peuvent capturer les données en utilisant seulement quelques dimensions interprétables tout en faisant des prédictions précises sur de nouvelles situations qui n'ont pas encore été testées.
Le défi de trouver des modèles plus simples à partir de données complexes existe depuis longtemps. Les méthodes traditionnelles comme l'Analyse en Composantes Principales (PCA) donnent des résultats cohérents mais ont souvent besoin de nombreuses dimensions pour expliquer la plupart des variations dans les données, ce qui rend ces dimensions difficiles à comprendre. Des modèles plus récents comme UMAP et les Autoencodeurs Variationnels peuvent apprendre des structures plus simples en préservant les similarités entre les points de données. Pourtant, ces méthodes peuvent déformer les tendances de données à long terme, surtout dans des zones manquant d'échantillons d'entraînement. Cela rend difficile l'interprétation des relations importantes dans les données.
Récemment, des avancées en géométrie ont commencé à aider à créer des modèles de données plus précis en mesurant à quel point les représentations de données sont courbées. En contrôlant la forme de ces représentations de données, on peut améliorer leur précision. On se concentre sur l'utilisation de définitions plus simples de Courbure pour garder nos modèles efficaces même avec de nombreuses caractéristiques.
Notre approche a deux aspects principaux. D'abord, on calcule la courbure d'une manière qui s'adapte bien aux grands ensembles de données, ce qui nous permet de calculer des relations importantes sans compter sur des estimations. Ensuite, on ajuste la courbure dans notre représentation de données pour réduire la distorsion, ce qui aide notre méthode à s'aligner sur des modèles plus simples quand la courbure est faible.
On a appliqué cette méthode aux données de séquençage RNA en vrac et unicellulaire. Avec le séquençage RNA en vrac, on a capturé l'organisation complexe au sein des tissus cancéreux, créant une image plus claire des différents types de cancer. En utilisant le séquençage RNA unicellulaire, on a prédit avec précision comment les cellules souches allaient se différencier en divers types cellulaires.
Le concept de courbure dans les modèles de données
Les Autoencodeurs Variationnels standards (VAE) sont des outils qui modélisent les données comme provenant d'une distribution de probabilité spécifique tout en tenant compte des variables cachées que l'on n'observe pas. Le but est de trouver une distribution qui correspond le mieux aux données observées après avoir pris en compte ces éléments cachés. Cependant, optimiser ce processus peut être difficile.
Pour y faire face, les VAE utilisent souvent des réseaux de neurones pour créer des encodeurs et des décodeurs tout en optimisant une limite sur la distribution des données. Cela inclut la mesure de la précision avec laquelle le modèle peut recréer les données originales et à quel point la représentation latente s'aligne avec les distributions supposées, généralement gaussiennes.
Malgré leurs points forts, les VAE peuvent conduire à des résultats complexes et difficiles à interpréter en raison des transformations non linéaires. Pour rendre ces modèles plus faciles à interpréter, on doit s'assurer que les distances dans notre Espace latent correspondent bien à celles dans l'espace de données. Cela signifie qu'on veut garder nos représentations lisses et éviter les variations abruptes.
Pour atteindre cela, on impose deux conditions principales sur nos modèles. D'abord, on veut que les distances entre les points dans notre espace latent correspondent aux distances dans l'espace de données résultant. Ainsi, on se concentre sur la régularisation de la courbure du modèle à différents points. Cela signifie mesurer combien la grille originale de points de données est déformée par notre modèle.
Ensuite, on veut que des lignes droites dans l'espace latent restent droites quand on les traduit de nouveau dans l'espace de données. En régularisant efficacement la courbure, on peut garder une représentation plus lisse et plus cohérente de nos données originales.
Cette méthodologie a montré qu'elle fonctionne bien en pratique avec les données de séquençage RNA. Pour le séquençage RNA en vrac, on a utilisé un ensemble de données combinées provenant de bases de données sur le cancer, capturant efficacement les relations complexes entre les tissus sains et cancéreux. Dans le séquençage RNA unicellulaire, notre méthode a aidé à prédire des Destins cellulaires potentiels à partir d'une population de cellules souches, montrant comment leurs futurs chemins pouvaient être anticipés.
Régularisation efficace de la courbure
Les méthodes traditionnelles comme UMAP créent un graphique de dissimilarité basé sur des points et leurs voisins les plus proches, puis plongent les données dans des dimensions inférieures. Bien qu'UMAP soit bon pour regrouper différents types de tissus, on veut voir si notre modèle génère des résultats clairs et interprétables dans l'espace génique.
Quand on applique notre méthode, on peut apprendre un manuel lisse à travers les données, ce qui montre les relations entre les différents tissus. Bien qu'UMAP donne un clustering impressionnant, notre méthode nous permet de visualiser les données d'une manière qui conserve les relations importantes à travers l'ensemble du jeu de données.
Quand on analyse le manuel appris de notre méthode, on remarque qu'il maintient une géométrie cohérente. Les points de données se relient les uns aux autres de manière plus uniforme que dans UMAP. L'analyse révèle des axes distincts de fonction biologique, nous permettant d'observer comment différents gènes interagissent et co-varient à travers divers tissus.
Par exemple, on peut identifier divers axes qui représentent des tendances s'étendant des tissus sains aux cancers. Notre modèle parvient à séparer clairement les différents types de cancer tout en affichant également des transitions plus lisses et plus interprétables.
Construction d'un atlas 3D d'expression génique
Avec les perspectives que nous avons acquises lors de nos enquêtes précédentes, nous avons créé un atlas 3D d'expression génique en utilisant notre approche sur les ensembles de données combinés TCGA et GTEx. L'incorporation capture les relations entre les tissus sains et les cancers, révélant des fonctions biologiques distinctes.
Lorsque nous visualisons les données, nous voyons deux axes principaux. Un axe relie le foie et le muscle, tandis qu'un autre relie le sang au cerveau. En décodant ces axes dans l'espace génique, nous pouvons apprécier leur structure visuellement, montrant à quel point ces relations sont courbées.
Chaque tissu peut être coloré en fonction de signatures génétiques spécifiques, révélant des gradients d'expression qui donnent un aperçu des processus biologiques. Par exemple, nous trouvons de fortes connexions entre les gènes de réponse immunitaire et leurs emplacements s'étendant du sang au cerveau, ainsi que des voies qui s'alignent avec la progression du cancer.
De plus, nous observons comment différents types de carcinomes se propagent depuis leurs homologues sains. Cette structure claire et géométriquement définie permet une identification facile des relations entre les états sains et malades.
Généralisation à des données non vues
Une des forces de notre méthode réside dans sa capacité à s'adapter à de nouveaux types de données. Nous avons testé cela en prenant des échantillons de tissus de cancer du sein et en les intégrant dans notre modèle. Nous avons montré comment le système identifiait efficacement des sous-types, comme le cancer du sein triple négatif, qui a des caractéristiques distinctes par rapport aux autres types.
Même en excluant certains échantillons de cancer du sein pendant l'entraînement, notre modèle pouvait toujours placer avec précision ces tissus non vus dans l'espace d'incorporation. Cette caractéristique démontre une capacité unique à maintenir des relations entre des points de données observés auparavant et jamais vus auparavant.
À travers différents tests, nous avons confirmé que notre méthode surpassait régulièrement les modèles traditionnels. Cela signifie que notre approche peut fournir des prédictions fiables même face à des données qui n'étaient pas incluses dans l'ensemble d'entraînement.
Prédiction des destins cellulaires avec des incorporations courbées
Pour tester encore plus l'efficacité de notre méthode, nous avons examiné des données d'une expérience de traçage de lignées impliquant des cellules souches. Les chercheurs ont marqué un groupe de cellules souches au jour zéro et ont suivi leur différenciation au cours des jours deux, quatre et six. Avec notre approche -VAE, nous avons pu visualiser comment ces cellules se différencieraient vraisemblablement en types cellulaires spécifiques.
Lors de la visualisation des données, nous avons constaté que notre modèle pouvait séparer les cellules en fonction de leurs destins futurs mieux que les méthodes traditionnelles. Dans un graphique utilisant la PCA, les cellules n'étaient pas bien regroupées ; cependant, notre méthode a clairement indiqué des résultats futurs distincts, améliorant la précision de classification.
De plus, nous avons retrain notre modèle en se concentrant uniquement sur les cellules du jour deux et avons réincorporé avec précision les étapes ultérieures. La corrélation entre les points incorporés a montré une forte relation, mettant en évidence la force de notre modèle à capturer les changements progressifs au fil du temps.
Au final, notre méthode révèle non seulement des relations biologiques complexes mais permet aussi de prédire le destin cellulaire, ce qui en fait un outil puissant pour comprendre les processus biologiques.
Conclusion
La quête de modèles plus simples et interprétables à partir de données complexes est cruciale dans divers domaines, surtout en biologie. En se concentrant sur le maintien des structures et des relations essentielles au sein des données, notre approche construit une image plus claire des processus biologiques sous-jacents. Nous avons constaté que la régularisation de la courbure des représentations de données conduit à des prédictions plus interprétables et cohérentes.
Grâce à notre méthode, nous avons obtenu une meilleure généralisation aux données non vues et une visualisation plus claire des interactions géniques complexes. Ce travail ouvre de nouvelles perspectives pour comprendre comment les données à haute dimension peuvent révéler des structures à basse dimension, nous donnant des aperçus sur tout, des comportements du cancer à la différenciation des cellules souches. Nos résultats soulignent le potentiel d'incorporer une compréhension géométrique dans l'analyse des données, ouvrant la voie à des modèles plus efficaces dans la recherche biologique et au-delà.
Titre: $\Gamma$-VAE: Curvature regularized variational autoencoders for uncovering emergent low dimensional geometric structure in high dimensional data
Résumé: Natural systems with emergent behaviors often organize along low-dimensional subsets of high-dimensional spaces. For example, despite the tens of thousands of genes in the human genome, the principled study of genomics is fruitful because biological processes rely on coordinated organization that results in lower dimensional phenotypes. To uncover this organization, many nonlinear dimensionality reduction techniques have successfully embedded high-dimensional data into low-dimensional spaces by preserving local similarities between data points. However, the nonlinearities in these methods allow for too much curvature to preserve general trends across multiple non-neighboring data clusters, thereby limiting their interpretability and generalizability to out-of-distribution data. Here, we address both of these limitations by regularizing the curvature of manifolds generated by variational autoencoders, a process we coin ``$\Gamma$-VAE''. We demonstrate its utility using two example data sets: bulk RNA-seq from the The Cancer Genome Atlas (TCGA) and the Genotype Tissue Expression (GTEx); and single cell RNA-seq from a lineage tracing experiment in hematopoietic stem cell differentiation. We find that the resulting regularized manifolds identify mesoscale structure associated with different cancer cell types, and accurately re-embed tissues from completely unseen, out-of distribution cancers as if they were originally trained on them. Finally, we show that preserving long-range relationships to differentiated cells separates undifferentiated cells -- which have not yet specialized -- according to their eventual fate. Broadly, we anticipate that regularizing the curvature of generative models will enable more consistent, predictive, and generalizable models in any high-dimensional system with emergent low-dimensional behavior.
Auteurs: Jason Z. Kim, Nicolas Perrin-Gilbert, Erkan Narmanli, Paul Klein, Christopher R. Myers, Itai Cohen, Joshua J. Waterfall, James P. Sethna
Dernière mise à jour: 2024-03-01 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2403.01078
Source PDF: https://arxiv.org/pdf/2403.01078
Licence: https://creativecommons.org/licenses/by-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.