COSMOS+: Un nouvel outil pour analyser des données multi-omiques
COSMOS+ combine l'analyse factorielle et les réseaux biologiques pour de meilleures infos sur les données.
― 8 min lire
Table des matières
De nombreuses maladies viennent d'un mélange de changements compliqués dans divers processus biologiques. Ces processus peuvent inclure comment les cellules communiquent entre elles, comment les signaux sont traités dans les cellules, comment les gènes sont contrôlés et comment les substances sont transformées pour l'énergie. Pour mieux comprendre ces maladies, les scientifiques utilisent de plus en plus différents types de données appelées omiques. Cela inclut la transcriptomique (étude de l'ARN), la protéomique (étude des protéines) et la métabolomique (étude des métabolites) pour avoir une vue d'ensemble de ce qui se passe dans les cellules.
Analyse des Données Multi-Omique
Les chercheurs ont développé plusieurs méthodes pour analyser la richesse d'informations trouvées dans ces ensembles de données complexes. Une approche populaire s'appelle l'analyse en facteurs, qui aide à simplifier les données et met en avant les différentes variations entre les échantillons. L'analyse en facteurs estime les différentes sources de variabilité présentes dans les données, ce qui rend plus facile l'extraction d'analyses significatives.
Dans les études multi-omiques, chaque caractéristique de l'ensemble de données est liée à des poids qui correspondent à des facteurs sous-jacents. Cela signifie que les chercheurs peuvent voir quels facteurs contribuent le plus aux variations observées dans les données. Cette méthode fonctionne particulièrement bien lorsque de nombreux échantillons sont impliqués, comme dans les études sur les patients atteints de cancer ou les groupes de lignées cellulaires.
Limitations des Méthodes Actuelles
Bien que l'analyse en facteurs fournisse des informations utiles, elle est principalement guidée par les données elles-mêmes. Les chercheurs doivent souvent connecter ces résultats aux processus biologiques pour en tirer un sens. Cela se fait généralement en analysant des voies et leur relation avec des caractéristiques cliniques. Cependant, ces méthodes ont leurs limites. Par exemple, elles reposent souvent beaucoup sur les niveaux d'expression des gènes, ce qui n'indique pas toujours leur réelle activité dans les processus biologiques.
De plus, l'étude des interactions entre les Ligands (molécules de signalisation) et les récepteurs (protéines de surface cellulaire qui reçoivent les signaux) offre certains aperçus, mais peut être trompeuse. La co-expression des ligands et des récepteurs ne signifie pas toujours qu'ils communiquent activement entre eux.
Relever les Défis Actuels
Un domaine qui peut être amélioré est l'estimation des changements fonctionnels au niveau cellulaire. Les chercheurs utilisent des méthodes de "footprint" qui évaluent l'activité des Facteurs de transcription (protéines qui aident à activer ou désactiver les gènes) et des kinases (enzymes qui modifient les protéines). Ce focus permet d'obtenir des aperçus biochimiques plus précis que l'analyse traditionnelle des voies.
Cependant, les méthodes actuelles fournissent principalement des informations sur des processus individuels. Il y a un besoin d'un moyen de connecter les facteurs de transcription, les ligands et d'autres molécules à l'aide de réseaux basés sur des interactions connues. Cela peut aider à générer des hypothèses testables qui lient divers composants biologiques ensemble.
Présentation de COSMOS+
Pour surmonter ces défis, nous introduisons COSMOS+, une nouvelle approche qui combine l'analyse en facteurs avec des réseaux biologiques établis. Cette méthode permet aux chercheurs de combler le fossé entre des données complexes et des aperçus biologiques significatifs.
Comment fonctionne COSMOS+
Le cadre COSMOS+ utilise d'abord l'analyse en facteurs pour découvrir des facteurs cachés dans les Données multi-omiques. Une fois ces facteurs identifiés, le système peut être utilisé pour caractériser des caractéristiques fonctionnelles qui leur sont liées, comme les activités des facteurs de transcription et les interactions ligand-récepteur.
COSMOS+ intègre également un nouveau système de notation de réseau appelé MOON (Meta-fOOtprint aNalysis). MOON note les connexions au sein du réseau d'interaction biologique et génère des hypothèses sur les relations mécanistiques entre différents composants biologiques, englobant la signalisation et le métabolisme.
Applications Pratiques de COSMOS+
Avec COSMOS+, les chercheurs peuvent commencer à mieux comprendre des ensembles de données complexes. Le nouvel outil se concentre sur la notation des connexions qui contribuent à des processus biologiques significatifs. Cela peut aider à identifier des interactions importantes et des domaines nécessitant une enquête plus approfondie.
Étude de Cas : Dataset Cytosig
Une application notable de COSMOS+ a été dans le dataset Cytosig, qui contient des données d'expression génique après divers traitements. En examinant cet ensemble de données, la méthode a pu donner des aperçus sur les activités de divers ligands. En notant les interactions au sein du réseau, COSMOS+ a fourni des scores d'activité pertinents qui étaient en corrélation avec les résultats biologiques attendus.
Par exemple, la méthode a révélé que certains ligands montraient des scores positifs constants à travers différentes expériences, indiquant un résultat attendu solide. En revanche, certains autres ont mal performé, soulignant le potentiel d'erreurs dans les connaissances antérieures utilisées pour la notation.
Analyse du Dataset NCI60
Une autre application de COSMOS+ a été l'analyse du dataset NCI60. Cet ensemble de données englobe des informations transcriptomiques, protéomiques et métabolomiques à travers diverses lignées cellulaires cancéreuses. En appliquant COSMOS+, les chercheurs ont pu relier avec succès les changements observés dans les données à des processus biologiques connus.
Les résultats ont montré que certains facteurs étaient associés à des types de cancer spécifiques, et les activités des facteurs de transcription pertinents ont été identifiées. Cela indique le potentiel de COSMOS+ pour découvrir des connexions entre les données et les mécanismes biologiques.
Analyse de Footprint
En se concentrant sur l'analyse de footprint, les chercheurs peuvent évaluer dans quelle mesure les facteurs multi-omiques reflètent l'activité biologique. En estimant l'activité des facteurs de transcription et des paires ligand-récepteur, il devient plus clair comment ces facteurs interagissent entre eux et influencent le comportement cellulaire.
Génération d'Hypothèses Mécanistiques
L'intégration de COSMOS+ avec des réseaux de connaissances antérieures permet aux chercheurs de créer des hypothèses mécanistiques. Ces hypothèses sont basées sur les interactions au sein du réseau, offrant une compréhension plus claire des processus biologiques.
Évaluation des Lignées Cellulaires
COSMOS+ permet également d'examiner les lignées cellulaires individuelles en détail. En projetant comment des échantillons individuels se comportent dans l'espace des facteurs multi-omiques, les chercheurs peuvent obtenir des aperçus plus profonds sur des mécanismes biologiques spécifiques affectant ces cellules.
Dans l'analyse des lignées cellulaires cancéreuses, il est devenu évident comment certaines interactions contribuent à des caractéristiques de la maladie. Cette capacité à connecter différents types de données avec une signification biologique illustre la force de COSMOS+.
Directions Futures
Bien que COSMOS+ ait montré des résultats prometteurs, il reste un grand potentiel pour une exploration plus approfondie. Par exemple, l'inclusion de réseaux de connaissances antérieures plus complets pourrait améliorer la précision et la portée des interprétations.
De plus, intégrer des données de séries temporelles pourrait fournir une vue plus dynamique des processus biologiques, capturant les changements au fil du temps. Cela pourrait aider à identifier à la fois des boucles de rétroaction positives et négatives, qui sont cruciales pour comprendre les réponses cellulaires complexes.
Conclusion
En résumé, COSMOS+ est une avancée significative dans l'analyse des données multi-omiques. En reliant l'analyse en facteurs avec des réseaux biologiques, COSMOS+ fournit une compréhension plus claire des mécanismes sous-jacents des processus biologiques.
Cette approche intégrée ne renforce pas seulement notre interprétation d'ensembles de données complexes mais pose également les bases pour générer de nouvelles hypothèses qui peuvent être testées plus tard. À l'avenir, il est essentiel d'améliorer les ressources de connaissances antérieures et d'adapter les méthodes qui tiennent compte des changements dynamiques dans les systèmes biologiques.
Avec COSMOS+, les chercheurs sont mieux équipés pour découvrir les connexions complexes entre les différents composants biologiques, menant à des aperçus plus robustes sur les mécanismes des maladies.
Titre: Modeling causal signal propagation in multi-omic factor space with COSMOS
Résumé: Understanding complex diseases requires approaches that jointly analyze omic data across multiple biological layers, including signaling, gene regulation, and metabolism. Existing data-driven multi-omic analysis methods, such as multi-omic factor analysis (MOFA), can identify associations between molecular features and phenotypes, but they are not designed to integrate existing mechanistic molecular knowledge, which can provide further actionable insights. We introduce an approach that connects data-driven analysis of multi-omic data with systematic integration of mechanistic prior knowledge using COSMOS+ (Causal Oriented Search of Multi-Omics Space). We show how factor analysis output can be used to estimate activities of transcription factors and kinases as well as ligand-receptor interactions, which in turn are integrated with network-level prior-knowledge to generate mechanistic hypotheses about paths connecting deregulated molecular features. Our approach offers an interpretable framework to generate actionable insights from multi-omic data particularly suited for high dimensional datasets such as patient cohorts. O_FIG O_LINKSMALLFIG WIDTH=200 HEIGHT=115 SRC="FIGDIR/small/603538v2_ufig1.gif" ALT="Figure 1"> View larger version (39K): [email protected]@ffb20eorg.highwire.dtl.DTLVardef@102d98corg.highwire.dtl.DTLVardef@18959f_HPS_FORMAT_FIGEXP M_FIG C_FIG
Auteurs: Julio Saez-Rodriguez, A. Dugourd, P. Lafrenz, D. Mananes, V. Paton, R. Fallegger, A.-C. Kroger, D. Turei, B. Shtylla
Dernière mise à jour: 2024-07-19 00:00:00
Langue: English
Source URL: https://www.biorxiv.org/content/10.1101/2024.07.15.603538
Source PDF: https://www.biorxiv.org/content/10.1101/2024.07.15.603538.full.pdf
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://github.com/saezlab/cosmosR
- https://github.com/saezlab/Factor_COSMOS
- https://discover.nci.nih.gov/cellminer/home.do
- https://discover.nci.nih.gov/cellminer/datasets.do
- https://wiki.nci.nih.gov/display/NCIDTPdata/Molecular+Target+Data
- https://curate.ccr.cancer.gov/
- https://github.com/data2intelligence/FDC_treatment_profile