Faire avancer la bioinformatique avec le générateur de workflows Playbook
Un nouvel outil améliore l'analyse des données en bioinformatique pour les chercheurs.
― 11 min lire
Table des matières
- Le Besoin d'Analyse de Données
- Le Rôle des Moteurs de Flux de Travail
- Les Premières Plates-Formes de Flux de Travail
- Avancées avec le Cloud Computing
- Normes Communautaires pour les Flux de Travail
- L'Émergence des Graphes de Connaissances
- Interfaces Conviviales
- Initiatives du NIH Common Fund
- L'Écosystème de Données du Common Fund
- Présentation du Playbook Workflow Builder
- Comment Ça Marche le Playbook Workflow Builder
- Intégration des Données et Outils
- Interface et Expérience Utilisateur
- Métanodes Expliqués
- Créer et Utiliser des Flux de Travail
- Graphique de Résolution de Connaissances (KRG)
- Graphique de Résolution de Processus Complètement Persistant (FPPRG)
- Avantages du Design Modulaire
- Gestion de Fichiers Indépendante du Cloud
- Exporter des Flux de Travail
- Objets BioCompute
- Common Workflow Language (CWL)
- Research Object Crate (RO-Crate)
- Utilisation de l'IA pour Construire des Flux de Travail
- Métanodes Implémentés
- Analyse de Données RNA-Seq
- Analyse d'Enrichissement
- Manipulation d'Ensembles de Gènes
- Intégration de Ressources Diverses
- Cas d'Utilisation Réels
- Conclusion
- Source originale
- Liens de référence
La bioinformatique, c'est un domaine qui mélange biologie, informatique et technologie de l'information pour analyser des données biologiques complexes. Avec l'essor des technologies à haut débit, les scientifiques peuvent maintenant mesurer plein de biomolécules et générer une tonne de données. Ce changement a apporté à la fois des opportunités et des défis majeurs dans le monde de la recherche biomédicale.
Le Besoin d'Analyse de Données
Les grandes bases de données peuvent fournir des infos précieuses pour les chercheurs, les aidant à tirer de nouvelles connaissances. Mais analyser ces données, c'est pas si simple. Les chercheurs doivent faire face à des défis pour découvrir, accéder, intégrer et analyser des données variées provenant de sources différentes. Avec la complexité croissante de la bioinformatique, la demande pour des outils et des plateformes d'analyse efficaces augmente.
Le Rôle des Moteurs de Flux de Travail
Pour aider les chercheurs à gérer cette complexité, des moteurs de flux de travail ont vu le jour. Ce sont des systèmes logiciels conçus pour simplifier les analyses bioinformatiques. Ils permettent aux utilisateurs de décomposer les tâches de traitement des données en étapes plus petites et gérables qu'on appelle des flux de travail. Chaque étape peut être exécutée indépendamment, ce qui permet aux chercheurs de suivre facilement les dépendances et d'organiser leurs analyses.
Les Premières Plates-Formes de Flux de Travail
Parmi les premières plates-formes de flux de travail développées pour la bioinformatique, on trouve Ruffus, Anduril, Bioconductor et Taverna. Ces plateformes étaient super utiles pour combiner différents outils d'analyse, permettant aux chercheurs de travailler plus efficacement. Par exemple, Taverna proposait diverses fonctionnalités, y compris une application de bureau et un serveur en ligne.
Avancées avec le Cloud Computing
L'émergence du cloud computing a conduit au développement de plateformes de flux de travail plus avancées et flexibles. Un exemple marquant est Galaxy, un projet bien financé qui propose une interface conviviale, une bibliothèque de composants et une formation utilisateur étendue. D'autres plateformes comme Snakemake et NextFlow ont également gagné en popularité grâce à leur capacité à gérer facilement des flux de travail complexes.
Normes Communautaires pour les Flux de Travail
Les plateformes récentes s'appuient sur des normes communautaires pour les descriptions de flux de travail. Ces normes, comme le Common Workflow Language (CWL) et le Workflow Description Language (WDL), permettent aux flux de travail d'être exécutés sur différents systèmes. Cette interopérabilité est cruciale pour les chercheurs qui veulent collaborer et partager des données facilement.
L'Émergence des Graphes de Connaissances
La collection croissante d'outils de bioinformatique a conduit à la création de graphes de connaissances fédérés. Ces graphes connectent divers ensembles de données et permettent aux chercheurs d'accéder à des infos via des interfaces de programmation d'application (API). Par exemple, le BioThings Explorer utilise des API pour trouver des connexions entre différents types de données biomédicales.
Interfaces Conviviales
Pour rendre les outils de bioinformatique accessibles aux chercheurs avec peu de formation en programmation, des interfaces conviviales ont été développées. Ces interfaces permettent aux utilisateurs de télécharger leurs données sur le cloud, de sélectionner des outils d'analyse et d'exécuter des flux de travail facilement. Des plateformes comme BioJupies permettent aux utilisateurs de réaliser des analyses RNA-seq via une simple interface web.
Initiatives du NIH Common Fund
Aux États-Unis, les National Institutes of Health (NIH) Common Fund ont financé de nombreux programmes pour créer des ensembles de données divers pour la recherche biomédicale. Chaque programme dispose d'un Data Coordination Center (DCC) qui gère les données et les outils, les fournissant à la communauté de recherche via des interfaces web interactives.
L'Écosystème de Données du Common Fund
Pour répondre aux défis de l'intégration des données, le NIH a établi l'Écosystème de Données du Common Fund (CFDE). Ce consortium travaille à standardiser les éléments de données et à harmoniser les descripteurs pour les entités biologiques. Cette standardisation aide les chercheurs à combiner des données et à tirer de nouvelles connaissances biologiques.
Présentation du Playbook Workflow Builder
Un outil innovant créé pour faciliter la construction de flux de travail est le Playbook Workflow Builder (PWB). Cette plateforme web permet aux chercheurs de créer et de personnaliser des flux de travail de façon visuelle. En se concentrant sur des annotations et des spécifications strictes, le PWB améliore l'expérience utilisateur et soutient des analyses de données complexes.
Comment Ça Marche le Playbook Workflow Builder
Les utilisateurs peuvent créer des flux de travail visuellement en interagissant avec un réseau de composants connectés appelés métanodes. Chaque métanode représente une tâche spécifique, comme réaliser une analyse de données ou visualiser des résultats. Le PWB utilise des API documentées provenant de diverses sources pour intégrer des données et des outils, permettant des analyses complètes.
Intégration des Données et Outils
Le PWB relie des outils et des données de plusieurs DCC, créant un réseau de microservices. Ces microservices représentent différents concepts biologiques, comme les gènes ou les maladies, et sont connectés par des opérations effectuées sur ces concepts. Cette structure permet aux utilisateurs de construire des flux de travail qui tirent des preuves de divers ensembles de données sans effort.
Interface et Expérience Utilisateur
Le PWB est conçu avec une interface intuitive adaptée aux biologistes expérimentaux, même ceux sans expérience en programmation. La plateforme permet aux utilisateurs de personnaliser des flux de travail en fonction de leurs besoins tout en encourageant la collaboration et le partage d'outils et de données au sein de la communauté de recherche.
Métanodes Expliqués
Les métanodes sont des composants essentiels du PWB. Ils sont conçus en TypeScript et encapsulent des métadonnées sur chaque tâche, y compris des étiquettes, des descriptions et des versions. Cette standardisation garantit un comportement et une interaction cohérents entre différents métanodes.
Créer et Utiliser des Flux de Travail
Le PWB permet aux utilisateurs de créer des flux de travail à partir de modèles existants ou de développer de nouveaux flux de travail de zéro. Les utilisateurs peuvent commencer par sélectionner des données d'entrée, les traiter à travers divers métanodes, et finalement produire un rapport. Cela augmente le potentiel pour les chercheurs de partager leurs flux de travail en tant qu'artefacts publiés.
Graphique de Résolution de Connaissances (KRG)
Au cœur du PWB se trouve le Graphique de Résolution de Connaissances (KRG), qui connecte les métanodes, permettant aux utilisateurs de requêter et de récupérer des informations selon les besoins. Ce graphique forme une base de données structurée qui peut être facilement étendue avec de nouvelles entrées et connexions.
Graphique de Résolution de Processus Complètement Persistant (FPPRG)
Pour suivre l'exécution des flux de travail, le PWB met en œuvre un Graphique de Résolution de Processus Complètement Persistant (FPPRG). Cette base de données capture les données de chaque étape d'un flux de travail, garantissant que les résultats sont correctement enregistrés et peuvent être récupérés plus tard.
Avantages du Design Modulaire
En utilisant un design modulaire, le PWB permet aux utilisateurs de mélanger et d'associer des métanodes pour créer des flux de travail personnalisés. Cette flexibilité permet aux chercheurs de réutiliser des composants dans différentes analyses et d'adapter les flux de travail à leurs questions de recherche spécifiques.
Gestion de Fichiers Indépendante du Cloud
Le PWB utilise un système de gestion de fichiers indépendant du cloud, permettant aux chercheurs de stocker et de récupérer des fichiers quel que soit le fournisseur de cloud. Cette fonctionnalité permet des téléchargements de fichiers simples et garantit un accès facile aux données pendant l'exécution du flux de travail.
Exporter des Flux de Travail
Un autre avantage du PWB est la capacité d'exporter des flux de travail dans divers standards communautaires, améliorant l'interopérabilité avec d'autres plateformes. Cette fonctionnalité permet aux chercheurs de partager efficacement leurs flux de travail et d'utiliser des outils qu'ils connaissent.
Objets BioCompute
Pour faciliter la reproductibilité en bioinformatique, le standard des Objets BioCompute a été développé. Les chercheurs peuvent créer des Objets BioCompute à partir de flux de travail construits dans le PWB, fournissant des informations structurées sur les méthodes et analyses réalisées.
Common Workflow Language (CWL)
Le PWB est conçu pour fonctionner parfaitement avec le Common Workflow Language (CWL). Les chercheurs peuvent exporter des flux de travail directement au format CWL, facilitant ainsi l'exécution d'analyses sur différentes plateformes.
Research Object Crate (RO-Crate)
Le PWB prend également en charge le standard Research Object Crate (RO-Crate). Cela permet aux chercheurs de regrouper toutes les données et métadonnées nécessaires concernant un flux de travail, garantissant qu'il soit bien documenté et citable.
Utilisation de l'IA pour Construire des Flux de Travail
Une fonctionnalité excitante du PWB inclut l'utilisation de l'intelligence artificielle (IA) pour aider les utilisateurs à créer des flux de travail. En interagissant avec un assistant IA, les utilisateurs peuvent recevoir des suggestions pour les prochaines étapes de leurs analyses, améliorant ainsi l'efficacité des flux de travail.
Métanodes Implémentés
Le PWB inclut de nombreux métanodes qui facilitent diverses analyses. Ces composants peuvent effectuer des tâches telles que l'analyse de données RNA-seq, l'analyse d'enrichissement et la manipulation d'ensembles de gènes. La flexibilité des métanodes permet une variété d'applications.
Analyse de Données RNA-Seq
Une application populaire du PWB est l'analyse de données RNA-seq. Les chercheurs peuvent télécharger leurs données d'expression génique, appliquer différentes méthodes de normalisation, et visualiser les résultats en utilisant des techniques populaires comme PCA ou UMAP.
Analyse d'Enrichissement
L'analyse d'enrichissement est une autre tâche courante qui peut être réalisée dans le PWB. Les utilisateurs peuvent analyser des ensembles de gènes par rapport à des bibliothèques prédéfinies pour trouver des voies biologiques et des fonctions pertinentes associées à leurs données.
Manipulation d'Ensembles de Gènes
Le PWB permet aussi aux utilisateurs de manipuler facilement des ensembles de gènes. Les chercheurs peuvent charger des bibliothèques d'ensembles de gènes, effectuer des analyses de chevauchement et transformer des ensembles de gènes dans différents formats pour un examen plus approfondi.
Intégration de Ressources Diverses
Le PWB prend en charge l'intégration avec diverses ressources comme le projet NIH GTEx, LINCS, GlyGen et le Metabolomics Workbench. Cette intégration facilite une analyse complète de l'expression génique, des voies métaboliques et d'autres processus biologiques.
Cas d'Utilisation Réels
La plateforme comprend de nombreux cas d'utilisation montrant comment appliquer des flux de travail pour résoudre des problèmes de recherche spécifiques. Les flux de travail publiés servent de modèles que les utilisateurs peuvent adapter à leurs besoins, renforçant ainsi la collaboration au sein de la communauté de recherche.
Conclusion
Le Playbook Workflow Builder représente une avancée importante dans les outils de bioinformatique, offrant une plateforme flexible et conviviale. Grâce à l'intégration de ressources diverses, de métanodes et de l'IA, le PWB permet aux chercheurs d'analyser de gros ensembles de données et d'en tirer des informations significatives dans la recherche biomédicale. Le potentiel d'adapter la plateforme à divers domaines scientifiques met encore plus en avant son importance dans l'avancement de l'analyse de données dans la recherche moderne.
Titre: Playbook Workflow Builder: Interactive Construction of Bioinformatics Workflows from a Network of Microservices
Résumé: Many biomedical research projects produce large-scale datasets that may serve as resources for the research community for hypothesis generation, facilitating diverse use cases. Towards the goal of developing infrastructure to support the findability, accessibility, interoperability, and reusability (FAIR) of biomedical digital objects and maximally extracting knowledge from data, complex queries that span across data and tools from multiple resources are currently not easily possible. By utilizing existing FAIR application programming interfaces (APIs) that serve knowledge from many repositories and bioinformatics tools, different types of complex queries and workflows can be created by using these APIs together. The Playbook Workflow Builder (PWB) is a web-based platform that facilitates interactive construction of workflows by enabling users to utilize an ever-growing network of input datasets, semantically annotated API endpoints, and data visualization tools contributed by an ecosystem. Via a user-friendly web-based user interface (UI), workflows can be constructed from contributed building-blocks without technical expertise. The output of each step of the workflows are provided in reports containing textual descriptions, as well as interactive and downloadable figures and tables. To demonstrate the ability of the PWB to generate meaningful hypotheses that draw knowledge from across multiple resources, we present several use cases. For example, one of these use cases sieves novel targets for individual cancer patients using data from the GTEx, LINCS, Metabolomics, GlyGen, and the ExRNA Communication Consortium (ERCC) Common Fund (CF) Data Coordination Centers (DCCs). The workflows created with the PWB can be published and repurposed to tackle similar use cases using different inputs. The PWB platform is available from: https://playbook-workflow-builder.cloud/.
Auteurs: Avi Ma\'ayan, D. J. B. Clarke, J. E. Evangelista, Z. Xie, G. B. Marino, M. R. Maurya, S. Srinivasan, K. Yu, V. Petrosyan, M. E. Roth, M. Milinkov, C. H. King, J. K. Vora, J. Keeney, C. Nemarich, W. Khan, A. Lachmann, N. Ahmed, S. L. Jenkins, A. Agris, J. Pan, S. Ramachandran, E. Fahy, E. Esquivel, A. Mihajlovic, B. Jevtic, V. Milinovic, S. Kim, P. McNeely, T. Wang, E. Wenger, M. A. Brown, A. Sickler, Y. Zhu, P. D. Blood, D. M. Taylor, A. C. Resnick, R. Mazumder, A. Milosavljevic, S. Subramaniam, A. Ma'ayan
Dernière mise à jour: 2024-06-09 00:00:00
Langue: English
Source URL: https://www.biorxiv.org/content/10.1101/2024.06.08.598037
Source PDF: https://www.biorxiv.org/content/10.1101/2024.06.08.598037.full.pdf
Licence: https://creativecommons.org/licenses/by-nc/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.