Simple Science

Scienza all'avanguardia spiegata semplicemente

# La biologia# Bioinformatica

Avanzare nella bioinformatica con il Playbook Workflow Builder

Un nuovo strumento migliora l'analisi dei dati bioinformatici per i ricercatori.

― 8 leggere min


Rivoluzionare i flussi diRivoluzionare i flussi dilavoro in bioinformaticaricercatori biomedici.Analisi dei dati semplificata per i
Indice

La bioinformatica è un campo che unisce biologia, informatica e tecnologia dell'informazione per analizzare dati biologici complessi. Con l'aumento delle tecnologie ad alta capacità, gli scienziati possono ora misurare molte biomolecole e creare enormi quantità di dati. Questo cambiamento ha portato sia opportunità che sfide significative nel mondo della ricerca biomedica.

La Necessità di Analisi Dati

I grandi dataset possono fornire informazioni preziose per i ricercatori, aiutandoli a ottenere nuove intuizioni. Tuttavia, analizzare questi dataset non è così semplice. I ricercatori affrontano difficoltà nel scoprire, accedere, integrare e analizzare dati diversi provenienti da fonti differenti. Con la complessità crescente della bioinformatica, c'è una maggiore richiesta di strumenti e piattaforme di analisi efficienti.

Il Ruolo dei Motori di Workflow

Per aiutare i ricercatori a gestire questa complessità, sono emersi i motori di workflow. Questi sono sistemi software progettati per semplificare le analisi bioinformatiche. Permettono agli utenti di suddividere i compiti di elaborazione dei dati in passaggi più piccoli e gestibili chiamati workflow. Ogni passaggio può essere eseguito indipendentemente, permettendo ai ricercatori di tenere facilmente traccia delle dipendenze e organizzare le loro analisi.

Prime Piattaforme di Workflow

Alcune delle prime piattaforme di workflow sviluppate per la bioinformatica includono Ruffus, Anduril, Bioconductor e Taverna. Queste piattaforme erano preziose per combinare diversi strumenti di analisi, permettendo ai ricercatori di lavorare in modo più efficiente. Taverna, ad esempio, offriva varie funzionalità, tra cui un'applicazione desktop e un server online.

Sviluppi con il Cloud Computing

L'emergere del cloud computing ha portato allo sviluppo di piattaforme di workflow più avanzate e flessibili. Un esempio notevole è Galaxy, un progetto ben finanziato che offre un'interfaccia intuitiva, una libreria di componenti e un'ampia formazione per gli utenti. Altre piattaforme come Snakemake e NextFlow hanno guadagnato popolarità grazie alla loro capacità di gestire facilmente workflow complessi.

Standard della Comunità per i Workflow

Le piattaforme più recenti si basano su standard della comunità per le descrizioni dei workflow. Questi standard, come il Common Workflow Language (CWL) e il Workflow Description Language (WDL), consentono ai workflow di essere eseguiti su diversi sistemi. Questa interoperabilità è cruciale per i ricercatori che vogliono collaborare e condividere dati con facilità.

L'Ascesa dei Grafi della Conoscenza

La crescente collezione di strumenti bioinformatici ha portato alla creazione di grafi della conoscenza federati. Questi grafi collegano vari dataset e consentono ai ricercatori di accedere alle informazioni tramite Interfacce di Programmazione delle Applicazioni (API). Ad esempio, il BioThings Explorer utilizza API per trovare connessioni tra diversi tipi di dati biomedici.

Interfacce Usuari Intuitive

Per rendere gli strumenti di bioinformatica accessibili ai ricercatori con background di programmazione limitati, sono state sviluppate interfacce utenti intuitive. Queste interfacce consentono agli utenti di caricare i propri dati nel cloud, selezionare strumenti di analisi ed eseguire i workflow con facilità. Piattaforme come BioJupies permettono agli utenti di effettuare analisi RNA-seq tramite un'interfaccia web semplice.

Iniziative del NIH Common Fund

Negli Stati Uniti, il National Institutes of Health (NIH) Common Fund ha finanziato numerosi programmi per creare dataset diversi per la ricerca biomedica. Ogni programma ha un Centro di Coordinamento Dati (DCC) che gestisce dati e strumenti, fornendoli alla comunità di ricerca tramite interfacce web interattive.

L'Ecosistema Dati del Common Fund

Per affrontare le sfide dell'integrazione dei dati, il NIH ha istituito il Common Fund Data Ecosystem (CFDE). Questo consorzio lavora per standardizzare gli elementi dati e armonizzare i descrittori per le entità biologiche. Questa standardizzazione aiuta i ricercatori a combinare i dati e ottenere nuove intuizioni biologiche.

Introduzione al Costruttore di Workflow Playbook

Uno strumento innovativo creato per facilitare la costruzione di workflow è il Playbook Workflow Builder (PWB). Questa piattaforma web consente ai ricercatori di costruire e personalizzare workflow in modo visivo. Concentrandosi su annotazioni e specifiche rigorose, il PWB migliora l'esperienza dell'utente e supporta analisi di dati complesse.

Come Funziona il Costruttore di Workflow Playbook

Gli utenti possono creare visivamente workflow interagendo con una rete di componenti connessi noti come metanodi. Ogni metanodo rappresenta un compito specifico, come eseguire un'analisi dati o visualizzare risultati. Il PWB utilizza API documentate provenienti da varie fonti per integrare dati e strumenti, consentendo analisi complete.

Integrazione di Dati e Strumenti

Il PWB collega strumenti e dati provenienti da più DCC, creando una rete di microservizi. Questi microservizi rappresentano diversi concetti biologici, come geni o malattie, e sono connessi da operazioni effettuate su questi concetti. Questa struttura consente agli utenti di costruire workflow che traggono evidenza da vari dataset senza soluzione di continuità.

Interfaccia Utente e Esperienza

Il PWB è progettato con un'interfaccia intuitiva adatta per biologi sperimentali, anche quelli senza esperienza di programmazione. La piattaforma consente agli utenti di personalizzare i workflow in base alle proprie esigenze, incoraggiando la collaborazione e la condivisione di strumenti e dati all'interno della comunità di ricerca.

Metanodi Spiegati

I metanodi sono componenti essenziali del PWB. Sono progettati usando TypeScript e racchiudono metadati su ogni compito, compresi etichette, descrizioni e versioni. Questa standardizzazione garantisce un comportamento e un'interazione coerenti tra diversi metanodi.

Creare e Utilizzare Workflow

Il PWB consente agli utenti di creare workflow partendo da modelli esistenti o sviluppando nuovi workflow da zero. Gli utenti possono iniziare selezionando dati di input, elaborandoli attraverso vari metanodi e producendo infine un report. Questo aumenta il potenziale per i ricercatori di condividere i propri workflow come artefatti pubblicati.

Grafo di Risoluzione della Conoscenza (KRG)

Al centro del PWB c'è il Grafo di Risoluzione della Conoscenza (KRG), che collega i metanodi, consentendo agli utenti di interrogare e recuperare informazioni quando necessario. Questo grafo forma un database strutturato che può essere facilmente ampliato con nuovi input e connessioni.

Grafo di Risoluzione dei Processi Completamente Persistente (FPPRG)

Per tenere traccia dell'esecuzione dei workflow, il PWB implementa un Grafo di Risoluzione dei Processi Completamente Persistente (FPPRG). Questo database cattura dati da ogni passo di un workflow, assicurando che i risultati siano registrati accuratamente e possano essere recuperati in seguito.

Vantaggi del Design Modulare

Utilizzando un design modulare, il PWB consente agli utenti di mescolare e abbinare metanodi per creare workflow personalizzati. Questa flessibilità permette ai ricercatori di riutilizzare componenti in diverse analisi e adattare i workflow in base alle loro specifiche domande di ricerca.

Gestione dei File Cloud Agnostic

Il PWB utilizza un sistema di gestione dei file cloud-agnostic, consentendo ai ricercatori di memorizzare e recuperare file indipendentemente dal fornitore di cloud. Questa caratteristica consente caricamenti di file semplici e garantisce un facile accesso ai dati durante l'esecuzione dei workflow.

Esportazione dei Workflow

Un altro vantaggio del PWB è la capacità di esportare workflow in vari standard della comunità, migliorando l'interoperabilità con altre piattaforme. Questa funzione consente ai ricercatori di condividere efficacemente i propri workflow e utilizzare strumenti con cui sono familiari.

Oggetti BioCompute

Per facilitare la riproducibilità nella bioinformatica, è stato sviluppato lo standard BioCompute Objects. I ricercatori possono creare BioCompute Objects da workflow costruiti nel PWB, fornendo informazioni strutturate sui metodi e le analisi effettuate.

Common Workflow Language (CWL)

Il PWB è progettato per funzionare senza problemi con il Common Workflow Language (CWL). I ricercatori possono esportare workflow direttamente nel formato CWL, rendendo più facile eseguire analisi su diverse piattaforme.

Research Object Crate (RO-Crate)

Il PWB supporta anche lo standard Research Object Crate (RO-Crate). Questo consente ai ricercatori di impacchettare tutti i dati e i metadati necessari su un workflow, garantendo che siano ben documentati e citabili.

Usare l'AI per Costruire Workflow

Una caratteristica entusiasmante del PWB include l'uso dell'intelligenza artificiale (AI) per aiutare gli utenti a creare workflow. Interagendo con un assistente AI, gli utenti possono ricevere suggerimenti sui prossimi passi nelle loro analisi, migliorando l'efficienza del workflow.

Metanodi Implementati

Il PWB include numerosi metanodi che facilitano varie analisi. Questi componenti possono svolgere compiti come analisi di dati RNA-seq, analisi di arricchimento e manipolazione di set di geni. La flessibilità dei metanodi consente una varietà di applicazioni.

Analisi Dati RNA-Seq

Una delle applicazioni più popolari del PWB è l'analisi dei dati RNA-seq. I ricercatori possono caricare i propri dati di espressione genica, applicare diversi metodi di normalizzazione e visualizzare i risultati usando tecniche popolari come PCA o UMAP.

Analisi di Arricchimento

L'analisi di arricchimento è un altro compito comune che può essere eseguito all'interno del PWB. Gli utenti possono analizzare set di geni rispetto a librerie predefinite per trovare percorsi biologici e funzioni rilevanti associate ai propri dati.

Manipolazione dei Set di Genesi

Il PWB consente anche agli utenti di manipolare facilmente i set di geni. I ricercatori possono caricare librerie di set di geni, eseguire analisi di sovrapposizione e trasformare i set di geni in diversi formati per ulteriori esami.

Integrazione di Risorse Diverse

Il PWB supporta l'integrazione con varie risorse come il progetto NIH GTEx, LINCS, GlyGen e il Metabolomics Workbench. Questa integrazione facilita un'analisi completa dell'espressione genica, delle vie metaboliche e di altri processi biologici.

Casi d'Uso Reali

La piattaforma include numerosi casi d'uso che dimostrano come applicare i workflow per risolvere problemi di ricerca specifici. I workflow pubblicati servono come modelli che gli utenti possono adattare alle proprie esigenze, migliorando la collaborazione all'interno della comunità di ricerca.

Conclusione

Il Playbook Workflow Builder rappresenta un importante avanzamento negli strumenti di bioinformatica, offrendo una piattaforma flessibile e user-friendly. Attraverso l'integrazione di risorse diverse, metanodi e AI, il PWB consente ai ricercatori di analizzare grandi dataset e trarre intuizioni significative nella ricerca biomedica. Il potenziale di adattare la piattaforma a vari domini scientifici mette ulteriormente in evidenza la sua importanza nell'avanzare l'analisi dei dati nella ricerca moderna.

Fonte originale

Titolo: Playbook Workflow Builder: Interactive Construction of Bioinformatics Workflows from a Network of Microservices

Estratto: Many biomedical research projects produce large-scale datasets that may serve as resources for the research community for hypothesis generation, facilitating diverse use cases. Towards the goal of developing infrastructure to support the findability, accessibility, interoperability, and reusability (FAIR) of biomedical digital objects and maximally extracting knowledge from data, complex queries that span across data and tools from multiple resources are currently not easily possible. By utilizing existing FAIR application programming interfaces (APIs) that serve knowledge from many repositories and bioinformatics tools, different types of complex queries and workflows can be created by using these APIs together. The Playbook Workflow Builder (PWB) is a web-based platform that facilitates interactive construction of workflows by enabling users to utilize an ever-growing network of input datasets, semantically annotated API endpoints, and data visualization tools contributed by an ecosystem. Via a user-friendly web-based user interface (UI), workflows can be constructed from contributed building-blocks without technical expertise. The output of each step of the workflows are provided in reports containing textual descriptions, as well as interactive and downloadable figures and tables. To demonstrate the ability of the PWB to generate meaningful hypotheses that draw knowledge from across multiple resources, we present several use cases. For example, one of these use cases sieves novel targets for individual cancer patients using data from the GTEx, LINCS, Metabolomics, GlyGen, and the ExRNA Communication Consortium (ERCC) Common Fund (CF) Data Coordination Centers (DCCs). The workflows created with the PWB can be published and repurposed to tackle similar use cases using different inputs. The PWB platform is available from: https://playbook-workflow-builder.cloud/.

Autori: Avi Ma\'ayan, D. J. B. Clarke, J. E. Evangelista, Z. Xie, G. B. Marino, M. R. Maurya, S. Srinivasan, K. Yu, V. Petrosyan, M. E. Roth, M. Milinkov, C. H. King, J. K. Vora, J. Keeney, C. Nemarich, W. Khan, A. Lachmann, N. Ahmed, S. L. Jenkins, A. Agris, J. Pan, S. Ramachandran, E. Fahy, E. Esquivel, A. Mihajlovic, B. Jevtic, V. Milinovic, S. Kim, P. McNeely, T. Wang, E. Wenger, M. A. Brown, A. Sickler, Y. Zhu, P. D. Blood, D. M. Taylor, A. C. Resnick, R. Mazumder, A. Milosavljevic, S. Subramaniam, A. Ma'ayan

Ultimo aggiornamento: 2024-06-09 00:00:00

Lingua: English

URL di origine: https://www.biorxiv.org/content/10.1101/2024.06.08.598037

Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.06.08.598037.full.pdf

Licenza: https://creativecommons.org/licenses/by-nc/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili