Semplificare la scoperta di QTL con il pipeline yQTL
Un nuovo strumento per analizzare in modo efficiente i dati genetici nella ricerca.
― 7 leggere min
Indice
- Strumenti per la Scoperta di QTL
- La Necessità di un Pipeline Completo
- Panoramica della yQTL Pipeline
- Gestione della Parentela Familiare e di Tratti Multipli
- Requisiti di Input per Utilizzare la yQTL Pipeline
- Elaborazione Parallela per Analisi Più Veloci
- Visualizzazione dei Risultati
- Applicazione nel Mondo Reale: Caso di Studio Metabolomico
- Conclusione
- Fonte originale
- Link di riferimento
Gli Studi di associazione genetica sono sforzi di ricerca volti a trovare legami tra specifici cambiamenti genetici e malattie o altre caratteristiche. Un tipo comune di cambiamento genetico studiato è chiamato Polimorfismi a singolo nucleotide (SNPS). Queste sono piccole variazioni nella sequenza del DNA che possono influenzare il modo in cui funzionano i geni. Studiando queste variazioni, i ricercatori sperano di saperne di più su cosa contribuisce a diversi rischi per la salute e tratti.
Un concetto correlato è il Quantitative Trait Loci (QTL). Questi sono regioni specifiche di geni che influenzano tratti misurabili, come quanto un gene viene espresso o come si comporta un certo metabolita nel corpo.
Strumenti per la Scoperta di QTL
I ricercatori hanno sviluppato vari strumenti per aiutare nella scoperta dei QTL. Alcuni esempi di questi strumenti includono Hail, MatrixeQTL e QTLtools. Anche se questi strumenti sono utili, spesso non tengono conto della parentela familiare, il che significa che non considerano quanto sono imparentate le persone nei loro studi. Riconoscere le relazioni familiari è importante in molti studi genetici, poiché può influenzare i risultati.
Un strumento che considera la parentela familiare è GENESIS, che funziona nell'ambiente di programmazione R. È stato ampiamente utilizzato negli studi genetici noti come GWAS. Tuttavia, GENESIS può analizzare solo un tipo di input genetico e un tratto alla volta. Questa limitazione rende difficile lavorare con set di dati di grandi dimensioni che contengono molti tratti o diversi file genetici.
La Necessità di un Pipeline Completo
Oltre ai test di associazione, l'intero processo di scoperta dei QTL comprende diversi passaggi prima e dopo l'analisi principale. Questi passaggi coinvolgono la preparazione corretta dei dati, il controllo dei dati mancanti, il calcolo delle misure genetiche chiave e la visualizzazione dei risultati. Ognuno di questi passaggi richiede tipicamente comandi diversi in vari programmi software. Questo può portare a errori, richiedere molto tempo e rendere più difficile ripetere l'analisi.
Per semplificare questo processo, è stato creato un nuovo strumento chiamato yQTL Pipeline. Questo strumento riunisce tutti i passaggi in un unico posto, rendendo più facile gestire e eseguire l'analisi.
Panoramica della yQTL Pipeline
La yQTL Pipeline è progettata per essere efficiente e facile da usare. Utilizza un sistema chiamato Nextflow per automatizzare l'intero processo. La pipeline è divisa in tre parti principali: Prepare.nf, Analysis.nf e Report.nf. Questa configurazione modulare rende più facile gestire i dati e ridurre le necessità di archiviazione, consentendo agli utenti un certo controllo sui passaggi che vogliono eseguire.
Passo 1: Prepare.nf
Nella prima parte della pipeline, Prepare.nf, i dati vengono preparati per l'analisi. Questo include la conversione dei file di dati nel formato necessario, la raccolta di informazioni sui varianti genetici e il calcolo delle misure genetiche importanti. Tutti i dettagli necessari sui dati genetici vengono raccolti in questo passaggio.
Passo 2: Analysis.nf
Dopo la preparazione, il passo successivo è Analysis.nf. Qui avvengono i veri test di associazione, basati sui file di input preparati. Gli utenti possono fornire i propri file o utilizzare i risultati del passaggio precedente.
Passo 3: Report.nf
L'ultimo passo è Report.nf, che combina i risultati dall'analisi e crea rappresentazioni visive dei risultati. Questo aiuta i ricercatori a vedere e comprendere chiaramente gli esiti.
Gestione della Parentela Familiare e di Tratti Multipli
La yQTL Pipeline ha opzioni per gestire la parentela familiare, il che significa che può analizzare le informazioni genetiche tenendo conto dei legami familiari tra gli individui. Quando ci sono relazioni familiari, gli utenti possono scegliere flussi di lavoro che utilizzano GENESIS per stimare un modello, seguito da test di associazione per ciascun varianti genetico.
Quando si lavora con campioni non imparentati, la pipeline può utilizzare MatrixeQTL, noto per la sua efficienza. Utilizza un modello più semplice per analizzare i dati, rendendo possibile gestire più tratti contemporaneamente. Se il set di dati diventa troppo grande, i risultati possono essere suddivisi in pezzi più piccoli per bilanciare le necessità di memoria del computer con il tempo necessario per l'analisi.
Requisiti di Input per Utilizzare la yQTL Pipeline
Per iniziare a utilizzare la yQTL Pipeline, gli utenti devono raccogliere specifici tipi di dati di input:
Dati Genotipici: Possono essere in formato VCF o GDS. Se vengono utilizzati file VCF, verranno convertiti in formato GDS durante la fase di preparazione.
Dati Fenotipici: Questi dati mostrano i tratti che i ricercatori vogliono studiare. Devono essere formattati correttamente, di solito in una tabella che abbina i campioni ai rispettivi tratti. È necessario un file separato per elencare tutti i tratti analizzati.
Dati Opzionali: Gli utenti possono anche includere variabili aggiuntive, come covariati, che possono influenzare l'analisi, oltre a misure genetiche già calcolate.
Selezione di SNP e Campioni: Per impostazione predefinita, la pipeline analizza tutti i campioni e SNP disponibili. Tuttavia, gli utenti hanno la possibilità di restringere l'analisi a campioni o SNP specifici.
Elaborazione Parallela per Analisi Più Veloci
Una delle caratteristiche chiave della yQTL Pipeline è la sua capacità di eseguire molti processi contemporaneamente. Questo è cruciale quando si lavora con set di dati di grandi dimensioni che contengono numerosi tratti o file genetici. Utilizzando l'elaborazione parallela, la pipeline può ridurre notevolmente il tempo totale necessario per l'analisi.
Gli utenti possono anche personalizzare quante operazioni vengono eseguite contemporaneamente e specificare diverse esigenze di risorse per ciascun passaggio. Questa flessibilità assicura che la pipeline sia ottimizzata per un uso efficiente della memoria e della potenza della CPU.
Visualizzazione dei Risultati
Una volta completata l'analisi, la yQTL Pipeline genera rappresentazioni visive dei risultati, come grafici di Manhattan e grafici QQ. Questi strumenti visivi aiutano i ricercatori a identificare rapidamente associazioni genetiche significative.
Oltre a queste visualizzazioni di base, è disponibile un'app R Shiny per migliorare l'esperienza post-analisi. Gli utenti possono caricare i loro risultati nell'app e generare ulteriori visualizzazioni, come reti tratto-QTL. Queste reti illustrano come i diversi tratti siano tra loro correlati e ai QTL. Visualizzando queste connessioni, i ricercatori possono ottenere intuizioni che potrebbero essere perse con metodi tradizionali.
Applicazione nel Mondo Reale: Caso di Studio Metabolomico
L'efficacia della yQTL Pipeline può essere vista nella sua applicazione a uno studio riguardante la metabolomica-lo studio dei metaboliti in campioni biologici. In questo caso, i ricercatori hanno esaminato i dati di 194 partecipanti a uno studio a lungo termine incentrato sull'invecchiamento. Utilizzando età, genere ed educazione come covariati, hanno analizzato oltre 1 milione di SNP per trovare legami tra metaboliti e varianti genetiche.
Per questa analisi specifica, i ricercatori hanno utilizzato il secondo flusso di lavoro, progettato per campioni senza legami familiari. Hanno impostato un cutoff per la significatività e hanno esaminato i risultati. Filtrando gli SNP rari, hanno trovato un numero significativo di associazioni tra metaboliti e varianti genetiche.
In generale, la yQTL Pipeline ha portato a un notevole risparmio di tempo durante la fase di analisi. Riducendo il tempo da oltre 90 minuti a soli 26 minuti, la pipeline ha dimostrato il suo potenziale per migliorare la velocità e l'efficienza della ricerca.
Conclusione
La yQTL Pipeline rappresenta un importante progresso nell'analisi dei QTL. Fornendo un approccio semplificato e facile da usare, consente ai ricercatori di lavorare in modo efficiente con grandi set di dati genetici considerando fattori cruciali come la parentela familiare. Con il suo focus sull'elaborazione parallela e sugli strumenti di visualizzazione completa, la pipeline è ben posizionata per supportare una vasta gamma di sforzi di ricerca genetica.
Man mano che gli studi genetici continuano a crescere, strumenti come la yQTL Pipeline aiuteranno a garantire che i ricercatori possano tenere il passo con la crescente complessità e dimensione dei dati con cui lavorano.
Titolo: yQTL Pipeline: a structured computational workflow for large scale quantitative trait loci discovery and downstream visualization
Estratto: 1Quantitative trait loci (QTL) denote regions of DNA whose variation is associated with variations in quantitative traits. QTL discovery is a powerful approach to understand how changes in molecular and clinical phenotypes may be related to DNA sequence changes. However, QTL discovery analysis encompasses multiple analytical steps and the processing of multiple input files, which can be laborious, error prone, and hard to reproduce if performed manually. In order to facilitate and automate large-scale QTL analysis, we developed the yQTL Pipeline, where the y indicates the dependent quantitative variable being modeled. Prior to genome-wide association test, the pipeline supports the calculation or the direct input of pre-defined genome-wide principal components and genetic relationship matrix when applicable. User-specified covariates can also be provided. Depending on whether familial relatedness exists among the subjects, genome-wide association tests will be performed using either a linear mixed-effect model or a linear model. Using the workflow management tool Nextflow, the pipeline parallelizes the analysis steps to optimize run-time and ensure results reproducibility. In addition, a user-friendly R Shiny App is developed to facilitate result visualization. Upon uploading the result file, it can generate Manhattan plots of user-selected phenotype traits and trait-QTL connection networks based on user-specified p-value thresholds. We applied the yQTL Pipeline to analyze metabolomics profiles of blood serum from the New England Centenarians Study (NECS) participants. A total of 9.1M SNPs and 1,052 metabolites across 194 participants were analyzed. Using a p-value cutoff 5e-8, we found 14,983 mQTLs cumulatively associated with 312 metabolites. The built-in parallelization of our pipeline reduced the run time from [~]90 min to [~]26 min. Visualization using the R Shiny App revealed multiple mQTLs shared across multiple metabolites. The yQTL Pipeline is available with documentation on GitHub at https://github.com/montilab/yQTL-Pipeline.
Autori: Stefano Monti, M. Li, Z. Song, A. Gurinovich, N. Schork, P. Sebastiani
Ultimo aggiornamento: 2024-01-30 00:00:00
Lingua: English
URL di origine: https://www.biorxiv.org/content/10.1101/2024.01.26.577518
Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.01.26.577518.full.pdf
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.