Simple Science

Scienza all'avanguardia spiegata semplicemente

# La biologia# Bioinformatica

Ottimizzazione della profondità di sequenziamento per lo splicing alternativo

La ricerca svela la profondità di sequenziamento ottimale per rilevare lo splicing alternato nei tessuti umani.

― 7 leggere min


Rivelati approfondimentiRivelati approfondimentisulla profondità disequenziamentonei dati umani.sequenziamento per eventi di splicingRisultati chiave sulla profondità di
Indice

La sequenza RNA a lettura corta è un metodo usato per studiare come i geni possano essere spliced in modi diversi, conosciuti come Splicing alternativo. Questa tecnica è popolare perché ha pochi errori nella lettura delle sequenze, permette agli scienziati di misurare quanto di ogni sequenza è presente ed è economica. Tuttavia, per rilevare con precisione questi Eventi di splicing, è essenziale avere una Profondità di sequenziamento adeguata, specialmente se l'obiettivo è trovare trascritti presenti in basse quantità. Il numero esatto di letture necessarie per una copertura affidabile dello splicing alternativo nei campioni umani non è ancora chiaro. Perciò, i ricercatori hanno bisogno di linee guida per progettare i loro esperimenti, bilanciando la profondità del sequenziamento con il numero di campioni.

Impatto della profondità di sequenziamento sulla rilevazione dello splicing alternativo

Alcuni studi hanno esaminato come la profondità di sequenziamento influisce sulla rilevazione degli eventi di splicing alternativo. Per esempio, uno studio ha trovato che usando 120 milioni di letture, quasi tutti gli eventi di salto di esone sono stati identificati correttamente. Tuttavia, altre forme di splicing sono state rilevate meno affidabilmente, anche con un alto numero di letture. La ricerca ha mostrato che con solo 50 milioni di letture, le prestazioni miglioravano notevolmente man mano che il numero di letture aumentava fino a 100 milioni. Altri studi hanno suggerito che usando un dataset simulato con 200 milioni di letture si aumentava anche la rilevazione degli eventi di splicing. Tuttavia, la maggior parte di questi studi precedenti si basava su dati simulati, che potrebbero non rappresentare completamente la complessità dei dati biologici reali. Inoltre, molti di questi studi hanno testato meno di 100 milioni di letture, lasciando senza risposta domande sulla reale profondità necessaria per una rilevazione completa dello splicing.

Studi sulla profondità di Espressione genica

Alcuni studi hanno esaminato la profondità di sequenziamento necessaria per analizzare l'espressione genica, con profondità suggerite che vanno da 200 milioni a 300 milioni di letture per campioni umani. Alcune stime indicano che un numero significativo di studi non utilizza un sequenziamento sufficiente, il che potrebbe compromettere i loro risultati. C'è stata qualche indagine su quanti nuovi eventi di splicing possano essere scoperti con profondità di sequenziamento più elevate, anche fino a un miliardo di letture. In studi focalizzati su organismi specifici, le stime suggeriscono che siano necessari circa 68 milioni di letture per rilevare trascritti molto rari. Data la complessità del genoma umano, questo numero sarebbe probabilmente molto più alto per i dati umani.

Ricerca su campioni umani

La nostra ricerca ha analizzato dati di sequenziamento RNA da vari tessuti umani e condizioni, concentrandosi su campioni con più di 500 milioni di letture per un'analisi approfondita. Abbiamo categorizzato i livelli di espressione genica, da bassi ad alti, per capire come la rilevazione vari in base alla quantità di espressione presente nel campione.

Metodi di analisi

I dataset di sequenziamento RNA utilizzati in questa ricerca provenivano da una gamma di campioni umani. Per esempio, i campioni di RNA da pazienti con una variante specifica di SARS-CoV-2 sono stati raccolti a diverse profondità di sequenziamento. Abbiamo estratto RNA usando metodi standard e ci siamo assicurati che la qualità dell'RNA fosse alta prima di preparare le librerie per il sequenziamento.

Ogni campione di RNA è stato allineato al genoma umano utilizzando software specifici progettati per questa analisi. Dopo un attento conteggio delle espressioni geniche, ci siamo concentrati sulle letture mappate per determinare la profondità di sequenziamento. Vari script di programmazione sono stati anche impiegati per visualizzare e analizzare i dati in modo efficace.

Indagare lo splicing alternativo nei dati reali

Per analizzare come la profondità di sequenziamento influenzasse la rilevazione degli eventi di splicing, abbiamo calcolato il numero di geni con questi eventi attraverso vari campioni. Abbiamo classificato i geni in base ai loro livelli di espressione e abbiamo esaminato quanti sono stati rilevati con diverse profondità di sequenziamento.

Abbiamo scoperto una tendenza che indicava che man mano che la profondità di sequenziamento aumentava, il numero di eventi di splicing rilevati cresceva significativamente. Per i geni con livelli di espressione più bassi, la profondità di 150 milioni di letture si è dimostrata insufficiente, mentre i geni ad alta espressione avevano bisogno di circa 70 milioni di letture per trovare un numero affidabile di eventi.

Analisi di campioni sequenziati in profondità

Dopo aver esaminato il coorte di SARS-CoV-2, abbiamo continuato la nostra analisi con altri dataset sequenziati in profondità. Abbiamo ridotto il campione a diverse profondità per confrontare come i tassi di rilevazione degli eventi di splicing variassero.

Per molti dataset, abbiamo notato che aumentare il numero di letture portava costantemente a una migliore rilevazione degli eventi di splicing. Tuttavia, per i geni ad alta espressione, questo aumento degli eventi rilevati iniziava a rallentare oltre i 100-150 milioni di letture. Un'analisi dei campioni di tessuto cardiaco ha ulteriormente confermato queste tendenze, rivelando che, sebbene la rilevazione di nuovi eventi continuasse, il tasso di nuove scoperte stava diminuendo.

Rilevanza biologica degli eventi di splicing a grandi profondità

Per capire il significato degli eventi di splicing rilevati solo a profondità di sequenziamento più elevate, abbiamo esaminato aspetti funzionali dei geni coinvolti. Alcuni geni esclusivi alle 200 milioni di letture erano collegati a risposte biologiche specifiche, indicando che un sequenziamento più profondo potrebbe svelare informazioni cruciali.

Abbiamo anche controllato i geni associati a malattie e trovato alcuni geni a bassa espressione che potrebbero essere collegati a condizioni cardiache. L'analisi della copertura delle letture ha supportato l'esistenza di questi eventi di splicing, dimostrando che non erano semplici falsi positivi.

Confrontare diverse fonti di dati

Abbiamo confrontato dataset di grandi progetti di ricerca come GTEx e TCGA che includono molti campioni di sequenziamento RNA. Questi dataset presentano tipicamente una profondità di sequenziamento più bassa, suggerendo che potrebbero perdere informazioni importanti sullo splicing.

Usando i dati disponibili, abbiamo stimato quanti ulteriori eventi di splicing potrebbero essere trovati con profondità di sequenziamento più elevate, rivelando un significativo divario nelle scoperte potenziali a causa dell'insufficiente sequenziamento.

Implicazioni sui costi della profondità di sequenziamento

Condurre esperimenti con profondità estremamente alte di 200 milioni di letture o più potrebbe essere costoso, quindi abbiamo analizzato i costi associati alla rilevazione di eventi aggiuntivi. Abbiamo notato una chiara tendenza che, dopo aver raggiunto circa 200-250 milioni di letture, il costo per ogni ulteriore rilevazione aumentava drasticamente.

Dai nostri risultati, abbiamo proposto una soglia ragionevole di 200 milioni di letture per geni a bassa espressione e una soglia inferiore per geni ad alta espressione quando si studia lo splicing alternativo.

Conclusione

Scegliere la giusta profondità di sequenziamento è fondamentale per analisi efficaci di sequenziamento RNA, specialmente quando si esamina lo splicing alternativo. I nostri risultati indicano che la profondità dovrebbe essere impostata intorno ai 150-200 milioni di letture per geni a bassa espressione per garantire una rilevazione approfondita. Per geni ad alta espressione, una soglia di 100-150 milioni di letture è appropriata.

I ricercatori devono tenere presente che queste soglie possono variare in base alla tecnologia utilizzata, alla qualità dell'RNA e agli strumenti specifici selezionati per l'analisi. Il nostro studio evidenzia la necessità di un sequenziamento più profondo nella ricerca contemporanea per catturare il quadro completo degli eventi di splicing alternativo, che possono essere significativi per comprendere processi biologici e malattie.

Gli eventi di splicing rilevati a profondità maggiori potrebbero contenere segnali biologici sottili che, considerati insieme, potrebbero contribuire alla comprensione di varie condizioni. Gli studi futuri dovrebbero mirare a ottenere profondità di sequenziamento più elevate per facilitare un'esplorazione completa dello splicing alternativo nei campioni umani.

Fonte originale

Titolo: RNA sequencing depth guidelines for the study of alternative splicing

Estratto: A key parameter in the experimental design of RNA-seq projects is the choice of sequencing depth. Considering a limited budget, one needs to find a tradeoff between the number of samples and the sensitivity of the analysis, particularly concerning lowly expressed genes. While previous studies have proposed a lower bound for the comprehensive analysis of differential gene expression, for the analysis of alternative splicing, it has only been proposed for human adipose tissue. However, alternative splicing differs across tissues and conditions. We analyzed publicly available and newly generated deep-sequenced paired-end RNA-seq samples (between 150 and >500 million reads, read length 50-150 bp) from human buffy coat cells and diverse sets of tissues, including gluteal subcutaneous fat, heart, and hypothalamus. Our results show that the sequencing depth typically used in published cohorts is not sufficient to comprehensively capture the landscape of alternative splicing. This motivates the use of deeper sequencing or long-read technologies in future studies. Toward this goal, we offer guidelines for choosing a suitable sequencing depth. GRAPHICAL ABSTRACT O_FIG O_LINKSMALLFIG WIDTH=200 HEIGHT=177 SRC="FIGDIR/small/617406v2_ufig1.gif" ALT="Figure 1"> View larger version (24K): [email protected]@1b3d0fborg.highwire.dtl.DTLVardef@5d15c4org.highwire.dtl.DTLVardef@140035b_HPS_FORMAT_FIGEXP M_FIG C_FIG

Autori: Olga Tsoy, S. Ameling, S. Franzenburg, M. D. Hoffmann, L. Liv-Willuth, H. K. Lee, L. Knabl, P. A. Furth, U. Voelker, L. Hennighausen, J. Baumbach, T. Kacprowski, M. List

Ultimo aggiornamento: 2024-10-15 00:00:00

Lingua: English

URL di origine: https://www.biorxiv.org/content/10.1101/2024.10.09.617406

Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.10.09.617406.full.pdf

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Articoli simili