Simple Science

Scienza all'avanguardia spiegata semplicemente

# La biologia # Bioinformatica

Rivoluzionare la stima delle dimensioni del genoma con LRGE

Il nuovo strumento LRGE migliora la precisione nella stima della dimensione del genoma utilizzando il sequencing a lettura lunga.

Michael B Hall, Lachlan J M Coin

― 6 leggere min


LRGE: Stima Genomica LRGE: Stima Genomica Intelligente precise delle dimensioni del genoma. Nuovo software fornisce stime rapide e
Indice

La Dimensione del genoma è un aspetto cruciale della genetica, giocando un ruolo chiave in aree come l'assemblaggio del genoma e lo studio dell'evoluzione. Questo argomento diventa particolarmente complicato quando si tratta di organismi che non sono comunemente studiati in laboratorio, così come quando si lavora con dati genetici diversi o ripetitivi. Valutare la dimensione del genoma può essere particolarmente difficile con i recenti progressi nella tecnologia di Sequenziamento che producono letture lunghe.

La sfida della Stima accurata

I metodi attuali per stimare la dimensione del genoma si concentrano spesso sui dati a lettura corta, che presentano il loro insieme di sfide. Questi metodi richiedono tipicamente una notevole potenza di calcolo o dipendono da genomi già assemblati, limitando la loro efficacia con le ultime tecnologie di sequenziamento a lettura lunga di aziende come Pacific Biosciences e Oxford Nanopore Technologies.

Con il progresso della tecnologia, generare assemblaggi di genomi batterici di alta qualità sta diventando più facile. Con l'aumento della quantità di dati prodotti, i sistemi automatizzati per compiti come l'identificazione delle varianti genetiche e l'assemblaggio dei genomi sono ora comuni nel campo. Tuttavia, molti di questi sistemi richiedono ancora che gli utenti forniscano stime di dimensione del genoma, o possono tentare di calcolare queste dimensioni automaticamente. Sfortunatamente, gli strumenti esistenti per la stima delle dimensioni si concentrano solitamente sui dati a lettura corta e non gestiscono molto bene i tassi di errore più elevati che derivano dalle letture lunghe. Questo può portare a molti risultati inaccurati.

Un nuovo metodo per la stima della dimensione del genoma

Qui entra in gioco un nuovo metodo che utilizza dati di sovrapposizione a lettura lunga per fornire stime accurate della dimensione del genoma senza fare affidamento su riferimenti già assemblati o k-mer, che sono brevi sequenze utilizzate per questi calcoli. Questa nuova tecnica si concentra sulle sovrapposizioni tra le letture per identificare i modelli in tutto il genoma, il che la rende una forte alternativa agli approcci più vecchi.

Il metodo prevede di analizzare come le singole letture si sovrappongono l'una con l'altra. Guardando al numero previsto di sovrapposizioni tra un insieme di letture di query e un insieme di letture target, calcola un'approssimazione per la dimensione del genoma. La media di queste stime viene quindi utilizzata per creare una stima finale della dimensione del genoma, che può essere più affidabile poiché minimizza l'impatto di eventuali valori anomali, come le letture che non si sovrappongono affatto.

Il Software dietro il metodo

Il software che implementa questa nuova tecnica di stima si chiama LRGE ed è costruito utilizzando il linguaggio di programmazione Rust. Sfrutta uno strumento chiamato minimap2 per generare le sovrapposizioni. Il software offre due strategie per la stima delle dimensioni: la strategia "Due set", in cui le letture di query e le letture target sono diverse, e la strategia "tutte contro tutte", dove entrambi i set di letture sono identici.

La strategia Due set ha il vantaggio di utilizzare un set di query più piccolo, il che consente stime più rapide, mentre la strategia tutte contro tutte ignora le sovrapposizioni delle letture con se stesse. Il software è stato testato contro vari altri metodi come GenomeScope2, Mash e Raven per confrontarne l'efficacia.

Testare il nuovo approccio

Una valutazione su larga scala utilizzando migliaia di run di sequenziamento a lettura lunga batterica ha aiutato a confermare l'efficacia di LRGE rispetto ai metodi esistenti. Le valutazioni includevano letture sia di Oxford Nanopore che di Pacific Biosciences, con assemblaggi di alta qualità noti che fungevano da punti di riferimento per il confronto.

Inoltre, mentre LRGE si concentrava inizialmente sui batteri, il metodo è stato testato anche su organismi multicellulari, inclusi lieviti e moscerini della frutta, per vedere come gestisce genomi più grandi e complessi.

Accuratezza e prestazioni

Guardando ai risultati, è diventato chiaro che entrambe le strategie fornivano stime simili, e LRGE in generale superava altri strumenti in termini di accuratezza, specialmente con i dati ONT. Tuttavia, è stato notato che Raven, uno strumento di assemblaggio del genoma, ha performato eccezionalmente bene con i dati PacBio.

È interessante notare che LRGE mostrava una tendenza a sottovalutare le dimensioni del genoma quando c'erano differenze drammatiche nelle profondità di lettura attraverso il materiale genetico analizzato. Ad esempio, quando si incontravano regioni geniche con centinaia di migliaia di letture, le stime potevano scendere molto al di sotto della dimensione reale. Al contrario, letture di bassa qualità a volte portavano a stime molto più alte a causa di sovrapposizioni inferiori rilevate.

Fornire un intervallo di confidenza

Ogni stima generata da LRGE viene fornita con un intervallo di confidenza, indicando dove la dimensione reale del genoma è probabile che cada. Analizzando gli intervalli percentuali, i ricercatori hanno scoperto di poter essere abbastanza fiduciosi (oltre il 90%) che la dimensione stimata rientrasse in un intervallo specifico.

Efficienza nell'uso di tempo e risorse

Le risorse computazionali utilizzate da LRGE hanno mostrato anche risultati promettenti, poiché operava relativamente rapidamente e richiedeva meno memoria rispetto ad altri metodi di stima. Anche se ci sono stati alcuni casi anomali in cui il tempo di esecuzione è aumentato, specialmente di fronte a dati difficili, nel complesso, LRGE si è rivelato essere una scelta più efficiente.

Implicazioni complessive

In conclusione, LRGE si distingue come un modo affidabile ed efficiente per stimare la dimensione del genoma, adattato alle nuove tecniche di sequenziamento a lettura lunga. Concentrandosi sui dati di sovrapposizione delle letture, evita con successo le limitazioni dei metodi precedenti basati su k-mer e si comporta bene con set di dati diversi, inclusi quelli sia di batteri che di organismi eucariotici più complessi.

I vantaggi di LRGE si estendono oltre una semplice stima accurata; richiede anche meno risorse computazionali rispetto ad altri strumenti esistenti e si comporta in modo comparabile ai metodi basati su assemblaggi, mentre è molto più veloce. Questa flessibilità ed efficienza rendono LRGE un prezioso alleato nel campo della bioinformatica, supportando varie applicazioni che vanno dall'assemblaggio del genoma alla ricerca evolutiva.

Nel mondo della genetica, dove a volte la dimensione conta, avere uno strumento che può fornire stime affidabili senza spendere una fortuna in potenza di calcolo è sicuramente una vittoria. Con LRGE, gli scienziati possono sentirsi sicuri nelle loro stime delle dimensioni del genoma, aiutando a chiarire e comprendere meglio il materiale genetico e le sue implicazioni. Chi l'avrebbe mai detto che stimare la dimensione del genoma potesse essere così entusiasmante?

Fonte originale

Titolo: Genome size estimation from long read overlaps

Estratto: SummaryAccurate genome size estimation is an important component of genomic analyses, though existing tools are primarily optimised for short-read data. We present LRGE, a novel tool that uses read-to-read overlap information to estimate genome size in a reference-free manner. LRGE calculates per-read genome size estimates by analysing the expected number of overlaps for each read, considering read lengths and a minimum overlap threshold. The final size is taken as the median of these estimates, ensuring robustness to outliers such as reads with no overlaps. Additionally, LRGE provides an expected confidence range for the estimate. LRGE outperforms k-mer-based methods in both accuracy and computational efficiency and produces genome size estimates comparable to those from assembly-based approaches, like Raven, while using significantly less computational resources. We validate LRGE on a large, diverse bacterial dataset and confirm it generalises to eukaryotic datasets. Availability and implementationOur method, LRGE (Long Read-based Genome size Estimation from overlaps), is implemented in Rust and is available as a precompiled binary for most architectures, a Bioconda package, a prebuilt container image, and a crates.io package as a binary (lrge) or library (liblrge). The source code is available at https://github.com/mbhall88/lrge under an MIT license.

Autori: Michael B Hall, Lachlan J M Coin

Ultimo aggiornamento: 2024-12-02 00:00:00

Lingua: English

URL di origine: https://www.biorxiv.org/content/10.1101/2024.11.27.625777

Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.11.27.625777.full.pdf

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Articoli simili