Progressi nelle tecniche di assemblaggio delle sequenze di DNA
I ricercatori migliorano l'accuratezza del sequenziamento del genoma usando metodi innovativi di correzione degli errori.
― 6 leggere min
Indice
- L'evoluzione della tecnologia di Sequenziamento
- Combinare diverse tecnologie per risultati migliori
- Utilizzo dei Grafi di De Bruijn per la correzione degli errori
- Valutazione della qualità dei Kmers
- Tecniche di correzione degli errori
- Valutazione della qualità delle sequenze
- Assemblaggi e valutazione delle prestazioni
- Sfide e direzioni future
- Conclusione
- Fonte originale
- Link di riferimento
L'assemblaggio delle sequenze è un processo fondamentale nella genomica, dove gli scienziati mettono insieme frammenti di DNA per ricreare il codice genetico completo di un organismo. Questo processo è essenziale per capire la composizione genetica degli esseri viventi, studiare le malattie e sviluppare nuove terapie. Negli ultimi anni, i progressi nella tecnologia hanno cambiato significativamente gli strumenti e i metodi usati per questo assemblaggio.
Sequenziamento
L'evoluzione della tecnologia diCol tempo, i metodi per sequenziare il DNA sono evoluti. Ci sono due tipi principali di letture nel sequenziamento: letture corte e letture lunghe. Le letture corte sono rapide ed economiche da produrre, ma possono avere difficoltà con regioni complesse nel DNA, specialmente quelle ripetitive. Al contrario, le letture lunghe possono coprire queste regioni in modo più efficace, ma costano di più e possono contenere più errori.
Le letture corte possono ricostruire in modo affidabile molti genomi procarioti (organismi senza nucleo) e la maggior parte dei genomi virali. Sono anche buone per catturare le aree codificanti delle proteine, note come esomi. Tuttavia, non riescono a gestire le parti ripetitive di genomi più complessi, che includono la maggior parte degli organismi eucarioti (organismi con nucleo). D'altra parte, le tecnologie di sequenziamento a lettura lunga consentono ai ricercatori di chiudere le lacune nei genomi circolari e creare cromosomi completi negli eucarioti.
Combinare diverse tecnologie per risultati migliori
Per ottenere i migliori risultati, spesso i ricercatori combinano dati a lettura corta e lunga insieme ad altre informazioni, come i dati Hi-C. Questa integrazione produce assemblaggi di qualità superiore rispetto all'utilizzo di una singola tecnologia da sola. Anche se le letture lunghe possono sovrapporsi efficacemente a ripetizioni lunghe nel DNA, sono ancora più costose e possono riportare in modo impreciso le dimensioni di queste ripetizioni, complicando il processo di assemblaggio.
La sfida è trovare una soluzione che possa correggere gli errori nelle letture lunghe senza fare affidamento su dati aggiuntivi a lettura corta, specialmente quando ci sono molti errori casuali e sistematici presenti.
Grafi di De Bruijn per la correzione degli errori
Utilizzo deiIn questo lavoro, i ricercatori hanno esaminato una struttura dati specifica nota come grafo di De Bruijn, comunemente usato negli assemblatori a lettura corta, e l'hanno considerata per la correzione degli errori nelle letture lunghe. Un grafo di De Bruijn rappresenta le connessioni tra le sequenze di DNA, facilitando la ricerca di modelli e relazioni nei dati.
Applicando il modello del grafo di De Bruijn, i ricercatori miravano a correggere gli errori nelle letture lunghe identificando e migliorando le sequenze affidabili mentre segnalavano quelle meno affidabili. Questo metodo è simile alle tecniche precedenti usate nella correzione degli errori a lettura corta, ma adattato per il rumore intrinseco delle letture lunghe.
Kmers
Valutazione della qualità deiI kmers sono segmenti di DNA utilizzati nell'assemblaggio delle sequenze, dove un kmer è definito dalla sua lunghezza. I ricercatori hanno analizzato quanto frequentemente diversi kmers apparissero in vari genomi di riferimento. Hanno scoperto che diversi genomi seguono un modello quando si guarda alle loro distribuzioni di kmer. Comprendere queste frequenze può aiutare a identificare sequenze valide e differenziarle dagli artefatti, segnalandone essenzialmente la probabilità di essere reali o solo il risultato di errori.
Tracciando quanto spesso compaiono specifici kmers, gli scienziati possono prevedere la probabilità che siano rappresentazioni valide della sequenza di DNA. Questo approccio statistico aiuta nella correzione degli errori assicurando che le sequenze meno affidabili vengano segnalate per il campionamento e il perfezionamento.
Tecniche di correzione degli errori
Un metodo promettente per la correzione degli errori discusso qui coinvolge i Modelli di Markov Nascosti (HMM), che usano modelli statistici per fare ipotesi educate sulle sequenze corrette basandosi sui dati osservati. Considerando il processo di sequenziamento come un processo di Markov, i ricercatori possono identificare percorsi attraverso il grafo di De Bruijn che rappresentano la sequenza di eventi più probabile avvenuta durante il sequenziamento.
Applicando questa tecnica in modo iterativo, correggendo le sequenze a lunghezze multiple, possono migliorare progressivamente l'accuratezza dell'assemblaggio. Questo approccio graduale assicura che le letture di bassa qualità vengano filtrate, mentre si conserva la migliore informazione disponibile.
Valutazione della qualità delle sequenze
Un altro aspetto chiave di questa ricerca è capire come valutare la qualità dei dati di sequenziamento. I ricercatori hanno esaminato le prestazioni di diversi metodi per separare le sequenze valide dal rumore. Hanno scoperto che integrare vari punteggi di qualità con i conteggi dei kmers migliora la capacità di distinguere tra kmers reali ed errati.
Calcolando punteggi di qualità cumulativi per i kmers da entrambi i filamenti di DNA e confrontando questi punteggi, ottengono un quadro più chiaro di quali sequenze siano probabilmente valide. Questo aiuta a stabilire soglie più accurate per identificare errori senza dover ricorrere a strumenti complessi.
Assemblaggi e valutazione delle prestazioni
Per vedere quanto bene hanno funzionato i loro metodi di correzione degli errori, i ricercatori hanno confrontato i loro risultati con strumenti di assemblaggio esistenti. Hanno scoperto che il loro approccio ha fornito risultati eccellenti nel ricostruire sequenze genomiche accurate e di alta qualità, anche usando dati di qualità inferiore. Confrontando i risultati del loro metodo con altri assemblatori popolari, hanno dimostrato che la loro tecnica può produrre assemblaggi quasi perfetti.
Sfide e direzioni future
Mentre questo metodo mostra promesse, ci sono ancora sfide da affrontare. I ricercatori hanno riconosciuto che l'algoritmo di Viterbi, che gioca un ruolo centrale nella loro tecnica, può essere computazionalmente intensivo. Pertanto, stanno lavorando per ottimizzare il loro approccio per gestire set di dati più grandi e complessi in modo più efficiente.
Credono che combinare la loro tecnica di correzione probabilistica degli errori con i metodi di assemblaggio esistenti porterà ai migliori risultati. Questo potrebbe consentire di elaborare insieme set di dati misti di letture corte e lunghe, aumentando l'accuratezza complessiva degli output di assemblaggio.
Conclusione
In sintesi, questa ricerca fornisce una struttura promettente per migliorare l'accuratezza dell'assemblaggio delle sequenze, specialmente con letture lunghe e soggette a errori. Sfruttando modelli statistici e distribuzioni di frequenza dei kmers, i ricercatori hanno sviluppato un metodo in grado di produrre assemblaggi di alta qualità da set di dati complessi. Il loro approccio evidenzia l'importanza di integrare diverse fonti di dati e sottolinea il potenziale per futuri progressi in questo campo della genomica.
Gli sforzi per perfezionare e ottimizzare queste tecniche saranno cruciali per ulteriori applicazioni nella ricerca e nelle impostazioni cliniche. Con gli sviluppi in corso, la possibilità di processi di assemblaggio automatizzati che non richiedano un'ampia interazione da parte dell'utente rappresenta una prospettiva entusiasmante per il futuro della genomica.
Titolo: A Novel Approach for Accurate Sequence Assembly Using de Bruijn graphs
Estratto: Sequence assembly methods are valuable for reconstructing genomes from shorter read fragments. Modern nucleic acid sequencing instruments produce quality scores associated with each reported base; however, these quality scores are not generally used as a core part of sequence assembly or alignment algorithms. Here, we leverage weighted de Bruijn graphs as graphical probability models representing the relative abundances and qualities of kmers within FASTQ-encoded observations. We then utilize these weighted de Bruijn graphs to identify alternate, higher-likelihood candidate sequences compared to the original observations, which are known to contain errors. By improving the original observations with these resampled paths, iteratively across increasing k-lengths, we can use this expectation-maximization approach to "polish" read sets from any sequencing technology according to the mutual information shared in the reads. We use this polishing approach to probabilistically correct simulated short- and long-read datasets of lower coverages and higher error rates than some algorithms can produce satisfactory assemblies for. We find that this approach corrects sequencing errors at rates that are able to produce error-free and nearly-error-free de Bruijn assembly graphs for simulated read-set challenges.
Autori: Cameron J Prybol, A. T. Hammack, E. A. Ashley, M. P. Snyder
Ultimo aggiornamento: 2024-06-02 00:00:00
Lingua: English
URL di origine: https://www.biorxiv.org/content/10.1101/2024.05.29.596541
Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.05.29.596541.full.pdf
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://github.com/cjprybol/Mycelia
- https://github.com/BioJulia
- https://github.com/nanoporetech/medaka
- https://ftp.ncbi.nlm.nih.gov/genomes/refseq/assembly_summary_refseq.txt
- https://github.com/BioJulia/BioSequences.jl
- https://github.com/rrwick/Filtlong
- https://github.com/BioJulia/Kmers.jl
- https://github.com/JuliaGraphs/MetaGraphs.jl
- https://github.com/cjprybol/Eisenia
- https://github.com/cjprybol/Mycelia/tree/master/projects/variant-calling-benchmarking