Progressi nelle tecniche di sequenziamento del genoma
Nuovi metodi migliorano il sequenziamento del genoma, aiutando nell'identificazione degli organismi e negli studi ecologici.
― 9 leggere min
Indice
- Sfide nel Sequenziamento del Genoma
- Migliorare la Separazione delle Sequenze
- Nuovi Strumenti per la Rilevazione di Cobionti
- Visualizzazione dei Componenti delle Sequenze
- L'importanza della Composizione nell'Analisi delle Sequenze
- Dashboard Interattiva per Esplorazione
- Confronto tra Metodi di Rilevazione Differenti
- Robustezza dei Metodi Basati sulla Composizione
- Valutazione della Copertura per il Controllo della Qualità
- Efficienza Computazionale e Scalabilità
- Conclusione
- Fonte originale
- Link di riferimento
Recenti sviluppi nella tecnologia di sequenziamento del Genoma stanno migliorando la nostra capacità di creare genomi di riferimento per una varietà di organismi. Questo è particolarmente importante per le specie che non sono state sequenziate molto prima. L'obiettivo è capire meglio come queste specie si siano evolute e quali ruoli abbiano in diversi ecosistemi.
Quando gli scienziati raccolgono campioni da organismi selvatici, questi campioni spesso includono non solo il materiale genetico della specie target, ma anche DNA proveniente da altre fonti. Questo DNA aggiuntivo può derivare da organelli, piccoli organismi che vivono al loro interno, o addirittura da contaminanti dell'ambiente. Questa mescolanza di materiale genetico può rendere difficile assemblare un genoma chiaro della specie target. Molti genomi pubblicati hanno problemi di contaminazione, il che può portare a conclusioni errate negli studi biologici.
Al contrario, questi dati misti possono anche offrire un'opportunità per studiare le relazioni ecologiche tra diversi organismi. Con gli strumenti computazionali giusti, possiamo creare genomi di alta qualità per questi altri organismi, comprese quelle che sono difficili da coltivare in laboratorio.
Sforzi come il Progetto Darwin Tree of Life mirano a sequenziare 70.000 genomi di organismi eucariotici, che sono forme di vita complesse. Questo progetto offre un'opportunità unica per studiare l'evoluzione di molte specie e come interagiscono tra loro. I dati di alta qualità prodotti dovrebbero aiutare i ricercatori a separare le sequenze provenienti da fonti diverse in modo più efficace. Un assemblaggio migliorato dei genomi assicura che le sequenze possano essere classificate in modo più accurato, il che è importante per comprendere la biologia di vari organismi.
Sfide nel Sequenziamento del Genoma
I metodi tradizionali per esaminare le sequenze genetiche si basano sul confronto con database esistenti. Sfortunatamente, questi database possono contenere anche sequenze contaminate, portando a assegnazioni errate. Inoltre, può non esistere un riferimento correlato per molti organismi, specialmente per quelli che non sono stati ampiamente studiati. Questo problema è più pronunciato per sequenze che si sono discostate significativamente nel tempo. Le sequenze di organismi multicellulari, ad esempio, spesso hanno un basso numero di siti stabili che possono essere utilizzati per la classificazione, rendendo più difficile assegnarli con accuratezza.
Le tecniche di machine learning, come i classificatori neurali supervisionati, affrontano limitazioni simili. Questi modelli si basano su sequenze precedentemente conosciute per l'addestramento, il che rende le loro prestazioni su campioni sconosciuti imprevedibili.
Migliorare la Separazione delle Sequenze
Per differenziare in modo affidabile le sequenze, anche quando i database mancano, gli scienziati stanno esaminando le differenze intrinseche nella Composizione delle sequenze tra gli organismi. Uno strumento, BlobToolKit, consente ai ricercatori di visualizzare e estrarre gruppi di sequenze basate su vari contenuti di GC e Copertura. Anche se il contenuto di GC è utile, non basta sempre per distinguere organismi diversi.
Gli scienziati possono anche utilizzare sottostringhe brevi, note come k-mer, per una classificazione non supervisionata. Separando le sequenze in base a quanto spesso compaiono specifici k-mer e alla loro copertura, i ricercatori hanno stabilito metodi che funzionano bene nella metagenomica. Tuttavia, l'efficacia degli strumenti attuali su sequenze miste che includono organismi con strutture interne diverse è ancora in fase di valutazione.
Un'altra area su cui si è prestata meno attenzione è stata il clustering delle letture di sequenze non assemblate basate sulla composizione. Valutando rapidamente i contenuti di un insieme di letture, i ricercatori possono determinare la qualità di un campione prima dell'assemblaggio. Questo include il controllo se c'è abbastanza copertura del genoma target. Anche se le sequenze di lunghezza accurata, come quelle prodotte da tecnologie più recenti, sono allettanti da trattare come segmenti più piccoli, il volume delle letture può portare a ostacoli computazionali.
Nuovi Strumenti per la Rilevazione di Cobionti
In questo lavoro, è stato introdotto un nuovo metodo per rilevare materiale genetico aggiuntivo e contaminanti nei campioni attraverso rappresentazioni bidimensionali della composizione delle sequenze k-mer. È stato implementato un Variational Autoencoder (VAE) per proiettare i conteggi dei tetranucleotidi in due dimensioni.
I VAE si sono dimostrati efficaci in varie applicazioni biologiche, inclusa l'analisi delle popolazioni e la previsione delle funzioni proteiche. Aggiungendo annotazioni agli embeddings bidimensionali appresi dal VAE, i ricercatori possono evidenziare le differenze nella composizione tra sequenze provenienti da diverse fonti. È stato sviluppato anche un metodo basato sui k-mer per stimare con precisione la copertura delle sequenze.
Per rendere il processo interattivo, è stata creata una dashboard che permette agli utenti di esplorare gli organismi potenziali presenti in un campione. Invece di cercare di classificare o separare le sequenze esplicitamente, questi strumenti sono stati pensati per migliorare l'identificazione dei cobionti.
Visualizzazione dei Componenti delle Sequenze
Visualizzare una raccolta di sequenze insieme offre una panoramica dei componenti trovati in un campione. Ogni punto nella visualizzazione rappresenta una sequenza individuale, con colori che indicano diverse fonti o etichette tassonomiche.
Utilizzando dati da 204 specie di farfalle e falene sequenziate attraverso il Progetto Darwin Tree of Life, è stato dimostrato l'impatto di questo approccio integrato nella rilevazione dei cobionti. I risultati sono in linea con quelli dei metodi tradizionali di controllo della contaminazione. L'approccio ha mostrato un successo simile con altri organismi, come pesci, alghe verdi e piante. La capacità del VAE di gestire grandi set di dati migliora significativamente l'analisi delle informazioni genomiche.
L'efficacia del metodo risiede nella sua capacità di identificare cobionti quando i metodi tradizionali basati sui riferimenti spesso falliscono, specialmente nei casi in cui non esistono riferimenti strettamente correlati.
L'importanza della Composizione nell'Analisi delle Sequenze
Il principale indicatore della composizione delle sequenze esaminato in questo lavoro è il conteggio dei tetranucleotidi. Anche se potrebbero essere usate altre dimensioni di k-mer, una dimensione di quattro fornisce un equilibrio tra efficienza computazionale e efficace separazione delle sequenze in vari campioni.
Il calcolo di questi conteggi di tetranucleotide può essere fatto in modo efficiente, facendo affidamento su un'implementazione software specifica. Questo metodo è adatto anche per set di dati costituiti da milioni di letture di sequenziamento.
Per visualizzare dati complessi attraverso il VAE, l'encoder riduce le dimensioni dei vettori di conteggio dei tetranucleotidi a due dimensioni. Di conseguenza, le sequenze con una composizione simile si trovano più vicine in questo spazio latente. Il decoder poi cerca di ricostruire le sequenze originali da queste rappresentazioni ridotte, rendendolo robusto al rumore e all'errore.
La ricerca mostra che i VAE spesso forniscono una separazione più chiara delle classi rispetto ai metodi tradizionali come l'analisi dei componenti principali. Richiedono anche meno potenza computazionale rispetto ad altre tecniche di riduzione dimensionale, il che è vantaggioso per gestire grandi set di dati.
Dashboard Interattiva per Esplorazione
È stata progettata una dashboard interattiva per aiutare i ricercatori a filtrare ed esplorare i dati in modo efficace. Questa interfaccia consente la visualizzazione delle sequenze basata su varie caratteristiche, inclusa la densità di codifica stimata e le classificazioni tassonomiche. Gli utenti possono anche ingrandire aree di interesse, visualizzare statistiche e condurre "controlli a campione" dei cluster di letture tramite query BLAST.
Questa funzionalità è cruciale per valutare rapidamente la composizione dei campioni e identificare potenziali problemi di contaminazione o sequenze target mancanti.
Confronto tra Metodi di Rilevazione Differenti
Per valutare l'efficacia delle strategie basate sulla composizione nel rilevamento dei cobionti e dei contaminanti, i ricercatori hanno confrontato quanto spesso questo metodo ha avuto successo nell'identificare organismi riportati da altri strumenti consolidati utilizzati nei processi di assemblaggio del genoma e cura dei dati.
Molti degli organismi identificati corrispondevano bene a quelli registrati dai metodi tradizionali, anche se alcuni casi hanno evidenziato che l'approccio basato sulla composizione è stato in grado di rilevare organismi che gli strumenti basati sui riferimenti avevano perso.
Visualizzando le letture vicino ai picchi nei diagrammi a dispersione bidimensionali, alcuni organismi sono stati identificati con successo. Tuttavia, questo metodo automatizzato era meno affidabile per le specie che non formavano cluster distintivi, mostrando le limitazioni intrinseche degli approcci basati sui riferimenti.
Robustezza dei Metodi Basati sulla Composizione
La capacità di rilevare cobionti utilizzando l'approccio basato sulla composizione è particolarmente utile quando si trattano organismi che mancano di una rappresentazione sufficiente nei database. Questo è stato illustrato da casi di microsporidi, che spesso sono difficili da classificare a causa delle risorse genomiche limitate.
Integrando più fonti di informazioni, i ricercatori possono migliorare l'identificazione dei cobionti. Ad esempio, anche quando i metodi basati sui riferimenti non riuscivano a identificare letture appartenenti a certi organismi, la visualizzazione dei cluster di sequenze spesso rivelava informazioni preziose sulla loro composizione.
Pattern simili sono stati osservati in altri studi sugli organismi, evidenziando che questo approccio può estendersi oltre gli insetti a vari taxa, anche tra organismi evolutivamente distanti.
Valutazione della Copertura per il Controllo della Qualità
Nei casi in cui la copertura stimata varia significativamente tra le sequenze target e non target, visualizzare questa copertura può aiutare a identificare contaminanti. Gli istogrammi di copertura comunemente riassumono la copertura k-mer e possono indicare se è stata raggiunta una sufficiente sequenza per un assemblaggio riuscito.
Integrando le informazioni sulla copertura con rappresentazioni bidimensionali della composizione delle letture, i ricercatori possono confermare meglio l'identità degli organismi presenti in un campione. Questa combinazione può fornire un contesto prezioso per valutare la qualità del campione.
Efficienza Computazionale e Scalabilità
Lo sforzo computazionale richiesto per raccogliere conteggi di tetranucleotidi scala bene con la dimensione dei set di dati delle letture. Anche i set di dati più grandi possono essere elaborati in modo efficiente, con strumenti disponibili per assistere nell'analisi e nell'interpretazione dei risultati. Anche se ci sono richieste computazionali più elevate per set di dati più estesi, i metodi presentati sono progettati per rimanere gestibili per i ricercatori.
Addestrare il VAE richiede risorse di memoria significative, soprattutto per set di dati più grandi. Tuttavia, esistono tecniche per ottimizzare l'uso della memoria, permettendo che i metodi siano implementati su hardware standard.
Conclusione
Questo lavoro illustra il valore di utilizzare rappresentazioni bidimensionali della composizione delle sequenze per identificare e differenziare le sequenze provenienti da diverse fonti all'interno di set di dati genomici a lettura lunga. Questa tecnica è particolarmente utile per studiare organismi che mancano di una rappresentazione adeguata nei database esistenti.
Integrando dati sulla composizione con etichette tassonomiche, è possibile migliorare la capacità di rintracciare sequenze di organismi specifici, segnalandole come non classificate con accuratezza dai metodi tradizionali. Man mano che cresce l'interesse nel sequenziare organismi diversi, questi strumenti possono aiutare i ricercatori a scoprire genomi spesso trascurati e migliorare la nostra comprensione delle complesse relazioni biologiche.
Titolo: Disentangling Cobionts and Contamination in Long-Read Genomic Data using Sequence Composition
Estratto: The recent acceleration in genome sequencing targeting previously unexplored parts of the tree of life presents computational challenges. Samples collected from the wild often contain sequences from several organisms, including the target, its cobionts, and contaminants. Effective methods are therefore needed to separate sequences. Though advances in sequencing technology make this task easier, it remains difficult to taxonomically assign sequences from eukaryotic taxa that are not well-represented in databases. Therefore, reference-based methods alone are insufficient. Here, I examine how we can take advantage of differences in sequence composition between organisms to identify symbionts, parasites and contaminants in samples, with minimal reliance on reference data. To this end, I explore data from the Darwin Tree of Life project, including hundreds of high-quality HiFi read sets from insects. Visualising two-dimensional representations of read tetranucleotide composition learned by a Variational Autoencoder can reveal distinct components of a sample. Annotating the embeddings with additional information, such as coding density, estimated coverage, or taxonomic labels allows rapid assessment of the contents of a dataset. The approach scales to millions of sequences, making it possible to explore unassembled read sets, even for large genomes. Combined with interactive visualisation tools, it allows a large fraction of cobionts reported by reference-based screening to be identified. Crucially, it also facilitates retrieving genomes for which suitable reference data are absent.
Autori: Claudia C Weber
Ultimo aggiornamento: 2024-06-03 00:00:00
Lingua: English
URL di origine: https://www.biorxiv.org/content/10.1101/2024.05.30.596622
Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.05.30.596622.full.pdf
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.