Simple Science

Scienza all'avanguardia spiegata semplicemente

# La biologia# Bioinformatica

Comprendere il Pan-genoma di Mycobacterium tuberculosis

Uno sguardo sulla diversità genetica di Mtb e le sue implicazioni.

― 6 leggere min


Analisi del Pan-genoma diAnalisi del Pan-genoma diMtbMycobacterium tuberculosis.Rivelare intuizioni genetiche su
Indice

I batteri possono avere geni diversi anche se appartengono alla stessa specie. Per spiegare queste differenze, gli scienziati hanno creato l'idea di Pan-genoma, che significa guardare a tutti i geni presenti in un gruppo di batteri. Quest'idea è nata da studi sui batteri ed è ora usata per analizzare i geni in molti organismi. I geni all'interno di un pan-genoma possono essere divisi in due gruppi: geni core che la maggior parte dei membri condivide, e Geni Accessori che solo alcuni membri hanno. Processi diversi come il trasferimento genico e il cambiamento delle sequenze causano queste variazioni nei geni batterici. Recentemente, i ricercatori hanno utilizzato studi sul pan-genoma per capire meglio le differenze genetiche e l'adattabilità dei batteri, che è importante in molti settori tra cui medicina e agricoltura.

Sono stati progettati molti strumenti per studiare i genomi batterici, ma spesso usano modi diversi per definire e misurare i pan-genomi. Ad esempio, ci sono molti metodi disponibili per analizzare i pan-genomi. Due scelte chiave in qualsiasi analisi del pan-genoma sono: 1) quale parte del genoma sarà confrontata (l'intero genoma o solo parti di esso), e 2) come saranno giudicate le somiglianze e le differenze tra le sequenze. Queste scelte possono influenzare quali variazioni vengono trovate e come vengono interpretati questi risultati. Inoltre, la selezione dei genomi analizzati, e se rappresentano veramente le differenze genetiche all'interno di una specie, può influenzare anche i risultati.

Mycobacterium tuberculosis

Mycobacterium tuberculosis (Mtb) è la principale causa di tubercolosi (TB), causando circa 1,6 milioni di morti ogni anno. Mtb è un tipo di germe che evolve in modo fisso, senza condividere geni con altri ceppi o mescolarsi con loro. Di conseguenza, le differenze genetiche in Mtb sono principalmente dovute alla perdita di geni o alla duplicazione di quelli esistenti, portando a un numero complessivo di geni inferiore nel suo genoma. Alcuni studi mostrano che la dimensione del pan-genoma in Mtb varia molto. Ad esempio, uno studio ha trovato oltre 7.600 geni accessori, mentre altri ne hanno riportati solo circa 500.

Poiché Mtb ha una struttura genica consistente e non mescola geni, fornisce un buon modello per testare quanto bene possiamo prevedere i geni accessori negli studi sul pan-genoma. Inoltre, poiché Mtb mostra minimi cambiamenti strutturali nel suo genoma, i ricercatori possono creare assemblaggi genomici di alta qualità utilizzando sia letture di DNA corte che lunghe. Questo li aiuta a capire come la qualità del sequenziamento e dell'assemblaggio influisce sulle previsioni del pan-genoma in una popolazione molto simile geneticamente.

Curare un Dataset di Genomi Mtb

Per studiare accuratamente il pan-genoma di Mtb, i ricercatori hanno raccolto 151 genomi completi da diversi ceppi di Mtb che colpiscono gli esseri umani. Hanno sequenziato questi ceppi utilizzando tecnologie di lettura del DNA corte e lunghe. Per ciascun ceppo, hanno creato un'assemblaggio ibrido combinando dati da letture lunghe e corte per garantire alta qualità. Questo dataset include una vasta varietà di ceppi di Mtb, mostrando la diversità genetica globale.

I genomi assemblati sono molto simili, con alta identità nucleotidica media (ANI) e caratteristiche genomiche coerenti. Tuttavia, le assemblaggi da letture corte erano meno complete rispetto alle assemblaggi ibride, mostrando differenze in continuità e numero di sequenze codificanti previste.

Valutazione delle Variazioni Strutturali

Per valutare le differenze genetiche nei genomi di Mtb, i ricercatori hanno costruito un grafo del pan-genoma per visualizzare le variazioni strutturali. Questo grafo mostra i geni core, che tutti i ceppi di Mtb possiedono, accanto a variazioni trovate in almeno un ceppo. Il grafo risultante conteneva molti nodi rappresentanti diverse sequenze, e i ricercatori miravano a determinare se queste rappresentassero nuovi contenuti genetici o solo riconfigurazioni di geni esistenti.

Analizzando il grafo, hanno scoperto che la maggior parte delle variazioni strutturali erano dovute a riarrangiamenti e solo una piccola percentuale rappresentava sequenze veramente nuove. Molte delle sequenze ridondanti si sovrapponevano con sequenze virali e di inserzione già note. Alcune variazioni uniche erano legate a linee specifiche di Mtb.

Impatto degli Strumenti di Analisi sulle Previsioni del Pan-Genoma

Nello studio dei pan-genomi batterici, diversi strumenti possono produrre risultati variabili. I ricercatori si sono concentrati su come i diversi metodi di analisi possono portare a stime diverse del contenuto genico. Hanno testato software comunemente usati per vedere come cambiamenti nei parametri come il raggruppamento delle sequenze codificanti potessero influenzare i risultati. Hanno trovato che passare da diverse assemblaggi e pipeline di Annotazione può portare a differenze significative nelle stime dei geni core e accessori.

Ad esempio, un software era più coerente di altri indipendentemente dai cambiamenti effettuati, mentre un altro produceva stime più caute a seconda dei metodi di annotazione utilizzati. Diverse combinazioni di strumenti portavano a grandi variazioni nelle previsioni sulla dimensione dei genomi accessori, evidenziando l'importanza di una scelta attenta dei metodi.

Affrontare le Discrepanze di Annotazione

Uno dei problemi con gli strumenti di analisi del pan-genoma esistenti è che spesso gonfiano il numero di geni accessori a causa di differenze nel modo in cui i geni sono annotati. I ricercatori hanno creato un nuovo strumento chiamato panqc per correggere queste discrepanze nell'annotazione dei geni. Questo software analizza i risultati degli strumenti di previsione del pan-genoma e unisce sequenze codificanti simili, portando a stime più accurate delle dimensioni dei geni accessori.

Il tool panqc funziona in due fasi: prima verifica se i geni identificati come assenti sono realmente presenti a livello di DNA, e poi raggruppa insieme sequenze codificanti simili. Questo metodo ha dimostrato di ridurre significativamente il numero di geni accessori previsti.

Applicazione di Panqc sui Genomi Mtb

Applicando panqc al dataset di genomi Mtb, si è ridotto in modo significativo il numero stimato di geni accessori. I ricercatori hanno anche scoperto che un gran numero di assenze inizialmente riportate era dovuto a problemi con le annotazioni dei geni piuttosto che a geni realmente mancanti. Questo aggiustamento ha permesso di avere una visione più chiara del contenuto genetico, consentendo una migliore comprensione degli eventi di guadagno e perdita dei geni attraverso i diversi ceppi.

Inoltre, panqc è stato testato sui genomi di E. coli, che hanno mostrato meno ridondanza nel contenuto genico rispetto a Mtb. Questo suggerisce che mentre lo strumento è utile per genomi strettamente correlati, potrebbe non essere così necessario per popolazioni più geneticamente varie.

Conclusione

Questo lavoro sottolinea la necessità di utilizzare sia confronti di nucleotidi che di aminoacidi quando si studiano i genomi batterici. Sottolinea l'importanza delle scelte metodologiche nelle analisi del pan-genoma, in particolare rispetto alle discrepanze di annotazione e alla qualità degli assemblaggi genomici utilizzati. Ogni strumento valutato ha i suoi punti di forza e debolezza, con alcuni che forniscono stime più coerenti in condizioni diverse.

Lo sviluppo di strumenti come panqc mostra promesse per migliorare le analisi del pan-genoma, rendendo più facile tenere conto di problemi che possono distorcere i risultati, soprattutto in popolazioni geneticamente simili. Adottando un approccio attento nel confrontare i genomi, i ricercatori possono ottenere preziose intuizioni sulle dinamiche evolutive delle popolazioni batteriche, che è cruciale per comprendere la loro adattabilità e i potenziali impatti sulla salute umana.

Fonte originale

Titolo: Analysis of the limited M. tuberculosis accessory genome reveals potential pitfalls of pan-genome analysis approaches

Estratto: Pan-genome analysis is a fundamental tool for studying bacterial genome evolution; however, the variety of methods used to define and measure the pan-genome poses challenges to the interpretation and reliability of results. To quantify sources of bias and error related to common pan-genome analysis approaches, we evaluated different approaches applied to curated collection of 151 Mycobacterium tuberculosis (Mtb) isolates. Mtb is characterized by its clonal evolution, absence of horizontal gene transfer, and limited accessory genome, making it an ideal test case for this study. Using a state-of-the-art graph-genome approach, we found that a majority of the structural variation observed in Mtb originates from rearrangement, deletion, and duplication of redundant nucleotide sequences. In contrast, we found that pan-genome analyses that focus on comparison of coding sequences (at the amino acid level) can yield surprisingly variable results, driven by differences in assembly quality and the softwares used. Upon closer inspection, we found that coding sequence annotation discrepancies were a major contributor to inflated Mtb accessory genome estimates. To address this, we developed panqc, a software that detects annotation discrepancies and collapses nucleotide redundancy in pan-genome estimates. When applied to Mtb and E. coli pan-genomes, panqc exposed distinct biases influenced by the genomic diversity of the population studied. Our findings underscore the need for careful methodological selection and quality control to accurately map the evolutionary dynamics of a bacterial species.

Autori: Maha R Farhat, M. G. Marin, C. Wippel, N. Quinones-Olvera, M. Behruznia, B. M. Jeffrey, M. Harris, B. C. Mann, A. Rosenthal, K. R. Jacobson, R. M. Warren, H. Li, C. J. Meehan

Ultimo aggiornamento: 2024-05-04 00:00:00

Lingua: English

URL di origine: https://www.biorxiv.org/content/10.1101/2024.03.21.586149

Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.03.21.586149.full.pdf

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili