Simple Science

Scienza all'avanguardia spiegata semplicemente

# La biologia# Bioinformatica

LiftOn: Migliorare le Tecniche di Annotazione del Genoma

LiftOn migliora l'annotazione del genoma unendo metodi di allineamento del DNA e delle proteine.

― 6 leggere min


LiftOn migliora laLiftOn migliora lamappatura geneticaspecie.nell'annotazione del genoma tra leNuovo strumento migliora la precisione
Indice

Il sequenziamento del Genoma è un metodo usato per scoprire la sequenza completa del DNA del genoma di un organismo. Questo processo è migliorato tantissimo negli ultimi anni, portando a una marea di dati genomici disponibili. Nuove tecnologie, soprattutto il sequenziamento a lettura lunga, hanno reso questo lavoro più veloce, economico e preciso. Un grande esempio di questo progresso è l'assemblaggio recente del genoma umano, noto come assemblaggio telomero-telomero (T2T). Questo assemblaggio aiuta a guidare il sequenziamento di molti altri genomi umani, portando a una ricchezza di informazioni genetiche.

A fine 2023, i database pubblici hanno registrato oltre 30.000 genomi eucarioti (organismi con cellule complesse) e più di 567.000 genomi procarioti (cellule semplici). Questo boom nei dati genomici è una risorsa preziosa per gli scienziati che cercano di studiare genetica e biologia.

Cos'è l'Annotazione del Genoma?

L'annotazione del genoma è il processo di identificazione dei geni e altre caratteristiche importanti all'interno di un genoma. È un passaggio cruciale per capire come funzionano e cosa fanno questi geni. Tuttavia, annotare i genomi, specialmente quelli eucarioti, può essere complicato. I genomi eucarioti hanno strutture complesse, comprese più segmenti di geni e grandi spazi tra di essi. Queste complessità rendono il processo di annotazione lento e più difficile da automatizzare rispetto al semplice assemblaggio dei genomi.

Una tecnica comune per annotare i geni si chiama "predizione dei geni ab initio". Tuttavia, anche i migliori strumenti di predizione spesso mancano molti geni o interpretano male la struttura dei segmenti genici. Un altro approccio prevede l'uso del sequenziamento RNA, che cattura l'attività genica ma può trascurare geni che non sono attivi tutto il tempo o sono difficili da raccogliere.

Per migliorare l'efficienza, alcuni scienziati usano tecniche che trasferiscono annotazioni da genomi ben studiati a quelli appena sequenziati basandosi su somiglianze condivise. Questo metodo può far risparmiare tempo e risorse, specialmente quando i genomi sono strettamente correlati.

Come Funziona il Trasferimento di Annotazione

Attualmente, i migliori metodi per trasferire annotazioni tra genomi si basano principalmente sull'analisi del DNA. Ad esempio, strumenti come Liftoff e CAT sono stati utilizzati per trasferire annotazioni da un genoma umano a un altro. Tuttavia, se il nuovo genoma ha una sequenza significativamente diversa da quella di riferimento, questi metodi basati sul DNA possono fallire, portando a errori nell'identificazione delle strutture geniche.

Le Proteine, d'altra parte, sono spesso più stabili attraverso le distanze evolutive rispetto alle sequenze di DNA. Questa stabilità ha spinto i ricercatori a sviluppare un nuovo metodo che combina l'allineamento delle sequenze proteiche con la mappatura del DNA nel processo di trasferimento dell'annotazione. Questo approccio guarda alle sequenze proteiche del genoma di riferimento e le allinea al genoma target, considerando anche letture diverse per tenere conto delle strutture geniche complesse.

Tuttavia, fare affidamento solo sull'allineamento proteico ha i suoi limiti. Può trascurare le regioni non tradotte alle estremità dei geni e a volte ignorare segmenti genici più piccoli. Inoltre, senza considerare gli introni (le sezioni non codificanti dei geni), l'allineamento proteico potrebbe erroneamente abbinare proteine a geni non funzionali noti come pseudogeni.

Introduzione di LiftOn

LiftOn è un nuovo strumento progettato per assistere nell'annotazione del genoma utilizzando sia l'allineamento delle sequenze di DNA che di proteine. È un miglioramento rispetto agli strumenti di trasferimento delle annotazioni esistenti, concentrandosi sui geni codificanti per le proteine. Ecco come funziona LiftOn:

  1. Massimizzazione delle Proteine: LiftOn utilizza un algoritmo speciale per garantire che le annotazioni geniche corrispondano il più possibile alle proteine di riferimento durante il processo di lift-over.

  2. Ricerca ORF: Controlla le possibili traduzioni dei geni per identificare le migliori sequenze codificanti, cercando di trovare le sequenze proteiche valide più lunghe basate sulle proteine di riferimento.

  3. Gestione delle Sovrapposizioni Geniche: LiftOn affronta problemi come geni sovrapposti e identifica copie extra di geni che possono esistere all'interno di un genoma.

Combinando informazioni sul DNA e sulle proteine, LiftOn può fornire annotazioni migliori per i geni rispetto ai metodi che si basano solo sul DNA o sulle proteine.

Test di LiftOn

L'efficacia di LiftOn è stata messa alla prova mappando le annotazioni geniche umane da una versione del genoma umano a un'altra. I risultati sono stati promettenti. LiftOn ha sollevato con successo oltre il 99% dei geni codificanti per le proteine dal genoma di riferimento a quello nuovo. Tra i geni mappati, molti hanno raggiunto una corrispondenza perfetta con le proteine di riferimento.

Rispetto ad altri strumenti, LiftOn ha superato significativamente molte di esse in diversi casi. Ha ridotto gli errori e migliorato l'identificazione delle strutture geniche. Ad esempio:

  • In un caso, LiftOn ha corretto errori commessi da altri strumenti che hanno portato a sezioni geniche mancanti.
  • Ha sistemato siti di splicing errati, consentendo una rappresentazione più accurata di come i geni sono assemblati.
  • LiftOn è riuscito a identificare copie extra di geni, il che aiuta a capire le funzioni e l'evoluzione dei geni.

Capacità di LiftOn con Diverse Specie

LiftOn non è limitato solo ai genomi umani. È stato anche testato su genomi non umani. Lo strumento si è dimostrato efficace nel trasferire annotazioni tra varie specie, comprese topi, api, piante e altro. Questo dimostra che LiftOn è versatile e può gestire dati genetici su un ampia gamma di organismi.

  1. Confronto tra Parentela Stretta: Confrontando geni umani con quelli degli scimpanzé, LiftOn ha mostrato di nuovo risultati eccellenti, mappando con successo la maggior parte dei geni mantenendo un'alta precisione.

  2. Confronto tra Parentela Lontana: LiftOn è stato anche in grado di gestire trasferimenti tra specie più distanti come moscerini e ratti, dimostrando le sue ottime prestazioni anche tra varianti evolutive.

Sfide nel Trasferimento di Annotazione

Anche se LiftOn mostra grandi promesse, mappare con successo le annotazioni tra genomi rimane un compito difficile. Il fattore principale che influenza il suo successo è la qualità delle annotazioni di origine. Se le annotazioni originali contengono imprecisioni, quegli errori potrebbero trasferirsi nell'output di LiftOn.

Ad esempio, alcuni geni che non erano ben caratterizzati sono stati mappati in modo errato più volte tra genomi. Questo evidenzia la necessità di controlli accurati e, se necessario, correzioni manuali dopo il processo automatico di lift-over.

Direzioni Future e Conclusione

In conclusione, LiftOn rappresenta un significativo avanzamento nel campo dell'annotazione del genoma. Unendo strategie di allineamento del DNA e delle proteine, migliora l'accuratezza della mappatura genica tra i diversi genomi. Mentre gli scienziati continuano a raccogliere e analizzare i dati genomici, strumenti come LiftOn che migliorano la nostra capacità di interpretare queste informazioni saranno cruciali.

Il futuro del sequenziamento e dell'annotazione del genoma sembra promettente, con il potenziale per strumenti e tecniche ancora più raffinate. Gli sviluppi continui in questo campo porteranno senza dubbio a comprensioni più chiare sulla genetica, la biologia evolutiva e oltre, aprendo la strada a scoperte in sanità, agricoltura e scienze ambientali.

L'integrazione di metodi come LiftOn nelle pratiche di ricerca quotidiane può dare potere agli scienziati di comprendere meglio le complessità della vita a livello molecolare, contribuendo infine ai progressi nella medicina e nella biotecnologia negli anni a venire.

Man mano che il panorama dei dati genomici continua ad espandersi, l'importanza di un'annotazione accurata ed efficiente crescerà, rendendo strumenti che facilitano questo processo indispensabili negli anni a venire.

Fonte originale

Titolo: Combining DNA and protein alignments to improve genome annotation with LiftOn

Estratto: As the number and variety of assembled genomes continues to grow, the number of annotated genomes is falling behind, particularly for eukaryotes. DNA-based mapping tools help to address this challenge, but they are only able to transfer annotation between closely-related species. Here we introduce LiftOn, a homology-based software tool that integrates DNA and protein alignments to enhance the accuracy of genome-scale annotation and to allow mapping between relatively distant species. LiftOns protein-centric algorithm considers both types of alignments, chooses optimal open reading frames, resolves overlapping gene loci, and finds additional gene copies where they exist. LiftOn can reliably transfer annotation between genomes representing members of the same species, as we demonstrate on human, mouse, honey bee, rice, and Arabidopsis thaliana. It can further map annotation effectively across species pairs as far apart as mouse and rat or Drosophila melanogaster and D. erecta.

Autori: Kuan-Hao Chao, J. M. Heinz, C. Hoh, A. Mao, M. Pertea, S. Salzberg

Ultimo aggiornamento: 2024-05-17 00:00:00

Lingua: English

URL di origine: https://www.biorxiv.org/content/10.1101/2024.05.16.593026

Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.05.16.593026.full.pdf

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili