Simple Science

Scienza all'avanguardia spiegata semplicemente

# La biologia# Biologia evolutiva

Analisi degli Indel: Idee sui modelli evolutivi

Uno studio analizza il ruolo degli indel nella evoluzione dei mammiferi e nell'allineamento delle sequenze proteiche.

― 7 leggere min


Indel nell'evoluzione:Indel nell'evoluzione:nuove intuizionimammiferi.degli indel sulla evoluzione deiLa ricerca mette in evidenza l'impatto
Indice

I genomi degli esseri viventi possono cambiare nel tempo. Un modo in cui questi cambiamenti avvengono è attraverso eventi di inserzione e Cancellazione, spesso chiamati Indels. Questi cambiamenti possono influenzare molto l'evoluzione delle specie. Oggi, grazie a metodi migliori per leggere il DNA, gli scienziati possono studiare questi indels in dettaglio.

Nelle specie strettamente correlate, ci sono molti più indels che eventi di sostituzione, che sono cambiamenti più comuni nelle sequenze. Infatti, una parte significativa del genoma umano - circa un quarto - è costituita da indels, la maggior parte dei quali è piuttosto corta. Gli indels possono verificarsi sia nelle regioni codificanti (le parti del DNA che istruiscono le cellule a produrre proteine) che in quelle non codificanti (le parti che non codificano per proteine). Tuttavia, appaiono molto più spesso nelle parti non codificanti. L'effetto che gli indels hanno sulla funzione delle proteine è generalmente più grande rispetto a quello delle sostituzioni, ecco perché sono meno comuni nelle regioni codificanti. Tuttavia, alcuni indels codificanti dannosi rimangono nella popolazione umana e possono portare a malattie.

Quando gli scienziati confrontano l'evoluzione delle sequenze tra diverse specie, segnano gli indels come gap nelle sequenze allineate. Man mano che le specie si allontanano, alcuni indels possono combinarsi e sovrapporsi, rendendo difficile tracciare la loro storia. Tuttavia, questi gap contengono informazioni cruciali per studiare l'evoluzione, purché vengano analizzati correttamente. La sfida sta nel creare modelli adatti per rappresentare come avvengono le inserzioni e le cancellazioni, e non c'è ancora uno standard ampiamente accettato in questo campo. Molti studi ignorano completamente gli indels o tagliano parti delle sequenze piene di essi. Per capire eventi individuali di inserzione e cancellazione basati sui gap in un insieme di sequenze, gli scienziati hanno bisogno di modelli evolutivi complessi che incorporino questi processi nel tempo.

Modelli Evolutivi degli Indels

I modelli tradizionali descrivono le sostituzioni (un altro tipo di cambiamento) usando strumenti che assumono che ogni sito operi in modo indipendente. Tuttavia, questo non è il caso per gli indels, poiché ogni inserzione o cancellazione può influenzare più caratteri contemporaneamente. I modelli che includono indels tendono ad essere computazionalmente impegnativi.

Il modello TKF91 è stato uno dei primi a considerare gli indels in un'altra luce, non assumendo che i siti siano indipendenti. Rappresenta indels di carattere singolo utilizzando una sorta di processo di nascita-morte. Tuttavia, TKF91 ha difficoltà con la complessità di calcolare le probabilità man mano che il numero di specie aumenta. Il modello PIP è stato introdotto come un metodo più semplice e pratico. Tratta le inserzioni come provenienti da un processo casuale, mentre le cancellazioni si inseriscono in un modello di Markov. Questo rende i calcoli gestibili, permettendo ai ricercatori di usarlo per studiare le relazioni evolutive. Tuttavia, come il modello TKF91, PIP si concentra solo sugli indels di carattere singolo, il che significa che potrebbe perdere il quadro generale quando si verificano indels più lunghi.

Esistono anche alcuni modelli più avanzati che permettono indels più lunghi, ma tendono ad essere più lenti e meno pratici per grandi set di dati. Tuttavia, il modello PIP rimane utile per studi pratici, poiché ha dimostrato di essere efficace nel mantenere l'accuratezza nell'analizzare i modelli di indels, anche se semplifica eventi più lunghi.

Obiettivi dello Studio

Usare un modello esplicito su come evolvono gli indels è utile. Tuttavia, modelli troppo semplicistici possono anche portare a problemi, come stime errate su quanto spesso si verificano gli indels. Il nostro studio si propone di verificare se l'uso dell'assunzione di carattere singolo nel modello PIP influisce negativamente su come ricostruiamo le sequenze ancestrali.

Per ottenere risultati accurati, è fondamentale partire da dati di buona qualità. Poiché la qualità degli allineamenti delle sequenze può variare, abbiamo deciso di usare PRANK, un software che allinea le sequenze considerando le loro relazioni evolutive.

In questo studio, analizziamo numerose sequenze proteiche provenienti da sei diverse specie di mammiferi per controllare eventuali bias nel modello PIP. Abbiamo scelto queste specie specifiche perché le loro relazioni sono ben conosciute, anche se la storia esatta degli indels non lo è.

Analisi dei Dati Mammiferi

Abbiamo esaminato oltre 12.000 gruppi proteici, ognuno contenente una sequenza da ciascuna delle sei specie di mammifero. Le sequenze sono state allineate e abbiamo ricostruito le sequenze ancestrali basandoci sugli allineamenti inferiti. Il nostro metodo esamina i gap in queste sequenze, consentendoci di vedere come il numero di inserzioni e cancellazioni varia tra diversi lignaggi.

Di tutti i gruppi proteici analizzati, alcuni non avevano gap, mentre altri mostravano gap significativi dovuti a indels. Abbiamo scoperto che il lignaggio umano aveva il minor numero di gap, mentre il lignaggio gorilla aveva il maggior numero, riflettendo variazioni nelle loro storie evolutive.

Abbiamo anche esaminato l'imbalance tra inserzioni e cancellazioni. Abbiamo scoperto che le cancellazioni erano generalmente più comuni tra tutte le specie, indicando un bias su come avvengono questi eventi. Interessante, mentre i lignaggi individuali avevano tassi di gap diversi, il modello generale mostrava che molti lignaggi ancestrali tendevano verso le inserzioni.

Dinamiche della Lunghezza delle Sequenze

Successivamente, abbiamo esaminato come le lunghezze delle sequenze cambiavano nel tempo tra le specie. Per vari gruppi proteici, abbiamo valutato la correlazione tra lunghezze di sequenza e le loro età evolutive. La maggior parte dei gruppi non mostrava tendenze significative, ma alcuni rivelavano modelli di sequenze in riduzione o crescita.

Inoltre, volevamo vedere se le lunghezze dei gap cambiassero nelle nostre sequenze ricostruite rispetto alle sequenze originali. L'obiettivo era assicurarci che il nostro metodo non introducesse bias troppo forti nelle lunghezze dei gap.

Quando abbiamo confrontato le distribuzioni delle lunghezze dei gap nelle sequenze ancestrali contro quelle moderne, abbiamo trovato che erano relativamente simili. Questa analisi suggeriva che il nostro metodo preservava le caratteristiche delle sequenze originali, il che è un risultato positivo.

Analisi dei Dati Simulati

Per verificare ulteriormente i nostri risultati, abbiamo usato un programma di simulazione per creare dati in condizioni controllate. Questo ci ha permesso di misurare quanto accuratamente il nostro metodo di ricostruzione funzionasse. Abbiamo impostato parametri realistici e esaminato quanto bene ARPIP potesse prevedere gap e precisione generale delle sequenze.

I risultati hanno confermato che il nostro metodo non solo identificava accuratamente la sequenza storica corretta, ma mantenendo anche una ragionevole precisione nel stimare i gap.

Contrasto con Altri Metodi

In passato, molti metodi si concentravano principalmente sull'estrazione di caratteri ignorando gli indels. Alcuni trattavano addirittura i gap come dati inaffidabili, il che poteva portare a risultati fuorvianti. A differenza di questi metodi, ARPIP cerca di ricostruire sia le inserzioni che le cancellazioni utilizzando un modello adeguato che tiene conto degli indels.

Gli attuali metodi di allineamento sono più sofisticati quando si tratta di indels lunghi. Il software PRANK, ad esempio, fa un buon lavoro nel distinguere tra inserzioni e cancellazioni, il che giova all'analisi successivamente.

Conclusione

Il nostro studio dimostra che con gli strumenti e i modelli giusti, possiamo analizzare accuratamente l'evoluzione delle sequenze con indels. Il metodo basato su PIP mostra promesse nel mantenere la struttura delle sequenze con indels lunghi. Inoltre, abbiamo confermato che le cancellazioni sono più frequenti delle inserzioni, allineandosi con osservazioni di vari studi in biologia evolutiva.

Le future ricerche dovrebbero concentrarsi su ulteriori affinamenti dei modelli per capire meglio come differiscono le lunghezze degli indels e migliorare l'accuratezza delle ricostruzioni delle sequenze ancestrali. Continuando a sviluppare metodi che catturano le complessità della storia evolutiva, possiamo migliorare la nostra comprensione della diversità genetica che vediamo oggi.

Fonte originale

Titolo: Single-character insertion-deletion model preserves long indels in ancestral sequence reconstruction

Estratto: Insertions and deletions (indels) play a significant role in genome evolution across species. Realistic modelling of indel evolution is challenging and is still an open research question. Several attempts have been made to explicitly model multi-character (long) indels, such as TKF92, by relaxing the site independence assumption and introducing fragments. However, these methods are computationally expensive On the other hand, the Poisson Indel Process (PIP) assumes site independence but allows one to infer single-character indels on the phylogenetic tree, distinguishing insertions from deletions. PIPs marginal likelihood computation has linear time complexity, enabling ancestral sequence reconstruction (ASR) with indels in linear time. Recently, we developed ARPIP, an ASR method using PIP, capable of inferring indel events with explicit evolutionary interpretations Here, we investigate the effect of the single-character indel assumption on reconstructed ancestral sequences on mammalian protein orthologs and on simulated data. We show that ARPIPs ancestral estimates preserve the gap length distribution observed in the input alignment. In mammalian proteins the lengths of inserted segments appear to be substantially longer compared to deleted segments. Further, we confirm the well-established deletion bias observed in real data To date, ARPIP is the only ancestral reconstruction method that explicitly models insertion and deletion events over time. Given a good quality input alignment, it can capture ancestral long indel events on the phylogeny

Autori: Gholamhossein Jowkar, J. Pecerska, M. Gil, M. Anisimova

Ultimo aggiornamento: 2024-03-27 00:00:00

Lingua: English

URL di origine: https://www.biorxiv.org/content/10.1101/2024.03.09.584071

Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.03.09.584071.full.pdf

Licenza: https://creativecommons.org/licenses/by-nc/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili