Impatto della filogenesi sulla funzionalità delle proteine
Questa ricerca analizza come la storia evolutiva influisce sui settori proteici e sugli effetti delle mutazioni.
― 7 leggere min
Negli ultimi anni, gli scienziati hanno fatto grandi passi avanti nello studio di geni e proteine. Questo progresso è dovuto principalmente al numero crescente di sequenze genomiche disponibili e ai metodi migliorati per analizzare i dati biologici. Questi metodi vanno dai modelli comprensibili basati sulla fisica e la teoria dell'informazione a modelli complessi di deep learning. Un'area chiave di questa ricerca è l'analisi degli allineamenti multipli di sequenze (MSAs) di proteine che hanno un antenato comune.
Le MSAs aiutano gli scienziati a capire come si relazionano tra loro diverse proteine, che appartengono alla stessa famiglia e hanno funzioni simili. Un aspetto interessante di queste sequenze è che le colonne, che rappresentano i siti in cui si trovano gli amminoacidi, mostrano modelli su come vengono utilizzati. Ci sono correlazioni a coppie, il che significa che certi amminoacidi tendono ad essere usati insieme perché interagiscono tra loro nella struttura tridimensionale della proteina. I ricercatori hanno studiato a fondo queste interazioni.
Le analisi statistiche di questi allineamenti hanno dimostrato che ci sono gruppi di amminoacidi che lavorano insieme, noti come Settori. Questi settori hanno spesso un ruolo funzionale specifico e si trovano generalmente vicini nella struttura della proteina. Mantenendo queste correlazioni a coppie, i ricercatori sono riusciti a progettare nuove sequenze proteiche con funzioni particolari. L'approccio noto come Analisi di Accoppiamento Statistico (SCA) aiuta a identificare questi settori esaminando le relazioni e la conservazione tra i siti nelle sequenze.
Importanza della Filogenesi
Poiché le proteine nelle MSAs condividono un'ascendenza comune, hanno anche correlazioni che derivano dalla filogenesi, che si riferisce alla storia evolutiva di queste sequenze. Queste correlazioni possono esistere anche se tutte le modifiche nelle sequenze sono neutrali, il che significa che non influenzano la funzione della proteina. Tuttavia, questi legami evolutivi possono complicare l'analisi dei contatti strutturali dai dati delle sequenze, spingendo i ricercatori a sviluppare correzioni empiriche per minimizzarne l'impatto.
Separare le correlazioni filogenetiche dalle correlazioni funzionali, come quelle presenti nei settori, è una sfida considerevole. L'impatto della filogenesi è significativo, in particolare sulla matrice di covarianza derivata dall'MSA, che è centrale per identificare i settori. Questa matrice riflette le relazioni tra i diversi siti nelle sequenze, e i modelli di grande valore autovalore corrispondono ai settori identificati dalla SCA.
Indagare l'Impatto Filogenetico
In questa ricerca, esploriamo come le relazioni ancestrali influenzino l'identificazione dei settori funzionali e gli Effetti Mutazionali dai dati delle sequenze proteiche. Separare completamente queste correlazioni è difficile, quindi proponiamo di utilizzare un modello semplificato che incorpora sia la filogenesi che i settori funzionali. Questo consente di generare dati sintetici con livelli controllati sia di influenza filogenetica che di vincoli funzionali. Analizzando questi dati, possiamo misurare come le correlazioni filogenetiche influenzino l'identificazione dei settori e l'inferenza degli effetti mutazionali utilizzando SCA e altri metodi.
I nostri risultati indicano che il metodo noto come ICOD, progettato per concentrarsi sulle correlazioni minimizzando i segnali di conservazione, è il più resiliente agli effetti della filogenesi. Anche la conservazione, un altro metodo per valutare l'importanza funzionale, mostra robustezza. Applichiamo quindi la nostra analisi a 30 famiglie proteiche naturali per cui sono disponibili dati sperimentali sugli effetti mutazionali, dimostrando l'efficacia sia di ICOD che della conservazione nell'identificare siti funzionalmente significativi.
Un Modello Minimo per l'Analisi
Per comprendere meglio il fenomeno dei settori funzionali e della filogenesi nelle sequenze, stabiliremo un modello minimo. In questo modello, ogni sito in una sequenza può assumere uno dei due stati. Anche se il modello potrebbe essere ampliato per riflettere i 20 amminoacidi presenti in natura, semplificarlo a due stati conserva caratteristiche essenziali per la nostra analisi. Ci concentriamo su una caratteristica specifica che corrisponde a una proprietà fisica legata alla funzione di una proteina.
Questo modello assume che la caratteristica sia additiva, il che significa che ogni sito contribuisce in modo indipendente alla caratteristica complessiva. Esaminiamo come la selezione su una caratteristica obiettivo porti all'emergere di settori, o gruppi di amminoacidi correlati nei loro effetti su questa caratteristica. Il modello ci consente di simulare efficacemente le pressioni selettive e le mutazioni che agiscono su queste sequenze.
Processo di Generazione dei Dati
Il processo inizia con la generazione di sequenze di equilibrio indipendenti basate esclusivamente sulla selezione. Utilizzando un algoritmo Monte Carlo, le sequenze evolvono accettando un numero predeterminato di mutazioni. Le sequenze risultanti catturano le correlazioni derivanti dalla selezione sulla caratteristica.
Per incorporare le correlazioni filogenetiche, prendiamo una sequenza di equilibrio e la facciamo evolvere lungo un albero di ramificazione binaria per diverse generazioni. Questo metodo introduce relazioni evolutive nelle sequenze, portando a un set di dati più complesso che include sia segnali filogenetici che di selezione.
Metodi per Identificare i Settori
Due approcci principali per identificare i settori nei dati delle sequenze sono discussi: SCA e ICOD. La SCA rileva gruppi di siti correlati e conservati esaminando la matrice di covarianza delle sequenze. Al contrario, ICOD si concentra su autovettori di grande valore autovalore della matrice di covarianza inversa, eliminando i segnali di conservazione. Le diverse metodologie consentono una comprensione sfumata su come identificare siti funzionali importanti in una sequenza.
Impatto della Selezione e della Filogenesi
Lo studio di ICOD e delle Matrici di Covarianza mostra che un settore dà origine a modelli di autovalore distinti in assenza di rumore filogenetico. Tuttavia, quando si introduce la filogenesi, i segnali risultanti diventano più complessi. Nonostante questa complessità, le principali caratteristiche del segnale di selezione rimangono rilevabili all'interno dei più grandi autovalori della matrice ICOD.
La SCA identifica anche autovalori influenzati dalla selezione, ma questi outlier sono meno pronunciati in presenza di forti correlazioni filogenetiche. Concludiamo che il metodo ICOD offre un modo affidabile per discernere i segnali funzionali anche con la complessità aggiuntiva della storia evolutiva.
Recupero degli Effetti Mutazionali
Per valutare quanto bene questi metodi catturano informazioni sugli effetti mutazionali, valutiamo i punteggi di recupero. Il punteggio di recupero misura quanto da vicino gli effetti previsti si allineano con le conseguenze mutazionali effettive. Sia ICOD che la conservazione dimostrano efficacia nel recuperare effetti mutazionali sotto varie condizioni filogenetiche, superando metodi come la SCA quando le correlazioni filogenetiche sono forti.
Impatto dei Parametri di Selezione
Anche il valore della caratteristica preferita gioca un ruolo cruciale nelle prestazioni di recupero. Man mano che aggiustiamo questo parametro, osserviamo che ICOD mantiene buoni punteggi di recupero su una gamma di valori. Al contrario, i metodi di covarianza tendono ad essere meno stabili, in particolare a valori più elevati della caratteristica. I nostri risultati suggeriscono che la robustezza di ICOD e della conservazione contribuisce alla loro efficacia nell'identificare siti funzionali importanti.
Identificare Siti Importanti nei Dati Naturali
Per convalidare i metodi rispetto ai dati reali, analizziamo famiglie proteiche con risultati di scansione mutazionale profonda (DMS) pubblicati. Gli esperimenti DMS forniscono informazioni sugli effetti di fitness delle mutazioni all'interno delle sequenze. Confrontando le previsioni effettuate utilizzando ICOD e altri metodi con i risultati DMS effettivi, valutiamo quanto bene queste tecniche identificano effetti mutazionali chiave.
L'analisi conferma che sia ICOD che la conservazione eccellono nel prevedere siti importanti nelle famiglie proteiche. Ogni metodo cattura segnali distinti, suggerendo che potrebbero completarsi a vicenda nel rivelare l'importanza funzionale.
Conclusione
In sintesi, questa ricerca fornisce preziose intuizioni sull'impatto della filogenesi e della selezione funzionale sull'inferenza dei settori e degli effetti mutazionali nelle sequenze proteiche. Attraverso l'uso di modelli sintetici e dati naturali, troviamo che il metodo ICOD identifica efficacemente i settori funzionali rimanendo robusto al rumore filogenetico. Inoltre, la nostra analisi mette in evidenza il ruolo significativo che la conservazione gioca nella previsione di siti importanti. Andando avanti, il nostro lavoro apre vie per ulteriori indagini sul legame intricato tra storia evolutiva e funzionalità proteica.
Titolo: Impact of phylogeny on the inference of functional sectors from protein sequence data
Estratto: Statistical analysis of multiple sequence alignments of homologous proteins has revealed groups of coevolving amino acids called sectors. These groups of amino-acid sites feature collective correlations in their amino-acid usage, and they are associated to functional properties. Modeling showed that nonlinear selection on an additive functional trait of a protein is generically expected to give rise to a functional sector. These modeling results motivated a principled method, called ICOD, which is designed to identify functional sectors, as well as mutational effects, from sequence data. However, a challenge for all methods aiming to identify sectors from multiple sequence alignments is that correlations in amino-acid usage can also arise from the mere fact that homologous sequences share common ancestry, i.e. from phylogeny. Here, we generate controlled synthetic data from a minimal model comprising both phylogeny and functional sectors. We use this data to dissect the impact of phylogeny on sector identification and on mutational effect inference by different methods. We find that ICOD is most robust to phylogeny, but that conservation is also quite robust. Next, we consider natural multiple sequence alignments of protein families for which deep mutational scan experimental data is available. We show that in this natural data, conservation and ICOD best identify sites with strong functional roles, in agreement with our results on synthetic data. Importantly, these two methods have different premises, since they respectively focus on conservation and on correlations. Thus, their joint use can reveal complementary information. Author SummaryProteins perform crucial functions in the cell. The biological function of a protein is encoded in its amino-acid sequence. Natural selection acts at the level of function, while mutations arise randomly on sequences. In alignments of sequences of homologous proteins, which share common ancestry and common function, the amino acid usages at different sites can be correlated due to functional constraints. In particular, groups of collectively correlated amino acids, termed sectors, tend to emerge due to selection on functional traits. However, correlations can also arise from the shared evolutionary history of homologous proteins, even without functional constraints. This may obscure the inference of functional sectors. By analyzing controlled synthetic data as well as natural protein sequence data, we show that two very different methods allow to identify sectors and mutational effects in a way that is most robust to phylogeny. We suggest that considering both of these methods allows a better identification of functionally important sites from protein sequences. These results have potential impact on the design of new functional sequences.
Autori: Anne-Florence Bitbol, N. Dietler, A. Abbara, S. Choudhury
Ultimo aggiornamento: 2024-09-11 00:00:00
Lingua: English
URL di origine: https://www.biorxiv.org/content/10.1101/2024.04.22.590511
Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.04.22.590511.full.pdf
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.