Nuovi Metodi in Biologia Evolutiva: Strutture Proteiche vs. Sequenze di DNA
I ricercatori esplorano le strutture proteiche per capire meglio le relazioni evolutive.
Giacomo Mutti, Eduard Ocaña-Pallarès, Toni Gabaldón
― 5 leggere min
Indice
Nel mondo della biologia, gli scienziati cercano sempre di capire come i diversi esseri viventi siano collegati tra loro. È come risolvere un enorme albero genealogico, ma invece di zii e zie, parliamo di tutte le varie creature, dai batteri microscopici alle gigantesche balene blu. Man mano che i ricercatori raccolgono più informazioni sui genomi delle diverse specie, possono porre domande più complicate su come la vita si sia evoluta nel tempo. Tuttavia, ci sono alcune sfide quando si tratta di utilizzare metodi tradizionali per mappare queste relazioni, specialmente quando gli organismi sono molto diversi tra loro.
Le Sfide dei Metodi Tradizionali
I metodi tradizionali per studiare le relazioni tra le specie spesso si basano sull’analisi del loro DNA o delle sequenze proteiche. Queste sequenze possono mostrare quanto siano strettamente correlate le diverse specie. Ma ecco il punto: quando le sequenze sono troppo diverse, diventa difficile vedere una connessione chiara. È come cercare di capire se due quadri provengono dallo stesso artista quando uno è un pezzo moderno e l'altro un capolavoro antico – difficile, giusto?
Per superare questo problema, gli scienziati hanno iniziato a pensare fuori dagli schemi e hanno considerato di usare le forme delle proteine invece delle sole sequenze. L’idea è che le Strutture Proteiche possano cambiare più lentamente rispetto alle sequenze, rendendole potenzialmente migliori indicatori di come le specie diverse siano collegate. Tuttavia, non ci sono molte strutture proteiche disponibili per studi su larga scala, il che ha rappresentato un po’ un ostacolo.
Un Cambiamento di Gioco: AlphaFold2
Poi è arrivato un cambiamento di gioco: AlphaFold2. Questo nuovo strumento ha reso molto più facile prevedere le strutture proteiche, aprendo nuove porte nello studio della biologia. I ricercatori ora possono esaminare le strutture proteiche in molte specie diverse a una scala che prima sembrava impossibile. Con questo avanzamento, sono emersi nuovi strumenti software, tra cui Foldseek, che aiuta gli scienziati ad allineare rapidamente ed efficientemente le strutture proteiche.
Il Potere delle Strutture Proteiche
Con l’arrivo di Foldseek e strumenti simili, i ricercatori stanno cercando di vedere quanto bene possono utilizzare queste strutture proteiche per determinare le relazioni tra i geni umani e quelli di altre specie. Facendo ciò, intendono creare un ‘filoma umano’, che è un po’ come un albero genealogico che mostra tutte le diverse versioni di geni negli esseri umani e come si relazionano con i geni di altri esseri viventi.
Il processo inizia selezionando un gruppo di specie eucariotiche diverse, cioè organismi con cellule complesse. I ricercatori raccolgono le strutture proteiche da un database speciale e si assicurano che le strutture siano affidabili eliminando quelle che non soddisfano uno standard di qualità. Dopo di che, confrontano le proteine umane con quelle delle specie selezionate utilizzando sia metodi tradizionali basati su sequenze che i nuovi metodi basati su strutture.
Comprendere i Risultati
Nel cercare corrispondenze, i ricercatori hanno utilizzato due metodi principali: BLASTP, che è lo strumento tradizionale per il confronto delle sequenze, e Foldseek, che confronta le strutture proteiche. Sorprendentemente, hanno scoperto che non tutte le corrispondenze erano le stesse. Solo una piccola parte delle coppie trovate da entrambi i metodi era la stessa, indicando una grande differenza tra i due approcci. Mentre BlastP trovava molte corrispondenze uniche, Foldseek rivelava anche alcune connessioni interessanti nella cosiddetta ‘zona crepuscolare’ della somiglianza genetica, dove le sequenze sono troppo diverse per essere confrontate facilmente.
Questa ricerca ha dimostrato che, mentre Foldseek potrebbe essere eccellente nel identificare parenti lontani che le sequenze non riescono a trovare, sembra anche trascurare alcune relazioni consolidate che BlastP trova facilmente. È come trovare un cugino perduto in una parte lontana del mondo, mentre ti rendi conto di aver perso la riunione di famiglia in fondo alla strada.
Quale Metodo Funziona Meglio?
Ora che i ricercatori avevano entrambi i metodi in gioco, dovevano vedere quale dei due producesse risultati migliori nella costruzione degli alberi genealogici, noti come filogenie. Hanno usato vari modi per valutare quanto fossero accurati i loro alberi, verificando cose come quanto si allineavano con i raggruppamenti di specie conosciuti.
A quanto pare, i metodi basati su sequenze hanno costantemente ottenuto risultati migliori rispetto a quelli basati su strutture in quasi tutti gli scenari testati. Questo suggerisce che, sebbene le strutture proteiche abbiano le loro utilità, le sequenze di DNA detengono ancora la chiave per tracciare accuratamente le relazioni evolutive.
La Morale
Quindi, qual è la conclusione? Mentre l’uso delle strutture proteiche offre nuove intuizioni sull’evoluzione, non supera ancora i metodi tradizionali. L’esplorazione delle strutture proteiche è entusiasmante e ha aperto nuove strade per la ricerca, ma sembra che ci sia ancora margine di miglioramento nei metodi basati sulle strutture.
Un Ultimo Pensiero Divertente
Se le proteine fossero persone a una festa, alcune sarebbero brave a socializzare e a creare connessioni (come BlastP). Altre potrebbero essere un po’ eccentriche e collegarsi solo con parenti lontani (ciao, Foldseek). Ma insieme, potrebbero organizzare una fantastica riunione evolutiva se giocano bene le loro carte!
Titolo: Newly developed structure-based methods do not outperform standard sequence-based methods for large-scale phylogenomics
Estratto: Recent developments in protein structure prediction have allowed the use of this previously limited source of information at genome-wide scales. It has been proposed that the use of structural information may offer advantages over sequences in phylogenetic reconstruction, due to their slower rate of evolution and direct correlation to function. Here, we examined how recently developed methods for structure-based homology search and tree reconstruction compare to current state-of-the-art sequence-based methods in reconstructing genome-wide collections of gene phylogenies (i.e. phylomes). While structure-based methods can be useful in specific scenarios, we found that their current performance does not justify using the newly developed structured-based methods as a default choice in large-scale phylogenetic studies. On the one hand, the best performing sequence-based tree reconstruction methods still outperform structure-based methods for this task. On the other hand, structure-based homology detection methods provide larger lists of candidate homologs, as previously reported. However, this comes at the expense of missing hits identified by sequence-based methods, as well as providing homolog candidate sets with higher fractions of false positives. These insights help guide the use of structural data in comparative genomics and highlight the need to continue improving structure-based approaches. Our pipeline is fully reproducible and has been implemented in a snakemake workflow. This will facilitate a continuous assessment of future improvements of structure-based tools in the Alphafold era.
Autori: Giacomo Mutti, Eduard Ocaña-Pallarès, Toni Gabaldón
Ultimo aggiornamento: Dec 20, 2024
Lingua: English
URL di origine: https://www.biorxiv.org/content/10.1101/2024.08.02.606352
Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.08.02.606352.full.pdf
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.