Simple Science

La science de pointe expliquée simplement

# Biologie # Bioinformatique

Nouvelles méthodes en biologie évolutive : structures protéiques vs. séquences d'ADN

Des chercheurs étudient les structures des protéines pour mieux comprendre les relations évolutives.

Giacomo Mutti, Eduard Ocaña-Pallarès, Toni Gabaldón

― 6 min lire


Structures protéiques Structures protéiques dans l'étude évolutive l'évolution. séquences d'ADN pour des infos sur Comparer les formes de protéines et les
Table des matières

Dans le monde de la biologie, les scientifiques essaient toujours de comprendre comment les différentes espèces vivantes sont liées entre elles. C'est un peu comme résoudre un énorme arbre généalogique, mais au lieu de parler de ton oncle et ta tante, on parle de toutes sortes de créatures vivantes, des petites bactéries aux grandes baleines bleues. Au fur et à mesure que les chercheurs rassemblent plus d'infos sur les génomes de différentes espèces, ils peuvent poser des questions plus complexes sur l'évolution de la vie au fil du temps. Cependant, il y a des défis avec les méthodes traditionnelles pour cartographier ces relations, surtout quand les organismes sont très différents les uns des autres.

Les Défis des Méthodes Traditionnelles

Les méthodes traditionnelles pour étudier les relations entre les espèces reposent souvent sur l'analyse de leur ADN ou de leurs séquences de protéines. Ces séquences peuvent montrer à quel point les espèces sont liées. Mais voilà le hic : quand les séquences sont trop différentes, c'est dur de voir une connexion claire. C'est comme essayer de dire si deux tableaux viennent du même artiste quand l'un est moderne et l'autre une œuvre ancienne – pas évident, non ?

Pour contourner ce problème, les scientifiques ont commencé à penser différemment et à envisager d'utiliser les formes des protéines au lieu de juste leurs séquences. L'idée, c'est que les structures des protéines pourraient changer plus lentement que les séquences, ce qui en fait des indicateurs potentiellement meilleurs de la façon dont les espèces sont liées. Cependant, il n'y a pas beaucoup de Structures de protéines disponibles pour des études à grande échelle, ce qui pose un problème.

Un Changement de Jeu : AlphaFold2

Puis est arrivé un vrai changement : AlphaFold2. Cet outil a rendu beaucoup plus facile la prédiction des structures de protéines, et ça a ouvert de nouvelles portes dans l'étude de la biologie. Les chercheurs peuvent maintenant examiner les structures de protéines à travers de nombreuses espèces différentes à une échelle qui était auparavant jugée impossible. Avec cette avancée, de nouveaux outils logiciels ont vu le jour, comme Foldseek, qui aide les scientifiques à aligner rapidement et efficacement les structures de protéines.

La Puissance des Structures de Protéines

Avec l'arrivée de Foldseek et d'outils similaires, les chercheurs cherchent à voir à quel point ils peuvent utiliser ces structures de protéines pour déterminer les relations entre les gènes humains et ceux d'autres espèces. En faisant cela, ils espèrent créer un ‘phylome humain’, qui est un peu comme un arbre généalogique montrant toutes les différentes versions des gènes chez les humains et comment ils se rapportent aux gènes d'autres êtres vivants.

Le processus commence par la sélection d'une série d'espèces eucaryotes, qui sont des organismes avec des cellules complexes. Les chercheurs rassemblent des structures de protéines d'une base de données spéciale et s'assurent que les structures sont fiables en éliminant celles qui ne respectent pas un certain standard de qualité. Ensuite, ils comparent les protéines humaines à celles d'espèces sélectionnées en utilisant à la fois des méthodes traditionnelles basées sur les séquences et les nouvelles méthodes basées sur les structures.

Comprendre les Résultats

En cherchant des correspondances, les chercheurs ont utilisé deux méthodes principales : BLASTP, qui est l'outil traditionnel de comparaison de séquences, et Foldseek, qui compare les structures de protéines. Étonnamment, ils ont découvert que toutes les correspondances n'étaient pas les mêmes. Une petite partie des paires trouvées par les deux méthodes était identique, ce qui indique une grande différence entre la façon dont les deux approches fonctionnent. Alors que BlastP a trouvé beaucoup de correspondances uniques, Foldseek a aussi découvert des connexions intéressantes dans ce qu'on appelle la ‘zone crépusculaire’ de similarité génétique, où les séquences sont trop différentes pour être facilement comparées.

Cette recherche a montré que même si Foldseek pourrait être génial pour identifier des parents éloignés que les séquences manquent, il semble aussi passer à côté de certaines relations établies que BlastP trouve facilement. C’est comme retrouver un cousin perdu au bout du monde tout en réalisant que tu as raté la réunion de famille juste au bout de la rue.

Quelle Méthode Fonctionne Mieux ?

Maintenant que les chercheurs avaient les deux méthodes à disposition, ils devaient voir laquelle donnait de meilleurs résultats pour construire des arbres généalogiques, appelés phylogénies. Ils ont utilisé divers moyens pour évaluer l’exactitude de leurs arbres, en regardant comment ils s’alignaient avec les regroupements d’espèces connus.

Finalement, les méthodes basées sur les séquences ont systématiquement mieux fonctionné que celles basées sur les structures dans presque tous les scénarios testés. Cela suggère que, bien que les structures de protéines aient leurs utilisations, les séquences ADN restent la clé pour retracer avec précision les relations évolutives.

En Résumé

Alors, quel est le bilan ? Bien que l'utilisation des structures de protéines offre de nouvelles perspectives sur l'évolution, ça ne surpasse pas encore les méthodes traditionnelles. L'exploration des structures de protéines est excitante et a ouvert de nouvelles voies pour la recherche, mais il semble qu'il y ait encore de la place pour l'amélioration des méthodes basées sur les structures.

Une Dernière Pensée Drôle

Si les protéines étaient des gens à une fête, certaines seraient super à l'aise pour faire des connexions (comme BlastP). D'autres pourraient être un peu décalées et ne se lier qu'avec des parents éloignés (salut, Foldseek). Mais ensemble, elles pourraient organiser une fantastique réunion évolutive si elles jouent bien leurs cartes !

Source originale

Titre: Newly developed structure-based methods do not outperform standard sequence-based methods for large-scale phylogenomics

Résumé: Recent developments in protein structure prediction have allowed the use of this previously limited source of information at genome-wide scales. It has been proposed that the use of structural information may offer advantages over sequences in phylogenetic reconstruction, due to their slower rate of evolution and direct correlation to function. Here, we examined how recently developed methods for structure-based homology search and tree reconstruction compare to current state-of-the-art sequence-based methods in reconstructing genome-wide collections of gene phylogenies (i.e. phylomes). While structure-based methods can be useful in specific scenarios, we found that their current performance does not justify using the newly developed structured-based methods as a default choice in large-scale phylogenetic studies. On the one hand, the best performing sequence-based tree reconstruction methods still outperform structure-based methods for this task. On the other hand, structure-based homology detection methods provide larger lists of candidate homologs, as previously reported. However, this comes at the expense of missing hits identified by sequence-based methods, as well as providing homolog candidate sets with higher fractions of false positives. These insights help guide the use of structural data in comparative genomics and highlight the need to continue improving structure-based approaches. Our pipeline is fully reproducible and has been implemented in a snakemake workflow. This will facilitate a continuous assessment of future improvements of structure-based tools in the Alphafold era.

Auteurs: Giacomo Mutti, Eduard Ocaña-Pallarès, Toni Gabaldón

Dernière mise à jour: Dec 20, 2024

Langue: English

Source URL: https://www.biorxiv.org/content/10.1101/2024.08.02.606352

Source PDF: https://www.biorxiv.org/content/10.1101/2024.08.02.606352.full.pdf

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.

Articles similaires