Découvrir le rôle des petites protéines chez les bactéries
Des recherches montrent l'importance des petites protéines dans le fonctionnement et l'évolution des bactéries.
― 10 min lire
Table des matières
- Le Rôle des Microbiomes dans l'Identification des Petites Protéines
- Comprendre les Séquences Intergéniques
- Pipeline pour Identifier les Petites Trames de Lecture Ouvertes
- Prédictions à Partir des Régions Intergéniques
- Analyser les Familles de Microprotéines
- Prédiction du Potentiel de Codage
- Familles de Microprotéines Prédites
- Preuves de Transcription et de Traduction
- Caractéristiques et Prédictions des Microprotéines
- Interactions des Microprotéines dans la Réponse au Stress
- Conclusion : Une Ressource pour Comprendre les Microprotéomes Bactériens
- Limitations de la Recherche
- Dernières Réflexions
- Source originale
- Liens de référence
Les petites trames de lecture ouvertes, ou smORFs, sont de petits segments de code génétique capables de produire des protéines, généralement plus petites que 100 acides aminés chez les eucaryotes et plus courtes que 50 à 70 chez les procaryotes. Ces minuscules protéines, souvent appelées microprotéines, restent largement inexplorées et ne sont pas bien comprises chez la plupart des organismes.
Des recherches ont montré que les smORFs traduits existent à divers endroits dans les génomes de différents organismes. Pourtant, beaucoup de leurs rôles biologiques ne sont pas clairs. Ils sont souvent difficiles à distinguer du bruit aléatoire dans la traduction. Malgré cela, certaines études ont caractérisé quelques microprotéines chez différents êtres vivants, comme les animaux, les plantes, les champignons et les bactéries.
Un effort récent d'une communauté de recherche a abouti à la création d'un catalogue contenant plus de 7 000 smORFs humains qui ont été validés. Cela souligne l'importance de comprendre les petites protéines dans le contexte plus large de la biologie.
Le Rôle des Microbiomes dans l'Identification des Petites Protéines
Les études sur les microbiomes ont révélé des dizaines de milliers de petites protéines chez les bactéries. Dans les génomes procaryotes, il existe des segments appelés smORFs intergéniques (ismORFs) qui pourraient être une source importante de nouvelles protéines issues de sections non codantes de l'ADN. Ces protéines pourraient être impliquées dans diverses fonctions cellulaires, bien que les études systématiques axées sur les ismORFs procaryotes aient été limitées.
L'idée de la naissance de gènes de novo, où de nouveaux gènes apparaissent de rien, est considérée comme un facteur clé dans le développement des microprotéines. La plupart des microprotéines issues des smORFs semblent être relativement jeunes en termes d'évolution. Les chercheurs ont exploré ces processus chez diverses espèces, y compris les humains et les plantes, mais il n'y a pas de compréhension complète de la manière dont la naissance et la perte de gènes impactent la dynamique des microprotéines, surtout chez les bactéries.
Dans cette recherche, les scientifiques ont analysé des millions d'ismORFs qui mesurent plus de 15 acides aminés dans les génomes bactériens, notamment ceux de la famille des Enterobacteriaceae. Ils ont caractérisé ces microprotéines bactériennes cachées et évalué comment ces petites protéines pourraient interagir avec des protéines plus grandes et fonctionnellement établies.
Comprendre les Séquences Intergéniques
Les séquences intergéniques, ou régions entre les gènes, sont généralement courtes et riches en adénine et thymine. Les microprotéines jeunes codées par les smORFs se trouvent souvent dans des territoires inexplorés des génomes bactériens. Par conséquent, les chercheurs se sont concentrés sur les régions intergéniques comme une source potentielle de petites protéines encore inconnues et de nouveaux gènes.
Dans leur étude, ils ont extrait des séquences intergéniques de 5668 génomes bactériens appartenant à 23 genres de la famille Enterobacteriaceae. Au total, plus de 17 millions de séquences intergéniques ont été sélectionnées pour analyse. Ces séquences intergéniques avaient une longueur moyenne d'environ 200 nucléotides, indiquant qu'elles sont suffisamment longues pour abriter de nombreuses microprotéines, mais pas des protéines plus grandes.
Pipeline pour Identifier les Petites Trames de Lecture Ouvertes
Pour identifier et analyser les ismORFs, l'étude a utilisé une approche systématique. Plus de 17 millions de séquences intergéniques des genres bactériens sélectionnés ont été utilisées pour prédire les ismORFs. Les microprotéines prédites ont ensuite été regroupées en près d'un million de clusters basés sur des similarités dans leurs séquences.
L'étude a calculé le contenu en GC des séquences codantes dans les 23 genres, notant une large variation des niveaux de GC entre les espèces. Elle a constaté que le contenu en AT dans les séquences intergéniques était systématiquement plus élevé que dans les séquences codantes. Cette composition de base influence les caractéristiques des microprotéines, car ces séquences favorisent la création de microprotéines hydrophobes.
Prédictions à Partir des Régions Intergéniques
L'étude a établi un seuil de taille de 40 acides aminés pour l'inclusion des protéines dans les bases de données. Cependant, même les minuscules protéines bactériennes de seulement 15 acides aminés peuvent être fonctionnelles. Au total, les chercheurs ont identifié environ 45 millions d'ismORFs bactériens mesurant entre 15 et 70 codons de long. Ils ont qualifié ces protéines hypothétiques de microprotéines.
Ils ont évalué la longueur moyenne de ces microprotéines et ont constaté qu'elles étaient généralement plus courtes que la longueur moyenne des petites protéines déjà cataloguées dans les bases de données. Cela a suggéré que les prédictions faites pour les microprotéines étaient valides, bien que des protéines plus longues soient plus courantes dans les bases de données existantes.
Analyser les Familles de Microprotéines
Des recherches passées suggèrent que les génomes peuvent contenir divers types de microprotéines potentiellement traduites. Pour différencier les ismORFs aléatoires et ceux susceptibles de coder pour des protéines, l'étude a examiné les signatures de sélection évolutives comme indicateurs de microprotéines fonctionnelles.
En utilisant une série de méthodes, ils ont attribué des scores évolutifs aux ismORFs. Les chercheurs ont découvert plusieurs clusters de ces microprotéines prédites, ce qui indique qu'un nombre significatif d'entre elles pourrait réellement coder pour des protéines en adéquation avec les fonctions observées dans des protéines plus grandes.
Prédiction du Potentiel de Codage
L'étude a utilisé deux outils informatiques pour prédire quels ismORFs codent des microprotéines. Le premier outil, RNAcode, a identifié environ 3 % des clusters de microprotéines comme étant codants, mais cette méthode avait un taux élevé de faux négatifs. Pour améliorer cela, les chercheurs ont aussi développé une approche alternative appelée EvolScore, qui se basait sur le calcul soigné de diverses métriques évolutives.
Les résultats ont montré un chevauchement significatif entre les microprotéines prédites comme codantes en utilisant les deux méthodes, permettant aux chercheurs de compiler un ensemble de données plus complet de microprotéines potentiellement codantes.
Familles de Microprotéines Prédites
Les chercheurs ont utilisé des taux évolutifs pour évaluer la dynamique et la conservation de ces petites protéines dans les génomes. Les données suggèrent que de nombreuses microprotéines ont subi une sélection purificatrice, tandis que d'autres montrent des signes de sélection positive. Cela indique la possibilité que certaines microprotéines puissent développer des fonctions au fil du temps.
Pour analyser la conservation des microprotéines, les chercheurs ont cherché à déterminer combien d'entre elles occupaient les mêmes positions génétiques à travers différentes souches. En identifiant des régions synteniques, ils ont évalué à quelle fréquence ces ismORFs maintenaient une consistance à travers différents génomes, concluant que la plupart d'entre elles étaient probablement spécifiques à une lignée.
Preuves de Transcription et de Traduction
La recherche a aussi examiné les données de séquençage RNA disponibles pour chercher des preuves de transcription pour ces ismORFs. Une majorité des ismORFs identifiés a montré un certain niveau d'activité transcriptionnelle, qui était globalement trouvée être significativement plus basse que celle des gènes annotés.
En vérifiant la traduction, les chercheurs se sont tournés vers des expériences de profilage des ribosomes. Ils ont découvert qu'un pourcentage plus petit des ismORFs montrait des signes de traduction comparé aux petites protéines annotées. Cela a soulevé des questions sur la fonctionnalité et la régulation de ces petites protéines.
Caractéristiques et Prédictions des Microprotéines
Les résultats ont montré que beaucoup des microprotéines prédites étaient hydrophobes et affichaient peu de caractéristiques fonctionnelles connues. Ils ont effectué des prédictions structurelles pour évaluer les formes physiques que ces microprotéines pourraient prendre.
AlphaFold2, un outil pour prédire les structures protéiques, a été utilisé pour comprendre comment ces microprotéines pourraient se plier ou interagir. La plupart des microprotéines prédites présentaient des structures simples, souvent composées principalement d'hélices alpha, tandis que certaines avaient des plis plus complexes.
Interactions des Microprotéines dans la Réponse au Stress
L'étude a analysé comment les microprotéines pourraient réagir aux conditions environnementales changeantes, notamment le stress. En examinant les données de différentes souches de bactéries sous diverses conditions de stress, ils ont identifié de nombreux ismORFs qui présentaient une expression différentielle dans de telles circonstances.
Cela a conduit à l'hypothèse que les microprotéines pourraient jouer des rôles cruciaux durant les périodes de stress en interagissant avec des complexes protéiques plus grands. Les interactions entre les microprotéines et les plus grandes protéines ont été simulées de manière computationnelle pour prédire les rôles coopératifs qu'elles pourraient jouer.
Conclusion : Une Ressource pour Comprendre les Microprotéomes Bactériens
Ce travail met en lumière un domaine de la génétique jusqu'alors sous-estimé en explorant les microprotéomes des bactéries. Les résultats suggèrent un paysage dynamique de petites protéines qui pourraient évoluer rapidement et potentiellement remplir des fonctions essentielles dans les processus cellulaires.
Les données recueillies fournissent une ressource solide pour des études futures, permettant aux chercheurs d'approfondir les caractéristiques et les rôles de ces petites protéines. En comprenant le potentiel de codage, la syntenie et la conservation évolutive des microprotéines, la recherche future pourra éclairer leur signification biologique et leurs applications dans divers domaines.
Limitations de la Recherche
Bien qu'extensive, cette recherche présente des limites principalement liées aux défis computationnels rencontrés lors de l'analyse d'énormes quantités de données. L'étude s'est principalement concentrée sur une famille spécifique de bactéries, laissant potentiellement d'autres tendances dans d'autres organismes procaryotes inexplorées. De plus, les résultats concernant les interactions et les fonctions des microprotéines doivent subir une validation expérimentale supplémentaire pour comprendre pleinement leurs rôles.
Dernières Réflexions
Le monde complexe des petites protéines se révèle, dévoilant un domaine riche en découvertes potentielles qui peuvent améliorer notre compréhension de la génétique et des fonctions des protéines. La collaboration entre les prédictions computationnelles et les validations expérimentales propulsera sans doute l'exploration de ce domaine fascinant vers l’avant.
Titre: The Cryptic Bacterial Microproteome
Résumé: Microproteins encoded by small open reading frames (smORFs) comprise the "dark matter" of proteomes. Although functional microproteins were identified in diverse organisms from all three domains of life, bacterial smORFs remain poorly characterized. In this comprehensive study of intergenic smORFs (ismORFs, 15-70 codons) in 5,668 bacterial genomes of the family Enterobacteriaceae, we identified 67,297 clusters of ismORFs subject to purifying selection. The ismORFs mainly code for hydrophobic, potentially transmembrane, unstructured, or minimally structured microproteins. Using AlphaFold Multimer, we predicted interactions of some of the predicted microproteins encoded by transcribed ismORFs with proteins encoded by neighboring genes, revealing the potential of microproteins to regulate the activity of various proteins, particularly, under stress. We compiled a catalog of predicted microprotein families with different levels of evidence from synteny analysis, structure prediction, and transcription and translation data. This study offers a resource for investigation of biological functions of microproteins. HighlightsO_LIThousands of previously unknown bacterial microproteins predicted C_LIO_LIMost microproteins belong to lineage-specific families, revealing unexplored diversity of bacterial proteomes C_LIO_LIComparative genome analysis suggests de novo emergence of numerous microproteins C_LIO_LIInteractions between stress-induced microproteins and known functional proteins predicted C_LIO_LIThis study provides a resource to investigate cryptic bacterial microproteomes C_LI
Auteurs: Eugene V. Koonin, I. Fesenko, H. Sahakyan, S. A. Shabalina
Dernière mise à jour: 2024-02-18 00:00:00
Langue: English
Source URL: https://www.biorxiv.org/content/10.1101/2024.02.17.580829
Source PDF: https://www.biorxiv.org/content/10.1101/2024.02.17.580829.full.pdf
Licence: https://creativecommons.org/publicdomain/zero/1.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.