Simple Science

La science de pointe expliquée simplement

# Biologie# Génomique

Le génome humain : Découvrir les gènes codants

Une plongée approfondie dans la recherche et la classification des gènes de codage humains.

Miguel Maquedano, Daniel Cerdán-Vélez, Michael L. Tress

― 11 min lire


Déchiffrer les gènes deDéchiffrer les gènes decodagecodage humain.Découvrir la vérité sur les gènes de
Table des matières

Le génome humain, c’est comme un énorme manuel d’instructions qui donne à nos cellules les infos dont elles ont besoin pour produire des protéines, qui sont les briques de la vie. Quand les scientifiques ont d'abord séquencé le génome humain, ils ont estimé qu'on avait entre 25 000 et 40 000 gènes responsables de la production de protéines. Mais au fil des recherches, ce chiffre a été révisé à environ 19 000 à 22 000 gènes. Alors, qu'est-ce qui est arrivé aux gènes en trop ? C'était juste un rêve de science un peu fou ?

Au fil des ans, plusieurs équipes de recherche ont bossé sans relâche pour analyser notre génome et identifier les vrais gènes de codage. Leurs découvertes ont permis de mieux comprendre quels gènes sont réels et lesquels pourraient être des imposteurs. Comme dans un jeu de “Devine qui”, les chercheurs ont essayé de distinguer les gènes qui produisent vraiment des protéines de ceux qui font juste semblant.

La recherche des gènes de codage

Identifier les gènes de codage, ce n'est pas juste cocher une case sur une liste. Les scientifiques utilisent différentes sources de preuves pour déterminer si un gène peut vraiment produire une protéine. Ils regardent des trucs comme des données expérimentales et comment un gène est conservé chez différentes espèces. Si un gène est conservé, ça veut dire qu'il a probablement un rôle fondamental et qu'il est donc plus susceptible d'être un gène de codage.

De nouveaux gènes de codage sont ajoutés à la liste dès qu'il y a suffisamment de preuves pour dire qu'ils sont réels. Mais certains gènes peuvent changer de statut quand de nouvelles données arrivent. En fait, c'est un peu comme regarder un soap opera où les personnages changent souvent de camp, entraînant toutes sortes de rebondissements dramatiques !

Le rôle des équipes de recherche

Trois groupes de recherche principaux se sont chargés d'analyser les gènes de codage de notre génome : Ensembl/GENCODE, RefSeq, et UniProtKB. Chaque groupe a sa propre vision de ce qu'est un gène de codage. Ils utilisent des coordonnées génomiques et des données protéiques pour compiler leurs listes. Cependant, les critères différents ont entraîné des disparités, un peu comme des interprétations différentes du même script de film.

Par exemple, le pseudogène WASH6P a été un personnage dans ce drame, changeant de statut plusieurs fois selon les nouvelles preuves. C’est la diva ultime du monde des gènes-toujours sous les projecteurs mais ne correspondant jamais vraiment au moule d'un gène de codage.

Le jeu des chiffres

Par le passé, les estimations concernant le nombre total de gènes de codage étaient assez élevées. Mais au fur et à mesure que les chercheurs s'enfonçaient dans les données, les chiffres ont commencé à baisser. Une analyse plus rigoureuse a révélé que le nombre réel pourrait être plus proche de 20 000. C’est un peu comme quand tu vas à un buffet, que tu remplis ton assiette à ras bord, et que tu réalises que tu ne peux en fait manger que la moitié. Le buffet des gènes nous a servi une bonne dose de réalité !

Fait intéressant, des rapports montrent que le nombre de gènes de codage est à nouveau en hausse. Cette remontée est due aux chercheurs qui cherchent activement de petits Cadres de lecture ouverts (ORFs) qui avaient peut-être échappé aux radars. Ces petits gènes pourraient être des perles cachées du monde du codage, et les scientifiques sont en mission pour les trouver.

Le défi de la mauvaise classification

La recherche de gènes de codage peut être compliquée. Beaucoup de chercheurs se concentrent sur la découverte de nouveaux gènes de codage parce que c’est souvent plus facile de les trouver que de prouver qu'un gène prédit n’en produit pas. C’est comme une chasse au trésor-les gens sont plus motivés pour déterrer de l’or que pour trier de la terre.

Certaines équipes ont tenté d’identifier des gènes qui auraient pu être mal classés. Dans une analyse révolutionnaire, les chercheurs ont découvert que beaucoup de gènes nouvellement annotés ressemblaient plus à de l'ARN non-codant qu'à des gènes de codage. Un groupe a même estimé qu’il y avait environ 20 500 gènes de codage, tandis qu’un autre prédisait moins de 20 000. Parle d’une querelle de famille-il n’y a pas de gagnant clair !

Au fil des ans, les chercheurs ont signalé des milliers de gènes comme potentiellement non-codants, entraînant une frénésie de reclassification. Certains gènes ont été reclassés plusieurs fois quand de nouvelles preuves sont arrivées. C’est comme un jeu de chaises musicales sans fin-chaque fois que la musique s'arrête, quelqu'un perd sa place !

Fusion des listes

Pour traiter cette situation compliquée, les chercheurs ont fusionné les trois ensembles de références majeurs (Ensembl/GENCODE, RefSeq, et UniProtKB) pour créer une liste de gènes plus unifiée. En faisant cela, ils ont découvert qu'ils avaient annoté environ 22 210 gènes de codage. Mais, fait intéressant, un gène sur huit annoté n’a pas reçu le feu vert des trois groupes. C’est comme obtenir trois avis différents sur ta tenue-un va adorer, un va détester, et le troisième va juste être confus.

Après un raffinement et une analyse supplémentaires, il a été découvert que le nombre de gènes listés dans les trois ensembles était en fait inférieur à celui de la fusion précédente. En fait, les chercheurs ont identifiés 2 606 gènes pour lesquels il n'y avait pas de consensus sur le statut de codage. Ces gènes discutent encore pour savoir s'ils appartiennent au club des gènes de codage ou pas.

Statut de codage : le verdict

Parmi les gènes qui ont été annotés comme codants, environ 19 267 ont été considérés comme codants par les trois équipes de recherche. Mais pour les gènes restants, le processus de tri a révélé divers statuts comme gènes de lecture continue, Pseudogènes, et d'autres, montrant que la question du statut de codage peut être assez complexe. C’est un peu comme trier le linge-tu penses avoir un tas de blancs bien clair, mais tu trouves bientôt une chaussette rouge qui traîne !

Pour déterminer le statut de ces gènes non-intersectionnels, les chercheurs ont examiné les annotations des gènes à partir des ensembles de référence et trouvé des statuts communs. Certains gènes ont été classés comme gènes de lecture continue, ce qui signifie que tous leurs transcrits étaient des transcrits de lecture continue, tandis que d'autres ont été considérés comme des pseudogènes-essentiellement, des gènes qui ont perdu leur fonctionnalité avec le temps.

Quelles sont les caractéristiques non-codantes potentielles ?

Dans leur quête de clarté, les chercheurs ont défini des caractéristiques non-codantes potentielles pour les gènes de codage. Ils ont rassemblé des données de diverses sources et conçu des critères pour aider à identifier les gènes qui pourraient ne pas correspondre au profil de codage. Ces caractéristiques agissent comme des signaux d’alerte, signalant des gènes qui pourraient ne pas être des candidats pour la production de protéines.

En utilisant des mesures statistiques comme les ratios non-synonymes/synonymes, les chercheurs ont évalué quels gènes répondaient aux critères pour être potentiellement non-codants. Ils ont réduit leur liste de suspects, conduisant à l'identification de 1 118 gènes dans la dernière analyse.

Pourquoi certains gènes passent à travers les mailles du filet ?

Tu te demandes peut-être-pourquoi des gènes sont-ils mal classés comme codants alors qu'ils devraient être marqués comme non-codants ? Ça arrive parce que certains gènes ont pu montrer par le passé des signes de codage, mais manquent d’évidence pour le justifier.

Par exemple, les gènes qui sont signalés comme des pseudogènes pourraient encore avoir des cadres de lecture ouverts intacts, mais leur manque de preuves fonctionnelles de protéines est un indice crucial de leur vraie nature. C’est un peu comme une star de cinéma qui a toujours des fans, même si elle n’a pas fait de film récemment. Sa gloire passée ne veut pas dire qu’elle est encore active !

Le mystère des gènes de lecture continue

Les gènes de lecture continue méritent une mention spéciale. Ces gènes forment une catégorie unique où tous leurs transcrits sont classés comme des transcrits de lecture continue. Ces gènes provoquent souvent des remous, car ils peuvent parfois être confondus avec de vrais gènes de codage. Pourtant, en réalité, ils ne produisent peut-être pas de protéines fonctionnelles du tout.

Les chercheurs continuent d’examiner le statut de codage des gènes de lecture continue, et beaucoup pensent que ces gènes devraient être reclassés. Au fur et à mesure que de nouvelles preuves apparaissent, le paysage des gènes de codage continue d’évoluer, et les scientifiques sont impatients de peaufiner leurs listes pour garantir leur précision.

La recherche du consensus

Les chercheurs sont conscients qu'il est crucial d'avoir une compréhension consensuelle du nombre de gènes de codage pour la communauté scientifique. C’est important non seulement pour la recherche fondamentale, mais aussi pour les applications cliniques. S'il y a trop de gènes mal classés dans l'ensemble de référence, cela peut rendre les expériences biomédicales à grande échelle confuses, conduisant à des résultats erronés.

Alors que les scientifiques travaillent ensemble pour harmoniser leurs listes, ils espèrent parvenir à un ensemble final de gènes de codage certifiés. Ce projet nécessite collaboration et communication ouverte entre divers groupes de recherche pour s’assurer que tout le monde est sur la même longueur d’onde. Après tout, essayer de jouer à un jeu où chacun a des règles différentes, c'est pas très amusant !

Le paysage changeant des gènes de codage

Avec les avancées technologiques et de plus en plus de données disponibles, le paysage des gènes de codage évolue sans cesse. Les chercheurs se concentrent maintenant sur certains des plus petits gènes, moins bien étudiés, car ils pourraient receler un potentiel pour la codification de nouvelles protéines. Beaucoup de chercheurs estiment que l'accent mis sur les petits ORFs ne fait que commencer, et qu’il pourrait y avoir encore plus de découvertes à l'horizon.

L’achèvement récent de l’assemblage CHM13, qui a identifié une multitude de nouveaux gènes, a également suscité l’enthousiasme au sein de la communauté de recherche. Bien que beaucoup de ces nouveaux gènes proviennent de grandes familles dupliquées, leur introduction dans le domaine pourrait changer notre compréhension des gènes de codage.

Conclusion : L'avenir de l'annotation des gènes

Le processus de détection et de validation des gènes de codage est un effort complexe et continu qui nécessite collaboration, ouverture d'esprit et, surtout, patience. Avec chaque nouvelle analyse, les chercheurs assemblent le puzzle et affinent leur compréhension du génome humain.

Alors qu'ils continuent de travailler à travers les écarts entre les bases de données et peaufinent leurs listes de gènes de codage, les chercheurs restent optimistes quant à la possibilité d'aboutir à une image claire et précise de ce qui constitue un gène de codage dans notre génome. Donc, bien que la quête puisse sembler décourageante, c’est une tâche que les scientifiques sont plus que prêts à relever-armés de preuves, de collaboration, et peut-être même de quelques pauses café en chemin.

Source originale

Titre: More than 2,500 coding genes in the human reference gene set still have unsettled status

Résumé: In 2018 we analysed the three main repositories for the human proteome, Ensembl/GENCODE, RefSeq and UniProtKB. They disagreed on the coding status of one of every eight annotated coding genes. The analysis inspired bilateral collaborations between annotation groups. Here we have repeated our analysis with updated versions of the three reference coding gene sets. Superficially, little appears to have changed. Although there are slightly fewer genes predicted as coding overall, the three groups still disagree on the status of 2,606 annotated genes. However, a comparison without read-through genes and immunoglobulin fragments shows that the three reference sets have merged or reclassified more than 700 genes since the last analysis and that just 0.6% of Ensembl/GENCODE coding genes are not also annotated by the other two reference sets. We used eight features indicative of non-coding genes to examine the 21,873 coding genes annotated across the three reference sets. We found that more than 2,000 had one or more potential non-coding features. While some of these genes will be protein coding, we believe that most are likely to be non-coding genes or pseudogenes. Our results suggest that annotators still vastly overestimate the number of true coding genes.

Auteurs: Miguel Maquedano, Daniel Cerdán-Vélez, Michael L. Tress

Dernière mise à jour: Dec 9, 2024

Langue: English

Source URL: https://www.biorxiv.org/content/10.1101/2024.12.05.626965

Source PDF: https://www.biorxiv.org/content/10.1101/2024.12.05.626965.full.pdf

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires