Comprendre les malformations cardiaques congénitales et leurs liens génétiques
Un aperçu des malformations cardiaques congénitales, leurs impacts et les facteurs génétiques.
― 11 min lire
Table des matières
- L'histoire de la survie
- Le mystère génétique
- Apprentissage automatique : une nouvelle approche
- Collecte de données
- Différences entre gènes cardiaques et non cardiaques
- Le jeu des connexions
- Création d'un classificateur
- Tester le classificateur
- La base de données : un cadeau pour les chercheurs
- Réseaux d'interaction des protéines : l'histoire continue
- Schémas d'expression : un coup d'œil de plus près
- Découverte de l'inconnu
- Se tenir au courant des nouvelles découvertes
- Poisson zèbre : tester les prédictions
- Comparaison avec les gènes humains
- Le mot de la fin
- Source originale
- Liens de référence
La Maladie cardiaque congénitale (MCC) désigne les problèmes cardiaques présents à la naissance. C'est le type de souci cardiaque le plus courant chez les bébés, touchant environ 1,35 million d'infants chaque année dans le monde. Cette condition peut être une raison majeure pour laquelle certains bébés ne survivent pas à cause de malformations congénitales. La MCC comprend une variété de problèmes cardiaques et vasculaires, qui peuvent être bénins ou graves.
L'histoire de la survie
Grâce aux avancées dans la détection et le traitement de cette maladie, de plus en plus d'enfants atteints de MCC vivent plus longtemps. Cependant, juste survivre ne suffit pas. Beaucoup d'entre eux font face à des défis de santé supplémentaires en grandissant. Par exemple, les problèmes de santé mentale sont fréquents chez les ados et les adultes qui avaient une MCC quand ils étaient plus jeunes. Des études montrent que les enfants atteints de MCC ont plus de chances d'expérimenter des troubles du développement par rapport à leurs pairs qui n'ont pas cette condition. À 22 mois, ces enfants obtiennent souvent des scores plus bas lors des tests d'aptitudes cognitives, motrices et linguistiques que l'enfant moyen.
De plus, avoir une MCC peut augmenter le risque de développer un cancer plus tard dans la vie. Donc, c'est clair que la MCC impacte non seulement le fonctionnement du cœur, mais aussi le bien-être général et la longévité.
Le mystère génétique
Le cœur est un organe complexe, et plein de choses peuvent mal tourner pendant sa formation. Beaucoup de cas de MCC résultent de variations génétiques. Malgré pas mal de recherches sur ces liens génétiques, une cause génétique claire reste inconnue dans jusqu'à 80 % des cas sporadiques de MCC, ce qui signifie qu'ils apparaissent sans antécédents familiaux. Environ 70 % des cas qui sont familiaux manquent aussi d'une explication génétique claire.
On pense que la plupart des cas sont causés par un mélange d'influences génétiques différentes impliquant plusieurs gènes qui travaillent ensemble, ce qui complique la compréhension de leur impact. Certains cas proviennent de nouvelles mutations qui ne sont pas héritées des parents.
Beaucoup de chercheurs soupçonnent que des centaines de gènes pourraient contribuer au risque de développer une MCC. Le séquençage du génome a révélé des variants dans des gènes que les scientifiques n'associaient pas auparavant au développement cardiaque. Pourtant, il n'existe pas de moyen standard pour évaluer l'importance de ces variants, ce qui rend difficile de les relier à la MCC.
Apprentissage automatique : une nouvelle approche
Découvrir quels gènes sont impliqués dans la MCC peut être délicat en raison de l'énorme quantité de données et de la complexité des interactions génétiques. Les comparaisons avec des souris présentant des mutations spécifiques peuvent être utiles, mais il n'y a pas assez de données disponibles pour tirer des conclusions solides. Pour l'instant, seulement environ 8707 des 22 500 gènes codant des Protéines chez la souris ont été étudiés en profondeur.
C'est là que l'apprentissage automatique entre en jeu. En utilisant des algorithmes, les ordinateurs peuvent repérer des motifs dans les données que les chercheurs humains pourraient manquer. Comme les techniques d'apprentissage automatique n'ont pas été appliquées à la prédiction des gènes de MCC chez les mammifères, les chercheurs ont décidé d'essayer un modèle d'apprentissage supervisé. Ils se sont concentrés sur l'identification des caractéristiques des gènes nécessaires au développement cardiaque normal chez les souris.
En utilisant un ensemble d'entraînement de gènes connus pour être importants pour le développement cardiaque, ils ont créé un modèle de classification pour séparer les gènes cardiaques des gènes non cardiaques. Ils ont validé leur modèle en l'utilisant sur un nouvel ensemble de gènes qui n'avaient pas été utilisés pour l'entraînement. Ce modèle a ensuite été utilisé pour prédire l'association cardiaque de tous les gènes codant des protéines dans le génome de la souris. Une analyse plus approfondie a relié ces gènes cardiaques prédits à des fonctions cardiaques connues, montrant que beaucoup d'entre eux correspondaient aux gènes de MCC humains.
Collecte de données
Pour commencer, une base de données appelée Mouse Genome Informatics (MGI) a été utilisée pour recueillir des données sur les gènes de souris. Deux ensembles de données ont été créés : un pour 1415 gènes connus pour être impliqués dans le développement cardiaque et un autre pour 6808 gènes qui ne le sont pas. Certains gènes étaient difficiles à classer parce qu'ils semblaient avoir des rôles dans les deux catégories, donc les chercheurs ont vérifié la littérature existante pour clarifier leurs fonctions.
L'objectif était de se concentrer sur les caractéristiques spécifiques à la fonction des protéines, donc l'étude n'incluait que des gènes codant des protéines. Après un filtrage, il restait 1242 gènes cardiaques et 6573 gènes non cardiaques dans l'ensemble de données final.
Différences entre gènes cardiaques et non cardiaques
Ensuite, les chercheurs ont examiné diverses caractéristiques des gènes, comme leur séquence, leurs schémas d'expression et leurs interactions avec d'autres protéines. Ils ont analysé un total de 127 caractéristiques différentes pour voir comment les gènes cardiaques diffèrent de ceux non cardiaques. Cela a révélé que les gènes cardiaques sont généralement plus longs, ont plus de transcrits et montrent une expression plus élevée pendant des étapes de développement clés.
Fait intéressant, les gènes cardiaques ont moins de chances d'avoir des mutations de perte de fonction et sont souvent cruciaux pour le développement. En ce qui concerne les protéines qu'ils codent, les protéines cardiaques tendent à être plus longues et plus lourdes que leurs homologues non cardiaques. Elles ont aussi des caractéristiques uniques, comme être enrichies dans des fonctions spécifiques et se situer souvent dans le noyau ou les régions extracellulaires.
Le jeu des connexions
Les chercheurs ont pris en compte l'idée de "culpabilité par association". En termes simples, cela signifie que les gènes qui travaillent ensemble dans des processus biologiques sont probablement susceptibles de partager des traits et des fonctions similaires. La plupart des études passées se sont concentrées sur les interactions entre protéines, mais cette équipe a exploré comment les protéines cardiaques interagissent les unes avec les autres dans leurs réseaux.
En analysant les données d'interaction pour les protéines cardiaques et non cardiaques, ils ont trouvé que les protéines cardiaques avaient plus de connexions, indiquant qu'elles jouent des rôles clés dans leurs réseaux. L'équipe a examiné diverses propriétés de réseau pour voir si les protéines cardiaques affichaient des caractéristiques uniques par rapport aux protéines non cardiaques.
Création d'un classificateur
Avec ces caractéristiques en main, les chercheurs se sont lancés dans la création d'un classificateur d'apprentissage automatique. La première étape a consisté à créer des ensembles de données d'entraînement qui équilibrent le nombre de gènes cardiaques et non cardiaques, ce qui a aidé à améliorer la précision du modèle. Ils ont utilisé l'algorithme Random Forest et ont appliqué une technique de validation croisée à 10 volets pour éviter le surapprentissage.
Le classificateur initial a bien fonctionné, identifiant correctement la majorité des gènes cardiaques et non cardiaques. Après avoir affiné leurs caractéristiques d'entrée pour les plus pertinentes, ils ont créé un deuxième classificateur, qui a eu encore de meilleures performances. Ce modèle mis à jour a atteint un taux de précision impressionnant.
Tester le classificateur
Pour s'assurer de l'exactitude du classificateur, les chercheurs l'ont testé sur de nouveaux ensembles de données contenant des gènes non utilisés pendant l'entraînement. Les résultats étaient prometteurs. Le classificateur a montré une haute précision dans l'identification des gènes non cardiaques et a efficacement prédit le statut cardiaque des gènes connus d'expériences précédentes.
Lorsque les chercheurs ont appliqué leur classificateur à tous les gènes codant des protéines de souris, ils ont prédit qu'environ 36 % pourraient être impliqués dans le développement cardiaque. C'était intrigant, étant donné que de nombreux gènes cardiaques connus n'avaient pas été validés auparavant, suggérant qu'il y a encore beaucoup à apprendre.
La base de données : un cadeau pour les chercheurs
Pour rendre l'information accessible, l'équipe a créé une base de données contenant des détails sur tous les gènes codant des protéines liés au développement cardiaque. Les utilisateurs pouvaient rechercher des gènes et télécharger des listes pour une analyse plus approfondie. Cela pourrait être un vrai changement de jeu pour les chercheurs et les cliniciens cherchant à comprendre ou diagnostiquer la MCC.
Réseaux d'interaction des protéines : l'histoire continue
Puisque les interactions entre protéines semblaient cruciales pour leur classificateur, ils ont décidé d'analyser les réseaux d'interaction construits à partir à la fois des protéines cardiaques connues et prédites. Les données ont montré que les protéines cardiaques connues interagissaient davantage avec les protéines cardiaques prédites qu'avec les protéines non cardiaques.
Cette tendance était vraie dans plusieurs bases de données d'interaction, suggérant que les protéines cardiaques connues partagent un lien spécial avec celles prédites.
Schémas d'expression : un coup d'œil de plus près
Pour explorer les schémas d'expression développementale des gènes prédites, les chercheurs ont analysé les données d'expression des gènes à travers différentes étapes de développement. Comme prévu, les gènes cardiaques prédites montraient une plus grande ressemblance dans les schémas d'expression avec les gènes cardiaques connus tout au long de leurs étapes de développement.
Découverte de l'inconnu
Une étude sur l'"unknome", qui fait référence aux gènes sans fonctions claires, a suscité l'intérêt des chercheurs. Ils ont trouvé qu'un nombre significatif de ces gènes mal annotés avaient des homologues dans leurs ensembles de gènes prédits. Cela suggère qu'une enquête plus approfondie pourrait aider à clarifier les fonctions de ces gènes peu étudiés.
Se tenir au courant des nouvelles découvertes
Pour vérifier les prédictions de leur classificateur, les chercheurs ont recherché des études récentes sur les gènes de souris liés aux problèmes cardiaques. En comparant ces nouveaux gènes cardiaques avec leurs prédictions, ils ont trouvé un chevauchement notable, confirmant qu'environ 78 % des nouveaux gènes cardiaques identifiés correspondaient à leurs prédictions.
Poisson zèbre : tester les prédictions
Pour valider l'une de leurs prédictions, l'équipe s'est concentrée sur un gène appelé Polr2h. Ils ont utilisé la technologie CRISPR sur des embryons de poisson zèbre pour réduire ce gène et ont observé des défauts cardiaques qui reflétaient des problèmes connus associés à d'autres gènes apparentés. C'était une nouvelle excitante, car cela a non seulement validé leur modèle prédictif mais a aussi laissé entendre le rôle potentiel de Polr2h dans le développement cardiaque.
Comparaison avec les gènes humains
Les chercheurs ne se sont pas arrêtés là. Ils ont comparé leurs gènes cardiaques prédits avec des gènes de MCC humains qui avaient été identifiés dans des études récentes. Un chevauchement significatif a été trouvé, avec environ 75 % des nouveaux gènes de MCC humains étant liés à leurs prédictions chez la souris. Cela ouvre des possibilités pour mieux comprendre la MCC humaine.
Le mot de la fin
Le monde de la maladie cardiaque congénitale est vaste et compliqué. Grâce aux avancées technologiques et aux techniques de recherche comme l'apprentissage automatique, on ouvre des portes à de nouvelles possibilités pour comprendre et diagnostiquer la MCC. En combinant des données provenant de diverses sources, en construisant des modèles prédictifs puissants et en créant des bases de données utiles, l'espoir est que de meilleurs outils émergent pour aider ceux qui sont touchés par cette condition.
Alors qu'on avance, chaque nouvelle information nous rapproche un peu plus de la compréhension du réseau génétique derrière la maladie cardiaque congénitale. Qui sait quelles mystères nous attendent dans le monde du cœur ? L'aventure continue !
Titre: A Machine Learning Classifier to Identify and Prioritise Genes Associated with Cardiac Development
Résumé: Congenital heart disease (CHD) is a major cause of infant mortality and presents life-long challenges to individuals living with these conditions. Genetic causes are known for only a minority of types of CHD. Discovering further genetic causes is limited by challenges in prioritising candidate CHD genes. We examined a wide range of features of mouse genes, including sequence characteristics, protein localisation and interaction data, developmental expression data and gene ontology annotations. Many features differ between cardiac development and non-cardiac genes, suggesting that these two gene types can be distinguished by their attributes. Therefore, we developed a supervised machine learning (ML) method to identify Mus musculus genes with a high probability of being involved in cardiac development. These genes, when mutated, are candidates for causing human CHD. Our classifier showed a cross-validation accuracy of 81% in detecting cardiac and non-cardiac genes. From our classifier we generated predictions of the cardiac development association status for all protein-coding genes in the mouse genome. We also cross-referenced our predictions with datasets of known human CHD genes, determining which are orthologues of predicted mouse cardiac genes. Our predicted cardiac genes have a high overlap with human CHD genes. Thus, our predictions could inform the prioritisation of genes when evaluating CHD patient sequence data for genetic diagnosis. Knowledge of cardiac developmental genes may speed up reaching a genetic diagnosis for patients born with CHD. Author SummaryCongenital heart disease arises during pregnancy when the heart has formed incorrectly. These malformations affect [~]1% of newborns. Yet, despite their frequency, the underlying causes are still not known in many cases. It is clear that genetic factors contribute to these defects, and increasingly DNA sequencing is used to attempt to determine if an individual has a genetic change causative of their condition. However, analysis of patient sequence data often reveals changes that are difficult to interpret due to a lack of knowledge of the function of the gene harbouring a sequence change. We aimed to facilitate the process of sequence evaluation by predicting which genes of unknown function are likely involved in heart formation. Our predictions agree with novel experimental evidence about genes needed for heart development. We found that when mutated, a high proportion of the predicted cardiac genes do indeed cause heart defects. This result suggests that our predictions may be informative for expanding our understanding of the genetic basis of congenital heart disease.
Auteurs: Mitra Kabir, Verity Hartill, Gist H. Farr III, Wasay Mohiuddin Shaikh Qureshi, Stephanie L. Baross, Andrew J. Doig, David Talavera, Bernard D. Keavney, Lisa Maves, Colin A. Johnson, Kathryn E. Hentges
Dernière mise à jour: 2024-11-08 00:00:00
Langue: English
Source URL: https://www.biorxiv.org/content/10.1101/2024.11.08.622603
Source PDF: https://www.biorxiv.org/content/10.1101/2024.11.08.622603.full.pdf
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.