Simple Science

La science de pointe expliquée simplement

# Sciences de la santé# Médecine génétique et génomique

Avancées dans l'évaluation des corrélations génétiques

Une nouvelle méthode améliore les intervalles de confiance pour les corrélations génétiques en utilisant des données simulées.

― 8 min lire


Avancées de laAvancées de lacorrélation génétiquecompréhension des traits génétiques.Nouvelles méthodes améliorent la
Table des matières

La corrélation génétique mesure comment deux traits sont liés en fonction de leur héritage génétique commun. Si deux traits ont une forte corrélation génétique, ça veut dire qu’ils sont influencés par des facteurs génétiques similaires. Ce concept est étroitement lié à l’Héritabilité, qui regarde combien des différences d'un trait entre les gens sont dues à la génétique. On peut déterminer la corrélation génétique en utilisant des données d'individus ou en examinant des statistiques globales de grandes études appelées études d'association à l'échelle du génome (GWAS).

Aujourd'hui, les chercheurs calculent souvent les Corrélations Génétiques entre les traits de santé et de comportement. Ça les aide à identifier comment différentes conditions ou comportements pourraient être liés sur le plan génétique. Ils étudient aussi les corrélations génétiques à un niveau plus localisé dans le génome pour trouver des régions spécifiques responsables des traits.

Méthodes pour estimer la corrélation génétique

Pour estimer la corrélation génétique, les scientifiques s'appuient souvent sur des données individuelles, surtout dans des populations plus petites ou diverses. En faisant ça, ils utilisent des modèles statistiques pour comprendre la relation entre les effets génétiques sur les traits. Les méthodes courantes pour estimer la corrélation génétique incluent la méthode de maximum de vraisemblance restreint (REML) et des approches plus simples comme la méthode de Haseman-Elston.

Cependant, en estimant ces corrélations, les chercheurs doivent prendre en compte que l'héritabilité et les corrélations génétiques ont des limites. L'héritabilité peut varier de 0 à 1, où 0 signifie aucune influence génétique et 1 signifie une influence génétique complète. La corrélation génétique varie de -1 à 1. Ça veut dire que les méthodes standards pour estimer les Intervalles de confiance pourraient ne pas bien fonctionner si les valeurs sont proches de ces limites.

Dans le passé, les chercheurs ont développé des moyens pour relever ces défis. Une méthode était une approche de bootstrap bloqué qui impliquait de rééchantillonner les données, ce qui fonctionnait bien mais nécessitait beaucoup de calcul et compliquait l'utilisation avec de grands ensembles de données.

Le besoin d'une nouvelle approche

Un axe de recherche récent a été de créer une méthode plus efficace pour estimer les intervalles de confiance pour les corrélations génétiques. Cette nouvelle méthode implique de simuler des paires de traits et leurs corrélations en utilisant des données génétiques existantes. En faisant ça, les chercheurs peuvent créer des intervalles de confiance plus précis qui ne dépendent pas des approximations traditionnelles.

Le processus implique plusieurs étapes. D'abord, les chercheurs simulent des données pour des paires de traits en fonction des valeurs supposées pour l'héritabilité et la corrélation. Ensuite, ils estiment les corrélations génétiques en utilisant ces valeurs simulées. Enfin, ils dérivent des intervalles de confiance basés sur la distribution des corrélations estimées.

Mise en œuvre de la nouvelle méthode

La nouvelle méthode consiste en plusieurs étapes :

  1. Simulation de données : Pour chaque paire de traits, les chercheurs créent de nombreux résultats simulés basés sur l'héritabilité et la corrélation génétique supposées. Ça les aide à construire une structure pour la relation entre les traits.

  2. Estimation de la corrélation génétique : En utilisant les Données simulées, ils calculent les corrélations génétiques pour chaque paire de traits.

  3. Construction d'une distribution de probabilité : Une fois qu'ils ont les corrélations estimées, ils créent une distribution de probabilité pour aider à identifier les valeurs potentielles pour la corrélation génétique.

  4. Calcul des intervalles de confiance : Ils construisent ensuite des intervalles de confiance pour la corrélation génétique basés sur la distribution de probabilité qu'ils ont créée.

Cette approche a montré des promesses en produisant des estimations et des intervalles de confiance plus fiables pour les corrélations génétiques, particulièrement lorsqu'il s'agit de grands ensembles de données où les méthodes traditionnelles pourraient échouer.

L'étude Jackson Heart

L'étude Jackson Heart est un grand projet de recherche qui se concentre sur la santé des populations afro-américaines. Elle inclut plus de 5 300 participants et examine divers facteurs de santé, y compris des données génétiques. Les chercheurs ont mesuré et analysé les niveaux de plus de 1 300 protéines chez les participants à l'étude.

En utilisant les données de cette étude, les chercheurs peuvent estimer les corrélations génétiques entre les protéines et explorer des relations complexes entre elles. Ils doivent traiter les données avec soin pour éliminer les mesures problématiques et ajuster des facteurs comme l'âge et l'indice de masse corporelle (IMC).

Études de simulation en recherche

Les chercheurs réalisent des études de simulation pour tester l'efficacité de la nouvelle méthode d'intervalle de confiance. En simulant des données à partir de la matrice de parenté de l'étude Jackson Heart, ils peuvent mieux comprendre comment leur méthode fonctionne dans différentes conditions.

Ces simulations aident les chercheurs à observer comment divers facteurs, comme le nombre de participants et les caractéristiques des traits, influencent l'exactitude des estimations de corrélation génétique.

Comparaison des différentes méthodes d'intervalle de confiance

Dans leurs recherches, les scientifiques comparent plusieurs approches pour estimer les intervalles de confiance. Ils analysent la probabilité de couverture, qui mesure à quelle fréquence la vraie corrélation génétique tombe dans les intervalles de confiance estimés.

Certaines méthodes qu'ils comparent incluent :

  • Percentiles de la fonction de masse de probabilité empirique (PMF) : Ça repose sur les données simulées pour dériver des intervalles purement basés sur les résultats des simulations.

  • Approximation Beta : Cette méthode utilise une distribution beta pour approcher la PMF, aidant à créer des intervalles de confiance plus lisses.

  • Transformation de Fisher : Cette approche plus ancienne suppose que les corrélations génétiques peuvent être modélisées comme distribuées normalement, ce qui n'est pas toujours vrai.

  • Approximation normale utilisant GCTA : Cette approche calcule les corrélations génétiques en utilisant un logiciel spécifique qui emploie des hypothèses de distribution normale.

Chaque méthode a ses forces et ses faiblesses, notamment en ce qui concerne les différentes tailles d'échantillons et les caractéristiques des traits étudiés.

Estimer les intervalles de confiance et les valeurs p

Pour déterminer si la corrélation génétique est significative, les chercheurs utilisent la nouvelle approche pour calculer des valeurs p. Ils mettent en place une hypothèse nulle, qui suppose qu'il n'y a pas de corrélation, et une hypothèse alternative, qui suppose qu'il y a une corrélation.

En utilisant leur méthode d'intervalle de confiance, ils peuvent estimer des valeurs p pour tester ces hypothèses. Si l'intervalle de confiance n'inclut pas zéro, ça suggère qu'il y a une corrélation génétique significative.

Résultats de l'étude Jackson Heart

En appliquant leur méthode à l'étude Jackson Heart, les chercheurs ont trouvé des aperçus précieux concernant les interactions entre les protéines. Ils ont identifié de nombreuses paires de protéines avec des corrélations génétiques fortes, découvrant des réseaux qui pourraient avoir des implications pour comprendre la santé et la maladie.

En visualisant ces réseaux, les chercheurs peuvent illustrer comment différentes protéines interagissent les unes avec les autres en fonction de leurs corrélations génétiques. Ces informations peuvent aider à guider de futures recherches sur comment la génétique influence les conditions de santé.

Conclusions

Le développement d'une nouvelle approche de bootstrap paramétrique pour estimer les intervalles de confiance pour les corrélations génétiques représente un avancement significatif dans la recherche génétique. En simulant des données et en utilisant des distributions empiriques, les chercheurs peuvent obtenir des estimations et des aperçus plus fiables qui aident à clarifier les relations complexes entre les traits.

L'étude Jackson Heart fournit un contexte précieux pour appliquer cette méthode, permettant aux chercheurs d'explorer la base génétique de la santé dans les populations afro-américaines. Les résultats de cette étude peuvent mener à une meilleure compréhension et à des interventions potentielles pour diverses conditions de santé.

Alors que les chercheurs continuent de peaufiner leurs méthodes et d'explorer de plus grands ensembles de données, la capacité d'estimer avec précision les corrélations génétiques et leur signification améliorera sans aucun doute notre compréhension de la génétique et de son impact sur la santé.

Source originale

Titre: A parametric bootstrap approach for computing confidence intervals for genetic correlations with application to genetically-determined protein-protein networks

Résumé: Genetic correlation refers to the correlation between genetic determinants of a pair of traits. When using individual-level data, it is typically estimated based on a bivariate model specification where the correlation between the two variables is identifiable and can be estimated from a covariance model that incorporates the genetic relationship between individuals, e.g., using a pre-specified kinship matrix. Inference relying on asymptotic normality of the genetic correlation parameter estimates may be inaccurate when the sample size is low, when the genetic correlation is close to the boundary of the parameter space, and when the heritability of at least one of the traits is low. We address this problem by developing a parametric bootstrap procedure to construct confidence intervals for genetic correlation estimates. The procedure simulates paired traits under a range of heritability and genetic correlation parameters, and it uses the population structure encapsulated by the kinship matrix. Heritabilities and genetic correlations are estimated using the close-form, method of moment, Haseman-Elston regression estimators. The proposed parametric bootstrap procedure is especially useful when genetic correlations are computed on pairs of thousands of traits measured on the same exact set of individuals. We demonstrate the parametric bootstrap approach on a proteomics dataset from the Jackson Heart Study.

Auteurs: Tamar Sofer, Y.-T. Tsai, Y. Hrytsenko, M. Elgart, U. Tahir, Z.-Z. Chen, J. G. Wilson, R. Gerszten

Dernière mise à jour: 2023-10-25 00:00:00

Langue: English

Source URL: https://www.medrxiv.org/content/10.1101/2023.10.24.23297474

Source PDF: https://www.medrxiv.org/content/10.1101/2023.10.24.23297474.full.pdf

Licence: https://creativecommons.org/licenses/by-nc/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à medrxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires