Simple Science

La science de pointe expliquée simplement

# Biologie# Génétique

Présentation de deepKin : Une nouvelle méthode pour mesurer la parenté génétique

deepKin améliore notre façon d'évaluer les relations génétiques en utilisant des données SNP.

― 9 min lire


deepKin : Avancement dedeepKin : Avancement del'analyse des relationsgénétiquesutilisant des données SNP.l'évaluation de la parenté génétique enLa nouvelle méthode deepKin améliore
Table des matières

Comprendre comment les gens sont liés les uns aux autres est super important en génétique et en santé publique. C'est particulièrement crucial quand les chercheurs examinent de nombreux Marqueurs génétiques dans tout le génome, un processus appelé études d'association à l'échelle du génome (GWAS). Les chercheurs mesurent aussi le risque pour certains traits ou maladies grâce à un outil appelé score de risque polygénique (PRS). Traditionnellement, les scientifiques regardaient les arbres généalogiques pour estimer à quel point les gens étaient proches. Cette méthode donne une bonne idée des similarités génétiques attendues. Cependant, avec l'augmentation des données génétiques provenant des polymorphismes mononucléotidiques à l'échelle du génome (SNPS), les chercheurs peuvent maintenant calculer de vraies relations génétiques basées sur des données réelles.

Ce changement vers l'utilisation des données SNP fait face à quelques défis. Différentes méthodes de mesure des SNP, ainsi que la façon dont les données sont vérifiées pour la qualité, peuvent ajouter de la confusion. Donc, comprendre les relations qui proviennent des données SNP peut être compliqué.

Méthodes pour mesurer les relations génétiques

Il y a plusieurs manières d'estimer à quel point les gens sont liés en utilisant les données SNP. Certaines méthodes utilisent des approches de vraisemblance maximale, tandis que d'autres se basent sur des estimateurs basés sur les moments. Bien que les estimateurs basés sur les moments ne soient pas aussi précis, ils sont plus rapides et plus faciles à calculer. Au fil des ans, certains facteurs ont été étudiés qui influencent notre mesure de Parenté. Une étude s'est penchée sur la façon dont les relations peuvent varier en raison d'un échantillonnage génétique aléatoire et d'un lien génétique.

Actuellement, de nombreux chercheurs utilisent des mesures basées sur les SNP dans les études de population, mais il n'y a pas eu beaucoup d'attention sur la variation de ces mesures. Les différences dans les données SNP dues aux relations peuvent avoir un impact significatif sur la capacité à détecter des paires qui sont étroitement liées par rapport à celles qui ne le sont pas.

Des chiffres de coupure statiques sont souvent utilisés pour décider si deux échantillons sont liés. Cela peut mener à des erreurs, comme de faux positifs, lorsque la variation des estimations est ignorée. Si les chercheurs se fient uniquement à des seuils fixes sans considérer comment les données se comportent, ils pourraient mal étiqueter des paires comme liées.

Présentation de DeepKin : Une nouvelle approche

La nouvelle méthode, appelée deepKin, propose une façon novatrice de mesurer la parenté en utilisant les données SNP. Cet outil est différent des méthodes précédentes car il fournit des informations sur la variation d'échantillonnage qui accompagne le calcul de la parenté. Grâce à cette nouvelle approche, deepKin peut aider les chercheurs à comprendre si les différences de parenté sont significatives.

DeepKin se concentre sur trois concepts clés dans l'estimation de la parenté :

  1. Il établit une valeur critique pour diviser la parenté significative de celle sans importance.
  2. Il identifie le nombre minimal de marqueurs génétiques nécessaires pour repérer un type spécifique de parent.
  3. Il montre combien de puissance statistique peut être ajustée en fonction du degré de parenté testé.

L'équipe derrière deepKin l'a testé à travers des simulations et des données réelles, prouvant son efficacité. Ils ont aussi rendu deepKin accessible aux chercheurs sous forme de package R.

Comprendre les méthodes de DeepKin

Un objectif central de cette étude est de définir le niveau de variation pour la parenté génétique basée sur les moments. DeepKin utilise une approche similaire à celle de la méthode KING originale, mais avec des facteurs d'échelle différents. Les chercheurs peuvent créer des matrices pour décrire les relations génétiques en fonction des valeurs génotypiques.

L'estimateur KING calcule la parenté en utilisant des formules spécifiques, mais ses estimations ne représentent que la moitié de la parenté réelle attendue. Pour clarifier les comparaisons, les chercheurs doublent souvent les estimations KING.

Cependant, mesurer la similarité génétique réelle peut donner des valeurs allant de 0 à 1. Cela signifie qu'il y a de nombreux facteurs qui pourraient influencer les résultats, et comprendre la variance d'échantillonnage est crucial pour l'estimation.

Déduire la parenté avec DeepKin

DeepKin fournit une méthode aux chercheurs pour tester si des paires d'individus sont liées. En examinant les relations à travers un prisme statistique, DeepKin peut calculer des z-scores et des p-values correspondantes basés sur des distributions empiriques antérieures. Si les chercheurs fixent un niveau de signification, deepKin peut définir une valeur critique pour tirer des conclusions sur la parenté.

Bien que les scores de parenté puissent varier, il peut être utile de les regrouper en catégories pour une analyse plus facile. DeepKin permet l'évaluation d'une relation observée par rapport à des degrés de parenté prédéfinis utilisant des tests statistiques.

La méthode implique deux paramètres principaux : la taille de l'échantillon et le nombre effectif de marqueurs. En fin de compte, deepKin vise à améliorer la façon dont les relations génétiques sont déduites en fournissant des lignes directrices qui aident les chercheurs à prendre des décisions éclairées.

Lignes directrices pour utiliser DeepKin

Les chercheurs peuvent suivre quelques lignes directrices clés en utilisant deepKin :

  1. Choisir les marqueurs judicieusement : Ils peuvent déterminer le nombre minimal de marqueurs nécessaires pour détecter des relations spécifiques. En se concentrant uniquement sur les variantes nécessaires, les chercheurs peuvent gagner du temps et réduire les coûts.

  2. Comprendre la puissance statistique : Une fois que le niveau de signification est défini, les chercheurs peuvent déterminer combien de puissance pourrait être améliorée ou compromise en fonction du nombre de marqueurs disponibles. En gros, augmenter le nombre de marqueurs effectifs peut augmenter les chances d'identifier des relations importantes.

L'importance du nombre effectif de marqueurs

Le nombre effectif de marqueurs, souvent appelé "me", est significatif pour estimer la parenté à travers deepKin. Il décrit la corrélation génétique moyenne entre différentes variantes. Les chercheurs peuvent calculer ce nombre, mais le faire directement peut être coûteux en termes de puissance de calcul.

Pour résoudre ce problème, deux estimateurs sont proposés. Le premier est un estimateur basé sur le GRM, qui examine les éléments hors diagonale de la matrice de relation génétique. Le second est un estimateur basé sur la randomisation, qui améliore l'efficacité en itérant à travers un nombre fixe d'essais.

Dans les simulations, les chercheurs valident l'efficacité de deepKin en utilisant les deux estimateurs pour démontrer la précision statistique.

Validation de la variance

La validation méthodique de l'approche de deepKin implique de se concentrer sur des modèles à locus unique et multiples. Les chercheurs ont testé à quel point les résultats attendus s'alignent avec les données observées dans divers scénarios pour confirmer la robustesse de leurs conclusions.

Les simulations montrent que la méthode deepKin capture efficacement de vraies relations, garantissant la fiabilité à travers différents degrés de parenté.

Applications réelles : UK Biobank

Dans une application pratique, des chercheurs ont appliqué deepKin à un grand ensemble de données de la UK Biobank, qui incluait des informations provenant de plus de 3 000 participants. Ils ont examiné plusieurs ensembles de SNP avec différentes caractéristiques pour comprendre l'impact de différents marqueurs génétiques.

En faisant cela, les chercheurs ont pu observer comment deepKin fonctionnait dans des tâches de classification, trouvant des corrélations entre différents degrés de parenté. Il a été confirmé qu'au fur et à mesure que le nombre de marqueurs effectifs augmentait, deepKin devenait plus fiable pour classifier les relations.

En outre, deepKin a expliqué les relations au sein de l'ensemble de données de la UK Biobank, mettant en évidence des individus liés et leurs connexions basées sur des emplacements géographiques. Cela a ajouté de la profondeur à la compréhension de la façon dont la structure de la population peut influencer les relations génétiques.

Résultats clés et conclusions

Les différences entre deepKin et les méthodes précédentes, comme KING, résident dans la capacité de deepKin à prendre en compte des éléments manquants comme la variance d'échantillonnage et à améliorer ainsi l'inférence statistique. Une compréhension approfondie de la variance d'échantillonnage est directement liée à l'efficacité de l'inférence de parenté.

De plus, le nombre effectif de marqueurs joue un rôle critique, permettant aux chercheurs de peaufiner leurs analyses pour obtenir des résultats optimaux. En retour, cela peut influencer la façon dont les chercheurs évaluent les relations, notamment en tenant compte des fréquences alléliques dans les ensembles de SNP.

Les chercheurs suggèrent de nouvelles études pour affiner les hypothèses formulées dans les modèles et encouragent l'élimination des variantes de faible fréquence pour éviter des résultats trompeurs.

Dans l'ensemble, deepKin offre une nouvelle approche pour l'analyse des relations génétiques qui peut être utilisée dans divers domaines, y compris la génétique et les applications judiciaires. Cela apporte un nouveau niveau de précision et de rigueur à la compréhension de la façon dont les individus sont liés en se basant sur des données génétiques.

Source originale

Titre: DeepKin: precise estimation of in-depth relatedness and its application in UK Biobank

Résumé: Accurately estimating relatedness between samples is crucial in genetics and epidemiological analysis. Using genome-wide single nucleotide polymorphisms (SNPs), it is now feasible to measure realized relatedness even in the absence of pedigree. However, the sampling variation in SNP-based measures and factors affecting method-of-moments relatedness estimators have not been fully explored, whilst static cut-off thresholds have traditionally been employed to classify relatedness levels for decades. Here, we introduce the deepKin framework as a moment-based relatedness estimation and inference method that incorporates data-specific cut-off threshold determination. It addresses the limitations of previous moment estimators by leveraging the sampling variance of the estimator to provide statistical inference and classification. Key principles in relatedness estimation and inference are provided, including inferring the critical value required to reject the hypothesis of unrelatedness, which we refer to as the deepest significant relatedness, determining the minimum effective number of markers, and understanding the impact on statistical power. Through simulations, we demonstrate that deepKin accurately infers both unrelated pairs and relatives with the support of sampling variance. We then apply deepKin to two subsets of the UK Biobank dataset. In the 3K Oxford subset, tested with four sets of SNPs, the SNP set with the largest effective number of markers and correspondingly the smallest expected sampling variance exhibits the most powerful inference for distant relatives. In the 430K British White subset, deepKin identifies 212,120 pairs of significant relatives and classifies them into six degrees. Additionally, cross-cohort significant relative ratios among 19 assessment centers located in different cities are geographically correlated, while within-cohort analyses indicate both an increase in close relatedness and a potential increase in diversity from north to south throughout the UK. Overall, deepKin presents a novel framework for accurate relatedness estimation and inference in biobank-scale datasets. For biobank-scale application we have implemented deepKin as an R package, available in the GitHub repository (https://github.com/qixininin/deepKin).

Auteurs: Guo-Bo Chen, Q.-X. Zhang, D. Jayasinghe, S. H. Lee, H. Xu

Dernière mise à jour: 2024-05-01 00:00:00

Langue: English

Source URL: https://www.biorxiv.org/content/10.1101/2024.04.30.591647

Source PDF: https://www.biorxiv.org/content/10.1101/2024.04.30.591647.full.pdf

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires