Simple Science

Scienza all'avanguardia spiegata semplicemente

# La biologia# Genetica

Presentiamo deepKin: Un Nuovo Metodo per Misurare la Parentela Genetica

deepKin migliora il modo in cui valutiamo le relazioni genetiche usando i dati SNP.

― 7 leggere min


deepKin: AvanzandodeepKin: Avanzandol'analisi delle relazionigeneticheusando i dati SNP.valutazione della parentela geneticaIl nuovo metodo deepKin migliora la
Indice

Capire come le persone siano collegate tra loro è super importante negli studi di genetica e salute pubblica. In particolare, è fondamentale quando i ricercatori analizzano tanti Marcatori genetici in tutto il genoma, un processo chiamato studi di associazione a livello genomico (GWAS). I ricercatori misurano anche il rischio per alcuni tratti o malattie usando uno strumento chiamato punteggio di rischio poligenico (PRS). Tradizionalmente, gli scienziati guardavano agli alberi genealogici per stimare quanto fossero imparentate le persone. Questo metodo dà una buona idea delle somiglianze genetiche attese. Tuttavia, con l’aumento dei dati genetici provenienti da polimorfismi a singolo nucleotide (SNP), i ricercatori possono ora calcolare relazioni genetiche reali basate su dati concreti.

Questo passaggio all'uso dei dati SNP presenta alcune sfide. Diversi metodi di misurazione degli SNP, insieme a come i dati vengono controllati per la qualità, possono creare confusione. Quindi, capire le relazioni che derivano dai dati SNP può essere complicato.

Metodi per Misurare le Relazioni Genetiche

Ci sono vari modi per stimare quanto siano imparentate le persone usando i dati SNP. Alcuni metodi usano approcci di massima verosimiglianza, mentre altri usano stimatori basati su momenti. Anche se gli stimatori basati su momenti potrebbero non essere precisissimi, sono più veloci e facili da calcolare. Negli anni, sono stati studiati alcuni fattori che influenzano come misuriamo la parentela. Uno studio ha esaminato come le relazioni possano variare a causa di campionamento genetico casuale e legami genetici.

Attualmente, molti ricercatori usano misure basate sugli SNP negli studi di popolazione, ma non c'è stata molta attenzione su quanto queste misure possano variare. Le differenze nei dati SNP a causa delle relazioni possono influenzare significativamente il potere di rilevare coppie che sono strettamente imparentate rispetto a quelle che non lo sono.

Spesso vengono utilizzati numeri cut-off statici per decidere se due campioni siano imparentati. Questo può portare a errori, come falsi positivi, quando si ignora la variazione nelle stime. Se i ricercatori si affidano solo a cut-off fissi senza considerare come si comportano i dati, potrebbero etichettare erroneamente coppie come correlate.

Introducendo DeepKin: Un Nuovo Approccio

Il nuovo metodo, chiamato deepKin, offre un modo fresco per misurare la parentela usando i dati SNP. Questo strumento è diverso dai metodi precedenti perché fornisce informazioni sulla variazione di campionamento che accompagna il calcolo della parentela. Usando questo nuovo approccio, deepKin può aiutare i ricercatori a capire se le differenze nella parentela sono significative.

DeepKin si concentra su tre concetti chiave nella stima della parentela:

  1. Imposta un valore critico per distinguere la parentela significativa da quella insignificante.
  2. Identifica il numero minimo di marcatori genetici necessari per individuare un certo tipo di parente.
  3. Mostra quanto il potere statistico possa essere regolato in base al grado di parentela testato.

Il team dietro deepKin l'ha testato attraverso simulazioni e dati reali, dimostrando la sua efficacia. Hanno anche reso deepKin disponibile per i ricercatori come pacchetto R.

Comprendere i Metodi di DeepKin

Un obiettivo principale di questo studio è definire il livello di variazione per la parentela genetica basata su momenti. DeepKin utilizza un approccio simile a quello del metodo KING originale, ma con fattori di scala diversi. I ricercatori possono creare matrici per descrivere le relazioni genetiche basate sui valori genotipici.

L'estimatore KING calcola la parentela utilizzando formule specifiche, ma le sue stime rappresentano solo la metà della parentela attesa. Per chiarire i confronti, i ricercatori raddoppiano spesso le stime KING.

Tuttavia, misurare la somiglianza genetica reale può portare a valori tra 0 e 1. Questo significa che ci sono molti fattori che potrebbero influenzare i risultati, e comprendere la variazione di campionamento è cruciale per la stima.

Inferire la Parentela con DeepKin

DeepKin fornisce un metodo per i ricercatori per testare se coppie di individui siano imparentate. Esaminando le relazioni attraverso una lente statistica, deepKin può calcolare punteggi z e valori p corrispondenti basati su distribuzioni empiriche precedenti. Se i ricercatori impostano un livello di significatività, deepKin può definire un valore critico per trarre conclusioni sulla parentela.

Sebbene i punteggi di parentela possano variare continuamente, può essere utile raggrupparli in categorie per un'analisi più semplice. DeepKin consente la valutazione di una relazione osservata rispetto a gradi di parentela predefiniti utilizzando test statistici.

Il metodo coinvolge due parametri principali: dimensione del campione e numero effettivo di marcatori. In definitiva, deepKin mira a migliorare il modo in cui vengono inferiti i rapporti genetici fornendo linee guida che aiutano i ricercatori a prendere decisioni informate.

Linee Guida per Usare DeepKin

I ricercatori possono seguire alcune linee guida fondamentali quando usano deepKin:

  1. Scegliere i Marcatori con Cura: Possono individuare il numero minimo efficace di marcatori necessari per rilevare specifiche relazioni. Concentrandosi solo sulle varianti necessarie, i ricercatori possono risparmiare tempo e ridurre costi.

  2. Comprendere il Potere Statistico: Una volta impostato il livello di significatività, i ricercatori possono determinare quanto il potere potrebbe migliorare o compromettersi in base al numero di marcatori disponibili. Fondamentalmente, aumentare i marcatori efficaci può aumentare le possibilità di identificare relazioni importanti.

L'Importanza del Numero Efficace di Marcatori

Il numero efficace di marcatori, spesso definito "me", è importante per stimare la parentela attraverso deepKin. Descrive la correlazione genetica media tra varianti diverse. I ricercatori possono calcolare questo numero, ma farlo direttamente può essere costoso in termini di potenza di calcolo.

Per affrontare questo problema, vengono proposti due stimatori. Il primo è un estimatore basato su GRM, che guarda agli elementi fuori diagonale della matrice di relazioni genetiche. Il secondo è un estimatore basato su randomizzazione, che migliora l’efficienza iterando attraverso un numero fisso di prove.

Nelle simulazioni, i ricercatori validano l’efficacia di deepKin utilizzando entrambi gli stimatori per dimostrare precisione statistica.

Validare la Variazione

La convalida metodica dell'approccio di deepKin implica la focalizzazione su modelli a singolo e multiplo locus. I ricercatori hanno testato quanto bene i risultati attesi si allineano con i dati osservati in vari scenari per confermare la robustezza delle loro scoperte.

Le simulazioni dimostrano che il metodo deepKin cattura efficacemente le vere relazioni, garantendo affidabilità in diversi gradi di parentela.

Applicazioni nel Mondo Reale: UK Biobank

In un'applicazione pratica, i ricercatori hanno applicato deepKin a un ampio dataset proveniente dalla UK Biobank, che includeva informazioni da oltre 3.000 partecipanti. Hanno esaminato più set di SNP con caratteristiche diverse per capire l'impatto di diversi marcatori genetici.

Facendo ciò, i ricercatori hanno potuto osservare come deepKin si comportasse nei compiti di classificazione, trovando correlazioni tra gradi variabili di parentela. È stato confermato che, con l'aumento dei marcatori efficaci, deepKin diventava più affidabile nella classificazione delle relazioni.

Inoltre, deepKin ha spiegato le relazioni all'interno del dataset della UK Biobank, evidenziando individui imparentati e le loro connessioni basate su posizioni geografiche. Questo ha aggiunto profondità alla comprensione di come la struttura della popolazione possa influenzare le relazioni genetiche.

Risultati Chiave e Conclusioni

Le differenze tra deepKin e metodi precedenti, come KING, risiedono nella capacità di deepKin di tenere conto di elementi mancanti come la variazione di campionamento e quindi migliorare l'inferenza statistica. Una comprensione approfondita della variazione di campionamento è direttamente legata all'efficacia dell'inferenza della parentela.

Inoltre, il numero efficace di marcatori gioca un ruolo fondamentale, consentendo ai ricercatori di affinare le loro analisi per risultati ottimali. A sua volta, questo può influenzare il modo in cui i ricercatori valutano le relazioni, in particolare quando si considerano le frequenze alleliche nei set di SNP.

I ricercatori suggeriscono ulteriori studi per affinare le assunzioni fatte nei modelli e incoraggiano l'eliminazione di varianti a bassa frequenza per evitare risultati fuorvianti.

In generale, deepKin offre un nuovo approccio all'analisi delle relazioni genetiche che può essere utilizzato in vari campi, compresi genetica e applicazioni forensi. Porta un nuovo livello di precisione e rigore nella comprensione di come le persone siano collegate in base ai dati genetici.

Fonte originale

Titolo: DeepKin: precise estimation of in-depth relatedness and its application in UK Biobank

Estratto: Accurately estimating relatedness between samples is crucial in genetics and epidemiological analysis. Using genome-wide single nucleotide polymorphisms (SNPs), it is now feasible to measure realized relatedness even in the absence of pedigree. However, the sampling variation in SNP-based measures and factors affecting method-of-moments relatedness estimators have not been fully explored, whilst static cut-off thresholds have traditionally been employed to classify relatedness levels for decades. Here, we introduce the deepKin framework as a moment-based relatedness estimation and inference method that incorporates data-specific cut-off threshold determination. It addresses the limitations of previous moment estimators by leveraging the sampling variance of the estimator to provide statistical inference and classification. Key principles in relatedness estimation and inference are provided, including inferring the critical value required to reject the hypothesis of unrelatedness, which we refer to as the deepest significant relatedness, determining the minimum effective number of markers, and understanding the impact on statistical power. Through simulations, we demonstrate that deepKin accurately infers both unrelated pairs and relatives with the support of sampling variance. We then apply deepKin to two subsets of the UK Biobank dataset. In the 3K Oxford subset, tested with four sets of SNPs, the SNP set with the largest effective number of markers and correspondingly the smallest expected sampling variance exhibits the most powerful inference for distant relatives. In the 430K British White subset, deepKin identifies 212,120 pairs of significant relatives and classifies them into six degrees. Additionally, cross-cohort significant relative ratios among 19 assessment centers located in different cities are geographically correlated, while within-cohort analyses indicate both an increase in close relatedness and a potential increase in diversity from north to south throughout the UK. Overall, deepKin presents a novel framework for accurate relatedness estimation and inference in biobank-scale datasets. For biobank-scale application we have implemented deepKin as an R package, available in the GitHub repository (https://github.com/qixininin/deepKin).

Autori: Guo-Bo Chen, Q.-X. Zhang, D. Jayasinghe, S. H. Lee, H. Xu

Ultimo aggiornamento: 2024-05-01 00:00:00

Lingua: English

URL di origine: https://www.biorxiv.org/content/10.1101/2024.04.30.591647

Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.04.30.591647.full.pdf

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili