Avanzamenti nel calcolo dei punteggi poligenici per i rischi per la salute
Nuovi metodi migliorano l'efficienza dei punteggi poligenici nel prevedere risultati di salute.
― 6 leggere min
Indice
- Come vengono creati i punteggi poligenici
- Miglioramenti nel calcolo dei punteggi poligenici
- Risultati del nuovo approccio
- Efficienza del nuovo metodo
- Varianza spiegata dai marcatori genetici
- Applicazioni dei punteggi poligenici
- Addestramento e test dei punteggi poligenici
- Marcatori genetici candidati
- Risultati da diversi metodi
- Direzioni future per i punteggi poligenici
- Conclusione
- Fonte originale
I Punteggi Poligenici (PGS) sono strumenti che ci aiutano a capire come la genetica influisce sulla salute e sulle malattie. Possono mostrare quanto sia probabile che qualcuno sviluppi certe condizioni in base al suo patrimonio genetico. Ultimamente, c'è stato un interesse crescente nell'usare i PGS in ambito medico per prevedere i rischi per la salute.
Come vengono creati i punteggi poligenici
Ci sono due modi principali per creare i PGS. Il primo metodo inizia studiando i singoli Marcatori genetici attraverso un processo chiamato studi di associazione genome-wide (GWAS). In questo processo, i ricercatori esaminano i marcatori genetici di molte persone per trovare quelli legati a tratti o malattie specifiche. Dopo aver identificato questi marcatori, possono affinare i loro risultati considerando le relazioni tra diversi marcatori genetici, le loro funzioni e le caratteristiche specifiche delle popolazioni. Il vantaggio di questo metodo è che può essere fatto in modo rapido ed efficiente, ma potrebbe non catturare tutte le informazioni dettagliate sul genoma.
Il secondo metodo prevede l'uso di tecniche avanzate di machine learning che analizzano grandi quantità di dati genetici direttamente. Questo approccio può fornire una rappresentazione più accurata delle relazioni genetiche, ma richiede molta più memoria e risorse informatiche. Ad esempio, eseguire questi algoritmi su un grande gruppo di individui può richiedere fino a 800 gigabyte di memoria.
Miglioramenti nel calcolo dei punteggi poligenici
Recentemente, il lavoro si è concentrato su come rendere il calcolo dei PGS più veloce e meno impegnativo in termini di risorse. Un miglioramento consiste nell'usare tecniche chiamate regole di screening "sicure" e "forti", che aiutano a ridurre il numero di caratteristiche analizzate e rendono il processo più efficiente. Ad esempio, un nuovo metodo chiamato Batch Screening Iterative Lasso (BASIL) ha dimostrato di essere il 20% più veloce rispetto ad altri metodi.
Nella ricerca, gli scienziati hanno utilizzato la struttura naturale del genoma per accelerare i calcoli. Hanno scoperto che i marcatori genetici distanti tra loro spesso non sono correlati. Questo significa che i ricercatori possono analizzare sezioni del genoma in modo indipendente, il che riduce significativamente il tempo e le risorse necessarie per i calcoli.
Risultati del nuovo approccio
I risultati evidenziano che, nonostante le approssimazioni nei calcoli, gran parte della potenza predittiva rimane intatta, con il nuovo metodo che è circa 500 volte più veloce rispetto ai metodi tradizionali. Questo miglioramento rappresenta un passo avanti significativo su come i PGS possono essere calcolati in modo efficiente.
Una tabella dei risultati mostra quanto bene funziona questo nuovo approccio rispetto ai metodi tradizionali su vari set di dati, guardando specificamente a diverse Condizioni di salute. In molti casi, entrambi i metodi hanno prodotto risultati simili, il che indica che sono affidabili per l'uso nelle previsioni mediche.
Efficienza del nuovo metodo
Il nuovo metodo PGS mostra una notevole efficienza in termini di tempo e utilizzo della memoria. I metodi tradizionali richiedono spesso una grande quantità di potenza informatica e tempo. Ad esempio, eseguire un'analisi PGS tipica può richiedere da 8 a 24 ore, utilizzando fino a 700 gigabyte di memoria. Al contrario, l'approccio a blocchi può ridurre queste esigenze in modo significativo, portando a un aumento medio della velocità di quasi 470 volte, richiedendo solo una frazione della memoria.
Varianza spiegata dai marcatori genetici
I ricercatori hanno anche esaminato quanto della variazione nei tratti della salute potrebbe essere spiegata dai marcatori genetici. Calcolando una misura approssimativa di varianza in ogni localizzazione genetica, hanno trovato aree chiave dove l'influenza genetica è forte. Questo aiuta a identificare quali fattori genetici sono i più importanti per varie condizioni di salute.
Applicazioni dei punteggi poligenici
I PGS sono stati sviluppati da un mix di dati da sondaggi, codici medici e risultati di test di laboratorio. Ogni tratto di salute considerato nella ricerca si basa su una combinazione di questi tipi di dati. I ricercatori si prendono cura di filtrare i valori improbabili per assicurarsi che i dati rimanenti siano accurati.
Inoltre, hanno notato l'ascendenza dei partecipanti in entrambe le biobanche incluse in questa ricerca. L'ascendenza gioca un ruolo nella costruzione e comprensione dei PGS. Identificando i background genetici, i ricercatori possono meglio adattare le previsioni a diverse popolazioni.
Addestramento e test dei punteggi poligenici
Per assicurarsi che i PGS siano affidabili, i ricercatori hanno diviso i loro campioni in gruppi di addestramento, validazione e test. Questo significa che hanno usato un gruppo per costruire i modelli e un altro per testarli. Questa separazione attenta aiuta a confermare che i risultati sono solidi e non solo specifici per un set di dati.
Il processo di addestramento implica la creazione di "fenotipi residui", che sono versioni aggiustate dei tratti di salute principali. Controllando altri fattori come età e sesso, i ricercatori possono meglio isolare l'influenza genetica sulla salute.
Marcatori genetici candidati
Dopo aver determinato quali marcatori genetici includere, i ricercatori hanno eseguito un GWAS per classificare questi marcatori in base al loro potenziale impatto sulle condizioni di salute. Questa classificazione aiuta a identificare i fattori genetici più rilevanti da considerare nella creazione dei PGS.
Ogni marcatore considerato per l'inclusione doveva soddisfare certi criteri per evitare di fare affidamento su dati fuorvianti. In generale, usare circa 50.000 dei marcatori con il punteggio più alto può produrre PGS affidabili, anche se per il metodo a blocchi, il numero di marcatori rilevanti può variare a seconda del cromosoma.
Risultati da diversi metodi
Testare le prestazioni di diversi numeri di marcatori genetici ha mostrato che circa 2.273 marcatori per cromosoma è il punto dolce per ottenere i migliori risultati. Questo numero è in linea con i metodi tradizionali, il che indica che i ricercatori possono ottenere previsioni di alta qualità utilizzando meno risorse.
Il metodo a blocchi consente anche un confronto semplice tra diversi set di dati e ascendenze. Questo è incoraggiante poiché suggerisce che gli effetti di vari fattori, come i metodi di genotipizzazione o le differenze di popolazione, potrebbero non influenzare eccessivamente il risultato.
Direzioni future per i punteggi poligenici
Guardando al futuro, c'è spazio per ulteriori miglioramenti e esplorazioni dei metodi PGS. Le tecniche di screening possono essere integrate nell'approccio a blocchi per renderlo ancora più veloce. Incorporando fattori aggiuntivi come le influenze ambientali o le interazioni tra geni e ambiente, i ricercatori possono lavorare verso previsioni più accurate.
Inoltre, i potenziali benefici dell'uso dei PGS in contesti clinici sono sostanziali. C'è un crescente corpo di prove che suggerisce che questi punteggi possono svolgere un ruolo essenziale nell'identificare individui ad alto rischio per certe malattie, portando a una migliore rilevazione precoce e potenzialmente a una riduzione dei costi sanitari.
Conclusione
In sintesi, lo sviluppo di metodi efficienti per calcolare i punteggi poligenici segna un passo significativo in avanti nella genetica e nella medicina. Semplificando i calcoli e mantenendo l'accuratezza, i ricercatori possono meglio prevedere i rischi per la salute e migliorare i risultati per i pazienti. Anche se ci sono ancora sfide nell'implementare questi strumenti nella pratica clinica, la ricerca in corso offre speranza per una maggiore accessibilità e impatto in futuro.
Titolo: Efficient blockLASSO for Polygenic Scores with Applications to All of Us and UK Biobank
Estratto: We develop a "block" LASSO (blockLASSO) method for training polygenic scores (PGS) and demonstrate its use in All of Us (AoU) and the UK Biobank (UKB). BlockLASSO utilizes the approximate block diagonal structure (due to chromosomal partition of the genome) of linkage disequilibrium (LD). LASSO optimization is performed chromosome by chromosome, which reduces computational complexity by orders of magnitude. The resulting predictors for each chromosome are combined using simple re-weighting techniques. We demonstrate that blockLASSO is generally as effective for training PGS as (global) LASSO and other approaches. This is shown for 11 different phenotypes, in two different biobanks, and across 5 different ancestry groups (African, American, East Asian, European, and South Asian). The block approach works for a wide variety of pheno-types. In the past, it has been shown that some phenotypes are more/less polygenic than others. Using sparse algorithms, an accurate PGS can be trained for type 1 diabetes (T1D) using 100 single nucleotide variants (SNVs). On the other extreme, a PGS for body mass index (BMI) would need more than 10k SNVs. blockLasso produces similar PGS for phenotypes while training with just a fraction of the variants per block. For example, within AoU (using only genetic information) block PGS for T1D (1,500 cases/113,297 controls) reaches an AUC of 0.63{+/-}0.02 and for BMI (102,949 samples) a correlation of 0.21{+/-}0.01. This is compared to a traditional global LASSO approach which finds for T1D an AUC 0.65{+/-}0.03 and BMI a correlation 0.19{+/-}0.03. Similar results are shown for a total of 11 phenotypes in both AoU and the UKB and applied to all 5 ancestry groups as defined via an Admixture analysis. In all cases the contribution from common covariates - age, sex assigned at birth, and principal components - are removed before training. This new block approach is more computationally efficient and scalable than global machine learning approaches. Genetic matrices are typically stored as memory mapped instances, but loading a million SNVs for a million participants can require 8TB of memory. Running a LASSO algorithm requires holding in memory at least two matrices this size. This requirement is so large that even large high performance computing clusters cannot perform these calculations. To circumvent this issue, most current analyses use subsets: e.g., taking a representative sample of participants and filtering SNVs via pruning and thresholding. High-end LASSO training uses [~] 500 GB of memory (e.g., [~] 400k samples and [~] 50k SNVs) and takes 12-24 hours to complete. In contrast, the block approach typically uses [~] 200x (2 orders of magnitude) less memory and runs in [~] 500x less time.
Autori: Timothy G Raben, L. Lello, E. Widen, S. D. HSU
Ultimo aggiornamento: 2024-06-25 00:00:00
Lingua: English
URL di origine: https://www.medrxiv.org/content/10.1101/2024.06.25.24309482
Fonte PDF: https://www.medrxiv.org/content/10.1101/2024.06.25.24309482.full.pdf
Licenza: https://creativecommons.org/licenses/by-nc/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia medrxiv per l'utilizzo della sua interoperabilità ad accesso aperto.