Simple Science

Scienza all'avanguardia spiegata semplicemente

# Scienze della salute# Medicina genetica e genomica

Avanzare i punteggi poligenici per le previsioni sulla salute

Gli scienziati migliorano i punteggi poligenici per prevedere i rischi sanitari in diverse popolazioni.

― 6 leggere min


Punteggi Poligenici: IlPunteggi Poligenici: IlFuturo della Salutela salute.migliorano le previsioni sui rischi perLe innovazioni nei punteggi poligenici
Indice

Il genoma umano è composto da DNA che porta l'informazione genetica di una persona. Capire come i cambiamenti in questo DNA possano influenzare tratti fisici o malattie è piuttosto complicato. Per fare queste connessioni, gli scienziati devono esaminare molti dati. Questo perché ci sono milioni di piccole variazioni nel nostro DNA che possono influenzare come siamo, dalla nostra salute al nostro aspetto.

Con lo sviluppo di grandi biobanche, i ricercatori possono ora raccogliere e analizzare milioni di campioni di DNA da persone. Questo li aiuta a studiare come certe variazioni genetiche siano collegate a vari rischi per la salute e ad altri tratti. Questi grandi set di dati forniscono la potenza necessaria per distinguere tra segnali reali e cambiamenti casuali nei dati.

Che cosa sono i Punteggi Poligenici?

Uno dei principali strumenti derivati dall'analisi di questi set di dati si chiama punteggio poligenico (PGS). Un PGS è un numero che rappresenta il patrimonio genetico di una persona, basato su specifiche variazioni genetiche note come Polimorfismi a singolo nucleotide (SNP). Questi punteggi vengono creati analizzando il DNA della persona e assegnando pesi a diverse variazioni genetiche in base a quanto contribuiscono a determinati tratti o malattie.

La maggior parte della ricerca sui PGS si è concentrata su individui di origine europea. Ad esempio, una Biobanca molto conosciuta nel Regno Unito ha oltre il 90% dei partecipanti che si identificano come bianchi. Questo significa che l'attuale PGS è più efficace per le persone di origine europea.

Ci sono diversi nuovi progetti volti a includere popolazioni più diverse. Ad esempio, sono in corso sforzi in regioni come Taiwan e negli Stati Uniti per creare biobanche che includeranno campioni da popolazioni non europee. Tuttavia, fino a quando questi set di dati diversificati non saranno più disponibili, i ricercatori devono adattare i risultati europei per applicarli ad altri gruppi di origine.

Sfide nell'uso di grandi set di dati

Con l'espansione dei set di dati e l'avanzamento della tecnologia, nascono nuove sfide nella costruzione di PGS efficaci. Set di dati più grandi richiedono maggiore potenza computazionale per l'analisi. Inoltre, i metodi attuali si rivolgono principalmente a persone di origine europea. Gli scienziati hanno proposto molte tecniche per adattare i PGS ad altri gruppi concentrandosi sulle variazioni più rilevanti per diverse popolazioni.

Un'altra preoccupazione è che i futuri PGS dipenderanno dalla raccolta di campioni di DNA da nuovi partecipanti. Se la raccolta dei campioni può concentrarsi su meno variazioni genetiche, potrebbe essere più economica e semplice da implementare.

Sebbene ci siano metodi tradizionali per sviluppare questi punteggi, molti di essi si basano su modelli lineari. Man mano che gli scienziati approfondiscono i dati, affrontano difficoltà derivanti da interazioni genetiche complesse, come il modo in cui i geni influenzano l'un l'altro e come l'ambiente possa alterare gli effetti genetici.

Il ruolo degli algoritmi sparsi

Questo articolo sottolinea i vantaggi dell'uso di algoritmi sparsi. Questi algoritmi aiutano a identificare solo le variazioni genetiche più importanti necessarie per le previsioni. In questo modo, riducono la complessità e migliorano l'accuratezza dei risultati. Studi precedenti hanno dimostrato che i metodi sparsi funzionano altrettanto bene quanto tecniche più complicate.

Questa ricerca si concentra sulle prestazioni e sulle applicazioni pratiche di questi algoritmi sparsi per undici tratti di salute, come asma, diabete e malattie cardiache. Selezionando solo le caratteristiche genetiche essenziali, gli algoritmi possono migliorare l'accuratezza delle previsioni riducendo al minimo i calcoli.

Confronto tra predittori sparsi

Per capire quanto bene si comportano diversi metodi, è stato effettuato un confronto tra più algoritmi sparsi, inclusi LASSO ed Elastic Net. L'obiettivo è vedere quanto efficacemente questi algoritmi possono generare PGS per vari tratti.

I risultati delle prestazioni mostrano che alcuni algoritmi ottengono costantemente risultati migliori. Ad esempio, LASSO, un metodo comunemente usato, tende a ottenere punteggi elevati nella previsione accurata delle condizioni di salute.

Differenze tra gruppi di origine

La ricerca dimostra che quando un predittore progettato per un gruppo di origine viene applicato a un altro gruppo, i risultati spesso ne risentono. Questa riduzione dell'efficacia varia da un tratto di salute all'altro. Alcuni tratti possono perdere gran parte del loro potere predittivo, mentre altri mantengono un'efficacia migliore.

Per sviluppare PGS affidabili per diversi gruppi di origine, è fondamentale comprendere le differenze genetiche e le loro implicazioni. Gli studi sui fratelli possono essere utili, poiché i fratelli di solito condividono di più il loro background genetico e l'ambiente rispetto a individui non imparentati.

Fattori ambientali e il loro impatto

Prevedere condizioni di salute basate su informazioni genetiche non è semplice. I fattori ambientali possono influenzare i risultati, rendendo più difficile isolare l'impatto genetico. Qui i confronti tra fratelli possono giocare un ruolo, poiché tendono a condividere condizioni di vita comuni durante la loro crescita.

In queste analisi, i ricercatori cercano coppie di fratelli affetti, che consistono in un fratello con una condizione e un altro senza. Confrontando i loro punteggi poligenici, gli scienziati possono determinare quanto spesso il fratello con un punteggio più alto ha anche la condizione.

L'importanza dei rapporti di probabilità

Per condizioni di salute che coinvolgono casi e controlli, gli scienziati possono derivare rapporti di probabilità (OR) per dare senso ai risultati. Un rapporto di probabilità confronta la probabilità di avere una condizione basata sui valori PGS. Questo offre un'idea di come la predisposizione genetica possa influenzare il rischio di sviluppare determinate problematiche di salute.

Sebbene i risultati possano sembrare promettenti, è importante rimanere cauti. Gli estremi delle distribuzioni PGS sono i punti in cui i modelli possono diventare meno affidabili e le dimensioni dei campioni tendono a essere più piccole, rendendo difficile l'interpretazione.

Proiettare le prestazioni future

L'articolo discute anche di come l'addestramento su grandi set di dati di biobanche possa aiutare a modellare la potenziale crescita delle prestazioni predittive. Analizzando i dati attuali, i ricercatori possono prevedere come i miglioramenti nelle dimensioni dei campioni porteranno a previsioni migliori in futuro.

Utilizzando vari metodi statistici, le metriche di prestazione previste possono essere tipicamente modellate, aiutando a guidare studi futuri e costruire biobanche efficaci.

Conclusione

Per riassumere, capire come la genetica influenzi la salute e i tratti è un campo complesso che si basa sull'analisi di grandi set di dati. I punteggi poligenici sono strumenti potenti che aiutano a prevedere i rischi per la salute in base al patrimonio genetico. Tuttavia, rimangono delle sfide, in particolare riguardo alla rappresentanza di gruppi di origine diversi.

Utilizzare algoritmi sparsi presenta una direzione promettente, poiché possono migliorare l'accuratezza delle previsioni riducendo al minimo le esigenze computazionali. Sforzi continui per creare set di dati più inclusivi saranno essenziali per migliorare l'affidabilità dei PGS tra diverse popolazioni.

Man mano che i ricercatori continuano a esplorare quest'area, si spera che le intuizioni genetiche portino a migliori risultati di salute per tutti, indipendentemente dall'origine. Il futuro della previsione poligenica ha un grande potenziale, ma è chiaro che c'è ancora molto lavoro da fare per colmare le lacune e garantire strumenti di salute equi per tutte le comunità.

Fonte originale

Titolo: Biobank-scale methods and projections for sparse polygenic prediction from machine learning

Estratto: In this paper we characterize the performance of linear models trained via widely-used sparse machine learning algorithms. We build polygenic scores and examine performance as a function of training set size, genetic ancestral background, and training method. We show that predictor performance is most strongly dependent on size of training data, with smaller gains from algorithmic improvements. We find that LASSO generally performs as well as the best methods, judged by a variety of metrics. We also investigate performance characteristics of predictors trained on one genetic ancestry group when applied to another. Using LASSO, we develop a novel method for projecting AUC and Correlation as a function of data size (i.e., for new biobanks) and characterize the asymptotic limit of performance. Additionally, for LASSO (compressed sensing) we show that performance metrics and predictor sparsity are in agreement with theoretical predictions from the Donoho-Tanner phase transition. Specifically, a predictor trained in the Taiwan Precision Medicine Initiative for asthma can achieve an AUC of 0.63(0.02) and for height a correlation of 0.648(0.009) for a Taiwanese population. This is above the measured values of 0.61(0.01) and 0.631(0.008), respectively, for UK Biobank trained predictors applied to a European population.

Autori: Timothy G Raben, L. Lello, E. Widen, S. D. H. Hsu

Ultimo aggiornamento: 2023-03-08 00:00:00

Lingua: English

URL di origine: https://www.medrxiv.org/content/10.1101/2023.03.06.23286870

Fonte PDF: https://www.medrxiv.org/content/10.1101/2023.03.06.23286870.full.pdf

Licenza: https://creativecommons.org/licenses/by-nc/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia medrxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili