Nuovo metodo migliora l'analisi genetica per l'Alzheimer
DiGAS offre approfondimenti più dettagliati sui fattori genetici legati alla malattia di Alzheimer.
― 8 leggere min
Indice
Gli esseri umani condividono più del 99% del loro DNA, ma anche le piccole differenze nel DNA possono influenzare molto la salute. Queste differenze possono apparire come polimorfismi a singolo nucleotide (SNP), inserimenti, deletions o cambiamenti più grandi nelle sequenze di DNA. Gli SNP sono il tipo più comune di variazione genetica negli esseri umani, apparendo circa ogni 300 coppie di basi. I ricercatori si concentrano sugli SNP perché sono abbondanti, presenti in varie parti del genoma, ereditari e hanno effetti reali sulla salute, rendendoli importanti per gli studi sulle popolazioni e per le applicazioni cliniche.
Gli SNP possono verificarsi all'interno dei geni o in regioni non codificanti. Studiando gli SNP, i ricercatori cercano schemi che potrebbero rivelare come si manifestano le malattie, aiutandoli a valutare i rischi, creare trattamenti mirati e migliorare la medicina personalizzata. Ad esempio, uno specifico SNP nel gene APOE è legato alla malattia di Alzheimer, mentre un'altra delezione nel gene CCR5 offre resistenza all'HIV. Le differenze nei geni che influenzano il sistema immunitario possono aumentare il rischio di malattie autoimmuni o infezioni.
Studi di associazione a livello genoma (GWAS)
Gli studi di associazione a livello genoma (GWAS) sono metodi per collegare varianti genetiche al rischio di malattia negli studi di popolazione. GWAS analizza le variazioni comuni nel DNA di persone con una condizione specifica, supponendo che queste varianti comuni si trovino nella popolazione più ampia. Tuttavia, l'analisi può affrontare sfide perché testare molte varianti aumenta le probabilità di risultati falsi positivi.
Molti SNP identificati attraverso GWAS hanno effetti solo modesti. Questo potrebbe essere dovuto al fatto che il vero SNP causale non è identificato, ma è tra gli SNP che sono collegati a quello causale. Poiché questi SNP collegati mostrano solo effetti moderati, potrebbe essere utile considerare l'impatto combinato di più SNP. Questo approccio può catturare meglio i veri effetti rispetto all'analisi di SNP singoli.
La ricerca mostra che i geni e le loro proteine spesso lavorano insieme in specifici percorsi. Gli SNP possono influenzare le malattie attraverso le loro interazioni all'interno di questi percorsi. Utilizzare un approccio a singolo marcatore in GWAS può far perdere di vista queste relazioni a causa dell'influenza modesta degli SNP individuali. Concentrarsi a livello di geni o percorsi può migliorare la potenza statistica e aumentare le probabilità di trovare associazioni significative senza necessità di più dati.
Analisi dei set di SNP
Alcuni metodi funzionano per analizzare gruppi di SNP invece che singoli. Un approccio utilizza la regressione logistica per modellare gli effetti combinati degli SNP in regioni specifiche. Questo implica raggruppare gli SNP in base alla loro posizione nei geni o in altre caratteristiche genomiche. L'obiettivo è testare se uno qualsiasi degli SNP è correlato a un certo risultato tenendo conto di altri fattori.
Esistono vari metodi per calcolare i valori p per i set di SNP. Alcuni usano l'SNP con il valore p più basso come rappresentante per l'intero gene, mentre altri ricalcolano i valori p da dataset permutati per determinare la significatività. Questi metodi mirano a tenere conto delle relazioni tra SNP mentre testano i loro effetti individuali.
DiGAS: Un nuovo approccio
In questo contesto, introduciamo DiGAS, un nuovo strumento che analizza elementi genomici legati a condizioni di salute specifiche. DiGAS utilizza un nuovo modo per descrivere le informazioni genetiche, chiamato “spettro degli alleli generalizzato.” Questo nuovo metodo considera tutti gli SNP in una regione contemporaneamente invece di uno alla volta, catturando la frequenza delle variazioni in quella regione. Lo Spettro degli Alleli Generalizzati Differenziale misura le differenze nelle frequenze degli alleli tra individui sani e malati.
DiGAS analizza tutti gli SNP nelle regioni genomiche insieme, permettendo di trovare effetti combinati di più SNP. Questo approccio offre una migliore potenza statistica per identificare elementi genomici rilevanti rispetto ad altri metodi focalizzati solo su SNP singoli. Il descrittore dello spettro degli alleli generalizzato aiuta a rappresentare le variazioni genetiche in modo più completo, migliorando l'accuratezza del collegamento dei segnali genetici a specifiche regioni.
Inoltre, DiGAS fornisce risultati comprensibili identificando caratteristiche basate sulle differenze nelle frequenze degli alleli. Questo consente una comprensione più chiara degli elementi genetici legati a condizioni di salute, in contrasto con i metodi basati sulla regressione che potrebbero non fornire altrettanta chiarezza.
Inoltre, DiGAS utilizza un approccio non lineare per rilevare effetti genetici complessi, mentre altri metodi spesso si basano su assunzioni più semplici e lineari. Questo consente a DiGAS di riconoscere relazioni genetiche intricate che sono comuni nelle malattie complesse, offrendo una migliore comprensione dei fattori genetici sottostanti.
Applicazione alla malattia di Alzheimer
DiGAS è stato testato in relazione alla malattia di Alzheimer (AD), una condizione progressiva in cui i sintomi peggiorano nel tempo. Sebbene attualmente non ci sia una cura per l'AD, comprendere le sue cause è vitale per la ricerca biomedica. Anche se la causa esatta rimane poco chiara, si crede che coinvolga una combinazione di fattori genetici, ambientali e legati allo stile di vita.
I fattori genetici giocano un ruolo chiave nell'AD, con alcune variazioni genetiche che aumentano il rischio di sviluppare la malattia. Singoli casi possono mostrare diversi SNP collegati alla malattia, il che significa che la presenza o l'assenza di uno specifico SNP da sola non è sufficiente per prevedere l'AD. Invece, una combinazione di più SNP influisce sulla suscettibilità di un individuo alla malattia.
L'interazione di più SNP, insieme ad altri fattori genetici e ambientali, contribuisce alla complessità della malattia di Alzheimer. Questo evidenzia la necessità di studiare non solo singoli SNP, ma anche come interagiscono e influenzano l'uno l'altro. Esaminando l'impatto collettivo degli SNP, i ricercatori possono avere una comprensione migliore del panorama genetico dell'AD e identificare marcatori più completi associati al rischio e alla progressione della malattia.
Confronto con SKAT
DiGAS è stato confrontato con SKAT, che utilizza anche dati genetici per valutare diverse regioni genomiche. I risultati mostrano che DiGAS supera SKAT nel differenziare tra individui sani e malati basandosi sulle loro caratteristiche genetiche. Inoltre, DiGAS richiede significativamente meno tempo di calcolo rispetto a SKAT.
Metodologia di DiGAS
DiGAS è costruito utilizzando Python, prendendo le coordinate delle regioni genomiche e i dati SNP come input. Gli individui sono suddivisi in categorie in base al loro stato di salute, come sani o malati. Il metodo esamina la presenza di SNP rispetto a un genoma di riferimento, determinando dove si trova ciascun SNP.
Il metodo analizza gli SNP attraverso varie regioni genomiche, inclusi geni, esoni e aree intergeniche, a seconda degli obiettivi dello studio. Lo spettro degli alleli generalizzati viene misurato per ciascuna regione, identificando aree significative di interesse basate su variazioni nelle frequenze tra le categorie di salute.
Il metodo utilizza anche test di permutazione per calcolare i valori p, indicando se le differenze osservate sono statisticamente significative. Assegnando casualmente le etichette delle categorie e confrontandole con i dati originali, i ricercatori possono determinare quali regioni sono significativamente correlate alle categorie di salute esaminate.
Dataset e valutazione
I dati per testare DiGAS provengono dall'Alzheimer's Disease Neuroimaging Initiative, che raccoglie vari tipi di dati, inclusi genetici e valutazioni cognitive. Lo studio ha analizzato individui basandosi sulle loro categorie di salute, garantendo una rappresentanza equilibrata nei dati.
Sono state applicate procedure di controllo qualità per filtrare SNP non rilevanti e garantire l'affidabilità dei dati. Queste procedure hanno rimosso SNP con alti tassi di dati mancanti o quelli che non si conformavano alle frequenze genetiche attese.
DiGAS ha utilizzato vari algoritmi di classificazione tra cui analisi discriminante lineare, macchine a vettori di supporto, alberi decisionali e altri per valutare l'efficacia nell'identificare regioni genomiche significative. È stato applicato un metodo di cross-validation per garantire che il modello fosse addestrato e testato accuratamente.
Risultati e discussione
I risultati hanno mostrato che DiGAS ha costantemente superato SKAT, in particolare quando ha analizzato diverse regioni genomiche. Il metodo ha mostrato una forte capacità di distinguere tra individui sani e malati basandosi sui loro dati genetici. Classificazioni accurate sono state raggiunte con vari algoritmi, in particolare con macchine a vettori di supporto.
L'efficacia di DiGAS evidenzia l'importanza non solo degli SNP singoli, ma anche degli effetti combinati degli SNP all'interno delle regioni genomiche. I risultati hanno indicato che esoni e regioni a monte forniscono informazioni preziose sulla malattia di Alzheimer, suggerendo che gli elementi regolatori svolgono un ruolo significativo.
In conclusione, DiGAS rappresenta un nuovo approccio per studiare malattie genetiche complesse come l'Alzheimer. La capacità del metodo di analizzare gruppi di SNP insieme e identificare regioni genetiche significative offre una maggiore accuratezza ed efficienza rispetto ai metodi esistenti. I risultati sottolineano la necessità di ulteriori esplorazioni delle variazioni genetiche e delle loro potenziali implicazioni per il rischio di malattia e il trattamento.
Titolo: DiGAS: Differential gene allele spectrum as descriptor in genetic studies
Estratto: Diagnosing subjects in complex genetic diseases is a very challenging task. Computational methodologies exploit information at genotype level by taking into account single nucleotide polymorphisms (SNP). They leverage the result of genome-wide association studies analysis to assign a statistical significance to each SNP. Recent methodologies extend such an approach by aggregating SNP significance at genetic level in order to identify genes that are related to the condition under study. However, such methodologies still suffer from the initial single-SNP analysis. Here, we present DiGAS, a tool for diagnosing genetic conditions by computing significance, by means of SNP information, but directly at the gene level. Such an approach is based on a generalized notion of allele spectrum, which evaluates the complete genetic alterations of the SNP set composing a gene at population level. Statistical significance of a gene is then evaluated by means of a differential analysis between the healthy and ill portions of the population. Tests, performed on well-established data sets regarding Alzheimers disease, show that DiGAS outperforms the state-of-the-art in distinguishing between ill and healthy subjects. HighlightsO_LIWe introduce a new generalized version of allele frequency spectrum. C_LIO_LIWe propose a methodology, called DiGAS, based on the new defined genomic information and independent from GWAS analysis that out-performs existing methods in distinguish healthy/ill subjects with a speed up of 5x. C_LIO_LIOn a reference Alzheimers disease genomic datasets, ADNI, DiGAS reaches F1 score up to 0.92. C_LIO_LIDiGAS methodology manages any type of genomic features, such as genes, exons, upstream/downstream regions. C_LI
Autori: Rosalba Giugno, A. Aparo, B. Vincenzo, S. Avesani, L. Cascione
Ultimo aggiornamento: 2023-10-16 00:00:00
Lingua: English
URL di origine: https://www.medrxiv.org/content/10.1101/2023.10.16.23297102
Fonte PDF: https://www.medrxiv.org/content/10.1101/2023.10.16.23297102.full.pdf
Licenza: https://creativecommons.org/licenses/by-nc/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia medrxiv per l'utilizzo della sua interoperabilità ad accesso aperto.