Stimare l'ascendenza: sfide e nuovi metodi
Un' panoramica sugli approcci per stimare l'ascendenza dai dati genetici.
Carola Sophia Heinzel, F. Baumdicker, P. Pfafffelhuber
― 6 leggere min
Indice
Riuscire a capire l'ascendenza di una persona dai suoi dati genetici è una bella sfida. Questo processo è fondamentale in ambiti come la ricerca di persone scomparse, lo studio della storia umana, le indagini forensi e gli sforzi di conservazione. Esistono due tipi principali di metodi usati per stimare l'ascendenza: metodi basati su modelli e metodi privi di modelli.
I metodi basati su modelli utilizzano modelli statistici per analizzare i dati genetici e fornire stime sull'ascendenza. Esempi di questi metodi sono STRUCTURE e ADMIXTURE. Anche se possono essere utili, i ricercatori devono fare attenzione nell'interpretare i risultati, poiché questi modelli non riflettono sempre correttamente la struttura della popolazione in ogni caso.
Dall'altra parte, i metodi privi di modelli utilizzano tecniche diverse, come l'Analisi delle Componenti Principali, per stimare l'ascendenza senza fare troppo affidamento su un modello specifico. C'è anche ricerca in corso sull'uso delle reti neurali per dedurre location geografiche basate su dati genetici, offrendo un'alternativa ai metodi basati su modelli tradizionali.
Una delle sfide di questo campo è determinare quante popolazioni ancestrali considerare quando si stima l'ascendenza. Questo può influenzare notevolmente i risultati. Alcuni ricercatori suggeriscono di mantenere questo numero il più basso possibile per evitare complicazioni e inaccuracies. È noto che eseguire modelli come STRUCTURE più volte può dare stime diverse a causa della variabilità nei risultati, causata spesso da cambi di etichetta o schemi di co-clusterizzazione.
In aggiunta, diversi esecuzioni di questi modelli possono produrre output differenti, rendendo ancora più complicata l'interpretazione delle stime di ascendenza. Questo ha portato allo sviluppo di algoritmi che possono aiutare ad analizzare gli output e risolvere problemi di cambi di etichetta.
Si è osservato che le ascendenze stimate possono essere influenzate significativamente dalla scelta dei Marcatori genetici utilizzati. I ricercatori spesso si concentrano su marcatori specifici che forniscono più informazioni sull'ascendenza. Usando un numero minore di questi marcatori, i ricercatori possono ridurre lo sforzo necessario per l'analisi.
Quando si tratta di stimare l'ascendenza, ci sono due scenari principali. Uno è quando le frequenze alleliche sono già note, il che si chiama impostazione supervisionata. L'altro scenario, su cui si concentrerà questo articolo, è quando queste frequenze devono essere stimate, chiamato impostazione non supervisionata.
Stimare le frequenze alleliche è fondamentale per migliorare le strategie di ricerca, specialmente negli studi familiari. In questo contesto, lo studio utilizzerà stimatori di massima verosimiglianza per stimare sia le frequenze alleliche che l'ascendenza insieme, richiedendo di fissare il numero di popolazioni ancestrali.
Trovare il numero giusto di popolazioni ancestrali è un problema comune in questo campo. Tipicamente, i modelli suggeriscono spesso due popolazioni, ma quando il numero aumenta, possono portare a assunzioni inaccurate. Esperimenti hanno dimostrato che usare modelli per molte popolazioni può essere impraticabile, poiché spesso producono risultati inaffidabili.
Inoltre, è stato osservato che diverse esecuzioni dei modelli possono fornire stime diverse, che sono spesso attribuite a cambi di etichetta. Schemi diversi nelle raggruppamenti individuali possono anche portare a risultati variabili. Le stime di massima verosimiglianza non univoche sono ben note nella teoria statistica, suggerendo che più soluzioni possono fornire la stessa verosimiglianza.
In risposta all'intrinseca non unicità di questi stimatori, i ricercatori hanno sviluppato metodi per analizzare meglio gli output. Il loro obiettivo è risolvere queste incertezze esplorando sistematicamente le varie possibilità delle stime di ascendenza.
Uno dei modi per migliorare l'affidabilità di queste stime è assicurarsi che ci siano marcatori di alta qualità con differenze di frequenza significative tra le popolazioni. Questo aiuta a restringere il campo delle possibili stime di ascendenza e le rende più credibili.
L'obiettivo di questo studio è investigare l'insieme completo delle possibili stime di ascendenza dati un'unica stima di massima verosimiglianza. Descrive un metodo che consente ai ricercatori di comprendere meglio l'intervallo di queste stime e valutare le differenze basate sulle frequenze alleliche e le ascendenze inferite.
Il metodo, chiamato EMALAM, è progettato per esplorare l'intero intervallo di stime di massima verosimiglianza basate sui dati genetici forniti. Usando dati genetici provenienti da grandi progetti, come il Progetto dei 1000 Genomi, i ricercatori possono applicare le loro scoperte e dimostrare le conseguenze delle stime non univoche.
In termini pratici, applicare questo metodo implica esplorare dati provenienti da diverse popolazioni considerando vari marcatori. I ricercatori analizzeranno un numero minore di marcatori scelti con cura per rendere i loro risultati più gestibili e rilevanti.
Esaminando i risultati di diverse popolazioni, i ricercatori possono notare differenze significative tra le ascendenze stimate. Il metodo EMALAM rivela un'ampia gamma di stime che vanno oltre quelle prodotte dai modelli standard. Questo intervallo più ampio indica che c'è più incertezza nelle stime di ascendenza di quanto si pensasse inizialmente.
Ad esempio, analizzando i dati genetici di individui provenienti da diverse popolazioni europee, i ricercatori possono vedere che le differenze nelle stime di ascendenza sono sostanziali. Ciò indica che lo stesso punteggio di verosimiglianza può derivare da valori di ascendenza diversi, rendendo l'interpretazione dei risultati più complessa.
Lo studio sottolinea anche che in scenari in cui le frequenze alleliche sono simili tra le popolazioni, l'intervallo delle possibili stime di ascendenza può espandersi notevolmente. Questo sottolinea l'importanza di selezionare marcatori informativi e popolazioni con background genetici distinti per ottenere stime affidabili.
Nel contesto di più popolazioni, l'uso di EMALAM consente ai ricercatori di trovare stime estreme ma ugualmente probabili, piuttosto che accontentarsi solo dei valori medi presentati dai modelli standard. In questo modo, possono ottenere migliori intuizioni sull'intero panorama delle stime di ascendenza.
Un aspetto cruciale per ottenere stime di ascendenza accurate è la presenza di marcatori e individui ancorati. I marcatori ancorati sono alleli fissi in una popolazione ma variabili in altre, mentre gli individui ancorati possiedono un'ascendenza quasi esclusivamente da un gruppo. La loro importanza è fondamentale, poiché l'assenza di questi ancoraggi porta spesso a un intervallo ampliato delle stime di ascendenza.
Quindi, si incoraggiano i ricercatori a considerare questi aspetti quando analizzano i dati genetici. Lo studio suggerisce che anche usare un gran numero di marcatori non garantisce risultati significativi a meno che non includano marcatori specifici che forniscono le maggiori informazioni.
In conclusione, le complessità nell'estimare l'ascendenza dai dati genetici richiedono un'attenta considerazione dei metodi e dei marcatori utilizzati. Affrontando il problema delle stime di massima verosimiglianza non univoche ed esplorando l'intera gamma di possibilità con metodi come EMALAM, i ricercatori migliorano infine l'affidabilità delle loro stime di ascendenza. Questo lavoro è un passo importante per comprendere meglio la diversità genetica umana e l'ascendenza.
Titolo: Revealing the range of maximum likelihood estimates in the admixture model.
Estratto: Many ancestry inference tools, including STRUCTURE and ADMIXTURE, rely on the admixture model to infer both, allele frequencies p and individual admixture proportions q for a collection of individuals relative to a set of hypothetical ancestral populations. We show that under realistic conditions the likelihood in the admixture model is typically flat in some direction around a maximum likelihood estimate (MLE) [Formula]. In particular, the maximum likelihood estimator is non-unique and there is a complete spectrum of possible estimates. Common inference tools typically identify only a few points within this spectrum. We provide an algorithm which computes the set of equally likely [Formula], when starting from [Formula]. It is analytic for K = 2 ancestral populations and numeric for K > 2. We apply our algorithm to data from the 1000 genomes project, and show that inter-European estimators of q can come with a large set of equally likely possibilities. In general, markers with large allele frequency differences between populations in combination with individuals with concentrated admixture proportions lead to small areas with a flat likelihood. Our findings imply that care must be taken when interpreting results from STRUCTURE and ADMIXTURE if populations are not separated well enough.
Autori: Carola Sophia Heinzel, F. Baumdicker, P. Pfafffelhuber
Ultimo aggiornamento: 2024-10-20 00:00:00
Lingua: English
URL di origine: https://www.biorxiv.org/content/10.1101/2024.10.18.619150
Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.10.18.619150.full.pdf
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.