Migliorare la stima degli alberi delle specie con metodi basati sui quartetti
Questo studio analizza come diversi metodi influenzano le stime degli alberi delle specie.
― 8 leggere min
Indice
Stimare come diverse specie siano correlate usando più marcatori genetici è un compito comune in biologia. Però, può essere complicato perché diversi marcatori genetici possono raccontare storie diverse su come le specie si sono evolute. Questa dissonanza tra i marcatori genetici è conosciuta come Discordanza degli Alberi Genetici. Succede per vari motivi, come il sorting incompleto delle linee, la duplicazione dei geni e il trasferimento orizzontale dei geni.
Certi gruppi di specie subiscono cambiamenti rapidi, rendendo ancora più difficile ricomporre la loro storia evolutiva. Questo è particolarmente vero quando sono coinvolti molti geni, poiché possono portare a conflitti tra le storie dei geni e le storie generali delle specie a causa di un sorting delle linee incompleto. I ricercatori hanno sviluppato modelli per capire meglio queste discrepanze.
Quando c'è discordanza degli alberi genetici, i metodi comunemente usati per stimare gli alberi delle specie, come la concatenazione, a volte possono dare risultati poco affidabili. La concatenazione combina i dati di molti geni in un singolo set di dati, il che può portare a conclusioni fuorvianti. Per superare questi problemi, un processo in due fasi sta guadagnando popolarità. Questo implica prima stimare gli alberi genetici separatamente e poi riassumerli per formare un albero delle specie. Molti di questi metodi di sintesi hanno dimostrato di fornire risultati coerenti anche in presenza di discordanza genetica.
Il Ruolo dei Metodi Basati su Quartetti
Tra i vari metodi per riassumere gli alberi genetici, quelli basati su quartetti hanno ricevuto molta attenzione. Un quartetto si riferisce a un insieme di quattro specie e all'albero che descrive le loro relazioni. Questi metodi cercano di risolvere le disaccordi concentrandosi su gruppi più piccoli di specie, evitando situazioni in cui la struttura dell'albero più probabile potrebbe essere fuorviante.
Uno dei metodi basati su quartetti più popolari è ASTRAL. Prende una collezione di alberi genetici e trova l'albero delle specie che corrisponde al maggior numero di quartetti presenti in quegli alberi. Altri metodi, come wQFM e wQMC, funzionano stimando i quartetti per ogni insieme di quattro specie e poi combinandoli in un albero delle specie coerente. Una grande sfida con il riassunto degli alberi genetici è che le stime possono essere molto soggette a errori, specialmente se le sequenze usate sono brevi, rendendo i metodi di sintesi sensibili a questi errori.
Un aspetto interessante è che i quartetti possono essere pesati. Questo significa che alcuni quartetti possono contribuire di più alla stima finale in base alla loro accuratezza. Studi hanno dimostrato che assegnare pesi ai quartetti può migliorare la qualità dell'analisi filogenetica, anche quando sono presenti errori. Un metodo noto come wASTRAL è stato sviluppato per assegnare pesi ai quartetti in base alla loro affidabilità e ha dimostrato di funzionare meglio rispetto alla versione non pesata in scenari simulati.
Tuttavia, si è prestata molta meno attenzione a come vengono generati questi quartetti pesati prima di essere riassunti in un albero delle specie. Questo studio intende colmare quella lacuna valutando vari modi per calcolare quartetti pesati e indagando il loro impatto sulla stima degli alberi delle specie.
Design dell'Esperimento
Lo studio ha utilizzato metodi ben noti basati su quartetti per stimare alberi delle specie in base agli alberi genetici, alle allineamenti di sequenze multiple, o a una combinazione di entrambi. L'attenzione era rivolta a valutare come diverse strategie per generare quartetti pesati si comportavano nella stima degli alberi delle specie.
Lo studio ha incluso vari metodi, come ASTRAL, wASTRAL, wQFM, wQMC e SVDquartets. ASTRAL cerca di trovare un albero delle specie che massimizza il numero di quartetti coerenti con gli alberi genetici. Funziona secondo un modello statistico coerente. D'altra parte, wQFM e wQMC sono metodi che amalgamano quartetti pesati in un albero delle specie, estendendo le tecniche di amalgamazione dei quartetti per pesare in base alla loro affidabilità.
Un altro metodo, SVDquartets, inferisce direttamente quartetti pesati dai dati di ciascun gene senza bisogno di stimare alberi per ogni posizione. In questo studio, sono state esplorate varie strategie per generare quartetti pesati, come l'uso di metodi basati su bootstrapping e campionamento bayesiano.
L'impatto di questi diversi quartetti sulla deduzione degli alberi delle specie è stato testato attraverso esperimenti estesi, confrontando questi metodi con le principali tecniche di stima degli alberi delle specie come ASTRAL e SVDquartets.
Domande di Ricerca
Lo studio ha posto diverse domande importanti:
- Quali metodi sono più efficaci per generare distribuzioni di quartetti e come influenzano l'accuratezza degli alberi delle specie?
- Come si confrontano le tecniche di amalgamazione dei quartetti più popolari, wQFM e wQMC, quando abbinate ai diversi metodi di generazione per i quartetti?
- Come si comportano i metodi più efficaci emersi dalle domande precedenti rispetto alle principali tecniche di stima degli alberi delle specie?
- I punteggi dei quartetti degli alberi delle specie stimati sono predittivi della loro accuratezza?
- Come si comportano i migliori metodi su set di dati biologici reali?
Valutazione dei Set di Dati Simulati e Biologici
Lo studio ha utilizzato sia set di dati simulati che biologici reali per valutare le prestazioni di vari metodi. I set di dati simulati includevano un numero variabile di geni e lunghezze di sequenza per testare come si comportavano diverse tecniche in condizioni differenti. I set di dati biologici reali includevano dati genetici di mammiferi e uccelli, fornendo un contesto pratico per valutare i metodi.
Risultati e Scoperte
I risultati hanno mostrato che utilizzare tutti i quartetti, piuttosto che solo quelli dominanti, portava generalmente a stime migliori degli alberi delle specie. I metodi che incorporavano distribuzioni di alberi genetici erano anche più accurati rispetto a quelli che si basavano unicamente su una singola migliore stima per ogni gene. Specificamente, i metodi bayesiani per generare distribuzioni di alberi genetici hanno migliorato significativamente l'accuratezza delle stime degli alberi delle specie.
Per i metodi basati su quartetti, wQFM ha costantemente superato wQMC in una varietà di condizioni, indicando che è un approccio più affidabile nella stima degli alberi delle specie. Quando testato contro metodi leader come ASTRAL, wQFM usando distribuzioni di alberi bayesiani ha funzionato eccezionalmente bene, particolarmente in condizioni difficili in cui gli alberi genetici erano meno affidabili.
Inoltre, è emerso che i punteggi dei quartetti-una misura di quanto bene gli alberi stimati corrispondono agli alberi genetici sottostanti-erano indicativi dell'effettiva accuratezza degli alberi delle specie. Questo suggerisce che punteggi di quartetti più alti possono correlare con migliori ricostruzioni degli alberi delle specie, anche quando gli alberi genetici potrebbero contenere errori.
Prestazioni su Set di Dati Biologici Reali
L'analisi di set di dati biologici reali ha fornito ulteriori spunti. Il set di dati sui mammiferi, che includeva 447 geni su 37 specie, è stato analizzato per vedere come i diversi metodi ricostruiscono le relazioni tra queste specie. Gli alberi stimati da wQFM corrispondevano strettamente con le relazioni evolutive stabilite rispetto ad altri metodi.
Allo stesso modo, per il set di dati aviano, wQFM ha prodotto risultati che si allineavano meglio con le filogenie note rispetto a SVDquartets, che ha avuto difficoltà con alcune relazioni ben stabilite a causa di un'alta discordanza tra gli alberi genetici.
Raccomandazioni Basate sui Risultati
Data le scoperte dello studio, possono essere fatte diverse raccomandazioni per future analisi degli alberi delle specie:
Utilizzare Metodi Bayesiani: Quando possibile, l'uso di distribuzioni di alberi genetici generate tramite metodi bayesiani può migliorare l'accuratezza delle stime degli alberi delle specie.
Considerare Approcci Molteplici: È consigliabile analizzare le stime degli alberi delle specie usando varie tecniche. Se i risultati sono in conflitto, questo può aiutare a identificare le conclusioni più affidabili o indicare problemi di qualità dei dati che potrebbero dover essere affrontati.
Esplorare Diversi Quartetti: Quando si utilizzano metodi basati su quartetti, l'uso di tutti i quartetti insieme ai pesi basati sulla loro affidabilità può portare a costruzioni più accurate degli alberi delle specie.
Essere Consapevoli delle Limitazioni: Essere consapevoli delle limitazioni intrinseche in diversi metodi, specialmente quando si tratta di set di dati complessi che possono coinvolgere storie evolutive profonde o una vasta discordanza degli alberi genetici.
Conclusione
In conclusione, i metodi per stimare gli alberi delle specie da più loci genetici richiedono una considerazione attenta dei dati sottostanti e delle strategie utilizzate per generare quelle stime. Concentrandosi sulla generazione di quartetti pesati e utilizzando tecniche di amalgamazione appropriate, i ricercatori possono migliorare l'accuratezza e l'affidabilità delle loro analisi sugli alberi delle specie. Questo studio getta luce su aspetti vitali della stima degli alberi delle specie e fornisce una roadmap per la ricerca futura in questo campo. I risultati sottolineano l'importanza di affrontare queste analisi con occhio critico, considerando metodi e fonti di dati multiple per arrivare alle conclusioni più accurate riguardo le relazioni tra le specie.
Titolo: Leveraging weighted quartet distributions for enhanced species tree inference from genome-wide data
Estratto: Species tree estimation from genes sampled from throughout the whole genome is challeng-ing in the presence of gene tree discordance, often caused by incomplete lineage sorting (ILS), where alleles can coexist in populations for periods that may span several speciation events. Quartet-based summary methods for estimating species trees from a collection of gene trees are becoming popular due to their high accuracy and theoretical guarantees of robustness to arbitrarily high amounts of ILS. ASTRAL, the most widely used quartet-based method, aims to infer species trees by maximizing the number of quartets in the gene trees that are consistent with the species tree. An alternative approach (as in wQFM) is to infer quartets for all subsets of four species and amalgamate them into a coherent species tree. While summary methods can be highly sensitive to gene tree estimation errors-especially when gene trees are derived from short alignments-quartet amalgamation offers an advantage by potentially bypassing the need for gene tree estimation. However, greatly understudied is the choice of weighted quar-tet inference method and downstream effects on species tree estimations under realistic model conditions. In this study, we investigated a broad range of methods for generating weighted quartets and critically assessed their impact on species tree inference. Our results on a collec-tion of simulated and empirical datasets suggest that amalgamating quartets weighted based on gene tree frequencies (GTF) typically produces more accurate trees than leading quartet-based methods like ASTRAL and SVDquartets. Further enhancements in GTF-based weighted quar-tet estimation were achieved by accounting for gene tree uncertainty, through the utilization of a distribution of trees for each gene (instead of a single tree), by employing traditional nonpara-metric bootstrapping methods or Bayesian MCMC sampling. Our study provides evidence that the careful generation and amalgamation of weighted quartets, as implemented in methods like wQFM, can lead to significantly more accurate trees compared to widely employed methods like ASTRAL, especially in the face of gene tree estimation errors.
Autori: Navid Bin Hasan, A. Biswas, Z. Wahab, M. Mahbub, R. Reaz, M. S. Bayzid
Ultimo aggiornamento: 2024-09-19 00:00:00
Lingua: English
URL di origine: https://www.biorxiv.org/content/10.1101/2024.09.15.613103
Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.09.15.613103.full.pdf
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.