Simple Science

最先端の科学をわかりやすく解説

# 生物学# 生物情報学

系統解析のための教育を受けたブートストラップ推測器の紹介

新しい方法が機械学習を使って系統支持値の予測を強化する。

― 1 分で読む


EBGを使った高速系統解析EBGを使った高速系統解析ップ値の予測を改善するよ。EBGは機械学習技術を使ってブートストラ
目次

系統樹は、異なる種や生物の進化の歴史に基づく関係を示す方法だよ。家族の木を想像してみて、それが親戚を示す代わりに、異なる種がどう関係してるかを表してるんだ。科学者たちは、この木を使って生命がどのように進化してきたかを理解しているんだ。

系統樹を作る挑戦

この木を作るのは簡単じゃない。いろんな生物からのデータがたくさん必要で、生物の数が増えると、木の配置の可能性がめちゃくちゃ増えちゃう。だから、種間の関係を正確に反映した最良の木を見つけるのに、たくさんの時間と計算力がかかるんだ。

この複雑さに対処するために、研究者たちは最良の木を近似するためのいろんな戦略を使ってるよ。一つの人気のあるアプローチは、最尤法(ML)って呼ばれるもので、観察データが最も可能性の高い木を探すんだ。でも、この方法はいつも完璧な解決策を保証するわけじゃないから、結果がどれだけ信頼できるかを確かめるためにさらに分析が必要なことが多い。

不確実性分析の重要性

与えられた系統樹にどれだけ自信を持てるかを評価するために、科学者たちは不確実性分析を行うんだ。この分析は、木の枝の信頼性を測るのに役立つよ。一つの一般的な方法は、ブートストラップサポートって呼ばれるもので、何度もサンプリングしてデータのいくつかのバージョンを作り、それぞれのバージョンから木を作るんだ。特定の枝がこれらの木にどれだけ頻繁に現れるかで、その支持値を決めるんだ。

ブートストラッピングはかなりリソースを使うから、結果を得るのにかなりの時間とコンピュータの力が必要だよ。信頼できる支持値を得るために、研究者たちは通常、何百回も何千回もブートストラップの複製を行うんだ。

ブートストラップサポートの速い代替手段

プロセスを速くしながら、まだ良い推定を得るために、研究者たちは速い方法を開発してるよ。そんな方法の一つが、ラピッドブートストラップサポート(RB)で、同じ値を近似するためにショートカットを使うんだ。もう一つの方法はウルトラファストブートストラップ(UFBoot2)で、異なるアプローチを組み合わせて結果をもっと速く、そして信頼性高く出すんだ。

この二つの方法はすぐに支持値を出せるけど、ちょっとしたクセがあって、全部のシナリオで標準のブートストラッピング法ほど頑丈じゃないかもしれないよ。

教育されたブートストラップ予測器(EBG)

ブートストラップサポート値をもっと簡単に速く予測できるように、教育されたブートストラップ予測器(EBG)っていう新しい方法が登場したんだ。EBGは機械学習を使って、系統樹のデータに基づいて支持値を予測するんだ。実際のデータでトレーニングすることで、EBGは従来の方法よりもずっと速く支持値を提供できるんだ。

テストでは、EBGが標準的な方法と比べて平均して約9倍速いことがわかったよ。また、特定の枝が特定の支持しきい値を超えるかどうかを予測する能力も良いんだ。

EBGの仕組み

EBGは主に二つのステップで動くよ:実際の支持値を予測する(回帰)ことと、これらの値が特定のしきい値を超える確率を評価する(分類)こと。これらのステップによって、ユーザーは支持値だけでなく、これらの予測にどれだけ自信を持てるかもわかるんだ。

EBGをトレーニングするために、研究者たちはいろんな配列の実データのセットを使って、トレーニングデータが分析する科学者にとって典型的なデータセットを代表するようにしたんだ。重複した配列は取り除いて、ユニークなデータに焦点を当てたよ。

EBGで使われる特徴

EBGは系統樹から得られたさまざまな特徴を使ってるんだ。これには、以前のブートストラップ分析からの支持値や他の木の特性が含まれてるよ。EBGを構築する過程で、より大きなプールから最も役立つ特徴を選び出して、正確に支持値を予測できるようにしたんだ。

EBGのパフォーマンス評価

EBGがどれだけうまく機能するかを理解するために、研究者たちは既存の方法と比べてテストを行ったよ。結果は、EBGがラピッドブートストラップのような他の確立された方法を常に上回るわけではないけど、予測の精度を向上させる有用な不確実性の測定を提供することができることを示したんだ。

さらに、EBGは分析が難しいとされるデータセットにも効果的に使えることがわかったよ、例えば複雑なゲノム配列から得られたデータセットなんかがそうだね。

EBGと他の方法の比較

EBGをUFBoot2やSH-like aLRTのような他のツールと比較すると、EBGは標準的なブートストラップ法から期待される結果にかなり近いものを出したんだ。ただし、これらの方法すべてに強みと弱みがあることは重要な点だよ。

例えば、いくつかの方法は結果が早く出るかもしれないけど、必ずしも最も正確であるわけではないんだ。EBGは速度と精度のバランスをとろうとしていて、これがこの分野での便利なツールになってるんだ。

時間効率の検討

EBGの設計で重要な点はその効率さ。テストでは、EBGが従来の方法よりかなり速くパフォーマンスを発揮しつつ、良い精度を維持することが示されたんだ。これが、大規模なデータセットを分析する必要がある研究者にとって実用的な選択肢になっているんだ。

EBGの特徴の重要性

研究者たちは、EBGの予測においてどの特徴が重要な役割を果たしているかを評価したよ。特に、以前のブートストラップサポートに関連する特徴が、予測の精度にとって非常に重要であることがわかったんだ。

これは、いくつかの機械学習アプローチで、多くの弱いモデルが組み合わさって強力な全体の予測を生み出すのと似ているね。EBGがこれらの特徴を効果的に活用できる能力は、コミュニティにとって強力なツールになりうることを示唆しているんだ。

結論

要するに、教育されたブートストラップ予測器は系統樹を分析するための有望な新しいアプローチを提供しているんだ。機械学習を利用することで、ブートストラップサポート値を迅速かつ信頼性高く予測するのを助けてるんだ。

EBGの継続的な開発は、分析プロセスを効率化しながら精度を維持する強力なツールを提供することで、系統発生学の研究を進化させる可能性があるよ。この分野が進化するにつれて、こうした方法が生物学的データの複雑さに対応するために重要になるだろうね。

研究者たちはこれらのツールを改善し続けていて、科学者たちが研究する種の関係や歴史をよりよく理解できるようにしているんだ。

オリジナルソース

タイトル: Predicting Phylogenetic Bootstrap Values viaMachine Learning

概要: SummaryEstimating the statistical robustness of the inferred tree(s) constitutes an integral part of most phylogenetic analyses. Commonly, one computes and assigns a branch support value to each inner branch of the inferred phylogeny. The most widely used method for calculating branch support on trees inferred under Maximum Likelihood (ML) is the Standard, non-parametric Felsenstein Bootstrap Support (SBS). Due to the high computational cost of the SBS, a plethora of methods has been developed to approximate it, for instance, via the Rapid Bootstrap (RB) algorithm. There have also been attempts to devise faster, alternative support measures, such as the SH-aLRT (Shimodaira-Hasegawalike approximate Likelihood Ratio Test) or the UltraFast Bootstrap 2 (UFBoot2) method. Those faster alternatives exhibit some limitations, such as the need to assess model violations (UFBoot2) or meaningless low branch support intervals (SH-aLRT). Here, we present the Educated Bootstrap Guesser (EBG), a machine learning-based tool that predicts SBS branch support values for a given input phylogeny. EBG is on average 9.4 ({sigma} = 5.5) times faster than UFBoot2. EBG-based SBS estimates exhibit a median absolute error of 5 when predicting SBS values between 0 and 100. Furthermore, EBG also provides uncertainty measures for all per-branch SBS predictions and thereby allows for a more rigorous and careful interpretation. EBG can predict SBS support values on a phylogeny comprising 1654 SARS-CoV2 genome sequences within 3 hours on a mid-class laptop. EBG is available under GNU GPL3. Data and Code Availabilitygithub.com/wiegertj/EBG github.com/wiegertj/EBG-train [email protected]

著者: Julius Wiegert, J. Haag, D. Hoehler, A. Stamatakis

最終更新: 2024-03-06 00:00:00

言語: English

ソースURL: https://www.biorxiv.org/content/10.1101/2024.03.04.583288

ソースPDF: https://www.biorxiv.org/content/10.1101/2024.03.04.583288.full.pdf

ライセンス: https://creativecommons.org/licenses/by-nc/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。

著者たちからもっと読む

類似の記事