BLASTのE値分析の進展
BLASTの重要度測定の進化を深掘りする。
― 1 分で読む
目次
基本的なローカルアラインメントサーチツール、通称BLASTは、ゲノム研究で重要な役割を果たしてる。科学者が大規模な配列データベースを検索して、似たセグメントを見つけるのに役立つんだ。これは異なる種の間で関連する遺伝子やタンパク質を特定するのに重要。BLASTは進化的関係を追跡したり、タンパク質の働きを予測したり、新薬を設計したりするなど、さまざまな生物学的研究に広く使われてる。研究者の間で非常に人気があるから、引用数もすごく多いよ。
BLASTはすぐに類似検索の標準ツールになって、主な競合のFASTAを上回った。その成功は主に2つの要因による:BLASTはFASTAよりもずっと速く動作し、結果に対する貴重な統計分析を提供するから。
BLASTの仕組み
BLASTは見つけた類似配列の重要性を評価するために、特定のスコア分布について仮定を立てるんだ。この分布は特定の統計モデルに従うと仮定していて、そのモデルはギャップのないアラインメントに基づいた理論的結果に基づいているけど、ギャップのあるアラインメントについては主に実データでサポートされてる。
重要性の評価をもっと役立てるために、BLASTは各アラインメントに対してp値っていうのを計算する。このp値は、そのスコアのマッチが偶然に起こる可能性を示してるんだ。でも、研究者はしばしば同時に多くの配列をテストするから、偽陽性を避けるためにこれらのp値を調整する必要がある。特に、データベースに密接に関連する配列がたくさんある場合に調整が難しいんだ。
BLASTは直接p値を使うんじゃなくて、E値っていう別の指標を使う。E値は、観測されたアラインメントと同じかそれ以上のスコアを持つランダムな配列の期待されるマッチ数を示してる。E値を使うことで、BLASTは全体の結果の重要性を評価する簡単な方法を提供するけど、テクノロジーの進化に伴ってその手法の正確さについて疑問も生まれる。
BLASTの30年の旅
BLASTが最初に紹介されてから、コンピュータ技術の大きな進展があった。研究者たちはE値計算についてより詳しく見始め、特にタンパク質配列専用に設計されたBLASTのバージョンであるblastpの文脈において。E値が通常は妥当だけど、時には保守的すぎたりリベラルすぎたりすることがわかった。つまり、場合によってはツールが報告されたマッチの重要性を過小評価または過大評価することがあるんだ。
例えば、E値が0.05以下であるランダムなアラインメントが10%以上あったっていう例もあった。これが重要性の評価に潜在的な問題を示してる。
この状況を改善するために、新しい方法が提案された。E値だけに頼るんじゃなくて、研究者は配列の潜在的なスコアから小さなサンプルを生成して、特定のアラインメントスコアが偶然の産物である可能性を確認することを提案した。この方法では、元のクエリのランダムシャッフルを生成して、どのスコアがデータベースでの最良のマッチに対応するかを確認する。
新しいアプローチの利点と欠点
新しく提案された方法には利点と欠点がある。ポジティブな面では、このアプローチは複数の仮説テストのための確立された統計フレームワークに基づいていて、結果に信頼性を加える。事前に計算された値に頼らないから、さまざまなタイプの配列分析に柔軟に対応できる。さらに、E値が統計的に有効な場合、この新しい方法は追加のアラインメントを明らかにすることで、より関連性の高い結果を提供できる。
しかし、この新しいアプローチには計算時間に関しての欠点もある。より多くの処理力と時間が必要で、スピードが重要な場合には適さないことがある。それでも、今日の高度なコンピュータ能力を考えると、追加の努力は多くの研究アプリケーションにとって価値があることが多い。
FASTAとの比較
新しい方法をBLASTと比較するだけじゃなくて、研究者たちはFASTAも見てる。FASTAはE値を計算する別の方法を使ってる。FASTAはBLASTに似てるところもあるけど、事前に計算された値に頼らないから、より適応力がある。BLASTのE値の限界についての多くの発見はFASTAにも当てはまる。
タンパク質配列の文脈において、新しい方法の発見はアラインメント検索を行う際に異なるツールとそれぞれの重要性指標を考慮することの重要性を反映している。この研究はBLASTだけでなく、他の類似検索プログラムにも影響を与える。
E値の理解
E値はBLASTで見つけたアラインメントの重要性を決定するのに必要不可欠。これを計算するために、BLASTは局所アラインメントのスコアが特定の分布に従うと理解してる。この分布に関連するパラメータを推定して、データベースとクエリに特有の要因と組み合わせることで、マッチの可能性を示すE値を生成する。
この方法を使うとき、BLASTは結果に影響を与える可能性のある要因、特に配列の長さやデータベースの構成を調整する必要がある。この修正は信頼性を向上させることを目的としているけど、研究者たちはその効果をまだ精査している。
FASTAのE値計算
FASTAもE値を使うけど、その計算はBLASTとは少し異なる。FASTAの目的は、入力クエリに似たデータベースの配列を見つけることで、通常は最良のマッチに焦点を当てる。データベースの長さや類似スコアに基づいて統計分析を行い、この観察に基づいてE値を計算する。
この方法は欠点がないわけではないけど、事前に計算された値に頼ることが少ない。だから、FASTAのE値計算はさまざまな配列タイプや分析シナリオに広く適用できる。
偽陽性の制御
BLASTもFASTAも、偽陽性を制御することが重要で、ファミリー・ワイズ・エラー・レート(FWER)が重要な役割を果たす。報告されたE値の妥当性を評価する方法を適用することで、少なくとも1つの不正確なアラインメントを報告する確率を最小限に抑えることを目指してる。
BLASTのために導入された新しい方法は、生成されたランダムサンプルに基づいてp値を計算することで、研究者がFWERを制御できるようにしている。こうすることで、重要なアラインメントを報告すべきかどうかをより明確に評価できる。
実験による妥当性の分析
E値と新しいp値の効果を決定するために、広範な実験が行われた。これらの実験では、報告されたスコアが期待される値にどれだけ一致するかを確認するために、ランダムサンプルアラインメントを生成した。結果は、E値がしばしばリベラルすぎるか保守的すぎる可能性があることを示した。
さまざまな設定を実行して、複数のツールの出力を比較することで、研究者たちはE値と新しいp値が異なるシナリオでどのように機能するかをより明確に理解できた。これらの結果のグラフ表現は、2つのアプローチの間の不一致と類似点を視覚化するのに役立った。
統計的パワーの比較
実験では、E値と新しいp値の統計的パワーも比較された。これは、異なる重要性のカットオフを使用したときに正しく同定された相同配列の数を確認することを含んでいた。多くのケースで、新しいアプローチはより関連性の高いアラインメントを検出する能力を示し、いくつかのシナリオでE値を上回った。
例えば、広く使われているデータベースに対してアラインメントを調べたとき、分析は新しいp値方法を使うと報告された相同配列の数がしばしば多いことを示している。これは、アラインメントツールでの重要性指標を再評価する価値を示している。
結論
E値は、BLASTのようなツールでアラインメントの重要性を評価する重要な要素で、長年にわたって使われてきた。しかし、最近の評価では限界が示され、改善の余地があることがわかった。補助サンプルから導出されたp値を使用する新しい方法の導入は、重要性評価の正確さと信頼性を向上させる可能性がある。
研究者たちがこれらのツールや方法を洗練させ続ける中で、さまざまな研究コンテキストで統計的妥当性と実用性を考慮することが重要になるだろう。この作業はバイオインフォマティクスにおける一歩前進を示していて、将来のゲノム研究や分析に影響を与えることになる。
タイトル: A BLAST from the past: revisiting blastp's E-value
概要: The Basic Local Alignment Search Tool, BLAST, is an indispensable tool for genomic research. BLAST established itself as the canonical tool for sequence similarity search in large part thanks to its meaningful statistical analysis. Specifically, BLAST reports the E-value of each reported alignment, which is defined as the expected number of optimal local alignments that will score at least as high as the observed alignment score, assuming that the query and the database sequences are randomly generated. Here we critically evaluate the E-values provided by the standard protein BLAST (blastp), showing that they can be at times significantly conservative while at others too liberal. We offer an alternative approach based on generating a small sample from the null distribution of random optimal alignments, and testing whether the observed alignment score is consistent with it. In contrast with blastp, our significance analysis seems valid, in the sense that it did not deliver inflated significance estimates in any of our extensive experiments. Moreover, although our method is slightly conservative, it is often significantly less so than the blastp E-value. Indeed, in cases where blastps analysis is valid (i.e., not too liberal), our approach seems to deliver a greater number of correct alignments. One advantage of our approach is that it works with any reasonable choice of substitution matrix and gap penalties, avoiding blastps limited options of matrices and penalties. In addition, we can formulate the problem using a canonical family-wise error rate control setup, thereby dispensing with E-values, which can at times be difficult to interpret.
著者: Uri Keich, Y. Lu, W. S. Noble
最終更新: 2024-07-19 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.07.16.603405
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.07.16.603405.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。