DNAとタンパク質の配列を比較する新しい方法
この記事では、生物学研究における配列アライメントの新しいアプローチについて話してるよ。
― 1 分で読む
目次
生物学では、科学者たちはしばしば異なるDNAやタンパク質の繋がりを見つけたいと思っている。これは、生物がどのように関連しているのか、特定の特性がどのように受け継がれるのかを理解するのに役立つから重要なんだ。これを行うために、彼らは核酸の配列(DNAの構成要素)やタンパク質を比較する方法を使う。
比較の仕組み
比較は通常、基本的なスコアを定義することから始まる。例えば、2つの核酸が一致すると、ポジティブなスコアがつくかもしれない。合わない場合はネガティブなスコアがつく。配列の間にある欠損のギャップもスコアに影響を与える。目標は、高スコアを持つアラインメントを見つけることで、それは比較している配列が関連している可能性が高いことを意味している。
この方法が機能する理由は、確率に基づいているから。科学者たちは、特定の配列がどのくらい頻繁に一致するか、一致しないか、またはギャップがあるかを見ている。こうした確率を使うことで、どのアラインメントがより意味があるかを評価できる。
従来の方法の問題点
従来のアラインメント方法は、最良のアラインメントを見つけることに焦点を当てているが、特定のケースだけを見ている。これでは、他の潜在的な関係を見逃すことがある。なぜなら、いくつかの繋がりは最高のスコアを持たないかもしれないが、それでも重要である可能性があるから。つまり、1つのアラインメントに依存することは、科学者が集められる情報を制限してしまう。
より包括的な方法は、すべての可能なアラインメントを考慮し、総スコアを計算すること。これにより、各潜在的なアラインメントが配列の関連性をより広く理解するのに寄与する。この方法を使用していないツールも多いが、通常のソフトウェアでは実装が複雑になりがちだ。
確率を合計する利点
研究者たちが多くの異なるアラインメントの確率を合計すると、2つの配列の関係についてより完全なイメージを得られる。この方法は、単なる最良の一致だけではなく、配列がどのように関連しているかのすべての異なる方法を考慮する。
さらに、類似度のスコアを知ることで、2つの配列が本当に関連しているのか、または一致が単なる偶然によるものなのかを判断できる。これは、無関係な配列が似た構成を持っているために類似性が生じる場合があるから重要なんだ。
既存ツールの短所
HMMERのようなプログラムは、確率に基づいたより高度な技術を使用しているが、一般的な使用には複雑すぎる場合がある。HMMERは、短い配列と大きなデータベースを比較するために設計されているので、長い配列同士の比較とは異なる。
したがって、さまざまな環境で簡単に使えるバランスの取れたアプローチを見つけることが重要だ。多くの既存の方法は、さまざまなアラインメントの確率を効果的に比較できず、微妙な関係を認識する能力を妨げている。
新しいアプローチ
新しいアプローチは、さまざまなアラインメントの確率を合計することで、従来の方法の複雑さのいくつかを置き換えることができる。この方法はプロセスを簡素化し、既存のソフトウェアに大きな難易度や実行時間の増加なしに簡単に追加できる。
これにより、研究者は2つの配列領域が関連している可能性を評価できるようになる。すべての可能なアラインメントを明示的に計算せずに、全体像を見て、関係をより明確に理解できる。
アラインメントパラメータの重要性
アラインメントのスコアを設定する際に適切なパラメータを選ぶことは重要だ。スコアの効果は、一致、不一致、ギャップに対して確率を正確に定義することに依存している。これらの確率が調査する配列に適している場合、結果はより信頼性が高くなる。
実際には、パラメータは関連する既知の配列から推定されることがよくある。こうすることで、研究者は実際の生物学的データに基づいて、類似性の真の可能性を反映したスコアを生成できる。
類似度スコアの理解
効果的なスコアリング方法を使用することで、類似度スコアが偶然に起こる可能性があるかどうかを判断するのに役立つ。例えば、2つの配列を比較して特定のスコアが得られた場合、このスコアが完全に無関係な2つの配列間で予想されるかどうかを知ることが重要だ。
これは複雑な計算を通じて行われるが、原理は簡単だ。高い類似度スコアは潜在的な関係を示唆し、低いスコアは明らかな類似性が単に偶然である可能性を示す。
新しい方法のテスト
新しい方法の有効性は、実際の生物学的配列に対してテストされた。異なる生物のゲノムやタンパク質の断片を比較することで、研究者はこの方法がランダムな配列から期待される値と一致するスコアを正確に予測できることを発見した。この検証は、実際に効果的に適用できるアプローチであることを示している。
追加の考慮事項
いくつかの状況では、高い類似度スコアが真の祖先の繋がりを示す可能性もあれば、単に構成の偏りから来る類似性を示す場合もある。これらのバイアスからの混乱を排除するために、研究者は1つの配列を反転させて2つを比較することができる。反転後も高いスコアが見つかれば、それは類似性が真の生物学的関係ではなくバイアスによるものである可能性が高いと言える。
逆に、効果的なマスキング技術を使用すれば、比較前に偏った領域を除去でき、より明確な発見が可能になる。これにより、無関係な類似性からの干渉なしに真の関係が強調される。
感度と特異性
新しい方法の大きな進歩の一つは、感度を維持しながらE値を効果的に計算できることだ。E値は、偶然に類似度スコアが見つかる可能性を示す。新しいアプローチは、従来の方法に比べて同じアラインメントに対して小さなE値を割り当てる傾向があり、真の関係をより自信を持って見つけることができる。
しかし、新しい方法は、配列に著しい類似がある特定のシナリオではあまり効果的でない場合もある。比較する配列が非常に似ている場合、関連性の証拠を隠す可能性があり、E値が高くなることに繋がる。
結論
DNAやタンパク質配列の関連する部分を見つける方法を理解することは、多くの生物学的研究分野にとって重要だ。従来の方法がこれらの比較の基盤を提供してきたが、複数のアラインメントの確率を合計する新しい技術は、配列間の関係をより明確で包括的に見ることを可能にする。
アラインメント方法を改善し、使用するパラメータが適切に定義されていることを確認することで、研究者は異なる生物や遺伝子の間のつながりに関する深い洞察を明らかにできる。これにより、生物学と進化に対する我々の理解が向上するんだ。
タイトル: A simple theory for finding related sequences by adding probabilities of alternative alignments
概要: The main way of analyzing genetic sequences is by finding sequence regions that are related to each other. There are many methods to do that, usually based on this idea: find an alignment of two sequence regions, which would be unlikely to exist between unrelated sequences. Unfortunately, it is hard to tell if an alignment is likely to exist by chance. Also, the precise alignment of related regions is uncertain. One alignment does not hold all evidence that they are related. We should consider alternative alignments too. This is rarely done, because we lack a simple and fast method that fits easily into practical sequence-search software. Here is described a simplest-possible change to standard sequence alignment, which sums probabilities of alternative alignments. Remarkably, this makes it easier to tell if a similarity is likely to occur by chance. This approach is better than standard alignment at finding distant relationships, at least in a few tests. It can be used in practical sequence-search software, with minimal increase in implementation difficulty or run time. It generalizes to different kinds of alignment, e.g. DNA-versus-protein with frameshifts. Thus, it can widely contribute to finding subtle relationships between sequences.
著者: Martin C Frith
最終更新: 2024-04-14 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2023.09.26.559458
ソースPDF: https://www.biorxiv.org/content/10.1101/2023.09.26.559458.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。