タンパク質シーケンシング技術の最近の進展
新しい技術がタンパク質の読み取りと特定の精度を向上させてるよ。
― 1 分で読む
目次
最近、科学者たちが私たちのDNAにある遺伝子コードとそのコードから作られるタンパク質を読み取る方法が大きく進歩してるんだ。これらの進展は、タンパク質が生物のほぼすべての機能に重要な役割を果たしているから、めちゃくちゃ重要なんだよ。これらの発展をわかりやすく説明するね。
DNAとタンパク質の配列解析の理解
ヌクレオチド配列解析は、DNAサンプルにおけるヌクレオチドの順序を決定するプロセスだ。科学者たちはさまざまな技術を使ってこれを行っていて、過去10年間でいくつかの方法がより効果的になってきたんだ。例えば、ナノポアシーケンシングみたいな技術は、研究者が非常に小さなスケールでDNAを高精度で読むことを可能にしている。
タンパク質に関しては、アミノ酸と呼ばれる構成要素からできているから、配列解析はちょっと難しい。DNAとは違って、タンパク質は20種類の異なるアミノ酸から構成されていて、それぞれ独特の形や電荷を持ってるから、配列の中で特定のアミノ酸を特定するのがより困難なんだ。
タンパク質配列解析の現在の技術
質量分析法は、タンパク質を特定するための従来の方法の一つだ。この方法は、タンパク質の質量を測定し、既知のタンパク質のデータベースと比較するんだけど、多くの研究者はタンパク質の完全な配列を決定するよりも、特定することに焦点を当てている。部分的な配列を知るだけで特定できることもあるからね。
質量分析法は広く使われてるけど、限界もあるんだ。たとえば、非常に少量のタンパク質にはうまく働かないことがある。そこで研究者たちは、より敏感なタンパク質配列解析の新しい方法を模索しているんだ。
新しい方法のいくつかは、特定のアミノ酸に蛍光マーカーをタグ付けして、各タンパク質のユニークな指紋を作成することに関わっている。最近の研究では、マーカーが干渉し合わずに少数のアミノ酸にタグを付けることができるかもしれないことが示唆されている。これにより、科学者たちはこれらの指紋に基づいてタンパク質を特定できるかもしれないんだ。
タンパク質のナノポアシーケンシングの可能性
ナノポアシーケンシングは、タンパク質の配列を読み取るための有望な技術として浮上してきている。これにより、科学者たちはフルレングタンパク質を配列解析することができ、より正確な特定が可能になるかもしれないんだ。現在の進展には、ペプチド(アミノ酸の短鎖)を小さな開口部を通してスムーズに移動させながら、特定のアミノ酸に対応する電気信号をキャッチするエンジニアリングされたナノポアが含まれている。
研究者たちは、配列解析される特定のアミノ酸に関する情報をより多く提供できる光信号の使用も模索している。タンパク質配列解析が成功するためには、すべての20種類のアミノ酸を正確に読み取ることができる方法が必要なんだ。
タンパク質配列解析の課題
これらの進展があっても、タンパク質を効果的に配列解析するためにはまだ克服すべきハードルがある。これを目的としたデバイスは、タンパク質を特定しやすくするためにいくつかの戦略を組み合わせる必要があるだろう。たとえば、特定の数のアミノ酸を読むことに焦点を当てたり、正確性を高めるためにタンパク質の断片を使用することが考えられる。
初期のデバイスでは誤読が出る可能性があるから、アミノ酸の正確な特定が難しいかもしれない。だから、科学者たちは受信した信号に基づいて各アミノ酸の確率を提供するアルゴリズムを開発する可能性が高いんだ。これが正しいアミノ酸配列の特定に役立つかもしれない。
確率を使った特定
配列解析デバイスから得られた情報を理解するために、科学者たちはアミノ酸の存在について基本的な仮定から始めることができる。たとえば、特定のタンパク質が特定のアミノ酸をたくさん含んでいることが分かっている場合、確率の推定をそれに合わせて調整できるんだ。配列解析の信号が入ってくると、これらの確率を更新して信号に表されている可能性のあるアミノ酸を反映させることができる。
データを分析する際に、各アミノ酸が配列の各位置に現れる確率を示すマトリックスを構築するんだ。ただし、読み取りに誤差があるため、タンパク質のすべての部分を正確に再構築することはいつも可能というわけではない。だから、結果を既知のタンパク質のデータベースと比較するのが最良のアプローチなんだ。
新しい方法のテスト
タンパク質特定方法をテストする研究では、研究者たちは様々な条件を使用して、システムがどれだけうまく機能するかを調べた。デバイスが信号を解決する能力や、分析されるタンパク質セグメントの長さ、プロセス中に発生する可能性のあるエラーの種類など、多くの要因に焦点を当てていた。異なるアルゴリズムと統計モデル、例えば隠れマルコフモデル(HMM)を用いてデータを分析し、精度を向上させていた。
結果は、短いタンパク質セグメントや中程度の質の信号でも、かなりの割合のタンパク質を正確に特定できることを示した。これは励みになるね、これが実世界でも役立つ可能性があることを示唆しているから。
複数の断片を組み込む
多くの場合、同じタンパク質からの複数の断片を使用することで特定の精度が向上することがあるんだ。研究者たちがいくつかの断片からの結果を組み合わせたとき、すべての場合で精度が向上したことが分かった。つまり、一つの断片がはっきりした結果を出さなくても、複数の断片からの情報を組み合わせることで、信頼できるデータを提供できるってわけ。
異なるアミノ酸セットの評価
この研究のもう一つの興味深い側面は、特定のために縮小されたアミノ酸セットを使用することなんだ。たとえば、いくつかの方法では、特にタンパク質に多く含まれているアミノ酸だけを特定することに焦点を当てている。研究では、少数の豊富なアミノ酸を使用することで良好な特定率を達成できることが示されていて、逆に低含量のアミノ酸を使用すると精度が低くなることが多かった。
これは、タンパク質を特定しようとする際にどのアミノ酸に焦点を当てるべきかを知ることの重要性を強調している。なぜなら、いくつかのアミノ酸は他のアミノ酸よりも情報が多いからだ。
エラーの影響を評価する
どんな技術にもエラーが発生する可能性がある。研究者たちは、配列内の挿入や削除など、異なるエラー率が特定方法の全体的な精度にどのように影響したかを評価する実験をデザインした。彼らは、完全なタンパク質配列が利用可能な場合、識別システムが比較的高い効果を維持することを発見した。
ただし、短いタンパク質断片を使用する場合、エラーが頻発する条件下では精度が低下することが示されていて、エラーがより一般的な実用的応用には課題があるんだ。
タンパク質配列解析の未来の方向性
配列解析技術が進化し続ける中、目標は困難なシナリオでもタンパク質を正確かつ効率的に特定できるデバイスを作ることなんだ。信号が低品質でも、微量のタンパク質が存在しても、高い精度を達成できる可能性があるから、これらの進展は生物学や医学の未来にとってワクワクするものだよ。
さらに、今開発されている技術が、将来的にタンパク質やその生物学的プロセスにおける役割を理解する方法を革命的に変える新しい方法に道を開くかもしれない。これが、薬剤発見や個別化医療の分野でのブレークスルーにつながるかもしれないんだ。
結論
要するに、タンパク質配列解析技術の進展により、より効率的にタンパク質を読み取って特定できるようになってきてるんだ。課題は残っているけど、ナノポアシーケンシングや革新的な統計アプローチといった技術が、より効果的なタンパク質特定の方法へと道を開いている。引き続き研究開発が進めば、タンパク質を分析するためのより良い戦略が生まれるだろうし、最終的には科学や医学のさまざまな分野に利益をもたらすことになるんだ。
タイトル: A generalised protein identification method for novel and diverse sequencing technologies
概要: Protein sequencing is a rapidly evolving field with much progress towards the realisation of a new generation of protein sequencers. The early devices, however, may not be able to reliably discriminate all 20 amino acids, resulting in a partial, noisy and possibly error-prone signature of a protein. Rather than achieving de novo sequencing, these devices may aim to identify target proteins by comparing such signatures to databases of known proteins. However, there are no broadly applicable methods for this identification problem. Here, we devise a hidden Markov model method to study the generalized problem of protein identification from noisy signature data. Using a hypothetical sequencing device that can simulate several novel devices, we show that on the human protein database (N=20,181) our method has a good performance under many different operating conditions such as various levels of signal resolvability, different numbers of discriminated amino acids, sequence fragments and insertion and deletion error rates. Our results demonstrate the possibility of protein identification with high accuracy on many early experimental devices. We anticipate our method to be applicable for a wide range of protein sequencing devices in the future.
著者: Nick Goldman, B. K. Bhandari
最終更新: 2024-03-04 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.02.29.582769
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.02.29.582769.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。