Simple Science

最先端の科学をわかりやすく解説

# 生物学# 生物情報学

インフルエンザウイルス注釈ツールの進展

新しいツールでインフルエンザウイルスの配列の追跡と解析が改善される。

― 1 分で読む


インフルエンザウイルスのアインフルエンザウイルスのアノテーションツール追跡を強化する。革新的なツールがインフルエンザウイルスの
目次

インフルエンザ、一般的にはフルとして知られてるけど、毎年世界中で約10億人に影響を与えるウイルスなんだ。深刻な健康問題を引き起こすこともあって、年間290,000から650,000人の死亡に繋がってる。インフルエンザはオルトミクソウイルス科のセグメント化された負の鎖RNAウイルスによって引き起こされる。インフルエンザウイルスにはA、B、C、Dの4つの主要なタイプがある。A型は人間の病気に最もよく関与していて、1900年以降4回の大規模なパンデミックを引き起こしてる。B型とC型も人間に影響を与えるけど、D型は主に牛や豚に感染するんだ。

インフルエンザAは8つのセグメントに分かれていて、ヘマグルチニンとニュラミニダーゼという特定のタンパク質に基づいてサブタイプにさらに分かれてる。これらのサブタイプはH5N1のようなコードで識別される。

インフルエンザウイルスの追跡とゲノム解析

ここ20年近く、科学者たちは大規模なゲノム解析を使ってインフルエンザウイルスを理解し追跡してる。GenBankやヨーロッパヌクレオチドアーカイブ、日本DNAデータバンクなど、約100万のインフルエンザのゲノム配列が公的なデータベースに保存されてる。このデータベースは、同じデータを共有・ホストするために連携していて、ほとんどのインフルエンザの配列がGenBankに提出されてる。

2018年以降、毎年約50,000のインフルエンザAの配列がGenBankに追加されてる一方、インフルエンザBの配列は減少して、C型とD型はずっと少ないまま。

GenBankはこれらの配列をホストするだけでなく、ユーザーが情報にアクセスしやすくするためのリソースも提供してる。

FLANのインフルエンザゲノム注釈の役割

FLU ANnotationツール(FLAN)は2007年から使われていて、GenBankに提出されたインフルエンザの配列を検証・注釈付けしてる。FLANは提出された配列をスクリーニングしてエラーをチェックするんだ。エラーがなければ、自動的にデータベースに含まれるけど、エラーがあれば提出者には修正のための詳細なレポートが送られる。

FLANは配列を分類して分析するためにいくつかのステップを踏んでる。まず、核酸配列を参照データベースと比較して、配列のタイプとセグメントを分類する。インフルエンザAの場合は、特定のタンパク質に基づいてサブタイプを特定する。次に、配列を対応する参照タンパク質セットと揃えて、エラーをチェックする。

FLANは提出された配列の中のフレームシフトやアライメントの問題など、さまざまなミスを検出できる。エラーのないアライメントは、参照タンパク質の末端に達し、有効なスタートとストップコドンを持たなきゃいけない。

FLANの限界

長い間使われてきたけど、FLANはいまのインフルエンザ配列の多様性に追いつくのが難しい。スタンドアロンソフトウェアとして簡単にアクセスできないし、ユーザーはウェブベースのインターフェースを通じてしかアクセスできない。これが大規模に使うのを難しくしてる。

ウイルスゲノム注釈のためのVADRの導入

VADR(Viral Annotation DefineR)は、ウイルスの配列を検証・注釈付けするために開発された別のソフトウェアなんだ。これは、入力された配列を分類してコーディングの可能性をチェックするためのさまざまなプログラムを使ってる。VADRはインフルエンザ用のFLANの機能に似た形で、さまざまなウイルスに対する提出物を自動でスクリーニングして検証できる。

VADRはアクティブにメンテナンスされていて、FLANとは違ってローカルで実行できる。インフルエンザ解析のパフォーマンスを改善するために、VADRのモデルはFLANで使われた配列に基づいて構築されてる。

VADRを使ったインフルエンザモデルの構築

VADRはFLANの既存の配列に基づいてモデルを作成することから始まる。FLANの参照配列を公的データベースの対応するアクセッションにマッピングするんだ。このモデルには核酸配列と対応するタンパク質製品が含まれてる。

VADRのインフルエンザモデルライブラリは、最初は既存のFLANの配列と一致する配列で構成されていて、パフォーマンスを改善するための追加のタンパク質を含んでる。

さらなる能力向上のために、VADRは新しいインフルエンザサブタイプのモデルを取り入れて、信頼できるソースからの完全な配列で不完全なゲノム配列を置き換えてる。

VADRのトレーニングとテスト

VADRのパフォーマンスを効果的に評価するために、研究者たちはさまざまなソースからトレーニング配列を構築した。このトレーニングセットはインフルエンザA、B、Cの配列で構成されていて、VADRとFLANとの間で徹底的な比較ができる。

トレーニングセットを構築した後、VADRは配列に注釈付けを行い、FLANの結果と直接比較できるようにした。

VADRとFLANの比較結果

VADRとFLANは、ほとんどのインフルエンザAとBの配列について似た結果を出してる。違いが出る時は、多くの場合特定の配列の問題から来てる。VADRは問題のある配列を特定する際により正確な傾向があって、エラーが見つかった時には詳細なフィードバックを提供する。

インフルエンザCに関しては、FLANに失敗した多くの配列がVADRでは合格することがあって、これはVADRがより長い参照配列を使ってるからで、追加の核酸をより効果的に処理できるからなんだ。

VADRとFLANの違いの分析

研究者たちは、VADRとFLANが合格か失敗かについて合意しなかった配列を見直した。彼らは、VADRが特定したほとんどの問題が有効で、追加の精査が必要だとわかった。一方で、VADRに失敗した一部の配列は、FLANのルールに従えば合格すべきだった。

この分析はVADRモデルの改善に役立ち、FLANの基準とパフォーマンスを一貫して維持することを確実にした。

正確な注釈の重要性

ウイルス配列の正確な注釈は、公衆衛生や研究目的にとって重要なんだ。これによって科学者たちはウイルスの進化を追跡でき、抵抗パターンを理解し、効果的な治療法やワクチンを開発できる。FLANとVADRは、この情報の正確性を確保する上で重要な役割を果たしてる。

VADRの今後の方向性

ウイルスの配列データが増え続ける中で、信頼できる注釈ツールの必要性が高まってる。VADRは、ウイルスの株を監視する組織との協力を通じて、モデルを定期的に更新しながらこの増加に対応しようとしてる。

使いやすさとパフォーマンスの向上により、VADRは今後のインフルエンザ配列の注釈において好まれるツールになる位置づけをしてる。

結論

インフルエンザは、毎年何百万人も影響を与える重要な世界的健康問題のままだ。インフルエンザウイルスの正確な追跡と注釈付けは、アウトブレイクの制御やワクチンの開発に不可欠なんだ。FLANやVADRのようなツールは、研究者や公衆衛生機関が生成する膨大な配列データを管理・分析するために必要な能力を提供してる。新しい株が出てくる中で、こうしたツールは公衆衛生を守るために、健康関係の専門家が最も正確な情報を持つことを確実にするために重要になる。

オリジナルソース

タイトル: Influenza sequence validation and annotation using VADR

概要: Tens of thousands of influenza sequences are deposited into the GenBank database each year. The software tool FLAN has been used by GenBank since 2007 to validate and annotate incoming influenza sequence submissions, and has been publicly available as a webserver but not as a standalone tool. VADR is a general sequence validation and annotation software package used by GenBank for Norovirus, Dengue virus and SARS-CoV-2 virus sequence processing that is available as a standalone tool. We have created VADR influenza models based on the FLAN reference sequences and adapted VADR to accurately annotate influenza sequences. VADR and FLAN show consistent results on the vast majority of influenza sequences, and when they disagree VADR is usually correct. VADR can also accurately process influenza D sequences as well as influenza A H17, H18, H19, N10 and N11 subtype sequences, which FLAN cannot. VADR 1.6.3 and the associated influenza models are now freely available for users to download and use.

著者: Eric P Nawrocki, V. C. Calhoun, E. L. Hatcher, L. Yankie

最終更新: 2024-03-25 00:00:00

言語: English

ソースURL: https://www.biorxiv.org/content/10.1101/2024.03.21.585980

ソースPDF: https://www.biorxiv.org/content/10.1101/2024.03.21.585980.full.pdf

ライセンス: https://creativecommons.org/publicdomain/zero/1.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。

類似の記事