Simple Science

最先端の科学をわかりやすく解説

# 生物学# 生物情報学

LoVis4uを紹介するよ:ゲノム可視化の新しいツールだよ。

LoVis4uは、複数のゲノム領域をすぐに可視化するシンプルな方法を提供してるよ。

― 1 分で読む


LoVis4u:LoVis4u:ゲノムビジュアライゼーションツールツール。高速なゲノムデータ分析用のコマンドライン
目次

最近、微生物ゲノムデータベースの数が急速に増えてるね。この増加は、いろんなゲノムを研究したり比較したりするチャンスをたくさん提供してる。科学者たちは、特定の遺伝子の配置を見たり、小さな機能的領域を特定したり、遺伝的な違いがどこにあるかをチェックしたりすることができる。これらの作業をするためには、研究者はしばしばゲノムの複数の部分を同時に見る必要があるんだ。

ゲノムデータを視覚化するためのツール

ゲノムデータを視覚化するために、多くのソフトウェアツールが作られてきた。中にはユーザーフレンドリーなインターフェースを持っていて、データと簡単にやり取りできるものもある。例として以下のツールがあるよ:

  • Artemis Comparison Tool
  • Easyfig
  • GeneSpy
  • Geneious Prime

それに、Gene Graphicsのようなウェブアプリや、以下のようなプログラミングライブラリもある:

  • RパッケージのgenoPlotRやgggenes
  • PythonパッケージのGenomeDiagram

さらに、いくつかのツールは異なる方法を組み合わせて、もっと多くのソリューションを提供してるよ。例えば、GEnViewはPythonパイプラインとウェブアプリを統合しているし、Clinkerやclustermap.jsはベクターグラフィックを作成するためのコマンドラインとウェブベースのインターフェースを提供してる。

でも、利用可能な多くのツールがあるにもかかわらず、まだ隙間があるんだ。複数のゲノムを同時に処理できて、柔軟なカスタマイズが可能で、高品質な図を素早く生成するシンプルなコマンドラインツールがまだないんだ。

LoVis4uの紹介

LoVis4u、つまりLocus Visualisationの略は、ユーザーが複数のゲノム領域を簡単かつ迅速に視覚化するために設計された新しいソフトウェアツールだよ。コマンドラインインターフェースを提供しているから、ユーザーは複雑なスクリプトを書く必要がないんだ。Pythonプロジェクトにカスタマイズして統合したい人のために、Python APIも含まれているよ。

視覚化機能に加えて、LoVis4uはオプションのデータ分析も行える。これには、類似したタンパク質をグループ化するためのクラスタリングが含まれてる。ユーザーは重要な遺伝子と変動が大きい遺伝子を特定でき、その情報を視覚化で強調表示できるんだ。

LoVis4uは主にバクテリオファージのゲノムを分析するために作られたけど、プロカリオティックなゲノムにはどんなものにも使えるんだ。

LoVis4uの使い方

LoVis4uはデータ処理のためにいくつかのステップを含むシンプルなワークフローを持っているけど、多くはユーザーの望みに応じてオプションなんだ(図1Aを参照)。LoVis4uはGenBankまたは拡張GFF形式の入力データを受け入れてて、関連するヌクレオチド配列をFasta形式で含んでいるよ。これらのGFFファイルは、一般的なゲノムアノテーションツールであるprokkaやpharokkaを使って作成されることが多い。

視覚化機能

LoVis4uの視覚化機能は多様だよ。例えば、このツールは異なるファージのゲノムの複数の領域を一つの図で表現できる。視覚化では、保存された遺伝子が灰色で表示され、変動タンパク質のグループは異なる色で示される。タンパク質がホモログで異なるゲノムに属している場合は、灰色の線でつながれてる。ユーザーは特定のタンパク質のラベルを隠すこともできるし、保存されたタンパク質のラベルは一度だけ表示されて混雑を避けるようにしてる。

PHROGが提供する機能的アノテーションも、各コーディング配列の下に色分けされた線で表示されるよ。ユーザーがコンパクトな視覚化を好む場合、LoVis4uは余計な詳細なしでフルレングスの配列を表示するように出力を圧縮することもできる。

タンパク質のクラスタリングと視覚化

デフォルトでは、LoVis4uはMMseqs2タンパク質クラスタリングアルゴリズムを使用して、すべてのコーディング配列から類似したタンパク質をグループ化する。だけど、ユーザーはあらかじめ定義されたタンパク質グループのテーブルを提供することもできる。そのグループに基づいて、LoVis4uは異なるゲノム間でタンパク質の組成がどれくらい類似しているかを示すマトリックスを生成する。

このクラスタリングは、保守的、インターメディエイト、変動的なタンパク質を特定するのに役立ってる。これは、パンゲノミクスが遺伝子をコア、シェル、クラウドのカテゴリに分類するのと似てる。似たようなクラスタリングを行う他のツール、例えばPhamClustなどもあるけど、視覚化機能はないんだ。

LoVis4uの実行

LoVis4uは、最小限の設定でさっさと始めたいユーザーのためにクイックスタートモードを提供してる。でも、もっと高度なユーザーにはたくさんのカスタマイズオプションがあるよ。ユーザーは配列の順序を変更したり、クラスタを指定したり、図のサイズなどの視覚化パラメータを調整したりできる。それに加えて、ユーザーは出力の色やラベルを変更するためのテーブルを使うオプションもあるんだ。

LoVis4uを実行した後、生成された図はPDF形式で保存されるから、Adobe IllustratorやInkscapeのようなグラフィックデザインソフトで簡単に編集できるよ。

出力の例

その能力を示すために、LoVis4uは78のファージの全体のバーゼルコレクションの視覚化を一つの図で作成するために使用されたことがある。このプロセスには、13,000以上のタンパク質配列をクラスタリングし、類似性に基づいて整理し、すべてをわずか50秒でグラフィック出力を生成することが含まれているんだ。

使用されるライブラリ

LoVis4uはPython3を使って構築されていて、データ処理や視覚化のためにbiopython、bcbio-gff、その他いくつかのライブラリに依存している。さらに、MMseqs2をライブラリ内に埋め込んだ別の依存関係として利用しているよ。

ユーザーはPyPIからLoVis4uを簡単にインストールできて、GitHubでソースコードにアクセスすることができる。詳細なドキュメントやインストールガイド、例を基にしたマニュアルもツールのホームページで入手可能だよ。

ユーザーフレンドリーなコマンドラインインターフェース

ユーザーがLoVis4uを簡単に使えるようにするために、派手なスクリプトが必要ないコマンドラインインターフェースが付いてるんだ。ほとんどのオプションは直接インターフェースを通じてアクセスできるし、追加の設定は構成ファイルで定義できるよ。

Python APIはさらに、ユーザーがカスタムソリューションを作成したり、自分のPythonワークフローにLoVis4uを統合したりすることを可能にしてる。

結論

比較ゲノム研究では、適切なツールを持つことが、効果的な視覚化と分析にとって不可欠だよ。LoVis4uは、洗練されたR/Python APIツールと使いやすいグラフィカルプログラムの間のバランスを提供することで、重要なニーズを満たしてる。バイオインフォマティクスのワークフローで複数の図を生成するための迅速で効率的なソリューションとして役立つし、データ調査のためのスタンドアロンツールとしても使える。保存された遺伝子や変動のあるゲノム領域を特定してマークすることで、LoVis4uは進化の関係を明らかにし、新しい生物学的発見を支えることができるんだ。

オリジナルソース

タイトル: LoVis4u: Locus Visualisation tool for comparative genomics

概要: SummaryComparative genomic analysis often involves visualisation of alignments of genomic loci. While several software tools are available for this task, ranging from Python and R libraries to standalone graphical user interfaces, there is lack of a tool that offers fast, automated usage and the production of publication-ready vector images. Here we present LoVis4u, a command-line tool and Python API designed for highly customizable and fast visualisation of multiple genomic loci. LoVis4u generates vector images in PDF format based on annotation data from GenBank or GFF files. It is capable of visualising entire genomes of bacteriophages as well as plasmids and user-defined regions of longer prokaryotic genomes. Additionally, LoVis4u offers optional data processing steps to identify and highlight accessory and core genes in input sequences. Availability and ImplementationLoVis4u is implemented in Python3 and runs on Linux and MacOS. The command-line interface covers most practical use cases, while the provided Python API allows usage within a Python program, integration into external tools, and additional customisation. Source code is available at the GitHub page: github.com/art-egorov/lovis4u. Detailed documentation that includes an example-driven guide is available from the software home page: art-egorov.github.io/lovis4u.

著者: Gemma C. Atkinson, A. A. Egorov

最終更新: 2024-09-14 00:00:00

言語: English

ソースURL: https://www.biorxiv.org/content/10.1101/2024.09.11.612399

ソースPDF: https://www.biorxiv.org/content/10.1101/2024.09.11.612399.full.pdf

ライセンス: https://creativecommons.org/licenses/by-nc/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。

類似の記事