Simple Science

最先端の科学をわかりやすく解説

# 生物学# 生物情報学

hictkを使ってHi-Cデータ分析を効率化する

hictkは、研究者がHi-CとCoolerファイル形式を簡単に扱えるようにするよ。

― 1 分で読む


hictk:hictk:ゲノム解析を簡素化マットの処理が向上するよ。新しいツールキットでHi-Cデータフォー
目次

Hi-Cは、ゲノムの三次元(3D)構造を調べるための方法で、遺伝子が細胞内でどのように組織されているかを学ぶのに役立つんだ。研究者たちはHi-Cを使って、ゲノムの部分が3Dでどのように近づくかの情報を集めてる。この情報は、遺伝子がどのように協力して機能するかや、さまざまな条件によってどのように影響を受けるかを理解するのに重要なんだ。

最近、Hi-Cによって生成されるデータ量がすごく増えてきた。このデータは、科学者たちがゲノムをより正確に組み立てたり、その3D構造をより良くマッピングするのに役立つ。ただ、これには既存のコンピュータプログラムが複雑なデータを処理できる必要があるんだ。ENCODEやnf-coreみたいな専門的な処理パイプラインが、このデータを処理するのを手伝ってる。これらのパイプラインの主な出力は、ゲノムの異なる部分間の相互作用を示す大きな行列なんだ。

相互作用行列の理解

これらの相互作用行列は、めっちゃ大きくなることがある。例えば、人間のゲノムを1 kbp解像度で分析すると、約9.5兆の値が生成される。サイズが大きいため、これらの行列は通常のテキスト形式では保存できない。そこで、Coolerと.hicの2つの人気のファイル形式が使われてるんだ。

Coolerと.hic形式は、異なる方法でこれらの行列を保存してる。どちらの形式もデータを圧縮して管理しやすくしてるけど、読み書きするために異なるツールが必要なんだ。だから、開発者は各形式を扱うために別々のコードを書く必要がある。残念ながら、ユーザーはしばしば自分でこれらの形式の間で変換しなきゃならないけど、結構難しかったり時間がかかったりするんだよね。

Hi-Cデータを扱うためのツール

.hicファイルを扱うとき、いくつかのツールが研究者を助けてくれるよ。JuiceboxGUIは人気のある選択肢で、ユーザーがさまざまな方法で.hic行列を視覚化できるんだ。他のツール、例えばJuicerToolsやHiCToolsは.hicファイルを作成するのを手助けして、strawはさまざまなプログラミング言語で動作する.hicファイル用の多用途リーダーなんだ。

一方で、Coolerファイルは視覚化のためにHiGlassなどのツールセットと一緒に使われる。CoolerファイルはHDF5というフォーマットに基づいていて、データの柔軟な取り扱いを可能にしてる。Coolerファイルは、単一解像度、複数解像度、単一細胞ファイルなど、異なるタイプがある。それぞれのタイプは異なる方法で情報を保存しているけど、目的は似てるんだ。

.hicファイルとは違って、CoolerファイルはUCSCゲノムブラウザを使って視覚化できないから、いくつかの文脈ではちょっとアクセスしにくいんだよね。

フォーマット間の変換

.hicとCooler形式の間を変換するためのツール、hic2coolが利用可能なんだけど、これが遅かったり新しいバージョンの.hicファイルにうまく対応できなかったりすることがある。

これらの形式を扱う上での課題を認識して、hictkという新しいツールキットが開発された。このツールキットは、.hicとCoolerファイルを扱う作業を簡素化することを目指してる。一つのライブラリに読み取り、書き込み、変換機能をまとめていて、プロセスをより効率的にしてるよ。

hictkの機能

hictkには、開発者用のライブラリとユーザー用のコマンドラインインターフェース(CLI)が含まれてる。ライブラリは、両方のタイプのファイルを読み書きできるようになってる。ユーザーは、コマンドラインから直接一般的な作業を簡単に実行できて、ファイルの変換もできるんだ。

ライブラリは効率性を重視して作られていて、メモリ使用量を最小限に抑えつつデータ処理を速くするプログラミングスタイルを採用してる。ユーザーは、データの特定の領域をクエリして、結果を素早く得られるから、ファイル全体をメモリにロードする必要がないんだ。

hictkは、ゲノムの領域間の相互作用のカウントなど、さまざまなタイプのデータをサポートしてる。データのバランスを取るさまざまな方法にも対応していて、分析の精度にとって重要なんだ。ライブラリは、Hi-Cデータを扱うプログラムを開発者が作りやすくなるように作られてるんだ。

使いやすいコマンドラインインターフェース

hictkのコマンドラインインターフェースは、使いやすさを考慮して構築されてる。ユーザーは、ファイルフォーマットの変換や複数のファイルを一つにマージするなどのアクションを実行するためのコマンドを実行できる。CLIは、Coolerと.hicの両方のファイルを処理できるように設計されていて、ユーザーはフォーマットの切り替えを簡単にできるんだ。

例えば、特定の染色体から相互作用を抽出して、読みやすい形式で結果を出力できる。データをある形式でフォーマットして別の形式に変えることもできて、作業フローをよりスムーズにできるんだよ。

パフォーマンスとテスト

hictkはパフォーマンスを重視して開発されていて、C++というプログラミング言語で実装されてるから効率的に動作するんだ。広範なテストが行われていて、ライブラリが異なるシステム間で正しく機能することを確保し、大規模なデータセットを遅延なしで扱うことができるんだ。

このツールキットには、パフォーマンスや精度をチェックする統合テストが含まれてる。例えば、ファイルを一つの形式から別の形式に変換した後、hictkは元のファイルと変換されたファイルを比較して、情報が失われていないか確認するんだ。定期的な自動テストが信頼性を維持して、ユーザーにツールの能力への自信を提供してる。

hictkの現在の制限

hictkは強力なツールだけど、いくつかの制限もあるんだ。例えば、現在はリモートファイルをネイティブに扱えないから、特定の場所に保存されたデータを扱うのがちょっと複雑になることがある。でも、リモートファイルをローカルシステムにマウントするような回避策もあるよ。

もう一つの制限は、hictkがまだ非対称なCoolerファイルや特定の相互作用データを含む.hicファイルなどの特殊なタイプのファイルに対応していないことなんだ。これらの機能はあまり一般的に必要とされないけど、欠如していると一部のユーザーには不都合になるかもしれないね。

結論

Hi-C研究は成長を続けていて、複雑なデータやより効率的なツールの必要性をもたらしてる。hictkは、.hicとCoolerファイルを扱うプロセスを簡素化するために設計された現代的な解決策として役立って、研究者が重要なゲノムデータを分析・視覚化しやすくしてるんだ。

ユーザーフレンドリーなインターフェースと最適化されたパフォーマンスを提供することで、hictkは研究者がHi-Cデータを扱う際のさまざまな課題に対処してる。現在の制限はあるけど、ゲノム分析ツールのアクセス性と使いやすさを向上させるための大きな前進を示してる。このツールキットは、科学者たちがゲノム学の分野で意味のある研究を行うための能力を高めることを約束してるんだ。

オリジナルソース

タイトル: hictk: blazing fast toolkit to work with .hic and .cool files

概要: MotivationHi-C is gaining prominence as a method for mapping genome organization. With declining sequencing costs and a growing demand for higher-resolution data, efficient tools for processing Hi-C datasets at different resolutions are crucial. Over the past decade, the .hic and Cooler file formats have become the de-facto standard to store interaction matrices produced by Hi-C experiments in binary format. Interoperability issues make it unnecessarily difficult to convert between the two formats and to develop applications that can process each format natively. ResultsWe developed hictk, a toolkit that can transparently operate on .hic and .cool files with excellent performance. The toolkit is written in C++ and consists of a C++ library with Python and R bindings as well as CLI tools to perform common operations directly from the shell, including converting between .hic and .mcool formats. We benchmark the performance of hictk and compare it with other popular tools and libraries. We conclude that hictk significantly outperforms existing tools while providing the flexibility of natively working with both file formats without code duplication. AvailabilityThe hictk library, Python bindings and CLI tools are released under the MIT license as a multi-platform application available at github.com/paulsengroup/hictk. Pre-built binaries for Linux and macOS are available on bioconda. Python bindings for hictk are available on GitHub at github.com/paulsengroup/hictkpy, while R bindings are available on GitHub at github.com/paulsengroup/hictkR. [email protected] Supplementary informationSupplementary data are available at Bioinformatics online.

著者: Jonas Paulsen, R. Rossini

最終更新: 2024-03-27 00:00:00

言語: English

ソースURL: https://www.biorxiv.org/content/10.1101/2023.11.26.568707

ソースPDF: https://www.biorxiv.org/content/10.1101/2023.11.26.568707.full.pdf

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。

著者たちからもっと読む

類似の記事