yQTLパイプラインでQTL発見を効率化
研究における遺伝子データの効率的な分析のための新しいツール。
― 1 分で読む
目次
遺伝子関連研究は、特定の遺伝的変化と病気や他の特性との関連を見つけるための研究活動だよ。よく研究される遺伝的変化の一つに、一塩基多型(SNP)があって、これはDNA配列の小さな変異で、遺伝子の働きに影響を与えることがあるんだ。これらの変異を研究することで、研究者は異なる健康リスクや特性に寄与するものについてもっと知りたいと思ってる。
関連する概念として、定量的形質座(QTL)があるよ。これは、遺伝子がどれくらい表現されるかや、特定の代謝物が体内でどう振る舞うかといった、測定可能な特性に影響を与える遺伝子の特定の領域なんだ。
QTL発見のためのツール
研究者たちはQTL発見を助けるためにいろいろなツールを開発してきたんだ。例えば、Hail、MatrixeQTL、QTLtoolsなんかがあるけど、これらのツールはしばしば家族の関連性を考慮しないんだ。つまり、研究において人々がどれだけ関連しているかを考えてないってことだね。家族関係を認識することは多くの遺伝子研究で重要で、結果に影響を与えることがあるからさ。
家族の関連性を考慮するツールとしては、Rプログラミング環境内で動作するGENESISがあるよ。これはGWASとして知られる遺伝子研究で広く使われてるけど、一度に一種類の遺伝的入力と一つの特性しか分析できないから、大規模なデータセットで多くの特性や異なる遺伝子ファイルを扱うのは大変なんだ。
包括的なパイプラインの必要性
関連性テストに加えて、QTL発見のプロセス全体には、主要な分析の前後にいくつかのステップが含まれてるんだ。これには、データを正しく準備したり、欠損データを確認したり、重要な遺伝的測定を計算したり、結果をビジュアル化したりすることが含まれるんだ。それぞれのステップは、さまざまなソフトウェアプログラムで異なるコマンドを必要とすることが多いんだ。これがエラーを引き起こしたり、時間がかかったり、分析を繰り返すのを難しくしたりするんだ。
このプロセスを効率化するために、yQTLパイプラインという新しいツールが作られたんだ。このツールはすべてのステップを一箇所にまとめて、分析を管理しやすくしているんだ。
yQTLパイプラインの概要
yQTLパイプラインは効率的で使いやすく設計されているよ。Nextflowというシステムを使ってプロセス全体を自動化してるんだ。パイプラインは、Prepare.nf、Analysis.nf、Report.nfの3つの主要な部分に分かれているよ。このモジュラー構成のおかげで、データを管理しやすく、ストレージの必要性を減らしながら、ユーザーが実行したいステップをある程度制御できるんだ。
ステップ1: Prepare.nf
パイプラインの最初の部分、Prepare.nfでは、分析のためにデータが準備されるよ。これには、データファイルを必要な形式に変換したり、遺伝的変異についての情報を集めたり、重要な遺伝的測定を計算したりすることが含まれるんだ。遺伝データについての必要な詳細が、この段階でまとめられるんだ。
ステップ2: Analysis.nf
準備が終わったら、次のステップはAnalysis.nfだよ。ここで実際の関連性テストが行われるんだ。ユーザーは自分のファイルを提供するか、前のステップの出力を使うことができるんだ。
ステップ3: Report.nf
最後のステップはReport.nfで、分析の結果を結びつけて、結果のビジュアル表現を作成するんだ。これによって研究者は結果をはっきりと理解できるようになるんだよ。
家族の関連性と複数の特性の取り扱い
yQTLパイプラインには家族の関連性を考慮するオプションがあって、個人間の家族関係を考えながら遺伝情報を分析できるんだ。家族関係がある場合、ユーザーはGENESISを使ってモデルを推定し、その後各遺伝的変異の関連性テストを行うワークフローを選ぶことができるんだ。
無関係なサンプルを扱うときは、効率性で知られるMatrixeQTLを使用できるよ。これはデータを分析するためにシンプルなモデルを採用していて、一度に複数の特性を扱うことができるんだ。データセットが大きくなりすぎた場合、結果を小さな部分に分けて、コンピュータのメモリのニーズと分析にかかる時間のバランスを取ることができるんだ。
yQTLパイプラインを使うための入力要件
yQTLパイプラインを使い始めるために、ユーザーは特定のタイプの入力データを集める必要があるんだ:
遺伝型データ:これはVCFまたはGDS形式で提供できるよ。VCFファイルを使う場合、準備段階でGDS形式に変換されるんだ。
表現型データ:これは研究者が研究したい特性を示すデータで、通常、サンプルとそれぞれの特性を一致させたテーブル形式で正しくフォーマットされている必要があるんだ。分析されるすべての特性をリストアップする別のファイルが必要なんだ。
オプションデータ:ユーザーは分析に影響を与える可能性がある追加変数(共変量など)や、事前に計算された遺伝的測定を含めることができるよ。
SNPとサンプルの選択:デフォルトでは、パイプラインはすべての利用可能なサンプルとSNPを分析するけど、ユーザーは特定のサンプルやSNPに絞って分析を行うこともできるんだ。
より速い分析のための並列処理
yQTLパイプラインの重要な機能の一つは、複数のプロセスを同時に実行できることだよ。これは、多くの特性や遺伝子ファイルを含む大規模なデータセットを扱う際に重要なんだ。並列処理を利用することで、パイプラインは分析に必要な総時間を大幅に短縮できるんだ。
ユーザーはまた、同時に実行するプロセスの数をカスタマイズしたり、各ステップのために異なるリソースの必要性を指定したりできるんだ。この柔軟さによって、パイプラインはメモリとCPUの効率的な使用のために最適化されているんだ。
結果の可視化
分析が完了すると、yQTLパイプラインは結果のビジュアル表現を生成するんだ。マンハッタンプロットやQQプロットなどが含まれていて、これらのビジュアルツールは研究者が重要な遺伝的関連性を素早く特定するのに役立つんだ。
これらの基本的なビジュアリゼーションに加えて、分析後の体験を向上させるためのR Shinyアプリも利用できるんだ。ユーザーは結果をアプリにアップロードして、特性-QTLネットワークなどの追加ビジュアリゼーションを生成できるんだ。これらのネットワークは異なる特性が互いにどのように関連しているかやQTLを示していて、これらのつながりを可視化することで、研究者は従来の方法では見逃されがちな洞察を得ることができるんだ。
実世界の応用:メタボロミクス研究事例
yQTLパイプラインの効果は、メタボロミクスに関する研究で見ることができるよ。これは生物サンプル中の代謝物の研究なんだ。この場合、研究者たちは老化に焦点を当てた長期研究の194人の参加者からのデータを見ているんだ。年齢、性別、教育を共変量として使い、100万以上のSNPを分析して代謝物と遺伝的変異の関係を探ったんだよ。
この特定の分析では、研究者は家族の関連性がないサンプル向けに設計された二番目のワークフローを使ったんだ。彼らは有意性のカットオフを設定し、結果を調べたんだ。珍しいSNPをフィルタリングすることで、代謝物と遺伝的変異の間に有意な関連性が多く見つかったんだ。
全体として、yQTLパイプラインは分析段階での時間を大幅に節約できたんだ。90分以上かかっていたのがわずか26分になったことで、パイプラインは研究の速度と効率を向上させる可能性を示したんだよ。
結論
yQTLパイプラインはQTLの分析において重要な進展を表しているよ。効率的で使いやすいアプローチを提供することで、研究者が家族の関連性のような重要な要素を考慮しつつ、大規模な遺伝データセットを効率的に扱うことを可能にしているんだ。並列処理や包括的なビジュアルツールに焦点を当てているので、幅広い遺伝研究をサポートするのに適しているんだ。
遺伝研究が続けて成長する中で、yQTLパイプラインのようなツールは、研究者が扱うデータの複雑さやサイズの増加に対応できるようにするのに役立つんだよ。
タイトル: yQTL Pipeline: a structured computational workflow for large scale quantitative trait loci discovery and downstream visualization
概要: 1Quantitative trait loci (QTL) denote regions of DNA whose variation is associated with variations in quantitative traits. QTL discovery is a powerful approach to understand how changes in molecular and clinical phenotypes may be related to DNA sequence changes. However, QTL discovery analysis encompasses multiple analytical steps and the processing of multiple input files, which can be laborious, error prone, and hard to reproduce if performed manually. In order to facilitate and automate large-scale QTL analysis, we developed the yQTL Pipeline, where the y indicates the dependent quantitative variable being modeled. Prior to genome-wide association test, the pipeline supports the calculation or the direct input of pre-defined genome-wide principal components and genetic relationship matrix when applicable. User-specified covariates can also be provided. Depending on whether familial relatedness exists among the subjects, genome-wide association tests will be performed using either a linear mixed-effect model or a linear model. Using the workflow management tool Nextflow, the pipeline parallelizes the analysis steps to optimize run-time and ensure results reproducibility. In addition, a user-friendly R Shiny App is developed to facilitate result visualization. Upon uploading the result file, it can generate Manhattan plots of user-selected phenotype traits and trait-QTL connection networks based on user-specified p-value thresholds. We applied the yQTL Pipeline to analyze metabolomics profiles of blood serum from the New England Centenarians Study (NECS) participants. A total of 9.1M SNPs and 1,052 metabolites across 194 participants were analyzed. Using a p-value cutoff 5e-8, we found 14,983 mQTLs cumulatively associated with 312 metabolites. The built-in parallelization of our pipeline reduced the run time from [~]90 min to [~]26 min. Visualization using the R Shiny App revealed multiple mQTLs shared across multiple metabolites. The yQTL Pipeline is available with documentation on GitHub at https://github.com/montilab/yQTL-Pipeline.
著者: Stefano Monti, M. Li, Z. Song, A. Gurinovich, N. Schork, P. Sebastiani
最終更新: 2024-01-30 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.01.26.577518
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.01.26.577518.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。