RNA-seqデータ分析のためのGSEA評価
さまざまながんタイプにおける遺伝子セット濃縮解析の研究。
― 1 分で読む
目次
近年、経路濃縮分析が科学者たちによって遺伝子や疾病に関連する研究データを理解するための人気のツールになってる。この方法は、特定の遺伝子データをさまざまな生物学的機能やプロセスに結びつけることで、研究者が大局を把握できるように助ける。70以上の異なる方法があり、選べる遺伝子セットも何千種類もあるから、これらの選択肢を navigするのはかなり難しくなってる。
経路濃縮分析
経路濃縮分析は、遺伝子データを生物学的なコンテキストを保ちながら分析するのを手助けする。異なる機能やプロセスを表す遺伝子セットを調べることによって、研究者は疾病との関連で自分たちの発見を理解できるようになる。経路濃縮分析には大きく分けて2つのアプローチがある:過剰表現分析(ORA)と機能クラススコアリング(FCS)。ORAは選ばれた遺伝子リストを使い、FCSは測定された遺伝子の全リストを考慮する。
この分野には多くのツールと方法があるけど、私たちは特定のFCS型の方法である遺伝子セット濃縮分析(GSEA)に焦点を当てる。もともとはマイクロアレイデータ用に作られたGSEAは、今やRNA-seqデータの分析にも広く使われてる。しかし、さまざまな種類のデータがバイアスを引き起こす可能性があり、これが濃縮分析の結果に影響を及ぼすかもしれない。だから私たちの目標は、GSEAがRNA-seqデータを使ったときにどれだけうまく機能するかを評価すること。
研究アプローチ
GSEAのパフォーマンスを調べるために、他の研究者が提案した方法に従い、特定のアノテーションに基づいたコントロール経路のセットを作った。がん研究からのRNA-seqサンプルの大規模データセットを使用し、腫瘍と非腫瘍の両方の組織を含むペアサンプルに焦点を当てた。品質チェックを行い、不必要なデータをフィルタリングした後、12種類のがんについて1,219のペアサンプルを分析した。
確立されたデータベースから多数の遺伝子セットを比較し、12種類の選択したがんタイプに関連する253の経路を特定した。最新のソフトウェアバージョンを使ってGSEAを実行し、GSEAのさまざまなオプションでの感度と精度を評価するためにランダムな遺伝子セットを作成した。
さらに、別のがんコホートを調べて成果を検証した。この結果をもとに、分析全体で強い一致を示すコア経路のセットを確立するのに役立つ「濃縮証拠スコア(EES)」という新しい指標を導入した。
RNA-seqデータセット
がんゲノムアトラス(TCGA)は、豊富なRNA-seq発現データを提供している。これらの遺伝子発現ファイルをダウンロードすることで、33種類の異なるがんタイプから合計11,274のデータファイルを取得した。品質を確保するために、ペアの腫瘍と非腫瘍の組織を持つサンプルだけを含め、ばらつきを引き起こす可能性のあるサンプルはフィルタリングした。その結果、さらなる分析のために15のTCGAプロジェクトが残った。
他のがんタイプについても、同様の方法論を用いた。甲状腺がん研究ではチェルノブイリ組織バンクからデータを取得し、肝細胞癌研究はNCBIの遺伝子発現オムニバスリポジトリから得られた。
差次的遺伝子発現分析
すべての遺伝子発現ファイルを分析して、60,660の異なる遺伝子のレベルを定量化した。19,962のタンパク質コーディング遺伝子に焦点を当て、分析にとって有益でない遺伝子はフィルタリングした。差次的に発現している遺伝子を特定した後、それらのデータをランキングしてGSEAに備えた。
また、edgeRやlimmaなどの遺伝子発現データの分析方法を比較した。複数のパイプラインを採用することで、結果が効果的に伝えられるようにした。
遺伝子セット
ポジティブコントロール経路を定義するために、既知のデータベースから33,591の遺伝子セットを最初に用意した。特定の条件に基づいてこれらの遺伝子セットをフィルタリングするためのカスタムスクリプトを使って、研究しているがんタイプに関連するものだけを選んだ。フィルタリングプロセスを経て、分析のためのポジティブコントロール経路のセットを確定した。
遺伝子セットの重複
経路濃縮分析における一般的な課題は、遺伝子セットの重複で、いくつかの遺伝子が複数のセットに属することもある。この問題は、異なる遺伝子コレクションに冗長性が見られるときに分析を複雑にする。そこで、Jaccard指数のような指標を使って遺伝子セット間の類似性を定量化した。
遺伝子セット濃縮分析(GSEA)
GSEAは、ランキングされた遺伝子リスト内の特定の経路がどれだけ濃縮されているかを評価するためのよく知られたツールだ。遺伝子を事前にフィルタリングする必要がないから、たくさんの遺伝子データを持つ研究には有益だ。
GSEAは、ターゲット遺伝子セットの遺伝子の寄与を合計して全体の濃縮スコアを求める。このアプローチには、統計的テストを行うための2つのオプションがある:遺伝子セット置換と表現型置換。各方法にはそれぞれの利点があって、データの構造と可用性によって異なる。
過剰表現分析(ORA)
GSEAは人気だけど、ORAはシンプルなアプローチで、長い間広く使われてきた。この方法は、選ばれた遺伝子リストとターゲット遺伝子セットの間に有意な重複があるかを調べる。単純である一方、遺伝子を選択する基準に敏感であるという限界もある。
感度と特異性分析
さまざまなGSEA方法のパフォーマンスを評価するために、ランダムなコントロール経路を生成した。ポジティブとネガティブコントロールを比較して、各アプローチが真の経路とランダムな経路をどれだけうまく区別できるかを評価するために受信者動作特性(ROC)曲線を作成した。
分析の結果、GSEAの古典的な遺伝子セットアプローチが感度と特異性のバランスが最も良かった。この発見は、GSEAの典型的な方法が信頼できる結果を提供できることを示唆している。
がんタイプ間の拡張分析
私たちは分析をTCGAの枠を超えて他のがん研究にも拡張した。新しいEES指標を使って、TCGAで特定された経路と追加の研究からのものを比較した。経路間で強い一致が見られ、私たちのアプローチの堅牢性が際立った。
分析はまた、特に甲状腺がんと肝がんの研究での違いも示した。これらの違いは、各がんタイプに関連するユニークな要因に光を当てることができ、潜在的なメカニズムに対する洞察を提供する。
リーディングエッジ遺伝子
さらに、GSEAを通じて特定されたリーディングエッジ遺伝子を調べた。これらの遺伝子は経路濃縮信号の中で重要な役割を果たし、彼らが機能する生物学的コンテキストを理解するのに不可欠だ。さまざまな研究間でリーディングエッジ遺伝子を比較することで、その重要性や疾病における潜在的な役割について深い洞察を得た。
GSEAの重要性
GSEAは経路分析において主要な方法として確立されているが、その限界も理解することが重要だ。さまざまなランキング統計が結果に影響を及ぼす可能性があり、RNA-seqデータ分析に適切な方法を使用することが不可欠だ。GSEAの外で計算された差次的遺伝子発現値を使うことで、より正確で意味のある洞察が得られる。
結論
この研究の主な目的は、さまざまなGSEA方法を評価してRNA-seqデータ分析の指針を提供することだった。広範なデータセットとキュレーションされた経路コレクションを活用することで、研究者がGSEAのニュアンスをよりよく理解できるようにしたいと思ってる。
評価を通じて、古典的で重み付けされていない遺伝子セット置換方法がさまざまながんタイプで堅実なパフォーマンスを提供することを示した。また、研究者が自分たちの研究の中で重要な経路や遺伝子を特定できるようにするEES指標も導入した。
私たちの目標は、研究における透明性と再現性を促進し、経路分析方法のさらなる発展を奨励することだ。ソースコードやドキュメントを公に利用できるようにすることで、今後の分析やこの分野の改善を支援したいと思ってる。
タイトル: Assessment of Gene Set Enrichment Analysis using curated RNA-seq-based benchmarks
概要: Pathway enrichment analysis is a ubiquitous computational biology method to interpret a list of genes (typically derived from the association of large-scale omics data with phenotypes of interest) in terms of higher-level, predefined gene sets that share biological function, chromosomal location, or other common features. Among many tools developed so far, Gene Set Enrichment Analysis (GSEA) stands out as one of the pioneering and most widely used methods. Although originally developed for microarray data, GSEA is nowadays extensively utilized for RNA-seq data analysis. Here, we quantitatively assessed the performance of a variety of GSEA modalities and provide guidance in the practical use of GSEA in RNA-seq experiments. We leveraged harmonized RNA-seq datasets available from The Cancer Genome Atlas (TCGA) in combination with large, curated pathway collections from the Molecular Signatures Database to obtain cancer-type-specific target pathway lists across multiple cancer types. We carried out a detailed analysis of GSEA performance using both gene-set and phenotype permutations combined with four different choices for the Kolmogorov-Smirnov enrichment statistic. Based on our benchmarks, we conclude that the classic/unweighted gene-set permutation approach offered comparable or better sensitivity-vs-specificity tradeoffs across cancer types compared with other, more complex and computationally intensive permutation methods. Finally, we analyzed other large cohorts for thyroid cancer and hepatocellular carcinoma. We utilized a new consensus metric, the Enrichment Evidence Score (EES), which showed a remarkable agreement between pathways identified in TCGA and those from other sources, despite differences in cancer etiology. This finding suggests an EES-based strategy to identify a core set of pathways that may be complemented by an expanded set of pathways for downstream exploratory analysis. This work fills the existing gap in current guidelines and benchmarks for the use of GSEA with RNA-seq data and provides a framework to enable detailed benchmarking of other RNA-seq-based pathway analysis tools.
著者: Julián Candia, L. Ferrucci
最終更新: 2024-04-10 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.01.10.575094
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.01.10.575094.full.pdf
ライセンス: https://creativecommons.org/publicdomain/zero/1.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。