oHMMedを使ったゲノム解析の進展
oHMMedを紹介するよ、ゲノムとエピジェネティクスデータの分析をもっと良くする方法だ。
― 1 分で読む
目次
隠れマルコフモデル(HMM)は、生物の配列を分析するための便利なツールだよ。最初は音声認識用に設計されたけど、今では統計的手法に頼るさまざまな分野に応用が広がってる。生物学での最初の用途の一つは、DNAの二種類の塩基、グアニンとシトシン(GC)対アデニンとチミン(AT)に基づいてゲノムのセグメントを調べることだったんだ。目的は、GCが豊富なエリアと貧弱なエリアを区別すること。
HMMは、観察された配列(DNAの文字列みたいなもの)が、観察されていない「隠れた」配列の影響を受けていると仮定して動くよ。観察されたデータを理解するためには、隠れたプロセスをモデル化して、それを定義するパラメータを見つける必要があるんだ。ゲノム分析の文脈では、DNA配列の各位置がいくつかの隠れた状態のどれかに属する可能性を推測してる。これらの状態は交互に並んでシーケンスを形成し、モデルはこれらの状態間を移動する確率を計算する。
ゲノムセグメンテーションの理解
ゲノムを分析する際、アルゴリズムが隠れた状態間の遷移確率を推測するのに使われる。この遷移確率は、シーケンス内の前の状態に基づいていて、マルコフ連鎖になってる。隠れた状態と観察されたシーケンスの関係が重要で、各観察データポイントは隠れた状態から生じると考えられてる。観察データを隠れた状態に結びつける方法はいろいろなアルゴリズムで異なるけど、観察された領域を隠れた状態に割り当てる作業は「注釈」と呼ばれることが多いんだ。
ほとんどの伝統的なHMMは、観察されたデータポイントが特定のカテゴリのセットから来ていると仮定し、隠れた状態によって各カテゴリが放出される可能性を説明する。場合によっては、観察データを連続分布の要約として扱うこともできて、ガウス混合モデルのような特定のパターンに従うことがある。観察データの可能性を推定し、各位置での状態を決定するために、動的計画法の技術が適合プロセスの最適化を助けるんだ。
oHMMedの紹介: 新しい方法
私たちのアプローチであるoHMMedは、放出が連続であると仮定している。主に二つのモデルを使用して、ひとつは正規分布に関するもので、もうひとつはガンマ分布を用いている。核心的なアイデアは、観察されたデータシーケンスが明確なパターンを示すことで、「自己相関」があるってこと。HMMフレームワーク内でこのパターンを捉えるために、放出密度が特定の方法で振る舞うように設定している。
隠れた状態間で共有パラメータを結びつけつつ、他のパラメータを異ならせることで、状態をその平均に従って整理する。これによって、主に隣接する状態間の遷移が起こり、遷移行列を形成する。マルコフ連鎖モンテカルロ(MCMC)アルゴリズムを使用して、oHMMedは観察されたシーケンスの最適注釈を提供し、放出分布の重要なパラメータを推定する。
oHMMedにはいくつかの価値ある特徴がある。まず、「ラベルスイッチング」という厄介な問題を避けられる。これは、状態のラベルが実際の違いを示さずにランダムに変わることだよ。この安定性は、異なる実行間で結果を比較するのを簡単にする。次に、この方法は推定する必要があるパラメータの数を減らすから、パフォーマンスを向上させ、過剰適合を防ぐのに役立つ。最後に、oHMMedは隠れた状態の適切な数を選ぶための直感的な基準を発展させるのに役立つ。
ゲノムにおけるGC比の重要性
HMMが生物学で最初に使われたのは、ゲノムのGC含量の変動を分析するためだった。哺乳類の染色体は、「アイソコア」と呼ばれる明確なGC比の領域の「モザイク」として視覚化されている。一般的に、GC含量が増加する5つの状態が仮定されている。これらの状態は、バイナリ決定ルール用に設計された特定のアルゴリズムを使ってさまざまな種のゲノム全体で特定されてきた。「アイソコア理論」を巡る議論は、ゲノムのGC比の変動に関する別のアイデアを生み出している。
研究が進む中で、ゲノムのGC比が異なるスケールで明確なパターンを示すことがわかってきた。GC含量が高いところから低いところへの遷移は、一般的に中間のGC領域を経由する。この連続的なパターンは、偏った遺伝子変換のような要因がGC組成を形成する重要な役割を果たす可能性があることを示唆している。
oHMMedによるゲノム注釈
oHMMedを使って、私たちは基礎となる生物学的プロセスに関する仮定なしに、平均GC比に基づいてゲノムを注釈できる。このアプローチは、連続GC変動の簡潔な特徴付けや、さらなる精査のための類似領域の特定を可能にする。私たちはoHMMedを人間、マウス、果物バエのゲノムに適用し、以前の理論を推進したGC含量の類似した変動を捉えた。
さらに、私たちはこれらのゲノム内の遺伝子内容を分析するためにoHMMedを使用した。この注釈は、遺伝子密度の変動に関する洞察を提供し、遺伝子調節や細胞応答のさまざまな生物学的機能を理解するために重要だ。遺伝子内容はGC比と相関するため、この関係を私たちの研究でさらに評価した。
エピジェネティックマーカーの探求
oHMMedを使って、私たちは人間の染色体1に沿ったエピジェネティックマーカーの変動を調査した。これらのマーカーは、遺伝子調節と発現を理解するために重要だ。ATAC-seqのような異なるタイプのデータ、すなわちアクセス可能なDNA領域を識別するものや、特定のヒストン修飾をターゲットにしたCHIP-seqに焦点を当てた。
広い(100kb)および狭い(1kb)ウィンドウでリードカウントを分析することで、これらのエピジェネティックマーカーのパターンを詳細に観察できた。100kbの分析は広範なダイナミクスを捉え、1kbの分析は小さな変化をより密接に追跡する。
ゲノムとエピジェネティック分析の結果
分析からいくつかの重要な発見が明らかになった。人間のゲノムを研究する中で、平均GC比に基づいて明確なセグメントを発見した。oHMMedを実行することで、特定のGC比を持つ5つの状態とそれに対応する遷移確率を推測した。このアプローチは以前の文献と一致するけど、GCが豊富な領域と貧弱な領域の正確な分類にはばらつきがある。
遺伝子内容を分析したとき、私たちの発見はGC比と遺伝子密度の明確な相関を示す3つの隠れた状態を明らかにした。GC含量が高い地域はより多くの遺伝子を持つ傾向がある。この関係は統計的に有意で、異なる種全体でこれらの二つの特徴間に意味のあるつながりがあることを示している。
さらに、エピジェネティックマーカーの探求では、遺伝子調節の明確なパターンが示された。強化マーカー(H3K27ac)と抑制マーカー(H3K27me3)との間には負の相関が見られ、遺伝子の活性化と抑制に関する現在の生物学的理論を支持している。
異なるモデル間の区別
oHMMedが伝統的なHMMとどのように比較されるかも調べた。後者は柔軟性を提供するかもしれないけど、oHMMedは必ず同じくらい良いか、あるいはそれ以上の性能を示した。これはパラメータ推定のばらつきが減少し、過剰適合の可能性を下げるため、遷移行列が簡素化されているからだ。
ただ、隠れた状態が大きく異なる特性を示す場合、oHMMedが効果的に機能しないこともある。そういう場合、無秩序なモデルの方がより適合する結果を提供するかもしれない。これは、oHMMedを適用する前にデータのパターンをテストする重要性を強調している。
ウィンドウサイズの価値
oHMMedを使用する際の重要な側面は、ゲノムシーケンスを分析するための適切なウィンドウサイズを決定することだ。私たちの研究では、GC比や遺伝子密度の変動を最もよく示すウィンドウサイズを選択した。この調整により、異なる空間スケールで包括的な評価を行い、将来の分析のための関連ゲノム領域を抽出できる。
oHMMedは異なるウィンドウサイズに対応できる柔軟性を持っているため、さまざまな空間スケールでのGC変動に関する比較研究を推進することもできる。ウィンドウサイズを変更することで、研究者は異なるゲノム特徴を発見し、生物学的な疑問に対する洞察に富んだ解釈を導き出せる。
結論
要するに、私たちはoHMMedを複雑な生物学的データを分析するための多目的なツールとして確立した。このアプローチは、統計的に異なる平均パターンに基づいてゲノムシーケンスを効果的にセグメント化することができる。特定の生物学的仮定に依存せずに動作するように設計されているから、幅広いゲノムの特徴に適用できる。
ゲノムの注釈やエピジェネティックマーカーの探求において顕著な応用があり、oHMMedはDNAシーケンスとその調節の風景との複雑な関係に関する洞察を提供する。ゲノムとエピゲノムの研究が進む中で、oHMMedが遺伝学から生態学に至るまで、多様な分野で有益であることが期待される。
今後の研究では、oHMMedの能力を活用してさらに多くの生物学的洞察を明らかにし、信頼性のある結果を確保するための堅牢な分析プラクティスを維持できる。ゲノムの組成やエピジェネティック変動に適用される場合でも、oHMMedは生命の複雑さを分子レベルで理解するために貢献する準備ができている。
タイトル: Inference of Genomic Landscapes using Ordered Hidden Markov Models with Emission Densities (oHMMed)
概要: BackgroundGenomes are inherently inhomogeneous, with features such as base composition, recombination, gene density, and gene expression varying along chromosomes. Evolutionary, biological, and biomedical analyses aim to quantify this variation, account for it during inference procedures, and ultimately determine the causal processes behind it. Since sequential observations along chromosomes are not independent, it is unsurprising that autocorrelation patterns have been observed e.g., in human base composition. In this article, we develop a class of Hidden Markov Models (HMMs) called oHMMed (ordered HMM with emission densities, the corresponding R package of the same name is available on CRAN): They identify the number of comparably homogeneous regions within autocorrelated observed sequences. These are modelled as discrete hidden states; the observed data points are realisations of continuous probability distributions with state-specific means that enable ordering of these distributions. The observed sequence is labelled according to the hidden states, permitting only neighbouring states that are also neighbours within the ordering of their associated distributions. The parameters that characterise these state-specific distributions are inferred. ResultsWe apply our oHMMed algorithms to the proportion of G and C bases (modelled as a mixture of normal distributions) and the number of genes (modelled as a mixture of poisson-gamma distributions) in windows along the human, mouse, and fruit fly genomes. This results in a partitioning of the genomes into regions by statistically distinguishable averages of these features, and in a characterisation of their continuous patterns of variation. In regard to the genomic G and C proportion, this latter result distinguishes oHMMed from segmentation algorithms based in isochore or compositional domain theory. We further use oHMMed to conduct a detailed analysis of variation of chromatin accessibility (ATAC-seq) and epigenetic markers H3K27ac and H3K27me3 (modelled as a mixture of poisson-gamma distributions) along the human chromosome 1 and their correlations. ConclusionsOur algorithms provide a biologically assumption-free approach to characterising genomic landscapes shaped by continuous, autocorrelated patterns of variation. Despite this, the resulting genome segmentation enables extraction of compositionally distinct regions for further downstream analyses.
著者: Lynette Caitlin Mikula, C. Vogl, M. Karapetiants, B. Yildirim, H. Kjartansdottir, C. Kosiol, J. Bergman, M. Majka
最終更新: 2024-01-30 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2023.06.26.546495
ソースPDF: https://www.biorxiv.org/content/10.1101/2023.06.26.546495.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。