細胞特異的DNAメチル化分析の進展
研究者たちが、さまざまな細胞タイプでのDNAメチル化を研究する新しい方法を提案してるよ。
― 1 分で読む
最近、科学者たちは、遺伝子が糖尿病やアルツハイマー、心臓の問題などの病気にどのように関与しているかを理解するために重要な進展を遂げてきた。重要な発見は、多くの遺伝的要因が遺伝子のオンオフに影響を与えることで、これがエピゲノムと呼ばれる制御層によって決定されることだ。エピゲノムは、DNAに対するさまざまな化学的変化から成り立ち、遺伝子の活動に影響を与える。これらの理解は、研究者たちがこれらの変化が複雑な病気の発展にどのように関連しているかを調べるきっかけとなっている。
エピゲノムは非常に柔軟で、私たちの生活の中で、さまざまな細胞タイプや環境への反応として変化する。この変動性のために、エピゲノムを研究するのは、より安定した遺伝的変異と比べて難しい。だから、研究者たちは、複雑な病気に関連するエピジェネティックな変異を特定するために研究を設計する際に注意が必要だ。
最も多く研究されているエピジェネティックな修正の一つがDNAメチル化で、これはDNAに小さな化学基が加わることを指す。これまでの研究では、多くのDNAの領域を一度にスキャンする技術が使われている。しかし、最新のシーケンシング技術の進歩により、科学者たちはより大きなサンプルサイズでDNAメチル化を信頼性高く分析できるようになっている。サンプルのDNAメチル化プロファイルは、主にそれがどの組織または細胞から来ているかに依存する。
分析に適した組織を選ぶことは特に重要で、アルツハイマーのような病気を研究する場合、脳組織は直接的に関連する。全血のような「バルク」組織を調べると、研究者たちは挑戦に直面する。なぜなら、これらのサンプルには異なる種類の細胞が混在しており、それぞれ独自のDNAメチル化プロファイルを持っているからだ。その結果、これらの細胞タイプの構成の違いが、研究者がDNAメチル化を特定の病気に関連付けようとしたときに誤解を招く結果につながることがある。
研究者たちは、各サンプル内のさまざまな細胞タイプを把握し、研究内での誤った関連を避ける必要がある。これらの違いに調整する方法が存在するものの、珍しい細胞タイプの特有の変化は、一般的な細胞タイプによって希釈されて見逃される可能性がある。DNAメチル化の変化に関連する特定の細胞タイプを特定することは、特定の病気に関与する遺伝子や生物学的機能を理解する上で重要だ。
特定の細胞分析の重要性
DNAメチル化の特定の細胞分析の必要性が高まっているが、必要なデータを生成するのは難しい。蛍光活性細胞ソーティングのような方法で得られたユニークな細胞集団からの新しい実験データは、かなりのコストや時間、労力を要することがある。特定の細胞タイプのリファレンスデータは生成されているが、サンプルサイズが小さく、研究がパワー不足になることも多い。
そのため、研究者たちは、事前に細胞を分離することなく細胞特有のプロファイルを取得できる計算的方法を開発している。これらの方法は、各サンプル内に存在する異なる細胞タイプの割合を知ったり推定したりすることに依存している。これらのアプローチの成功は、細胞タイプの組成を推定する精度に依存している。なぜなら、不正確さは誤った結論を引き起こす可能性があるからだ。
一般的に、DNAメチル化を評価する際、科学者たちは、変異のほんの一部しか個々の細胞タイプに正確に帰属できないことを発見している。これは、さまざまな細胞タイプのプロファイルがバルク組織プロファイルにどのように組み合わさるのかを理解するのが複雑であることを示しており、これらの混合物を個々の細胞タイプの貢献に分解しようとすると高いエラーの可能性がある。
ロングリードシーケンシングによる新しいアプローチ
この研究では、研究者たちはロングリードシーケンシング技術の進歩を利用した新しい計算アプローチを提案している。この技術を使うことで、科学者たちは、遺伝子配列だけでなく、DNAメチル化の状態も同時に分析できるようになる。重要なアイデアは、各シーケンシングリードを、それが由来した特定の細胞タイプに従って分類することだ。分類された後、リードは細胞タイプごとにグループ化され、それぞれの細胞タイプのユニークなDNAメチル化プロファイルが作成される。
この研究の目標は、この新しいアプローチが制限があっても信頼できる結果を生み出せるかどうかを確認することだ。まず、細胞タイプ特有のDNAメチル化に関する既存の知識は、しばしばゲノムのさまざまな領域を横断して見る必要がある。各リードはほんの小さなセグメントしか提供しないかもしれず、十分なユニークな情報が存在して、細胞タイプを正確に分類できるかどうかという疑問が浮かぶ。
次に、DNAメチル化を評価するほとんどの方法は、細胞集団全体の測定値を集約して連続的な値を提供する。このため、異なる細胞タイプの識別が容易になる場合もある。しかし、単一のDNA分子の場合、メチル化状態は単純な「はい」か「いいえ」であり、分類がより複雑になる。
研究者たちは、自分たちの方法の実現可能性を確かめるために、主要な血液細胞タイプに焦点を当てている。彼らは、研究者たちが小さなDNAセグメントだけを使用して細胞タイプを分類できるか、ゲノム全体にわたって各細胞タイプのユニークなサインが十分に見つかるか、そして単一のリードに十分な情報があって細胞タイプを正確に分類できるかの3つの重要な質問をしようとしている。
細胞タイプの分類
研究は、DNAメチル化プロファイルが細胞タイプを効果的に定義できることを示している。最初のステップは、ゲノムの小さなセグメントだけを使用して細胞タイプを予測できるかどうかを確認することだった。研究者たちは、5種類の精製血球からのDNAメチル化データを用いて分類器を構築した。彼らは、分類のために最大20,000塩基対のゲノムを見て、少なくとも5つのDNAメチル化サイトのさまざまな組み合わせをテストした。
結果は期待以上だった。分類器は細胞タイプを正確に予測でき、いくつかの機械学習アルゴリズムは強力な結果を出した。すべての分類器がランダムな推測よりも優れた性能を示す一方で、研究者たちは彼らの目的に対してより高い精度が必要だった。
最小限の精度レベルを達成した分類器の数を評価したところ、約31%の分類器が90%のサンプルを正しく識別するというしきい値を超えていた。分類器を生成するために使用された異なるアルゴリズムの中で、ランダムフォレストが最も正確な結果を出した。
さらに、研究者たちは、分類器の精度を向上させるためにDNAメチル化サイトの数を増やすと、単純に良い結果をもたらすわけではないことも発見した。5から20サイトに移行するとパフォーマンスが明確に向上し、さらに多くのサイトを含むことで継続的な改善が見られた。
彼らはまた、DNAメチル化サイト間の距離が精度に与える影響も調べた。結果は、異なる細胞タイプのサインがゲノムの領域に集まっていることを示唆している。これは、DNAメチル化パターンがランダムに発生するのではなく、生物学的文脈によって形作られているという考えを強調している。
分類プロセスの簡素化
細胞タイプ分類の全体的な精度を高めるための一つの戦略は、一度に少数の細胞タイプを予測することに焦点を当てることだ。これは、特定の細胞タイプと他のすべてとの区別を目指す分類器を作ることを意味する。研究者たちが問題をこのように簡素化して分類器を再教育したとき、精度の向上が見られた。
例えば、血液細胞タイプをグループ化し、リンパ球と骨髄細胞を識別するために分類器を訓練することで、平均精度が大幅に上昇した。他の血液細胞タイプを区別するために設計された分類器でも同様のパフォーマンスの向上が観察された。これにより、必要なDNAメチル化サイトの数も減少した。
さらに、全ゲノムビスルファイトシーケンシングのようなより包括的なデータソースの使用は、分類器の成功の可能性を高めるのに役立った。このシーケンシング方法は、より多くのDNAメチル化サイトをカバーできるため、精度が向上した。この方法はより大きなサンプルサイズを必要とするが、DNAメチル化レベルの推定の感度が改善され、より多くの特徴を捉えることで、最終的にはトレードオフの価値があることを示唆している。
課題と将来の方向性
期待される結果にもかかわらず、解決すべき課題はまだたくさんある。一つの大きな障害は、限られた数のトレーニングデータセットに依存していることだ。研究者たちは、これらのデータセットを拡大してより多くの細胞タイプのリファレンスを含めることで、結果を改善できると考えている。さらに、トレーニングデータの人口統計が、より多様な集団に適用した場合の分類器の性能を制限する可能性もある。
もう一つの課題は、使用される方法がロングリードシーケンシングデータからDNAメチル化状態を識別する精度に大きく依存していることだ。これらの推定の変動が、結果の分類器にエラーを引き起こす可能性がある。さらに、これまでのところ、研究者たちは特定のサイトでのDNAメチル化に焦点を当てており、特定の細胞タイプに関する有用な文脈を提供するかもしれない他の修飾が省かれている。
結論
この研究は、混合組織サンプルから細胞特異的DNAメチル化プロファイルを作成するためにロングリードシーケンシング技術を使用する可能性を示している。精製された血液細胞からの既存データを使用することで、研究者たちはゲノムの相当な部分で主要な血液細胞タイプを正確に区別できることがわかった。このアプローチには大きな可能性があり、特にシーケンシング技術が向上し、より完全なリファレンスプロファイルが生成されるにつれて期待される。
DNAメチル化の異常が病気にどのように影響するかを理解するには、特定の細胞タイプに関するより深い分析が必要だ。最終的な目標は、DNAメチル化を個々の細胞レベルで研究し、これらの修飾が病気においてどのような役割を果たすのかを把握することだ。これは、現在の遺伝子発現の検査方法に似たアプローチになる。
研究者たちがこれらの発見を基にさらなる調査を進める中で、さまざまな種類の組織や生物にわたるDNAメチル化パターンを分析できる効果的なモデルを確立し、エピジェネティクスと健康の複雑な関係をより深く理解できることを望んでいる。
タイトル: Leveraging epigenetic signatures to determine the cell-type of origin from long read sequencing data
概要: DNA methylation differs across tissue- and cell-types with important implications for the analysis of disease-associated differences in tissues such as blood. To uncover the biological processes affected by epigenetic dysregulation, it is essential for epigenetic studies to generate data from the appropriate cell-types. Here we propose a framework to do this computationally from long-read sequencing data, bypassing the need to isolate subtypes of cells experimentally. Using reference data for six common blood cell-types, we evaluate the potential of this approach for attributing reads to specific cells using sequencing data generated from whole blood. Our analyses show that cell-type can be accurately classified using small regions of the genome comparable in size to those generated by long-read sequencing platforms, although the accuracy of classification varies across different regions of the genome and between cell-types. We found that for approximately one third of the genome it is possible to accurately discriminate reads originating from lymphocytes and myeloid cells with the prediction of more specialised subtypes of blood cell-types also encouraging. Our approach provides an alternative computational method for generating cell-specific DNA methylation profiles for epigenetic epidemiology, accelerating our ability to reveal critical insights of the role of the epigenome in health and disease.
著者: Eilis Hannon, J. Mill
最終更新: 2024-06-03 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.06.03.597114
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.06.03.597114.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。