エピジェネティックバイオマーカーの健康予測における役割
研究がDNAマーカーを健康リスク評価のためのツールとして注目してるよ。
― 1 分で読む
目次
最近、健康研究のためにDNAの特別なマーカー、エピジェネティックバイオマーカーを使うことに注目が集まってるんだ。このマーカーは、体脂肪や喫煙習慣、アルコール使用などについて重要な情報を提供してくれることがあるんだ。人々は聞かれても正確に思い出せないことが多いから、こうした特性に関する情報は信頼できないことがあるんだ。DNAマーカーを使うことで、研究者たちは健康リスクに基づいて個人をよりよくグループ分けしたり、特定の病気が発症する可能性を予測したりすることを期待してるんだ。
DNAメチル化データの課題
主に研究されるマーカーの一つがDNAメチル化(DNAm)なんだ。これはDNAの化学的変化で、実際のDNA配列を変えずに遺伝子の働きに影響を与えるんだ。でも、研究者たちが異なるグループの人々や異なるラボ環境からDNAmデータを集めると、結果を正しく解釈するのが難しいバリエーションが出てくることがあるんだ。
これに対処するために、科学者たちはデータを「ノーマライズ」しようとするんだ。つまり、これらの違いを考慮して調整するってこと。でも、時にはこのプロセスで個人間の生物学的な違いに関する重要な情報が失われちゃって、誤解を招く結論につながることもあるんだ。研究者たちが複数の研究からの情報を統合しようとする際、ノーマライゼーションがデータにどう影響するかを知ることは重要なんだよ。
最近の研究では、同じサンプルに異なるノーマライゼーション法を適用すると、結果が大きく異なることがあるってことがわかったんだ。これが、科学者たちが自分たちの発見が信頼できるかつ異なる集団に再現できるかを確認するのを難しくしてるんだ。
DNAメチル化アレイの仕組み
DNAmを測定するために、研究者たちはしばしばIllumina Infinium HumanMethylation450やEPICアレイといった装置を使うんだ。これらのツールはゲノム全体のDNAmをチェックするんだ。特定のDNAの場所に小さなプローブを付けることで機能するんだ。この場所がメチル化されているか(メチル基が付加されているか)またはメチル化されていないか(メチル基がないか)によって、異なる色でDNAの状態を示すんだ。
使われるプローブには二種類あって、タイプIとタイプIIがあるんだ。タイプIは各DNAの場所に対して2つの短いセグメントを使って、メチル化状態用と非メチル化状態用それぞれを持つんだ。タイプIIは、両方の状態を異なる色で示すことができる単一のプローブを使うんだ。
DNAmデータをノーマライズするアプローチ
研究者たちはDNAmデータをノーマライズするためにいろんな方法を使ってるんだ。よく使われる技術の一つが分位数ノーマライゼーション(QN)なんだ。この方法は、全てのサンプルで分布が同じになるように値を調整することで、プローブの動作の違いによるバイアスを修正するのに役立つんだ。一部の方法は個々のサンプル内の修正に焦点を当てるけど、他の方法は複数のサンプル間のバリエーションを調整するんだ。
特定のノーマライゼーション方法には以下のようなものがあるよ:
- サブセット-分位数アレイ内ノーマライゼーション(SWAN):この方法は、似たようなDNAプローブのランダムな選択に焦点を当てて値を調整するんだ。
- ベータ-ミクスチャー分位数ノーマライゼーション(BMIQ):この方法は特にタイプIIプローブをタイプIプローブの分布に合わせて調整するんだ。
- ピークベース補正(PBC):この方法はタイプIIプローブをタイプIプローブのデータに基づいて変更するんだ。
- ノーマル-エクスポネンシャルアウトオブバンド(Noob):この技術はプローブ間のバックグラウンドノイズと色のバイアスを修正するんだ。
データの技術的な問題に効果的に対処することで、研究者たちは個々のデータポイントをノーマルにできるんだよ。すべての過去のデータを一緒に調整する必要がなくなるから、時間もお金も節約できるんだ。
コホートにおけるノーマライゼーション方法のテスト
最近の研究では、研究者たちが似た年齢の高齢者2グループに異なるノーマライゼーション方法を適用して、どの方法が最も効果的かを調べたんだ。具体的には、DNAmデータから派生したエピジェネティックスコア(EpiScores)を使って、どれだけ正確に体重指数(BMI)を予測できるかに注目したんだ。
15の異なるノーマライゼーション方法が2つのグループで評価されたんだ。サンプルは2つの異なる期間から取られていて、しっかりした比較ができるようになってるんだ。不確かなデータをフィルタリングした後、分析するために885人のデータが残ったんだ。
ノーマライゼーション方法の成功を評価する
明確な勝者のノーマライゼーション方法は見つからなかったけど、特定の評価基準に基づいていくつかの方法が他よりも良い結果を出したんだ。「daten2」や「naten」などの方法は全体的に良い結果を示したけど、Tost法や未ノーマライズデータはあまり効果的ではなかったんだ。
研究者たちはEpiScoresと実際のBMI測定との相関を調べたんだ。平均的な相関は2グループ間で異なってたけど、あるグループで最も効果的なノーマライゼーション方法は別のグループでも効果があったんだ。
予測の堅牢性を評価する
ノーマライゼーション方法の選択が相関に影響を与えた一方で、異なる方法を使った時の予測の一貫性も調べたんだ。一部の方法は、データセットが一緒に処理されても別々に処理されても、個々のEpiScoresが非常に似てたんだ。例えば、SWANは両方のグループで良いパフォーマンスを示したんだ。
研究者たちは、染料バイアスの補正がないノーマライゼーション方法のグループが、データセットを別々に調整した時にEpiScoresにより大きな違いを示すことに気づいたんだ。
主な発見と影響
この研究では、DNAmデータから技術的なノイズを取り除くことが、信頼できる予測を得るために不可欠であることが強調されたんだ。理想的には、選ばれたノーマライゼーション方法は、データが単独で処理される場合でも他のデータセットと一緒に処理される場合でも一貫した結果を出すべきなんだ。アレイ間の方法は、染料バイアスの補正を考慮した場合により良い予測を提供したんだ。これは、医療環境でこれらの方法を適用する際に考慮すべきなんだ。
効果的なDNAm予測ツールを持つことは、健康リスクをよりよく理解し、個別化した医療戦略を開発するために重要なんだ。研究者たちは、既存のEpiScore分析が主にグループ内でのスコアの違いに焦点を当てているけど、さまざまなノーマライゼーションアプローチを適用することで、異なる集団間で信頼できる予測ができることを指摘してるんだ。
結論
この研究は、健康予測のためにDNAmデータを分析する際にノーマライゼーション方法を慎重に選ぶことの重要性を強調してるんだ。科学者たちは、現実の医療環境で使える信頼できるツールを提供しようとしていて、BMIを含めた複雑な健康特性の理解と予測を向上させることを目指してるんだ。これらの方法が異なる集団で堅牢で適用可能であることを確保することで、個人の健康研究や結果の改善が目指されてるんだ。
タイトル: Integration of DNA methylation datasets for individual prediction
概要: BackgroundEpigenetic scores (EpiScores) can provide blood-based biomarkers of lifestyle and disease risk. Projecting a new individual onto a reference panel would aid precision medicine and risk communication but is challenging due to the separation of technical and biological sources of variation with array data. Normalisation methods can standardize data distributions but may also remove population-level biological variation. MethodsWe compared two independent birth cohorts (Lothian Birth Cohorts of 1921 and 1936 - nLBC1921 = 387 and nLBC1936 = 498) with DNA methylation assessed at the same chronological age (79 years) and processed in the same lab but in different years and experimental batches. We examined the effect of 15 normalisation methods on a BMI EpiScore (trained in an external cohort of 18,413 individuals) when the cohorts were normalised separately and together. ResultsThe BMI EpiScore explained a maximum variance of R2=24.5% in BMI in LBC1936 after SWAN normalisation. Although there were differences in the variance explained across cohorts, the normalisation methods made minimal differences to the estimates within cohorts. Conversely, a range of absolute differences were seen for individual-level EpiScore estimates when cohorts were normalised separately versus together. While within-array methods result in identical BMI EpiScores whether a cohort was normalised on its own or together with the second dataset, a range of differences were observed for between-array methods. ConclusionsUsing normalisation methods that give similar EpiScores whether cohorts are analysed separately or together will minimise technical variation when projecting new data onto a reference panel. These methods are especially important for cases where when raw data and joint normalisation of cohorts is not possible or is computationally expensive.
著者: Riccardo E Marioni, C. Merzbacher, B. Ryan, T. Goldsborough, R. F. Hillary, A. Campbell, L. Murphy, A. M. McIntosh, D. Liewald, S. E. Harris, A. F. McRae, S. R. Cox, T. I. Cannings, C. A. Vallejos, D. L. McCartney
最終更新: 2023-03-22 00:00:00
言語: English
ソースURL: https://www.medrxiv.org/content/10.1101/2023.03.22.23287572
ソースPDF: https://www.medrxiv.org/content/10.1101/2023.03.22.23287572.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた medrxiv に感謝します。