Simple Science

最先端の科学をわかりやすく解説

# 生物学# 遺伝学

混合祖先における遺伝子研究の課題

混血の先祖が遺伝子研究や分析方法をどう複雑にするかを探る。

― 1 分で読む


遺伝子研究:祖先の課題遺伝子研究:祖先の課題にするんだ。混血の系譜は遺伝子研究や結果の解釈を複雑
目次

遺伝子研究は、私たちの遺伝子が先祖とどうつながっているかを探るものだよ。今の多くの人は混血の先祖を持っていて、その遺伝子はいろんな背景から来てる。この遺伝子の混合は、特定の遺伝子と健康特性や病気を結びつけようとする研究に影響を与えることがあるんだ。研究者が混血集団を調べるとき、遺伝的背景が幅広く異なるから、しばしば困難に直面する。この話では、この変動性がなぜ重要なのか、研究者がどうやってそれに対処しようとするか、どんな方法が使われるのかについて話すよ。

混血の先祖の問題

混血の先祖は、遺伝子研究、特にゲノムワイド関連研究(GWAS)で誤解を招く結果をもたらすことがある。GWASは、遺伝子と特性のつながりを見つけるために、遺伝子の変異を大量に調べるんだ。集団が多様な先祖を持つと、遺伝子と特性の真の関係が混乱する。だから、研究者は特定の遺伝子が特性に関連していると間違って信じることがあるんだ。

この混乱は、混血集団では特定の遺伝子変異の頻度が先祖の背景によって異なるから起こる。もし研究がこれらの違いを考慮しないと、実際には存在しない関連性を誤って特定することになる。だから、混血集団は遺伝子研究でしばしば過小評価されてきたんだ。

先祖の多様性に対処する方法

研究者は、集団内の先祖の多様性に対処するためのさまざまな戦略を開発してきた。一つ目の戦略は、似た先祖を持つグループに集中することで、共通の背景を持つ人々に限って分析することだった。別のアプローチは、さまざまな統計的修正を使って遺伝子テストの結果を調整することだ。最近では、研究者は近縁または遠縁の家族関係を考慮するために混合モデルを使用している。

もっとシンプルな戦略は、分析に推定された先祖情報を固定因子として含めること。これが人気になったのは、研究で誤解を減らすのに効果的だからだ。研究者は、遺伝的類似性を異なる先祖グループに対して分析する方法を通じて、この先祖を推測することが多いんだ。

先祖推定のためのツール

個々人のグローバルな先祖を推定するためのツールはいくつかある。これらのモデルは、特定の遺伝子変異がさまざまな先祖集団に出現する可能性を調べる。これらのモデルを使うことで、研究者は個人のゲノムに対する異なる先祖グループの遺伝的寄与を推定できる。

ただし、これらの方法にはいくつかの欠点もあるんだ。例えば、研究者はデータ内でどのくらいの先祖集団を見つけると思うかを事前に指定する必要がある。また、これらの方法の多くは、研究しているすべての先祖グループの参照データを持つことに依存していることが多い。よく、異なる大陸の集団を比較するような広い地理的レベルで分析が行われるから、集団内の細かい違いを見逃すことがある。

主成分分析(PCA)は、研究者の間で人気のある技術の一つだ。PCAは、事前に参照データを必要としない無監視の方法なんだ。これは、集団構造の中の細かな詳細を捉えることができて、研究者が先祖をより正確に分析するのに役立つ。

先祖分析のためのPCAの適応

PCAは、データを新しい変数のセット、つまり主成分(PC)に変換することによって機能する。最初の数個のPCは通常、全体の先祖を表すけど、後のものは先祖とは明確な関連がないこともある。研究者はこれらのPCを使って、集団の遺伝的違いを測定し、研究でのこれらの違いを調整することができる。

PCAを使うとき、研究者はモデルに含めるPCの数を選びなきゃいけない。これは複雑な決定で、あまりにも多くのPCを含めると、集団の先祖構成を正しく表さない結果になることがある。正しい数のPCを選ぶことは、誤解を招かずに真の遺伝的先祖を捉えるために重要なんだ。

リンケージ不平衡の役割

PCAの一つの課題は、PCが先祖を反映していないパターン、つまり遺伝子がどのように受け継がれてきたかに影響される地域の遺伝的特徴を捉えてしまうことがある。このことをリンケージ不平衡(LD)と言う。遺伝子変異が予想以上に一緒に受け継がれることが多いと、研究者を誤解させるような関連が生まれるんだ。

PCAの精度を改善するために、いくつかの研究者は分析を行う前に、高いLDにあるSNP(単一塩基多型)を除去することを勧めている。この前処理段階は、PCがランダムな遺伝的類似性ではなく、真の先祖を反映することを目的としている。ただし、知られている高いLD領域に基づいてSNPを除外するだけでは、一貫して問題を解決するわけではないんだ。

前処理の選択が与える影響

遺伝子データの前処理の過程は、PCAの結果に大きく影響することがある。どのSNPを除外するか、LDプランニングをどう行うかの決定は、PCがグローバルな先祖をどれだけ表すかによって異なる結果を生むことがある。例えば、研究者が多くの変異を除外すると、集団構造を正確に捉えるために必要な貴重な情報を失うかもしれない。

逆に、適切なフィルタリングなしに変異をたくさん含めてしまうと、望ましくない地域の遺伝的特徴がPCを形成することになる。これが、サンプル内の先祖に対する誤解を招く理解につながることもある。だから、含める変異の数をバランス良く保ちながら、正確な先祖の表現を確保することが、遺伝子研究の重要な側面なんだ。

正確な遺伝モデルの重要性

研究者が先祖の多様性を考慮しないと、結果に虚偽の関連が生まれることがある。例えば、PCが地域の遺伝的特徴を捉えてしまうと、遺伝子変異と健康特性の関連が歪むことになる。研究者は、このような誤解を招くPCを分析モデルに含めると、実際には存在しない遺伝的関連を誤って特定するfalse positiveの率が上がることに気づいている。

この問題は、特に混血集団では顕著だ。研究者は、高次のPCが、適切な検証なしにモデルに含まれると、全体の先祖とは無関係な地域のゲノム特徴を捉えることがあることを示している。PCがたくさんのゲノム領域からの信号を拾うと、コライダーバイアスが生まれて、虚偽の関連を見つける可能性が高まるんだ。

今後の研究への提言

これから、混血集団を研究する研究者は、分析のためにPCを選ぶときに慎重なアプローチを取ることが重要だ。彼らは、PCが本当にグローバルな先祖を反映しているのか、ただの地域のゲノムのアーティファクトでないかを確認することを優先すべきだ。これは、PCとゲノム全体のSNPの負荷の相関を調べることを含む。

さらに、研究者は自分たちの手法を透明に共有することが推奨されている。これには、行った前処理のステップ、選んだPCの数、それに対する理由を詳しく説明することが含まれる。こうした明確さは、研究を再現可能にし、遺伝的特性を理解するためのより良いモデルを構築するのに役立つ。

結論

先祖を理解することは、特に多様な遺伝的背景を持つ集団の正確な遺伝研究を行う上で中心的な要素だ。適切なツールと先祖を考慮した慎重さがあれば、研究者は誤解を招く結果のリスクを軽減できる。遺伝研究が進化し続ける中で、混血の先祖の複雑さを適切に捉える方法を開発することに重点を置くことが重要だ。それによって、研究者は遺伝子と健康成果との真のつながりをよりよく特定できるようになり、最終的には人間の遺伝学の理解が深まるんだ。

オリジナルソース

タイトル: Adjusting for principal components can induce spurious associations in genome-wide association studies in admixed populations

概要: Principal component analysis (PCA) is widely used to control for population structure in genome-wide association studies (GWAS). Top principal components (PCs) typically reflect population structure, but challenges arise in deciding how many PCs are needed and ensuring that PCs do not capture other artifacts such as regions with atypical linkage disequilibrium (LD). In response to the latter, many groups suggest performing LD pruning or excluding known high LD regions prior to PCA. However, these suggestions are not universally implemented and the implications for GWAS are not fully understood, especially in the context of admixed populations. In this paper, we investigate the impact of pre-processing and the number of PCs included in GWAS models in African American samples from the Womens Womens Health Initiative SNP Health Association Resource and two Trans-Omics for Precision Medicine Whole Genome Sequencing Project contributing studies (Jackson Heart Study and Genetic Epidemiology of Chronic Obstructive Pulmonary Disease Study). In all three samples, we find the first PC is highly correlated with genome-wide ancestry whereas later PCs often capture local genomic features. The pattern of which, and how many, genetic variants are highly correlated with individual PCs differs from what has been observed in prior studies focused on European populations and leads to distinct downstream consequences: adjusting for such PCs yields biased effect size estimates and elevated rates of spurious associations due to the phenomenon of collider bias. Excluding high LD regions identified in previous studies does not resolve these issues. LD pruning proves more effective, but the optimal choice of thresholds varies across datasets. Altogether, our work highlights unique issues that arise when using PCA to control for ancestral heterogeneity in admixed populations and demonstrates the importance of careful pre-processing and diagnostics to ensure that PCs capturing multiple local genomic features are not included in GWAS models. Author SummaryPrincipal component analysis (PCA) is a widely used technique in human genetics research. One of its most frequent applications is in the context of genetic association studies, wherein researchers use PCA to infer, and then adjust for, the genetic ancestry of study participants. Although a powerful approach, prior work has shown that PCA sometimes captures other features or data quality issues, and pre-processing steps have been suggested to address these concerns. However, the utility and downstream implications of this recommended preprocessing are not fully understood, nor are these steps universally implemented. Moreover, the vast majority of prior work in this area was conducted in studies that exclusively included individuals of European ancestry. Here, we revisit this work in the context of admixed populations--populations with diverse, mixed ancestry that have been largely underrepresented in genetics research to date. We demonstrate the unique concerns that can arise in this context and illustrate the detrimental effects that including principal components in genetic association study models can have when not implemented carefully. Altogether, we hope our work serves as a reminder of the care that must be taken--including careful pre-processing, diagnostics, and modeling choices--when implementing PCA in admixed populations and beyond.

著者: Kelsey Grinde, B. L. Browning, A. P. Reiner, T. A. Thornton, S. R. Browning

最終更新: 2024-04-03 00:00:00

言語: English

ソースURL: https://www.biorxiv.org/content/10.1101/2024.04.02.587682

ソースPDF: https://www.biorxiv.org/content/10.1101/2024.04.02.587682.full.pdf

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。

類似の記事