Simple Science

最先端の科学をわかりやすく解説

# 生物学# 遺伝学

deepKinの紹介:遺伝的関連性を測る新しい方法

deepKinはSNPデータを使って遺伝的関係の評価を改善するよ。

― 1 分で読む


deepKin:deepKin:遺伝的関係分析の進化を使って遺伝的関連性の評価を強化する。新しい方法deepKinは、SNPデータ
目次

個々の人がどのように関係しているかを理解することは、遺伝学や公衆衛生の研究において非常に重要だよね。特に、研究者が全ゲノムにわたる多くの遺伝子マーカーを調べる時、これは特に大事で、これをゲノムワイド関連研究(GWAS)って呼ぶんだ。また特定の特徴や疾患のリスクを測るために、多遺伝子リスクスコア(PRS)というツールを使うんだ。これまで、科学者たちは家系図を見て人々の親族関係を推定してたけど、この方法だと期待される遺伝的類似性の良いアイデアが得られるんだ。でも、ゲノム全体の単一ヌクレオチド多型(SNP)からの遺伝子データが増えてきたことで、研究者たちは実際のデータに基づいて真の遺伝的関係を計算できるようになった。

でも、SNPデータを使う移行にはいくつかの課題があるんだ。SNPを測定する方法が違ったり、データの品質がどうチェックされるかによって混乱を招くことがあるんだ。だから、SNPデータからの関係を解明するのは複雑になったりするよ。

遺伝的関係を測る方法

SNPデータを使って人々の親族関係を推定する方法はいくつかあるんだ。最大尤度法を使うものもあれば、モーメントベースの推定量を使うものもあるよ。モーメントベースの推定量はあまり精度が高くないかもしれないけど、計算が早くて簡単なんだ。これまでの研究で、関連性を測る時に影響を与える要因がいくつか調べられてきた。ある研究では、無作為な遺伝子サンプリングや遺伝的連鎖によって関係が変わることを調べたんだ。

現在、多くの研究者が人口研究でSNPベースの測定法を使ってるけど、これらの測定がどれだけ変動するかにあまり注目されていないんだ。関係によるSNPデータの違いは、親族関係の近いペアとそうでないペアを検出する力に大きく影響するんだ。

二つのサンプルが関連しているかどうかを判断するために、静的なカットオフ数字が使われることが多いんだけど、これは推定値の変動を無視すると間違い(偽陽性)が生じることがある。研究者が固定されたカットオフだけに頼ってデータの挙動を考慮しないと、ペアを誤って関連があるとラベリングしちゃうかもしれないよ。

DeepKinの紹介:新しいアプローチ

新しい方法、deepKinは、SNPデータを使って親族関係を測る新しいやり方を提供するよ。このツールは、以前の方法とは違って、親族関係を計算する際のサンプリング変動に関する情報を提供してくれるんだ。この新しいアプローチを使うことで、deepKinは研究者が親族関係の違いが重要かどうかを理解するのを助けるんだ。

DeepKinは親族関係を推定する際に、以下の三つの重要な概念にフォーカスしてる:

  1. 有意な親族関係と無意味なものを分けるためのクリティカルバリューを設定する。
  2. 特定の親戚を見つけるために必要な最小限の遺伝子マーカーの数を特定する。
  3. テストされる親族関係の程度に基づいて、統計的パワーをどれだけ調整できるかを示す。

deepKinのチームは、シミュレーションと実データを使ってその効果をテストし、効果を証明したんだ。そして、deepKinを研究者が使えるRパッケージとして提供してるよ。

DeepKinの方法を理解する

この研究の核心的な目的は、モーメントベースの遺伝的親族関係の変動レベルを定義することだ。DeepKinはオリジナルのKING法に似たアプローチを使ってるけど、スケーリング要素が違うんだ。研究者たちは、遺伝子型の値に基づいて遺伝的関係を記述するための行列を作れるんだ。

KING推定量は特定の数式を使って親族関係を計算するけど、その推定は実際に期待される親族関係の半分だけを表すんだ。比較を明確にするために、研究者はしばしばKINGの推定を倍にしてるよ。

でも、実際の遺伝的類似性を測ると、値は0から1の間になることがあるんだ。つまり、結果に影響を与える多くの要因が存在するってこと。サンプリング変動を理解することは推定する上で重要なんだ。

DeepKinを使った親族関係の推定

DeepKinは、研究者が個々のペアが関連しているかどうかをテストする方法を提供するよ。統計的な視点から関係を調べることで、DeepKinはzスコアや対応するp値を以前の経験的分布に基づいて計算できるんだ。もし研究者が有意水準を設定すれば、deepKinは親族関係について結論を導くためのクリティカルバリューを定義できるよ。

親族関係スコアは連続的に変動することがあるけど、分析を容易にするためにカテゴリーにグループ分けするのが便利な場合もあるんだ。DeepKinは、統計的テストを使って定義された親族関係の程度に対して観察された関係を評価できるようにしてくれるんだ。

この方法には、サンプルサイズと有効マーカー数の二つの主要なパラメータが含まれてるよ。最終的に、deepKinの目的は、研究者が情報に基づいた決定を下せるようにガイドラインを提供することで、遺伝的関係の推定を改善することなんだ。

DeepKinを使うためのガイドライン

研究者たちはdeepKinを使うときに、いくつかの重要なガイドラインに従うことができるよ:

  1. マーカーを賢く選ぶ:特定の関係を検出するために必要な最小限の有効マーカー数を特定できるんだ。必要なバリアントにだけ焦点を当てることで、研究者は時間を節約してコストを減らせるよ。

  2. 統計的パワーを理解する:有意水準が設定されたら、研究者は利用可能なマーカーの数に基づいてどれだけパワーが改善または妥協されるかを決定できるんだ。基本的に、有効マーカーを増やすことで重要な関係を特定するチャンスが高まるんだ。

有効マーカー数の重要性

有効マーカー数、「me」と呼ばれることが多いんだけど、これはdeepKinを通じて親族関係を推定する上で重要なんだ。これは異なるバリアント間の平均的な遺伝相関を示すものだ。研究者はこの数を計算できるけど、直接計算するのはコンピュータの性能的にコストがかかることがあるんだ。

この問題に対処するために、二つの推定量が提案されているよ。一つはGRMベースの推定量で、遺伝関係行列のオフダイアゴナル要素を見ているんだ。もう一つはランダム化ベースの推定量で、定められた回数の試行を繰り返すことで効率を高めるんだ。

シミュレーションでは、研究者たちは両方の推定量を使用してdeepKinの効果を検証し、統計的な精度を示しているよ。

バリアンスの検証

deepKinのアプローチの体系的な検証は、単一および複数座位モデルの両方に焦点を当てて行われるんだ。研究者はさまざまなシナリオの下で、期待される結果が観察されたデータとどのように一致するかをテストして、発見の堅牢性を確認したんだ。

シミュレーションは、deepKinの方法が真の関係を効果的に捉え、異なる親族関係の程度にわたって信頼性を保証できることを示しているよ。

実際の応用:UKバイオバンク

実際の応用として、研究者たちはUKバイオバンクからの大規模なデータセットにdeepKinを適用したんだ。このデータセットには3,000人以上の参加者の情報が含まれてた。彼らは異なる特性を持つ複数のSNPセットを調査して、異なる遺伝子マーカーの影響を理解しようとしたんだ。

こうすることで、研究者たちはdeepKinが分類タスクでどのように機能するかを観察し、さまざまな親族関係の度合いの相関を見つけたんだ。効果的なマーカーが増えるにつれて、deepKinは関係を分類する際により信頼性が高まることが確認されたんだ。

さらに、deepKinはUKバイオバンクデータセット内の関係を説明し、地理的位置に基づいて関連する個人とそのつながりを強調したんだ。これにより、人口構造が遺伝的関係に影響を与える方法についての理解が深まったよ。

重要な発見と結論

deepKinと以前の方法(KINGなど)との違いは、missing elementsのようなサンプリング変動を考慮して、統計的推論を強化できる能力にあるんだ。サンプリング変動の十分な理解は、親族関係の推論の効果に直接つながるからね。

さらに、有効マーカー数は重要な役割を果たして、研究者が最適な結果を得るために分析を微調整できるようにしてくれるんだ。これによって、研究者が関係を評価する方法、特にSNPセットのアリル頻度を考慮する時に影響を与えることができるんだ。

研究者たちは、モデルでの仮定を洗練するためのさらなる研究を提案し、誤解を招く結果を避けるために低頻度の変異を排除することを促しているよ。

全体として、deepKinは遺伝的関係の分析に新しいアプローチを提供して、遺伝学や法医学の分野などで幅広く使えるようにしてくれるんだ。遺伝子データに基づいて個々がどのように関連しているのかを理解するために、新たな精度と厳密さをもたらしてくれるんだ。

オリジナルソース

タイトル: DeepKin: precise estimation of in-depth relatedness and its application in UK Biobank

概要: Accurately estimating relatedness between samples is crucial in genetics and epidemiological analysis. Using genome-wide single nucleotide polymorphisms (SNPs), it is now feasible to measure realized relatedness even in the absence of pedigree. However, the sampling variation in SNP-based measures and factors affecting method-of-moments relatedness estimators have not been fully explored, whilst static cut-off thresholds have traditionally been employed to classify relatedness levels for decades. Here, we introduce the deepKin framework as a moment-based relatedness estimation and inference method that incorporates data-specific cut-off threshold determination. It addresses the limitations of previous moment estimators by leveraging the sampling variance of the estimator to provide statistical inference and classification. Key principles in relatedness estimation and inference are provided, including inferring the critical value required to reject the hypothesis of unrelatedness, which we refer to as the deepest significant relatedness, determining the minimum effective number of markers, and understanding the impact on statistical power. Through simulations, we demonstrate that deepKin accurately infers both unrelated pairs and relatives with the support of sampling variance. We then apply deepKin to two subsets of the UK Biobank dataset. In the 3K Oxford subset, tested with four sets of SNPs, the SNP set with the largest effective number of markers and correspondingly the smallest expected sampling variance exhibits the most powerful inference for distant relatives. In the 430K British White subset, deepKin identifies 212,120 pairs of significant relatives and classifies them into six degrees. Additionally, cross-cohort significant relative ratios among 19 assessment centers located in different cities are geographically correlated, while within-cohort analyses indicate both an increase in close relatedness and a potential increase in diversity from north to south throughout the UK. Overall, deepKin presents a novel framework for accurate relatedness estimation and inference in biobank-scale datasets. For biobank-scale application we have implemented deepKin as an R package, available in the GitHub repository (https://github.com/qixininin/deepKin).

著者: Guo-Bo Chen, Q.-X. Zhang, D. Jayasinghe, S. H. Lee, H. Xu

最終更新: 2024-05-01 00:00:00

言語: English

ソースURL: https://www.biorxiv.org/content/10.1101/2024.04.30.591647

ソースPDF: https://www.biorxiv.org/content/10.1101/2024.04.30.591647.full.pdf

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。

著者たちからもっと読む

類似の記事