遺伝子研究の見直し:相対リスクの重要性
この記事は、遺伝子研究における相対リスクの利点を探るよ。
― 1 分で読む
ゲノムワイド関連研究(GWAS)は、導入以来、さまざまな病気との遺伝的リンクを見つけるための重要なツールになってる。大規模なデータベースからのDNA情報と電子医療記録(EMR)を結びつけることで、研究者たちは一つの研究で多くの遺伝的関連を特定できる。代わりに使われる方法が、フェノムワイド関連研究(PheWAS)。この方法では、科学者が特定の遺伝子変異に関連する多くの特徴や状態を見て、それらの関連を調べることができる。
PheWASでは、研究者は通常、ロジスティック回帰モデルを使って遺伝子変異と病気の関連を特定する。この過程では、個人を病気を持っている人と持っていない人の2つのグループに分類する。EMRシステムでは、医者が異なる病気を示すために国際疾病分類(ICD)のコードを使うことが多い。古いICD-9コードは何年も使われていて、約13,000のコードがある。2015年からは、さらに多くのカテゴリーと詳細を提供する新しいICD-10コードが導入されて、コードの総数は約68,000になった。
でも、これらのコードには問題があって、患者の本当の健康状態を正確に反映できないことがある。ロジスティック回帰での重要な前提は、症例(病気のある人)と対照(病気のない人)が明確に定義されていること。しかし、実際には、特に雑音の多い請求コードの場合、これらの区別をするのは難しくて、誤分類を招くことがある。
手動で排除基準を設定して、分類プロセスを改善する努力もされている。これは、特定の病気カテゴリの対照と見なされることから外れる条件のリストを作成することを意味する。例えば、Phecodeの症例と見なされるためには、関連するICD-9コードが異なる機会に少なくとも2つ記録されている必要がある。でも、この手動プロセスは時間がかかって、排除基準が完璧になるわけではない。
誤分類の課題
この方法の大きな問題の一つは、病気の状況が広範囲で複雑で、異なる状態間の未知のリンクがたくさんあること。これにより、排除基準が関連する可能性のあるすべての病気に対応しているかを確認するのが難しくなる。また、これらのリストを作成するのには時間がかかる上に、重要な詳細を見落とすこともある。
ICDコードをPhecodeにグループ化することで、病気のパターンをより良く理解できるけど、その過程で重要な情報が失われることがある。個別のコードは、各病気、その治療法、その他多くの具体的な詳細を提供する。だから、グループ化したコードを使うと、大規模データセット、例えばUKバイオバンクのようなデータベース全体での結果の一般化が難しくなる。
この課題に取り組むために、研究者たちはケースコントロール研究の元々のデザインを振り返った。これらの研究では、データが個人の健康結果に基づいて収集され、後ろ向き研究では、過去の曝露を特定するためにデータを分析する。PheWASでは、通常は遺伝子マーカーという一つの曝露に焦点を当て、それが複数の病気の結果にどのように影響するかを見る。曝露状態に基づく研究グループも結果に影響を与えることがある。
現在のPheWASメソッドには制限があって、ロジスティック回帰に頼っていると対照の誤分類からバイアスが生じることもある。だから、一部の研究者たちはPheWASの測定に相対リスクを使うことを提案してる。相対リスクは、誤分類や排除基準に関連する問題を最小限に抑えつつ、より有効で信頼性のある結果を提供できるかもしれない。
理論的枠組み
異なるアプローチを比較するために、理論的な基盤が築かれた。研究者たちは、異なるモデルが結果にどのように影響を与えるかを示すために仮想データセットを使って様々なシナリオを作成した。データには、曝露の存在(例えば、遺伝的変異)と結果の存在(特定の病気)の2つのバイナリ要因が含まれる。
この設定を使って、研究者たちはPheWAS分析を勉強する中で、誤分類がオッズ比(関連の測定)にどのように影響するかに注目した。彼らは、誤って対照と分類された症例を定義し、それが結果にどのように影響を与えるかを調べた。
あるシナリオでは、誤分類がすべて避けられると、オッズ比は正確に保たれる。しかし、実際の応用で誤分類が無視されると、オッズ比にバイアスが生じて、遺伝子変異と病気の関係について間違った結論に至ることがある。
シミュレーション研究
これらの理論的概念を検証するために、シミュレーションが行われて、誤分類の異なるレベルがデータから得られる推定値にどのように影響するかを観察した。これらのシミュレーションでは、様々なシナリオにおける曝露の確率や結果の有病率といった要因が考慮された。
シミュレーションを実行する際、研究者たちは誤分類された症例の割合を変え、それらの変化が結果のオッズ比にどのように影響を与えるかを分析した。結果の有病率が高いと、オッズ比のバイアスが著しく増加することがわかった。
多くの研究者にとって馴染みのあるシナリオは、伝統的なロジスティック回帰、バイアス補正アプローチ、ポアソンモデルの3つのモデルを含む。排除基準付きのロジスティック回帰モデルは、PheWASの現在のゴールドスタンダードと見なされていて、他のモデルの性能もテストされた。目標は、時間のかかる手動プロセスに依存せず、研究している関係を信頼性高く推定できる方法を見つけることだった。
実データ分析
実データ分析は、大規模医療センターのバイオバンクからのDNAサンプルと健康記録を使って行われた。研究者たちは、特定の遺伝的マーカーとさまざまな病気の関連を調べた。PheWASとICDコードの両方を使って、遺伝子変異と健康結果の関連を確立しようとした。
分析には多くの被験者とさまざまなコードが含まれた。排除基準は、研究ガイドラインに合わない個人をフィルタリングするために適用された。PheWASとICDコードの分析を比較して、どちらの方法がより良い洞察と一貫した結果を提供するかを判断した。
シミュレーション研究から予想された通り、高い誤分類率が一般的な病気に関連してBioVUデータ内でバイアスが見られた。実データに相対リスクモデルを適用することで、伝統的な方法で見られる誤分類の問題を避けながら、相対リスクが偏りのない推定値を提供できるかどうかを評価した。
臨床応用と影響
実際のところ、バイアスは通常、有病率の高い一般的な病気を調べるときに発生した。例えば、糖尿病や高血圧のような特定の病気のデータでは、かなりの誤分類率が見られ、その結果が歪められた。相対リスクを測定値として利用することで、研究者たちはSNPと病気の関係に関する信頼性の高い洞察が得られることを確認した。
結果は、相対リスクを用いたポアソンモデルが従来の方法に似た推定値を生成できることを示した。このアプローチにより、排除基準を編纂する負担なしに広範な分析が可能になり、より大きなデータセットや詳細な病気情報の評価を実現できた。
ICDコードの分析では、PheWAS分析よりも効果的に特定の病気についての詳細な情報が明らかになった。これらのコードをグループ化の制約なしに検討することで、重要な関連性がより容易に特定された。
例えば、特定のSNPの分析は、既知の関連だけでなく、治療戦略や条件に関連する新しいコードも明らかにした。これらの発見は、臨床医が遺伝的要因がどのように患者の健康に影響を与えるかをよりよく理解するのに役立ち、今後の研究の方向性を示すものとなる。
結論
この研究の結果は、病気との遺伝的関連の分析に相対リスクを使用する重要性を強調してる。この方法は、EMRのような巨大データセット内での誤分類による課題を対処する上で明確な利点を提供する。手間のかかる伝統的アプローチに依存するのではなく、相対リスクモデルを採用することで、偏りのない推定値を得て、結果の整合性を保つことができる。
これからは、ICD-10のようなより正確な病気コードが導入されるにつれて、この方法が遺伝子変異と病気との間に意味のある関係を見出す可能性が広がる。包括的で詳細なデータセットを扱う能力が、より良い理解や医療成果の改善に繋がり、最終的には患者や医療コミュニティに利益をもたらすことになるだろう。
タイトル: Overcome the Limitation of Phenome-Wide Association Studies (PheWAS): Extension of PheWAS to Efficient and Robust Large-Scale ICD Codes Analysis
概要: The Phenome-wide association studies (PheWAS) have become widely used for efficient, high-throughput evaluation of relationship between a genetic factor and a large number of disease phenotypes, typically extracted from a DNA biobank linked with electronic medical records (EMR). Phecodes, billing code-derived disease case-control status, are usually used as outcome variables in PheWAS and logistic regression has been the standard choice of analysis method. Since the clinical diagnoses in EMR are often inaccurate with errors which can lead to biases in the odds ratio estimates, much effort has been put to accurately define the cases and controls to ensure an accurate analysis. Specifically in order to correctly classify controls in the population, an exclusion criteria list for each Phecode was manually compiled to obtain unbiased odds ratios. However, the accuracy of the list cannot be guaranteed without extensive data curation process. The costly curation process limits the efficiency of large-scale analyses that take full advantage of all structured phenotypic information available in EMR. Here, we proposed to estimate relative risks (RR) instead. We first demonstrated the desired nature of RR that overcomes the inaccuracy in the controls via theoretical formula. With simulation and real data application, we further confirmed that RR is unbiased without compiling exclusion criteria lists. With RR as estimates, we are able to efficiently extend PheWAS to a larger-scale, phenome construction agnostic analysis of phenotypes, using ICD 9/10 codes, which preserve much more disease-related clinical information than Phecodes.
著者: Yaomin Xu, Y. Lin, S. Zhang, T. J. Vessels, L. Bastarache, C. A. Bejan, R. S. Hsi, E. J. Phillips, D. M. Ruderfer, J. Pulley, T. Edwards, Q. S. Wells, J. L. Warner, J. C. Denny, D. M. Roden, H. Kang
最終更新: 2024-04-19 00:00:00
言語: English
ソースURL: https://www.medrxiv.org/content/10.1101/2024.04.15.24305098
ソースPDF: https://www.medrxiv.org/content/10.1101/2024.04.15.24305098.full.pdf
ライセンス: https://creativecommons.org/licenses/by-nc/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた medrxiv に感謝します。