研究における欠損データへの対処
補助変数が健康や社会研究における推定にどう影響するかを学ぼう。
― 1 分で読む
目次
欠測データは、健康や社会研究でよくある問題だね。研究者が情報を集めると、しばしばいくつかのデータが欠けてるのに気づくんだ。この問題を扱うために使われる方法の一つが「多重代入(MI)」って呼ばれるやつ。これを使うと、部分的にしか完成してないデータをうまく理解できるんだ。正しく行えば、MIは有効な洞察を得る手助けになる、特に欠測データがランダムだったり、他の観察データで説明できる場合にね。でも、欠測データがランダムじゃないと、データが欠けてる理由にパターンがある場合、ややこしくなることもある。
研究者が研究したい主要な変数に加えて、時々「補助変数」って呼ばれる追加の変数を使って隙間を埋めることがあるんだ。これらの補助変数は、欠測データを推測するプロセスをより正確にし、発見にバイアスがかかるのを減らすことができる。でも、過去の研究では、これらの補助変数が欠測データの変数との関係が弱いと、実際には推定を信頼できないものにしてしまうことがあるって示されているんだ。
補助変数の重要性
補助変数の役割をもう少し詳しく見てみよう。これらの追加変数は:
- 欠測値をより効果的に予測する手助けをする。
- ランダムでない欠測データから生じるバイアスを減らす。
でも、研究者が欠測データとその欠測の理由の両方に関連する補助変数を含めちゃうと、推定にバイアスをもたらす可能性があるんだ。これは、欠測データと他の研究されている変数との間に誤解を招くような関連性を生んじゃうから。こうした誤解を招く関係は「コライダー」と呼ばれる。
コライダーを含めるリスク
補完モデルにコライダーを含めると、不正確な結論に至ることがある。たとえコライダーが欠測データを予測するのに役立つように見えても、分析を複雑にして、結論の信頼性を下げてしまうんだ。欠測データがある結果や主要な変数に対して、さまざまなシナリオがあって、それぞれに独自の課題があるんだ。
欠測データの影響
例えば、7歳の子供のBMIと母親の教育レベルの関係を理解したいってシナリオを考えてみよう。母親の教育に関するデータはあるけど、子供のBMIについては部分的なデータしかない場合、追加の要因を考慮する必要があるよ。例えば、妊娠の結果や子供の出生体重がBMIに影響を与えるかもしれない。研究者はどの変数を補完モデルに含めて、欠測のBMI値を正確に予測するべきか選ばなきゃいけないんだ。
例えば、出生体重がBMIと欠測かどうかに関連している場合、出生体重を補助変数として含めると結果がバイアスされるかもしれない。これは、本当の関係を表していない人工的なつながりを作り出すから。
コライダーからのバイアスを理解する
コライダーが分析にどう影響するかを理解するために、変数間の関係を考えてみよう:
連続的な結果と曝露: 完全に観察された曝露があるけど、部分的に観察された結果がある場合、補完モデルにコライダーを含めるとバイアスが起こる可能性がある。この変数間の関連の強さが、バイアスの程度を決めることになる。
欠測の割合: 欠測値の割合が増えると、コライダーに基づく推定のバイアスの可能性も増えることがある。多くの場合、研究者はデータが欠測するにつれて推定が正確さを欠くようになってしまうのを見つけるかもしれない。
例えば、子供のBMIのデータの半分が欠測している場合、コライダーを含めることによって導入されるバイアスはかなり重要かもしれない。データポイントがさらに欠けると、関係性を理解するのがより複雑になって、間違った結論に至る可能性がある。
欠測データシナリオのシミュレーション
コライダーを含めた影響やその結果のバイアスを示すために、研究者はしばしばシミュレーションを使うんだ。このシミュレーションでは、欠測データの割合や変数間の関係を操作して、推定がどう変わるかを見ることができる。
シミュレーションを通じて、研究者はMI法に基づく推定が、どの補助変数を含めるかによって大きく異なることがあるのを見つけるんだ。これによって、適切でない変数を含めることの潜在的な落とし穴を強調できるんだ。
実データ分析
コライダーの影響をさらに探るために、研究者たちは実際のデータを使った研究も行ってきた。例えば、アボンの親子縦断研究を調べたんだ。この研究では、母親の教育、妊娠の大きさ、子供の出生体重、そして子供のBMIが観察されているかどうかの関係を見ていた。
これらの関係を分析することで、出生体重のようなコライダーを含めることがBMIの推定にどう影響するかを評価できた。彼らの発見は、特定の補助変数を含めることがバイアスを膨らませる可能性があることを確認し、補完モデルにおける補助変数の慎重な選択の必要性をさらに強調した。
結果と測定の理解
研究者が推定を計算する時、信頼性を示すために標準誤差(SE)も見てるんだ。大きなSEは推定に対する確実性が低いことを示すかもしれない。多くの場合、補完モデルにコライダーを含めることでSEが大きくなって、推定が正確じゃない可能性があるんだ。
また、研究者たちは補完モデルに適切な補助変数を含めることで推定の精度が向上することも発見している。だから、変数の選択はすごく重要なんだ。
補助変数選択のためのガイドライン
関与する複雑さを考慮して、研究者は補助変数を慎重に考える必要がある。いくつかのガイドラインを紹介するね:
関係を評価する: 研究者は、潜在的な補助変数が結果と欠測データの両方にどのように関連しているかを調べるべきだ。これによって、バイアスを引き起こすコライダーを特定する手助けになる。
因果図を探る: 因果図を使うことで、変数間の関係を視覚化して、潜在的な補助変数がコライダーかどうかを判断できる。
感度分析を行う: 研究者は、異なる補助変数を使った場合の結果を比較するための分析を実施できる。これによって、コライダーを含めることの影響を評価できる。
欠測データの割合を考慮する: 欠測データの量はバイアスやSEに影響を与えるから、補助変数を選ぶ際の重要な要因にすべきだ。
過去の研究を参考にする: 以前の研究は、変数間の関係に関する有用な洞察を提供できるから、どの補助変数が有益かの判断に役立てられる。
結論
要するに、欠測データは研究でよくある課題だけど、多重代入のような方法が助けになる。補助変数の選択は非常に重要で、適切でない変数を選ぶとバイアスが生じたり、推定に対する不確実性が増すことがあるんだ。変数間の関係を理解して、コライダーに注意を払うことで、研究者は発見の信頼性を高められる。補助変数の慎重な選択と評価を通じて、研究者は推定の正確性を向上させて、健康や社会研究においてより意味のある結論に貢献できるんだ。
タイトル: Multiple imputation of missing data under missing at random: including a collider as an auxiliary variable in the imputation model can induce bias
概要: Epidemiological studies often have missing data, which are commonly handled by multiple imputation (MI). In MI, in addition to those required for the substantive analysis, imputation models often include other variables ("auxiliary variables"). Auxiliary variables that predict the partially observed variables can reduce the standard error (SE) of the MI estimator and, if they also predict the probability that data are missing, reduce bias due to data being missing not at random. However, guidance for choosing auxiliary variables is lacking. We examine the consequences of a poorly-chosen auxiliary variable: if it shares a common cause with the partially observed variable and the probability that it is missing (i.e. it is a "collider"), its inclusion can induce bias in the MI estimator and may increase SE. We quantify, both algebraically and by simulation, the magnitude of bias and SE when either the exposure or outcome are incomplete. When the substantive analysis outcome is partially observed, the bias can be substantial, relative to the magnitude of the exposure coefficient. In settings in which complete records analysis is valid, the bias is smaller when the exposure is partially observed. However, bias can be larger if the outcome also causes missingness in the exposure. When using MI, it is important to examine, through a combination of data exploration and considering plausible casual diagrams and missingness mechanisms, whether potential auxiliary variables are colliders. Contribution to the field statementIn multiple imputation (MI), in addition to those required for the substantive analysis, imputation models often include other variables ("auxiliary variables"). Auxiliary variables that predict the partially observed variables can reduce the standard error (SE) of the MI estimator and, if they also predict the probability that data are missing, reduce bias due to data being missing not at random. We examine the consequences of a poorly-chosen auxiliary variable: if it shares a common cause with the partially observed variable and the probability that it is missing (i.e. it is a "collider"), its inclusion can induce bias in the MI estimator and may increase SE. We demonstrate that when the substantive analysis outcome is partially observed, the bias can be substantial, relative to the magnitude of the exposure coefficient. In settings in which complete records analysis is valid, the bias is smaller when the exposure is partially observed. However, bias can be larger if the outcome also causes missingness in the exposure. We recommmend a combination of data exploration and consideration of plausible casual diagrams and missingness mechanisms to examine whether potential auxiliary variables are colliders.
著者: Elinor Curnow, K. Tilling, J. Heron, R. P. Cornish, J. R. Carpenter
最終更新: 2023-06-18 00:00:00
言語: English
ソースURL: https://www.medrxiv.org/content/10.1101/2023.06.16.23291497
ソースPDF: https://www.medrxiv.org/content/10.1101/2023.06.16.23291497.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた medrxiv に感謝します。