縦断研究における欠損データの対処法
欠損データを扱うための従来の手法と機械学習手法の分析。
― 1 分で読む
縦断研究は社会科学や行動科学で重要な方法なんだ。このアプローチは、同じ人を時間をかけて追跡するから、人がどう変わるか、そして異なる人がどんな風に変わるかを見ることができるんだ。例えば、この研究は子供の感情発達やネットいじめ、睡眠の健康についての洞察を提供できるよ。時間が経つにつれて、縦断的研究への関心が高まってきたのは、関連する出版物が増えているからだね。
研究者が縦断研究で直面する大きな問題の一つが欠損データだよ。データが複数の時点で収集されるから、参加者がすべての測定に参加できないことがあるんだ。例えば、ある性格特性に関する研究では、平均して44%のデータが欠損していたんだ。欠損データは、間違った結論や信頼できない結果をもたらす可能性があるんだ。
欠損データの問題に対処するために、研究者は欠損データを3つのカテゴリに分類するんだ:
- 完全にランダムに欠損(MCAR):欠損データが他の情報に全く関係ない。
- ランダムに欠損(MAR):欠損データが観測された情報に関連しているが、欠損データ自体には関連しない。
- ランダムではない欠損(MNAR):欠損データが観測されていない情報に関連している。
それぞれの欠損データのタイプは、分析に異なる課題を持つんだ。欠損データを扱う伝統的な方法、例えば欠損ケースを単に除外するか、推定を使用することは、特にデータがMARやMNARの場合、バイアスをもたらすことがあるんだ。
伝統的アプローチ
欠損データを処理するための一般的な伝統的統計手法には、フルインフォメーション最大尤度(FIML)と二段階ロバスト推定(TSRE)があるよ。
FIMLは、欠損値を埋める必要なく、利用可能なすべてのデータを使ってパラメータを推定するんだ。データが正規分布している時には正確な推定を提供できるけど、データが正規分布していない場合はバイアスがかかることがあるんだ。
一方、TSREは非正規データに対処するように設計されている。外れ値の影響を減らすことに焦点を当てていて、最初の段階で一般的なパターンに合わないデータポイントの影響を特定し、軽減するんだ。次の段階で、調整されたデータを使って統計モデルを適用する。この方法によって、データが正常分布していなくても、より信頼性の高い推定が得られるんだ。
機械学習アプローチ
最近、機械学習の手法が欠損データの処理に人気を集めているんだ。これらのアプローチはデータ分布に関する同じ仮定に依存しないから、より柔軟なんだ。
一般的な機械学習の方法には以下があるよ:
- K-近傍法(KNN):この手法は、近くの観測値の値に基づいて欠損値を推定する。効果的ではあるけど、パラメータ、特に考慮する隣人の数を慎重に選ぶ必要があるんだ。
- ランダムフォレスト(RF):この方法は、複数の決定木を構築して予測を行う。カテゴリー型データと連続データの両方をロバストに扱い、他の方法よりもオーバーフィットしにくいんだ。
- micecart:この方法は、決定木アプローチを使って欠損値を複数の反復を通じて推定する。
- miceForest:micecartに似ているけど、より複雑なデータ構造のためにランダムフォレストを使用する。
機械学習の方法は期待が持てるけど、サンプルサイズや欠損データ率などの状況によってパフォーマンスが大きく変わることがあるんだ。
シミュレーション研究
異なる方法が縦断研究で欠損データをどれだけうまく扱えるかを評価するために、シミュレーション研究が実施されたんだ。研究はモデルを使って異なるデータセットを生成し、伝統的方法と機械学習の方法のパフォーマンスを様々なシナリオで評価したよ。
操作された要因
サンプルサイズ:異なるサンプルサイズ(100、200、500、1000、5000)を使って、観測数が増えるにつれて方法のパフォーマンスを見たんだ。
欠損データメカニズム:MARとMNARの2つのメカニズムをテストしたよ。MARの場合、欠損は観測データに依存していて、MNARの場合は欠損が観測されていないデータに関連しているんだ。
欠損率:欠損データの異なるレート(0%、5%、15%、30%)を使って、欠損データのレベルによる精度の変化を理解したんだ。
データ分布:様々なデータ分布(正規、対数正規、t分布、外れ値のある正規)を作成して、それぞれの方法が異なる条件下でどうなるかを見たんだ。
結果:シミュレーション研究
シミュレーションは、伝統的方法と機械学習の方法のパフォーマンスについていくつかの洞察を示したよ。
サンプルサイズの影響:
- 正規分布されたデータのMARメカニズムの場合、FIMLやTSREのような伝統的手法は異なるサンプルサイズでも一貫して良いパフォーマンスを示したよ。
- MNARデータの場合、サンプルサイズが増えるにつれて精度が向上したけど、機械学習アプローチは大きな欠損率では苦戦したんだ。
欠損データ率:
- 伝統的方法は欠損率が増えてもより良い結果を出した。一方で、機械学習のアプローチは欠損データ率が増えると精度が低下したんだ。
データ分布の影響:
- FIMLとTSREは一般的に正規分布データに対してより良い推定を提供した。非正規データではパフォーマンスが低下したけど、時々機械学習の方法が特定の状況で彼らを上回ることがあった。
一般的に、FIMLやTSREのような伝統的方法は、特にMAR条件で欠損データを扱う際には、機械学習技術よりも信頼性が高かったんだ。
実例
これらの方法がどのように適用できるかを示すために、1997年から2000年までの学校の子供たちの数学スコアの縦断研究からの実例を分析した。データは異なる時点での正規性にばらつきがあり、欠損データ率は5%から12%の範囲だったんだ。
TSRE方法を使って、初期の数学の能力と年ごとの成長を推定した。TSREは、時間をかけた生徒のパフォーマンスのトレンドを示し、異なる分析アプローチが成長率に関する異なる結論を導く可能性があることを示したんだ。
結果は、小さな欠損データ率でも、方法の選択が分析の結果に大きな影響を与えることを強調しているんだ。
結論
縦断研究における欠損データ技術の評価は、FIMLやTSREのような伝統的方法が欠損データ問題を効果的に扱うために依然として重要であることを示しているよ。機械学習アプローチは高度なツールを提供するけど、非正規データ分布や高い欠損データ率では常に適切とは限らないんだ。
要するに、研究者は自分の特定の研究条件、データ分布、欠損データのシナリオに基づいて最も適切な方法を選ぶ必要があるんだ。さまざまなデータタイプや設定でのこれらの方法の効果を探るためには、さらなる研究が必要だね。
タイトル: Evaluation of Missing Data Analytical Techniques in Longitudinal Research: Traditional and Machine Learning Approaches
概要: Missing Not at Random (MNAR) and nonnormal data are challenging to handle. Traditional missing data analytical techniques such as full information maximum likelihood estimation (FIML) may fail with nonnormal data as they are built on normal distribution assumptions. Two-Stage Robust Estimation (TSRE) does manage nonnormal data, but both FIML and TSRE are less explored in longitudinal studies under MNAR conditions with nonnormal distributions. Unlike traditional statistical approaches, machine learning approaches do not require distributional assumptions about the data. More importantly, they have shown promise for MNAR data; however, their application in longitudinal studies, addressing both Missing at Random (MAR) and MNAR scenarios, is also underexplored. This study utilizes Monte Carlo simulations to assess and compare the effectiveness of six analytical techniques for missing data within the growth curve modeling framework. These techniques include traditional approaches like FIML and TSRE, machine learning approaches by single imputation (K-Nearest Neighbors and missForest), and machine learning approaches by multiple imputation (micecart and miceForest). We investigate the influence of sample size, missing data rate, missing data mechanism, and data distribution on the accuracy and efficiency of model estimation. Our findings indicate that FIML is most effective for MNAR data among the tested approaches. TSRE excels in handling MAR data, while missForest is only advantageous in limited conditions with a combination of very skewed distributions, very large sample sizes (e.g., n larger than 1000), and low missing data rates.
著者: Dandan Tang, Xin Tong
最終更新: 2024-06-19 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2406.13814
ソースPDF: https://arxiv.org/pdf/2406.13814
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。