Simple Science

最先端の科学をわかりやすく解説

# 統計学# 方法論# アプリケーション

回帰分析におけるサンプルサイズの再評価

最近の研究結果は、回帰研究における30観測の基準に疑問を投げかけている。

David Randahl

― 1 分で読む


回帰におけるサンプルサイズ回帰におけるサンプルサイズのシフトる従来の見方に挑戦してる。新しい見解がサンプルサイズの必要性に対す
目次

回帰分析では、有効な結果には一般的に共通のサンプルサイズが必要だと思われてるよね。長年、教師や研究者は、30個以上の観測値が基準だと言ってきた。しかし、この前提は常に正しいわけじゃないかもしれない。最近の調査によると、回帰のための必要なサンプルサイズについて再考すべきだって。

回帰分析の基本

回帰分析は、変数間の関係を理解するための方法なんだ。研究者は、ある変数が別の変数にどう影響を与えるかを探るのに役立つ。モデルには通常、研究者が説明したい従属変数と、従属変数に影響を及ぼす可能性のある1つ以上の独立変数が含まれる。

この方法では、研究者は普通最小二乗法という一般的な手法を使ってパラメータを推定する。この技術は、観測された値と予測された値の差の合計を最小化することを目的としていて、予測をできるだけ正確にすることを目指してるよ。

分析が効果的に機能するためには、いくつかの条件が満たされる必要がある。主に、実際の値と予測された値の違いを表す誤差項が、通常は正規分布に従うと仮定される。もしこの仮定が正しければ、関連する統計もきちんと振る舞い、データから有効な結論を導き出すことができる。

サンプルサイズに関する伝統的な信念

伝統的には、誤差項が正規分布に従うか、十分に大きなサンプルサイズが使われれば、有効な結論が導き出せると信じられてきた。少なくとも30の観測値が必要というガイドラインは広く受け入れられていて、これは中央極限定理が適用されるのに十分だと思われてる。つまり、サンプルサイズが増えるほど、サンプル平均の分布が正規分布に近づくってことなんだ。

でも、このガイドラインはあまり厳密に検証されてこなかった。多くの人が、その正当性を疑うことなく受け入れているだけなんだよ。

新しい発見

最近の調査では、元々の信念が必ずしも正しいわけではないことが示された。一つの注目すべき結論は、従属変数か独立変数のどちらかが対称であれば、少ないサンプルサイズでも有効な結果が得られるということ。このことは、誤差項が正規分布に従うか大きなサンプルサイズが必要だと主張していた以前のアドバイスに反するんだ。

ただし、従属変数と独立変数の両方が歪んでいる場合は、適切な結論を得るためには高いサンプルサイズが必要になる。研究結果によると、伝統的な経験則は、時には観測値が少なすぎることを許容したり、逆に多すぎることを求めたりすることがある。

分布特性の重要性

分析される変数の特性、特に歪度と尖度は、信頼できる結果を得るために必要な観測数を決定する上で重要な役割を果たしている。歪度は値の分布の非対称性を示し、尖度はデータの「尾の長さ」や外れ値の存在を示すんだ。

どちらかの変数が対称であれば、30未満の観測数で有効な結果が達成できる可能性がある。一方、両方の変数が高い歪度を持っている場合、t値が正しくt分布に収束するためには、従来の30よりもはるかに大きなサンプルサイズが必要になるかもしれない。

シミュレーションの実施

この問題をよりよく理解するために、研究者たちは広範なシミュレーション研究を行った。彼らは、異なる分布の下で様々な従属変数と独立変数を生成し、その結果をテストしたんだ。目的は、歪度と尖度がt値の収束にどのように影響するかを見ることだった。

合計で、何百万もの回帰モデルがテストされた。結果は明確なパターンを示した:両方の変数が対称であれば、小さなサンプルサイズでも有効な結果が得られた。しかし、両方の変数が歪んでいる場合は、必要なサンプルサイズが増え、時には劇的に増加した。

第I種誤差の懸念

回帰分析の有効性に関する懸念の一つは、第I種誤差だ。これは、実際に真であるときに帰無仮説を誤って棄却することを指すんだ。線形回帰の分布仮定が成立しない場合-たとえば、t値がt分布に収束しないとき-第I種誤差のリスクが高まる。

結果は、非収束の深刻度が関与する変数の歪度や尖度によって異なることを示している。平坦な尖度の分布の場合、第I種誤差率は低いままで、保守的な見積もりを提供することがある。

実際のところ、どちらかの変数の分布が平坦な尖度であれば、t値が収束しなくても第I種誤差率は許容できるものになる。これは、第I種誤差率が大幅に高くなる場合ほど心配ではない。

研究者への影響

これらのことは、回帰分析を行う人にとって何を意味するのだろう?まず、研究者は、変数の分布が合理的であれば、思っていたほど多くの観測数を必要としないかもしれない。これは、データが限られている場合や収集が難しい状況で回帰分析の機会を広げることになる。

ただし、慎重さはまだ重要だ。研究者は、自分たちの分析のパワーを常に考慮し、非常に少ない観測数で回帰を行うことに伴う潜在的なリスクを無視しないようにすべきだ。これらの結果が自信を持って適用できる条件を明確に理解する必要がある。

結果の報告

分析の一環として、研究者は変数の歪度と尖度を報告することが望ましい。これにより、必要な観測数について十分な判断ができるようになる。変数が対称または平坦な尖度であると判明した場合、通常、30未満の観測数でも信頼できる結果が得られるかもしれない。

逆に、変数の分布が高度に歪んでいる場合、研究者は従来のガイドラインに従った方が良いかもしれない。そうでないと回帰分析の有効性が損なわれる恐れがある。

将来の方向性

この話題は、この分野での今後の研究の必要性を浮き彫りにしている。さらに研究は、歪度とt値のt分布への収束との関係に焦点を当てることができる。より多くの調査が、回帰分析におけるサンプルサイズの合理的な下限を定めるのに役立つかもしれない、特に複数の独立変数が関与する場合。

全体として、この分析は研究者が以前思っていたよりも少ない観測数で回帰を実行することにもっと自信を持てることを示唆していて、データの特性について注意を怠らない限り、大丈夫ってことを伝えてる。発見は、サンプルサイズの要件についてより微妙な理解を促進し、サンプルサイズと回帰分析の有効性の関係を見る視点のシフトを提案しているんだ。

オリジナルソース

タイトル: This is not normal! (Re-) Evaluating the lower $n$ guidelines for regression analysis

概要: The commonly cited rule of thumb for regression analysis, which suggests that a sample size of $n \geq 30$ is sufficient to ensure valid inferences, is frequently referenced but rarely scrutinized. This research note evaluates the lower bound for the number of observations required for regression analysis by exploring how different distributional characteristics, such as skewness and kurtosis, influence the convergence of t-values to the t-distribution in linear regression models. Through an extensive simulation study involving over 22 billion regression models, this paper examines a range of symmetric, platykurtic, and skewed distributions, testing sample sizes from 4 to 10,000. The results show that it is sufficient that either the dependent or independent variable follow a symmetric distribution for the t-values to converge at much smaller sample sizes than $n=30$, unless the other variable is extremely skewed. This is contrary to previous guidance which suggests that the error term needs to be normally distributed for this convergence to happen at low $n$. However, when both variables are highly skewed, much larger sample sizes are required. These findings suggest the $n \geq 30$ rule is overly conservative in some cases and insufficient in others, offering revised guidelines for determining minimum sample sizes.

著者: David Randahl

最終更新: 2024-10-16 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2409.06413

ソースPDF: https://arxiv.org/pdf/2409.06413

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者からもっと読む

類似の記事