Simple Science

最先端の科学をわかりやすく解説

# 統計学# 方法論

データ分析における研究者の自由度への対処

この論文では、データ分析における誤検出を減らす方法について話してるよ。

― 1 分で読む


研究者の自由度に立ち向かう研究者の自由度に立ち向かうるよ。新しい方法が分析ミスや偽陽性に取り組んで
目次

研究者が同じデータセットを使って同じ質問を調べると、時々異なる答えが出ることがあるんだ。これは、研究者がデータを分析する方法をたくさん選べるから発生することが多いんだ。これを「研究者の自由度」って呼ぶことがあるよ。さらに、印象的な結果だけをシェアする習慣が重なると、間違いが増えたり、結果が過度にポジティブになったりすることがあるんだ。

この論文は、この問題に取り組むことを目的に、さまざまな分析戦略を複数のテストの問題として扱うんだ。異なる分析方法は一般に相互に依存するから、ボンフェローニの補正みたいな単純な方法は、統計的テストのパワーを減少させすぎるから合わないんだ。代わりに提案されているのは「minP」調整法で、これは異なるテストの関係を考慮して、最小のp値の帰無分布を置換法で推定する方法なんだ。このアプローチは、より単純な方法よりもパワーが強いことが多く、ファミリー全体のエラーレートに対しても弱いコントロールを維持しながら実現できるんだ。

これがどう機能するかを示すために、手術中の酸素濃度が術後の合併症の発生にどのように影響するかを調べた研究に私たちのアプローチを適用したんだ。データ分析には48種類の異なる方法を考慮して、それをminP法で調整したんだ。これにより、研究者は最も強い証拠を提供する分析結果を報告できるようになり、偽陽性結果のリスクをコントロールできるんだ。

最近、科学の分野では、研究者がデータを分析する方法には多くのばらつきがあることが認識されるようになったんだ。同じデータセットを使って特定の研究課題に答えるための納得できる方法は無数にあるし、これらの方法は非常に異なる結果を生むことがあるよ。このばらつきが選択的報告と組み合わさると、偽陽性の結果が出る可能性や効果サイズを膨らませるリスクが高まるんだ。

科学研究には、分野を問わず結果にばらつきをもたらす多くの不確実性の要因があるんだ。これにはサンプリング、測定、モデルの選択、パラメータの選択、データ処理、そして方法の不確実性が含まれるよ。これらの不確実性を無視すると、安定して正確に見える結果が出ることがあるけど、実際には過度に楽観的で再現不可能なこともあるんだ。特に、モデル、パラメータ、データ処理、そして方法の不確実性は、先に述べた分析のばらつきに寄与するんだ。

研究者が分析戦略について持っている柔軟性は「研究者の自由度」につながるんだ。多くの分析から最も好ましい結果を選択的に報告するのは、結果の信頼性を損なう疑わしい行為だってことが明らかだけど、研究者が実際に自由度をどう扱うべきかは、あまり明確じゃない部分もあるんだ。

この研究は、研究者の自由度を複数のテストの問題として見ることでこの問題に取り組むことを提案しているんだ。具体的には、さまざまな分析戦略から最良のp値を選んだ場合に生じる過度の楽観主義を修正するための調整方法を推奨しているよ。

さまざまな分析戦略の結果は、高度に関連している傾向があるから、基本的な方法であるボンフェローニの補正は適さないんだ。なぜなら、これが本当の効果を検出する能力を大幅に低下させてしまうから。代わりに、minP法を推奨し、その効果的な適用方法についても議論するつもりだ。minPによって得られるパワーは、より単純な調整よりも大きいことが多く、ファミリー全体のエラーレートに対しても弱いコントロールを維持するんだ。これは、テスト間の相関によって影響を受ける最小のp値の分布を見るからなんだ。

minP手続きには明確でストレートな原則があるよ。例えば、シリアル摂取と男の子を妊娠する確率に関連する小さなp値が見つかった研究を考えてみて。研究者たちは複数の食品が分析されていることに気づいたんだけど、これは典型的な複数テストのケースだ。置換データ(つまり、胎児の性別がランダムに混合されたデータ)を調べることで、実際の効果がないときに0.0034のようなp値が約28%の確率で発生する可能性があることを指摘したんだ。彼らは、さまざまな食品に関する分析の文脈で、元のp値0.0034を0.28に調整するためにminP手続きを効果的に使用したんだ。私たちの提案は、このアプローチを適応させて、研究者が自由度に起因する再現危機の統計的側面に対処することなんだ。

minP手続きは、最小のp値の帰無分布を置換ベースのアプローチで推定することに基づいているんだ。ただし、この置換ベースの方法が常に実現可能とは限らないことに注意が必要だよ。状況によっては、最小のp値や最大統計量の分布についての理論的結果に依存する方が適切な場合もあるんだ。

この論文は二つの科学分野を結びつけることを目指しているんだ。一つは、科学における再現危機が多様性の問題にいくつかの根を持っていることを認識しているメタサイエンスコミュニティなんだ。でも、彼らはまだ、複数のテストに関連する問題を完全には形式化していないし、偽陽性結果を減少させるための調整方法を利用していないんだ。もう一つは、依存関係のある複数のテストを処理するための強力な方法をますます開発している複数テストコミュニティなんだ。でも、実践的なシナリオにおいて研究者の自由度に対する調整ではこれらの方法はまだ広く採用されていないんだ。障害には、二つのグループ間のコミュニケーションが不足していることや、方法の複雑さがあるんだ。それに、これらの方法は全ての種類の分析に適用できるわけではなく、特定の統計モデルだけに適用されることが多く、実際には常に成り立つとは限らない仮定を必要とするんだ。この論文は、その結果、研究者の自由度に対する調整のために、単純な文脈におけるminP手続きという明快な方法を提案し、二つのコミュニティ間の協力を促すことを目指しているよ。

次に、研究者の自由度がもたらす課題について概説し、文献からの潜在的な解決策を議論するね。私たちのアプローチを示すために、手術中の酸素の部分動脈圧が術後合併症の発生に与える影響を調べる例の研究を提供するよ。私たちのアプローチは次のセクションで詳しく説明し、例のデータセットの結果や、制限事項、可能な拡張についても議論するつもりだ。

背景: 研究者の自由度

バイオメディカルデータを分析する際、研究者は初めは小さく見える多数の決定に直面するんだ。それが結果に大きな影響を与えることがあるんだ。調整すべき交絡因子は何か、欠損データや外れ値にどう対処するか、特定の変数をログ変換するか、または小さなカテゴリのデータをどう扱うかなどの質問が浮かぶよ。これらの選択をする柔軟性を「研究者の自由度」と呼ぶんだ。

多くの場合、学術的な理論や実践的なガイダンスは、最良のアプローチを決定するための信頼できる方法を提供していないんだ。AIC(赤池情報量基準)などのツールは役立つこともあるけど、すべての質問に対する明確な答えを提供するわけじゃない。それに、これらのツールの選定は通常、不確実性によって曇ることが多いんだ。なぜなら、通常は複数の有効なオプションが存在するから。例えば、モデル選択にはAICを選ぶべきか、それともベイジアン情報基準(BIC)を選ぶべきか?QQプロットを使用すべきなのか、特定のテストを適用して変数の正規性を評価すべきなのか?

選択的報告が研究者の自由度と組み合わさると、偽陽性結果の出現率が増加し、効果サイズが膨らみ、結果が過度に楽観的になることがあるんだ。「pハッキング」や「有意性を求めて漁る」という用語は、さまざまな分析から最も統計的に有意な結果を選択的に報告する行為を指すんだ。この楽観主義は、仮説検定に限定されるわけじゃないんだ。「漁り行為」、「選りすぐり」や「データ掘削」は、さまざまな種類の分析で共通する問題だよ。

複数の分析戦略は、電子健康記録や行政データを含む研究を特に複雑にするんだ。これらのデータは「リアルワールド」の証拠を提供すると見なされているけど、元々研究目的で収集されたものではないから、不確実性が古典的な観察研究データと比較してさらに際立つことがあるよ。近年、この文脈で出現した矛盾した結果は、不確実性の役割を強調するものだね。例えば、いくつかの研究は、腹腔鏡下虫垂切除のリスクや心血管疾患と大麻使用の関係について矛盾した結果を出したんだ。この二つのケースでは、異なる研究チームが同じデータを分析したけど、些細に見える選択のために異なる結論を引き出したんだ。

部分的な解決策と関連した研究

分析方法に関連する不確実性を管理するために様々な戦略が提案されてきたんだ。単純な方法は、分析を実施する前に分析戦略を設定することだ。これにより透明性が向上し、複数の結果が生成される可能性が減ることがあるんだ。公開可能なプレ登録文書は分析計画を概説することができ、選択的報告を防ぐことができるね。このプレ登録の実践は臨床試験で標準だけど、こうした規制環境で選択的報告を防ぐのに十分詳細な計画かどうかはまだ議論があるんだ。探査的研究や複雑なデータセットでは、固定の分析戦略を確立することがさらに難しいことがあるよ。

別のアプローチは、不確実性を透明に認めて、異なる分析戦略から得られた結果の範囲を報告することだ。この方法は、過去数年でさまざまな形式で提案されてきたんだ、効果の振動フレームワークやマルチバース分析、仕様曲線分析などが含まれるんだ。でも、複数の結果を報告することは、明確な要点がないと混乱を引き起こすことが多いんだ。

もう一つの方法は、いくつかの分析を行い、最も好ましい結果を選択するけど、同じ分析を独立したデータセットで実行して確認できた場合にだけ公開することだ。このアプローチは、非常に特定の仮説が事前に定義されていない限り、データセットを分析する方法は無数にあるので、できるだけ追加データで結果を検証することが重要だと示唆しているんだ。ただし、別の検証データセットを取得することは難しいことがあるし、データを分割することは、全データセットを使用する場合に得られた分析パワーの大幅な損失を招くことがあるんだ。

さまざまな不確実性に深く影響される文脈では、他の方法が適用できない場合に、私たちは複数のテスト補正に基づいた別のアプローチを提案するよ。特に、好ましい結果に対して複数のテストの補正方法を適用することを提案することで、タイプ1エラーのリスクを低下させる手助けをするんだ。

動機付けの例

動機付けのケースとして、クランイオトミー中の酸素の部分動脈圧が神経外科患者の術後合併症の発生にどのように影響するかを調べた最近の研究プロジェクトを調査するよ。この研究は先ほど説明したミュンヘンの病院でのルーチン臨床データを使用しているんだ。

手術中の低酸素状態(低酸素症)の害はよく研究されているけど、高酸素状態(高酸素症)に関連する潜在的な問題はあまり理解されていないんだ。手術中に酸素を過剰に摂取するリスクは、麻酔科医の間でまだ議論されていて、進行中の研究分野なんだ。

データセットは肺疾患のない患者に対して行われた手術から得られているんだ。手術中のさまざまな時点でのバイタルサインが記録されたんだけど、他のバイタルパラメータと違って、部分動脈圧の連続測定は実現できないことが重要なんだ。高酸素症を正確に評価するには、継続的かつ非侵襲的に評価できる他の変数を使ってモデル化する必要があるんだ。私たちはこの目的のために、機械学習技術、特にランダムフォレストと正則化線形回帰を使用することを提案するよ。

この論文では、酸素の部分動脈圧と術後合併症の発生の関係を分析するんだ。交絡因子の選定に関連するモデル選択の問題を無視しても、この分析には多くの不確実な要素が含まれているんだ。これらの不確実性について詳しく説明し、私たちが考慮した選択肢についても述べるつもりだよ。

私たちが注目する具体的な選択肢は、意思決定ツリーのように見えるんだ:(i) 欠損値の補完方法、(ii) 未観測値に使用するモデル、(iii) パラメータ選定アプローチ、(iv) データの集約方法、(v) 露出変数のコード付けとテスト方法。欠損データの補完は、欠損値を含めるか除外するかによって異なり、複数の補完は推奨された戦略の一つだよ。未観測値は、ランダムフォレストや正則化一般線形モデルを使用してモデル化されることがあるんだ。手術中に取られた複数の測定の集約は、平均か中央値として行うことができる。でも、露出変数については、連続変数として扱いロジスティック回帰を適用することも、特定のカットオフに基づいて二分化することも、さまざまなテストのために複数のグループに分類することもできるんだ。

合計で、私たちは分析戦略のための48の異なる構成を調査したんだ。これは各ステップでどのような選択をしたかを掛け算することで計算されるんだ。

研究者の自由度を複数のテストの問題として

これからのセクションでは、統計テストを含む分析に焦点を当てるよ。研究者が酸素が術後合併症に与える影響についての研究質問や仮説を見ていると仮定しよう。

ここで「分析戦略」という用語は、統計テストを適用する前の準備段階やテスト自体の特徴を含むんだ。異なる選択肢は、結果として得られるp値の変化をもたらし、その結果、テストの決定(帰無仮説を棄却するか受け入れるか)を変えることになるんだ。同じ研究質問に対して異なる戦略を使うことは、基本的には複数のテストを行うことを意味するんだ。

研究者が探求する分析戦略の数を示しましょう。関与する各テストは帰無仮説に関連付けられているんだ。これらの仮説とその対立仮説は、酸素が合併症に及ぼす影響についてのゆるく定義された研究質問を定量化する異なる方法を表すことがあるんだ。

分析戦略は、欠損データの取り扱いや外れ値の扱い方など、さまざまな側面で異なることがあるんだ。その結果、複数のテストを行い、最も低いp値を強調することは、少なくとも1件のタイプ1エラーを引き起こす可能性を膨らませるんだ。この問題は、偽陽性結果の割合が意図した有意水準よりも高く見える理由に寄与しているんだ。

ファミリー全体のエラーレート(FWER)管理

研究者の自由度を複数のテストの問題として議論した後は、ファミリー全体のエラーレートを管理する方法を見ていこう。具体的には、すべての帰無仮説が真である場合において、テストセット全体で少なくとも1件のタイプ1エラーを犯す確率をコントロールすることを目指しているよ。

ファミリー全体のエラーレートを管理するための異なる調整方法が存在するんだ。ボンフェローニ手続きは最もよく知られた単純な技法で、真の帰無仮説と偽の帰無仮説の任意の組み合わせの下でも強いコントロールを提供するんだ。この方法は、有意水準を下げるか、それに応じてp値を調整してこの低い閾値を反映させるんだ。ただし、この方法は保守的で、関連性のあるテストの場合にはパワーが不足することが知られているんだ。

minP手続きは、テスト間の関係を考慮して、実施されたテストの中で最小のp値に焦点を当てている点がユニークなんだ。この調整は、真の所見を検出する可能性を高めるんだ。したがって、テスト間で依存関係がある場合には、minP手続きはより良い適合性を持つことができるんだ。minP手続きはファミリー全体のエラーレートを弱くコントロールするけど、これは私たちの状況では欠点ではなく、偽陽性を避けたいと思っているからなんだ。

酸素濃度と術後合併症の関係に関する私たちの分析の文脈で、minP調整がどのように機能するかを説明するよ。これは、元のデータセットから得られたp値が以下または等しいものになるような置換の割合を計算することで、調整されたp値を提供するんだ。これが効果的に機能するためには、かなりの数の置換が必要なんだ。

研究デザイン

この研究の目的は、研究者の自由度によって生じる複数のテストの課題に対するminP手続きの機能を示すことなんだ。私たちは元のデータセットと置換データセットの両方を利用し、48の指定された戦略を分析するつもりだよ。

p値は変更されない、ボンフェローニ法で調整される、または1000回の置換を含むminP手続きを使用して変更されることがあるんだ。さまざまなサンプルサイズで分析が行われるよ。

この研究は二つの部分に分かれて行われるよ。最初に、異なるサンプルサイズで、三つの調整方法を使ってファミリー全体のエラーレートを評価するんだ。実際の二つの主要な変数間に真の関連性がないデータセットを構築し、結果変数をランダムに生成することでこれを実現するんだ。このシミュレーションは何度も繰り返すことで、少なくとも一つの偽陽性結果がどれだけ頻繁に出現するかを確認するんだ。

次に、元のデータセットを分析するよ。私たちの医療理解に基づいて、酸素濃度と結果の間には強い関連性があると予想しているけど、正確な関連性はわからないんだ。三つの方法それぞれで、さまざまな閾値における48の構成の中で、有意なp値の割合を計算するつもりだ。サンプルサイズが大きくなるにつれて関係がより重要になってくるから、小さいサンプルのシナリオに焦点を当てるんだ。未調整のp値は、調整されたp値よりも有意な結果の割合が高くなると予想しているよ。さらに、ボンフェローニ法はminP調整よりも保守的であることが多いんだ。

この研究では、研究者の自由度に応じた複数のテスト調整を通じて有効な統計分析を実施するためのフレームワークを概説してきたんだ。シミュレーションや実データは、minP手続きがこの目的に適していることを示唆しているよ。

これまでに、研究者の自由度に対処するための置換ベースの調整が推奨されてきたけど、私たちのアプローチはいくつかの重要な点で異なるんだ。分析戦略に関して多様性を形式化したことで、この分野で知られている方法を活用できるようになったんだ。

私たちの研究は研究のための単純な調整メカニズムを提供しているけど、将来の調査のための疑問を提起することにもつながるよ。データのニュアンスを考慮した適切な置換手続きの定義は複雑かもしれないし、私たちのアプローチがデータ検証方法とどのように比較されるかを理解することは、パワーと正確性のバランスを考慮している研究者にとって有益だと思うんだ。

最後に、私たちの論文がp値の独占的な使用を奨励しているわけではないことを明確にすることが重要だよ。むしろ、統計的テストが分析プロセスの一部であり、複数の戦略が結果を生み出した場合、その結果を解釈する前に多重性に対処することにメリットがあると考えているんだ。私たちの方法は、強い証拠を選択的に報告し、偽陽性結果のリスクを管理することを可能にすることで、研究の再現性を向上させるのに貢献しているんだ。

オリジナルソース

タイトル: Addressing researcher degrees of freedom through minP adjustment

概要: When different researchers study the same research question using the same dataset they may obtain different and potentially even conflicting results. This is because there is often substantial flexibility in researchers' analytical choices, an issue also referred to as ''researcher degrees of freedom''. Combined with selective reporting of the smallest p-value or largest effect, researcher degrees of freedom may lead to an increased rate of false positive and overoptimistic results. In this paper, we address this issue by formalizing the multiplicity of analysis strategies as a multiple testing problem. As the test statistics of different analysis strategies are usually highly dependent, a naive approach such as the Bonferroni correction is inappropriate because it leads to an unacceptable loss of power. Instead, we propose using the ''minP'' adjustment method, which takes potential test dependencies into account and approximates the underlying null distribution of the minimal p-value through a permutation-based procedure. This procedure is known to achieve more power than simpler approaches while ensuring a weak control of the family-wise error rate. We illustrate our approach for addressing researcher degrees of freedom by applying it to a study on the impact of perioperative paO2 on post-operative complications after neurosurgery. A total of 48 analysis strategies are considered and adjusted using the minP procedure. This approach allows to selectively report the result of the analysis strategy yielding the most convincing evidence, while controlling the type 1 error -- and thus the risk of publishing false positive results that may not be replicable.

著者: Maximilian M Mandl, Andrea S Becker-Pennrich, Ludwig C Hinske, Sabine Hoffmann, Anne-Laure Boulesteix

最終更新: 2024-01-21 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2401.11537

ソースPDF: https://arxiv.org/pdf/2401.11537

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事