Simple Science

La science de pointe expliquée simplement

# Statistiques# Méthodologie

Aborder les degrés de liberté des chercheurs dans l'analyse des données

Ce papier parle d'une méthode pour réduire les faux positifs dans l'analyse de données.

― 19 min lire


Lutter contre lesLutter contre leslibertés de recherche deschercheurserreurs d'analyse et aux faux positifs.De nouvelles méthodes s'attaquent aux
Table des matières

Quand les chercheurs se penchent sur la même question en utilisant le même jeu de données, ils trouvent parfois des réponses différentes. Ça arrive parce que les chercheurs ont plein de choix sur comment analyser les données. On appelle souvent ça « les degrés de liberté des chercheurs ». Quand on combine ça avec l'habitude de ne partager que les résultats les plus impressionnants, ça peut mener à plus d'erreurs et à des conclusions trop optimistes.

Cet article vise à s'attaquer à ce problème en considérant la variété des stratégies d'analyse comme un problème de tests multiples. Comme les différentes méthodes d'analyse dépendent généralement les unes des autres, une méthode simple comme la correction de Bonferroni n'est pas vraiment adaptée, car elle peut trop réduire la puissance des tests statistiques. À la place, la solution proposée est d'utiliser la méthode d'ajustement « minP », qui prend en compte les relations entre les différents tests et estime la distribution nulle de la plus petite p-value à travers une méthode de permutation. Cette approche a généralement plus de puissance que les méthodes plus simples tout en maintenant un contrôle faible sur le taux d'erreur global.

Pour montrer comment ça fonctionne, on a appliqué notre approche à une étude sur comment les niveaux d'oxygène pendant la chirurgie affectent les chances de complications postopératoires chez les patients. On a considéré 48 façons différentes d'analyser les données et on les a ajustées en utilisant la méthode minP. Ça permet aux chercheurs de rapporter les résultats de l'analyse qui fournit la preuve la plus forte tout en contrôlant le risque de faux positifs.

Ces dernières années, beaucoup de gens dans le domaine scientifique ont reconnu qu'il y a beaucoup de variabilité dans la façon dont les chercheurs analysent les données. Il existe de nombreuses méthodes sensées pour examiner le même jeu de données afin de répondre à une question de recherche donnée, et ces méthodes peuvent produire des résultats très différents. Quand cette variabilité est combinée avec un rapport sélectif, ça peut augmenter les chances d'obtenir des résultats faux positifs ou de gonfler les tailles d'effet.

Il y a de nombreuses sources d'incertitude dans la recherche scientifique qui entraînent de la variabilité dans les résultats, peu importe la discipline. Cela inclut l'échantillonnage, la mesure, les choix de modèle, les choix de paramètres, le traitement des données, et l'incertitude des méthodes. Ignorer ces incertitudes peut donner des résultats qui semblent stables et précis mais qui sont en réalité trop optimistes et peuvent ne pas être reproductibles. Plus important encore, les incertitudes liées au modèle, aux paramètres, au traitement des données et aux méthodes entraînent la variabilité d'analyse mentionnée plus tôt.

La flexibilité dont disposent les chercheurs concernant leurs stratégies d'analyse conduit à ce qu'on appelle « les degrés de liberté des chercheurs ». Bien qu'il soit évident que rapporter sélectivement les résultats les plus favorables de nombreuses analyses soit une pratique douteuse qui nuit à la crédibilité des résultats, il est moins clair comment les chercheurs devraient gérer leurs degrés de liberté dans des termes pratiques.

Cette étude suggère de traiter cette question en considérant les degrés de liberté des chercheurs comme un problème de tests multiples. Plus précisément, nous plaidons pour une méthode d'ajustement pour corriger l'optimisme excessif qui peut résulter du choix de la meilleure p-value parmi une variété de stratégies d'analyse.

Comme les résultats de diverses stratégies d'analyse ont tendance à être fortement reliés, une méthode de base comme la correction de Bonferroni n'est pas adaptée car elle peut réduire considérablement la capacité à détecter de véritables effets. À la place, nous recommandons la méthode minP et discutons comment elle peut être appliquée efficacement. La puissance gagnée grâce à minP est souvent supérieure à celle d'ajustements plus simples, tout en maintenant un contrôle faible sur le taux d'erreur global. Cela est dû au fait que cette procédure examine la distribution de la p-value minimale, qui est influencée par le degré de dépendance des tests.

La procédure minP a un principe clair et direct. Par exemple, considérons une étude qui a trouvé une petite p-value liée à la consommation de céréales et aux chances de concevoir un garçon. Les chercheurs ont noté que plusieurs aliments étaient analysés, ce qui est un cas typique de tests multiples. En examinant des données permutées (c'est-à-dire des données avec le sexe fœtal mélangé au hasard), ils ont souligné qu'une p-value aussi petite que 0.0034 pourrait survenir environ 28 % du temps lorsqu'il n'y a pas d'effet réel. Ils ont efficacement utilisé la procédure minP pour ajuster la p-value originale de 0.0034 à 0.28 dans le contexte de leur analyse impliquant divers aliments. Notre suggestion est d'adapter cette approche pour gérer les aspects statistiques de la crise de réplication à laquelle sont confrontés les chercheurs en raison des degrés de liberté.

La procédure minP est basée sur l'estimation de la distribution nulle de la plus petite p-value à travers une approche basée sur des permutations. Cependant, il convient de noter que cette méthode basée sur des permutations n'est pas toujours faisable. Dans certaines situations, il pourrait être plus approprié de se fier à des résultats théoriques concernant la distribution de la plus petite p-value ou de la statistique maximale.

Cet article vise à établir un lien entre deux domaines scientifiques. L'un est la communauté de la métascience, qui a reconnu que la crise de réplication en science a certaines racines dans des problèmes de multiplicité. Cependant, elle n'a pas entièrement formalisé ces problèmes liés aux tests multiples ni utilisé des méthodes d'ajustement connues pour réduire les faux positifs. Le second est la communauté des tests multiples, qui développe de plus en plus des méthodes robustes pour gérer les tests multiples avec des dépendances. Malheureusement, ces méthodes ne sont pas encore largement adoptées lorsqu'il s'agit d'ajuster les degrés de liberté des chercheurs dans des scénarios pratiques. Les barrières incluent un manque de communication entre les deux groupes et la complexité des méthodes. De plus, ces méthodes ne s'appliquent souvent pas à tous les types d'analyses mais seulement à certains modèles statistiques, nécessitant des hypothèses qui peuvent ne pas toujours tenir dans la pratique. Cet article vise à mettre en place une méthode simple, la procédure minP, pour ajuster les degrés de liberté des chercheurs dans des contextes simples tout en encourageant la collaboration entre les deux communautés.

Ensuite, nous décrivons les défis posés par les degrés de liberté des chercheurs et discutons des solutions potentielles issues de la littérature. Pour illustrer notre approche, nous fournissons une étude exemple examinant les effets de la pression partielle d'oxygène pendant la chirurgie sur l'apparition de complications postopératoires. Notre approche est détaillée dans les sections suivantes, avec des résultats provenant de l'ensemble de données exemple et une discussion des limites et des extensions possibles.

Contexte : Degrés de liberté des chercheurs

Lorsque les chercheurs analysent des données biomédicales, ils font face à de nombreuses décisions qui peuvent sembler mineures au début mais peuvent grandement influencer les résultats. Des questions se posent sur les confondants à ajuster, comment traiter les données manquantes ou les valeurs aberrantes, s'il faut transformer certaines variables par logarithme, ou comment gérer les petites catégories de données. La flexibilité dans ces choix est ce que nous appelons « les degrés de liberté des chercheurs ».

Dans de nombreux cas, ni la théorie académique ni les conseils pratiques ne fournissent un moyen fiable de déterminer la meilleure approche. Bien que des outils comme le Critère d'Information d'Akaike (AIC) puissent être utiles, ils ne fournissent pas de réponses claires à chaque question qui se pose. De plus, le choix de ces outils est souvent obscurci par des incertitudes car il existe généralement plusieurs options valides. Par exemple, doit-on choisir l'AIC ou le Critère d'Information Bayésien (BIC) pour la sélection de modèle ? Un QQ plot doit-il être utilisé ou un test spécifique doit-il être appliqué pour évaluer la normalité des variables ?

Lorsque le rapport sélectif est combiné avec les degrés de liberté des chercheurs, cela peut entraîner un taux accru de faux positifs, des tailles d'effet gonflées et des résultats trop optimistes. Des termes comme « p-hacking » et « pêche à la signification » font référence à la pratique de rapporter sélectivement les résultats les plus statistiquement significatifs de diverses analyses. Cet optimisme n'est pas limité uniquement aux tests d'hypothèses. Les « expéditions de pêche », le « cherry-picking » ou le « data dredging » sont des problèmes courants à travers différents types d'analyses.

Les multiples stratégies d'analyse compliquent particulièrement les études qui impliquent des dossiers de santé électroniques et des données administratives, qui sont considérées comme fournissant des preuves « du monde réel ». Avec ces données qui n'ont pas été collectées à l'origine pour des fins de recherche, les incertitudes peuvent devenir encore plus prononcées par rapport aux données de recherche observationnelle classiques. Au cours des dernières années, des résultats contradictoires ont émergé de ces études, mettant en évidence le rôle des incertitudes partout. Par exemple, certaines études ont produit des résultats contradictoires concernant les risques associés aux appendicectomies laparoscopiques et la relation entre les maladies cardiovasculaires et l'utilisation de marijuana. Dans les deux cas, différentes équipes de recherche ont analysé les mêmes données mais ont tiré des conclusions différentes en raison de choix apparemment triviaux.

Solutions partielles et travaux connexes

De nombreuses stratégies ont été proposées pour gérer l'incertitude liée aux méthodes d'analyse. Une méthode simple consiste à définir la stratégie d'analyse avant de procéder à des analyses. Cela peut améliorer la transparence et réduire la probabilité de générer plusieurs résultats. Des documents de pré-enregistrement disponibles publiquement peuvent décrire le plan d'analyse, empêchant ainsi le rapport sélectif. Cette pratique de pré-enregistrement est courante dans les essais cliniques, bien qu'il y ait encore débat sur la question de savoir si ces plans sont assez détaillés pour prévenir le rapport sélectif dans de tels environnements réglementés. Dans la recherche exploratoire et les ensembles de données complexes, établir une stratégie d'analyse fixe peut être encore plus difficile.

Une approche alternative consiste à reconnaître l'incertitude de manière transparente et à rapporter la gamme des résultats obtenus à partir de différentes stratégies d'analyse. Cette méthode a été proposée sous diverses formes au cours des dernières années, notamment le cadre de vibration des effets, les analyses multivers et l'analyse des courbes de spécification. Cependant, rapporter plusieurs résultats peut souvent entraîner de la confusion sans un message clair à retenir.

Une autre méthode consiste à réaliser plusieurs analyses et à choisir les résultats les plus favorables, mais à les publier uniquement s'ils peuvent être confirmés en exécutant la même analyse sur un ensemble de données indépendant. Cette approche suggère que sans hypothèses très spécifiques définies à l'avance, il y a d'innombrables façons d'analyser un ensemble de données, rendant crucial de valider les résultats avec des données supplémentaires chaque fois que cela est possible. Cependant, obtenir un ensemble de données de validation séparé peut être difficile, et diviser les données peut entraîner une perte significative de puissance d'analyse qui serait disponible si l'ensemble de données complet était utilisé.

Pour les contextes profondément affectés par diverses incertitudes, où d'autres méthodes peuvent ne pas être adaptées, nous proposons une approche alternative basée sur les corrections de tests multiples. En particulier, nous suggérons d'appliquer des méthodes de correction pour les tests multiples aux résultats favorisés, ce qui aidera à réduire le risque d'erreur de type 1.

Exemple motivant

Comme exemple motivant, nous examinons un récent projet de recherche qui étudie comment la pression partielle d'oxygène pendant la craniotomie affecte les chances de complications postopératoires chez les patients en neurochirurgie. Cette étude utilise des données de la pratique clinique routinière dans un hôpital de Munich, comme décrit plus tôt.

Bien que les dangers de faibles niveaux d'oxygène (hypoxémie) pendant la chirurgie soient bien étudiés, les problèmes potentiels liés à des niveaux élevés d'oxygène (hyperoxémie) ne sont pas aussi bien compris. Les risques liés à une sur-supplementation en oxygène pendant les interventions chirurgicales restent débattus entre anesthésistes et font toujours l'objet d'investigations.

L'ensemble de données provient de chirurgies effectuées sur des patients sans maladies pulmonaires. Les signes vitaux ont été enregistrés à différents moments pendant la chirurgie. Il est essentiel de noter que la mesure continue de la pression partielle d'oxygène n'est pas faisable, contrairement à d'autres paramètres vitaux. Pour évaluer de manière fiable l'hyperoxémie, les valeurs doivent être estimées à l'aide d'un modèle reposant sur d'autres variables qui peuvent être évaluées de manière continue et non invasive. Nous suggérons d'utiliser des techniques d'apprentissage machine, plus précisément des forêts aléatoires et une régression linéaire régularisée, à cet effet.

Dans cet article, nous analysons la relation entre la pression partielle d'oxygène et l'apparition de complications postopératoires. Même si nous ignorons les problèmes de choix de modèle liés à la sélection des confondants, cette analyse présente de nombreux éléments incertains. Nous décrirons en détail ces incertitudes, ainsi que les options que nous avons considérées pour notre étude illustrative.

Les choix spécifiques sur lesquels nous nous concentrons ressemblent à un arbre de décision : (i) comment imputer les valeurs manquantes, (ii) le modèle utilisé pour les valeurs non observées, (iii) l'approche de sélection des paramètres, (iv) comment agréger les données, et (v) comment la variable d'exposition est codée et la méthode de test. L'imputation des données manquantes peut inclure ou exclure les valeurs manquantes, où l'imputation multiple est l'une des stratégies suggérées. Les valeurs non observées peuvent être modélisées à l'aide de forêts aléatoires ou d'un modèle linéaire général régularisé. L'agrégation des multiples mesures prises pendant la chirurgie pourrait être soit la moyenne soit la médiane. Enfin, pour la variable d'exposition, nous pouvons la traiter comme continue tout en appliquant une régression logistique, la dichotomiser sur un seuil spécifique, ou la catégoriser en plusieurs groupes pour différents tests.

Au total, nous examinons 48 configurations différentes pour la stratégie d'analyse, calculées en multipliant les différentes choix effectués à chaque étape.

Les degrés de liberté des chercheurs comme un problème de tests multiples

Dans les sections qui suivent, nous nous concentrerons sur des analyses impliquant des tests statistiques. Nous considérons un chercheur qui examine une question de recherche ou une hypothèse concernant l'impact de l'oxygène sur les complications postopératoires.

Ici, le terme « stratégie d'analyse » couvre à la fois les étapes préparatoires prises avant l'application des tests statistiques et les caractéristiques des tests eux-mêmes. Différents choix entraînent des changements dans les p-values résultantes, faisant varier ainsi les décisions de test (qu'il s'agisse de rejeter ou d'accepter l'hypothèse nulle). Appliquer différentes stratégies pour la même question de recherche revient essentiellement à effectuer des tests multiples.

Notons le nombre de stratégies d'analyse que le chercheur explore. Chacun des tests impliqués est lié à une hypothèse nulle. Ces hypothèses et leurs alternatives peuvent représenter différentes manières de quantifier la question de recherche à peine définie sur l'impact de l'oxygène sur les complications.

Les stratégies d'analyse peuvent différer sur divers aspects, comme la manière dont les données manquantes sont traitées ou la manière dont les valeurs aberrantes sont gérées. En conséquence, réaliser plusieurs tests et mettre en avant la plus basse p-value peut gonfler la probabilité de commettre au moins une erreur de type 1. Ce problème contribue à la préoccupation plus large concernant pourquoi le taux de faux positifs semble plus élevé que le niveau de signification prévu.

Contrôle du Taux d'erreur familial (FWER)

Suite à notre discussion sur les degrés de liberté des chercheurs comme un problème de tests multiples, nous examinons maintenant les moyens de gérer le taux d'erreur familial. Plus précisément, nous visons à contrôler la probabilité de commettre au moins une erreur de type 1 à travers l'ensemble des tests, en particulier dans les situations où toutes les hypothèses nulles sont vraies.

Différentes méthodes d'ajustement existent pour atteindre divers niveaux de contrôle sur le taux d'erreur familial. La procédure de Bonferroni est la technique la plus connue et straightforward, car elle offre un contrôle fort sous n'importe quelle combinaison d'hypothèses nulles vraies et fausses. Cette méthode ajuste le niveau de signification vers le bas, ou correspondamment, modifie les p-values pour refléter ce seuil plus bas. Cependant, cette méthode est connue pour être conservatrice et peut manquer de puissance lorsque les tests sont étroitement liés.

La procédure minP est unique en ce qu'elle prend en compte les relations entre les tests en se concentrant sur la plus petite p-value parmi les tests effectués. Cet ajustement augmente la probabilité de détecter de véritables résultats, ce qui en fait un meilleur choix pour les cas où les tests tendent à dépendre les uns des autres. Bien que la procédure minP contrôle faiblement le taux d'erreur familial, ce n'est pas un inconvénient pour notre situation, où nous cherchons à éviter les faux positifs.

Dans le contexte de notre analyse sur la relation entre les niveaux d'oxygène et les complications postopératoires, nous allons décrire comment fonctionne l'ajustement minP. Elle fournit une p-value ajustée en calculant la proportion de permutations pour lesquelles la plus petite p-value est inférieure ou égale à celle obtenue à partir de l'ensemble de données original. Cela nécessite un nombre considérable de permutations pour être efficace.

Conception de l'étude

L'objectif de l'étude est d'illustrer comment la procédure minP fonctionne pour ajuster les défis de tests multiples posés par les degrés de liberté des chercheurs. Nous utilisons à la fois des ensembles de données originaux et permutés et analysons les 48 stratégies spécifiées.

Les p-values sont soit laissées inchangées, ajustées par la méthode de Bonferroni, ou modifiées en utilisant la procédure minP qui implique 1000 permutations. Toutes les analyses sont effectuées pour différentes tailles d'échantillons.

L'étude se déroulera en deux parties. D'abord, nous évaluerons le taux d'erreur familial à travers différentes tailles d'échantillons en utilisant les trois méthodes d'ajustement. Nous construirons des ensembles de données sans association véritable entre les deux principales variables en générant aléatoirement la variable de résultat. Cette simulation sera répétée plusieurs fois, permettant de vérifier à quelle fréquence il y a au moins un faux positif.

Deuxièmement, nous analyserons l'ensemble de données original. Basé sur notre compréhension médicale, nous anticipons une forte connexion entre les niveaux d'oxygène et les résultats, mais nous ne connaissons pas les relations précises. Pour chacune des trois méthodes, nous calculerons la proportion de p-values significatives parmi les 48 configurations à travers différents seuils.

À mesure que la relation devient plus significative avec des tailles d'échantillons plus grandes, nous nous concentrons sur les scénarios de petite taille d'échantillon. Nous nous attendons à ce que les p-values non ajustées montrent une plus haute proportion de résultats significatifs par rapport aux p-values ajustées. De plus, la méthode de Bonferroni sera plus conservatrice que l'ajustement minP.

Dans ce travail, nous avons esquissé un cadre pour conduire des analyses statistiques valides à la lumière des degrés de liberté des chercheurs à travers des ajustements de tests multiples. Nos simulations et données du monde réel suggèrent que la procédure minP est adaptée à cet effet.

Bien que les ajustements basés sur des permutations aient été précédemment recommandés pour traiter les degrés de liberté des chercheurs, notre approche diffère sur plusieurs points clés. Nous avons formalisé la multiplicité par rapport aux stratégies d'analyse, ce qui nous permet d'exploiter des méthodes connues dans le domaine.

Bien que notre étude présente un mécanisme d'ajustement simple pour la recherche, elle soulève des questions pour de futures enquêtes. Définir une procédure de permutation appropriée qui prend en compte les nuances des données peut être complexe. De plus, comprendre comment notre approche se compare aux méthodes de validation des données serait bénéfique pour les chercheurs pesant les compromis entre puissance et précision.

Enfin, il est important de clarifier que notre article ne prône pas l'utilisation exclusive de p-values. Au contraire, nous promouvons l'idée que lorsque le test statistique fait partie du processus d'analyse et que plusieurs stratégies donnent des résultats, il est judicieux d'ajuster la multiplicité avant d'interpréter ces résultats. Notre méthode permet de rapporter sélectivement la preuve la plus forte tout en gérant le risque de résultats faux positifs, contribuant ainsi à une meilleure reproductibilité dans la recherche.

Source originale

Titre: Addressing researcher degrees of freedom through minP adjustment

Résumé: When different researchers study the same research question using the same dataset they may obtain different and potentially even conflicting results. This is because there is often substantial flexibility in researchers' analytical choices, an issue also referred to as ''researcher degrees of freedom''. Combined with selective reporting of the smallest p-value or largest effect, researcher degrees of freedom may lead to an increased rate of false positive and overoptimistic results. In this paper, we address this issue by formalizing the multiplicity of analysis strategies as a multiple testing problem. As the test statistics of different analysis strategies are usually highly dependent, a naive approach such as the Bonferroni correction is inappropriate because it leads to an unacceptable loss of power. Instead, we propose using the ''minP'' adjustment method, which takes potential test dependencies into account and approximates the underlying null distribution of the minimal p-value through a permutation-based procedure. This procedure is known to achieve more power than simpler approaches while ensuring a weak control of the family-wise error rate. We illustrate our approach for addressing researcher degrees of freedom by applying it to a study on the impact of perioperative paO2 on post-operative complications after neurosurgery. A total of 48 analysis strategies are considered and adjusted using the minP procedure. This approach allows to selectively report the result of the analysis strategy yielding the most convincing evidence, while controlling the type 1 error -- and thus the risk of publishing false positive results that may not be replicable.

Auteurs: Maximilian M Mandl, Andrea S Becker-Pennrich, Ludwig C Hinske, Sabine Hoffmann, Anne-Laure Boulesteix

Dernière mise à jour: 2024-01-21 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2401.11537

Source PDF: https://arxiv.org/pdf/2401.11537

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires