Abordando los grados de libertad de los investigadores en el análisis de datos
Este artículo habla sobre un método para reducir los falsos positivos en el análisis de datos.
― 18 minilectura
Tabla de contenidos
Cuando los investigadores investigan la misma pregunta usando el mismo conjunto de datos, a veces encuentran respuestas diferentes. Esto sucede porque los investigadores tienen muchas opciones sobre cómo analizar los datos. A esto se le suele llamar "grados de libertad del investigador". Cuando se combina con la costumbre de solo compartir los resultados más impresionantes, puede llevar a más errores y hallazgos excesivamente positivos.
Este documento tiene como objetivo abordar este problema tratando la variedad de estrategias de análisis como un problema de Pruebas Múltiples. Dado que diferentes métodos de análisis generalmente dependen entre sí, un método simple como la corrección de Bonferroni no es una buena opción, ya que puede reducir demasiado la potencia de las pruebas estadísticas. En su lugar, la solución propuesta es usar el método de ajuste "minP", que considera las relaciones entre las diferentes pruebas y estima la distribución nula del valor p más pequeño a través de un método de permutación. Este enfoque generalmente tiene más potencia que los métodos más simples mientras aún mantiene un control débil sobre la Tasa de Error Familiar.
Para mostrar cómo funciona esto, aplicamos nuestro enfoque a un estudio que analizaba cómo los niveles de oxígeno durante la cirugía afectan las posibilidades de complicaciones postoperatorias en los pacientes. Consideramos 48 formas diferentes de analizar los datos y las ajustamos utilizando el método minP. Esto permite a los investigadores informar los resultados del análisis que proporciona la evidencia más sólida mientras controlan el riesgo de resultados falsos positivos.
En los últimos años, muchas personas en el ámbito científico han reconocido que hay mucha variabilidad en cómo los investigadores analizan los datos. Hay numerosas maneras sensatas de examinar el mismo conjunto de datos para responder a una pregunta de investigación determinada, y estos métodos pueden producir resultados muy diferentes. Cuando esta variabilidad se combina con la evaluación selectiva, puede aumentar las posibilidades de obtener resultados falsos positivos o inflar tamaños de efecto.
Hay muchas fuentes de incertidumbre en la investigación científica que conducen a variabilidad en los resultados, sin importar la disciplina. Estas incluyen muestreo, medición, elecciones de modelos, elecciones de parámetros, procesamiento de datos y incertidumbre en los métodos. Ignorar estas incertidumbres puede resultar en hallazgos que parecen estables y precisos pero que son en realidad excesivamente optimistas y pueden no ser reproducibles. Más significativamente, las incertidumbres de modelo, parámetro, procesamiento de datos y método conducen a la variabilidad del análisis mencionada anteriormente.
La flexibilidad que tienen los investigadores respecto a sus estrategias de análisis lleva a lo que llamamos "grados de libertad del investigador". Si bien es evidente que informar selectivamente los resultados más favorables de muchos análisis es una práctica cuestionable que socava la credibilidad de los hallazgos, no está tan claro cómo deberían lidiar los investigadores con sus grados de libertad en términos prácticos.
Este estudio sugiere abordar este problema viendo los grados de libertad del investigador como un problema de pruebas múltiples. Más específicamente, abogamos por un método de ajuste para corregir el exceso de optimismo que puede surgir al elegir el mejor valor p de una variedad de estrategias de análisis.
Dado que los resultados de varias estrategias de análisis tienden a estar altamente relacionados, un enfoque básico como la corrección de Bonferroni no es adecuado porque puede reducir significativamente la capacidad de detectar efectos genuinos. En su lugar, recomendamos el método minP y discutimos cómo se puede aplicar de manera efectiva. La potencia obtenida a través de minP es a menudo mayor que con ajustes más simples, mientras que aún mantiene un control débil sobre la tasa de error familiar. Esto se debe a que este procedimiento analiza la distribución del valor p mínimo, que está influenciada por qué tan correlacionadas están las pruebas.
El procedimiento minP tiene un principio claro y directo. Por ejemplo, consideremos un estudio que encontró un valor p pequeño relacionado con la ingesta de cereales y las probabilidades de concebir un hijo masculino. Los investigadores notaron que se analizaron múltiples alimentos, que es un caso típico de pruebas múltiples. Al examinar datos permutados (es decir, datos con el sexo fetal mezclado aleatoriamente), señalaron que un valor p tan pequeño como 0.0034 podría ocurrir aproximadamente el 28 por ciento de las veces cuando no hay un efecto real. Usaron efectivamente el procedimiento minP para ajustar el valor p original de 0.0034 a 0.28 en el contexto de su análisis que involucraba varios artículos alimenticios. Nuestra sugerencia es adaptar este enfoque para manejar los aspectos estadísticos de la crisis de replicación que enfrentan los investigadores debido a los grados de libertad.
El procedimiento minP se basa en estimar la distribución nula del valor p más pequeño a través de un enfoque basado en permutación. Sin embargo, cabe señalar que este método basado en permutaciones no siempre es factible. En algunas situaciones, podría ser más apropiado confiar en resultados teóricos sobre la distribución del valor p más pequeño o el estadístico máximo.
Este documento tiene como objetivo unir dos campos científicos. Uno es la comunidad de metaciencia, que ha reconocido que la crisis de replicación en la ciencia tiene algunas raíces en problemas de multiplicidad. Sin embargo, no ha formalizado completamente estos problemas relacionados con pruebas múltiples ni ha hecho uso de métodos de ajuste conocidos para reducir los resultados falsos positivos. El segundo es la comunidad de pruebas múltiples, que está desarrollando cada vez más métodos robustos para manejar múltiples pruebas con dependencias. Desafortunadamente, estos métodos aún no se aplican ampliamente cuando se trata de ajustar los grados de libertad del investigador en escenarios prácticos. Las barreras incluyen la falta de comunicación entre los dos grupos y la complejidad de los métodos. Además, estos métodos a menudo no se aplican a todos los tipos de análisis, sino solo a ciertos modelos estadísticos, requiriendo suposiciones que pueden no ser siempre válidas en la práctica. Este documento tiene como objetivo presentar un método sencillo, el procedimiento minP, para ajustar los grados de libertad del investigador en contextos simples mientras se fomenta la colaboración entre las dos comunidades.
A continuación, describimos los desafíos que plantean los grados de libertad del investigador y discutimos posibles soluciones de la literatura. Para ilustrar nuestro enfoque, proporcionamos un estudio de ejemplo que examina los efectos de la presión arterial parcial de oxígeno durante la cirugía en la ocurrencia de complicaciones postoperatorias. Nuestro enfoque se detalla en las siguientes secciones, junto con resultados del conjunto de datos de ejemplo y discusión sobre limitaciones y posibles extensiones.
Antecedentes: Grados de Libertad del Investigador
Cuando se analiza datos biomédicos, los investigadores enfrentan numerosas decisiones que pueden parecer menores al principio, pero pueden influir mucho en los resultados. Surgen preguntas como qué factores de confusión deben ajustarse, cómo manejar los datos faltantes o los valores atípicos, si realizar una transformación logarítmica de ciertas variables o cómo manejar pequeñas categorías de datos. La flexibilidad en hacer estas elecciones es lo que llamamos "grados de libertad del investigador".
En muchos casos, ni la teoría académica ni la orientación práctica ofrecen una manera confiable de determinar el mejor enfoque. Mientras que herramientas como el Criterio de Información Akaike (AIC) pueden ser útiles, no proporcionan respuestas claras para cada pregunta que surja. Además, la elección de estas herramientas a menudo se ve nublada por incertidumbres porque generalmente hay múltiples opciones válidas. Por ejemplo, ¿debería elegirse AIC o el Criterio de Información Bayesiano (BIC) para la selección de modelos? ¿Debería usarse un gráfico QQ o debería aplicarse una prueba específica para evaluar la normalidad de la variable?
Cuando la evaluación selectiva se combina con los grados de libertad del investigador, puede causar un aumento en la tasa de hallazgos falsos positivos, inflados tamaños de efecto y resultados excesivamente optimistas. Términos como "p-hacking" y "pesca de significancia" se refieren a la práctica de informar selectivamente los resultados estadísticamente significativos de varios análisis. Este optimismo no se limita únicamente a la prueba de hipótesis. "Expediciones de pesca", "selección de cereza" o "dragado de datos" son problemas comunes en diferentes tipos de análisis.
Las múltiples estrategias de análisis complican particularmente los estudios que involucran registros de salud electrónicos y datos administrativos, los cuales se ven como evidencia "del mundo real". Con estos datos que no fueron originalmente recolectados con fines de investigación, las incertidumbres pueden volverse aún más pronunciadas en comparación con los datos de investigación observacional clásica. En los últimos años, han surgido resultados contradictorios de estudios en este contexto, destacando el papel de las incertidumbres en general. Por ejemplo, algunos estudios produjeron resultados contradictorios sobre los riesgos asociados con las apendectomías laparoscópicas y la relación entre enfermedades cardiovasculares y el uso de marihuana. En ambos casos, diferentes equipos de investigación analizaron los mismos datos pero llegaron a conclusiones diferentes debido a elecciones aparentemente triviales.
Soluciones Parciales y Trabajo Relacionado
Se han propuesto diversas estrategias para gestionar la incertidumbre relacionada con los métodos de análisis. Un método directo es establecer la estrategia de análisis antes de realizar cualquier análisis. Esto puede mejorar la transparencia y reducir la probabilidad de generar múltiples resultados. Documentos de pre-registro disponibles públicamente pueden delinear el plan de análisis, evitando así la evaluación selectiva. Esta práctica de pre-registro es estándar en ensayos clínicos, aunque todavía hay debate sobre si estos planes son lo suficientemente detallados como para prevenir la evaluación selectiva en tales entornos regulados. En la investigación exploratoria y en conjuntos de datos complejos, establecer una estrategia de análisis fija puede ser aún más desafiante.
Un enfoque alternativo es reconocer la incertidumbre de manera transparente y reportar el rango de resultados obtenidos de diferentes estrategias de análisis. Este método se ha propuesto en varios formatos en los últimos años, incluyendo el marco de vibración de efecto, análisis multiverso y análisis de curva de especificación. Sin embargo, informar múltiples resultados puede a menudo generar confusión sin un mensaje claro que se pueda llevar.
Otro método implica realizar varios análisis y elegir los resultados más favorables, pero publicándolos solo si pueden ser confirmados al ejecutar el mismo análisis en un conjunto de datos independiente. Este enfoque sugiere que sin hipótesis altamente específicas definidas de antemano, hay innumerables formas de analizar un conjunto de datos, haciendo que sea crucial validar hallazgos con datos adicionales siempre que sea posible. Sin embargo, obtener un conjunto de datos de validación separado puede ser difícil, y dividir los datos puede llevar a una pérdida significativa en la potencia de análisis que estaría disponible si se utilizara el conjunto completo de datos.
Para los contextos profundamente afectados por varias incertidumbres, donde otros métodos pueden no ser adecuados, proponemos un enfoque alternativo basado en correcciones de pruebas múltiples. En particular, sugerimos aplicar métodos de corrección para múltiples pruebas a los resultados favorecidos, lo que ayudará a reducir el riesgo de error de tipo 1.
Ejemplo Motivador
Como un caso motivador, examinamos un proyecto de investigación reciente que analiza cómo la presión arterial parcial de oxígeno durante la craniectomía afecta las posibilidades de complicaciones postoperatorias en pacientes neuroquirúrgicos. Este estudio utiliza datos de la práctica clínica rutinaria en un hospital de Múnich, como se mencionó anteriormente.
Si bien los daños de los niveles bajos de oxígeno (hipoxemia) durante la cirugía están bien estudiados, los posibles problemas relacionados con niveles altos de oxígeno (hiperoxemia) no están tan bien entendidos. Los riesgos asociados con la sobredimensión de oxígeno durante las cirugías todavía se debaten entre los anestesiólogos y siguen siendo un área de investigación en curso.
El conjunto de datos proviene de cirugías realizadas en pacientes sin enfermedades pulmonares. Se registraron signos vitales en varios momentos durante la cirugía. Es esencial tener en cuenta que la medición continua de la presión arterial parcial no es factible, a diferencia de otros parámetros vitales. Para evaluar de manera confiable la hiperoxemia, los valores deben ser estimados usando un modelo que se base en otras variables que puedan evaluarse de forma continua y no invasiva. Sugerimos utilizar técnicas de aprendizaje automático, específicamente bosques aleatorios y regresión lineal regularizada, para este propósito.
En este documento, analizamos la relación entre la presión arterial parcial de oxígeno y la ocurrencia de complicaciones postoperatorias. Incluso si ignoramos los problemas de elección del modelo relacionados con la selección de factores de confusión, este análisis tiene numerosos elementos inciertos. Describiremos estas incertidumbres en detalle, junto con las opciones que consideramos para nuestro estudio ilustrativo.
Las elecciones específicas en las que nos centramos parecen un árbol de decisiones: (i) cómo imputar valores faltantes, (ii) el modelo utilizado para valores no observados, (iii) el enfoque de selección de parámetros, (iv) cómo agregar los datos y (v) cómo se codifica la variable de exposición y el método de prueba. La imputación de datos faltantes puede incluir o excluir valores faltantes, donde la imputación múltiple es una de las estrategias sugeridas. Los valores no observados pueden ser modelados usando bosques aleatorios o un modelo lineal general regularizado. La agregación de las múltiples mediciones tomadas durante la cirugía podría ser ya sea la media o la mediana. Finalmente, para la variable de exposición, podemos tratarla como continua aplicando regresión logística, dicotomizarla en base a un corte específico, o categorizarla en múltiples grupos para diferentes pruebas.
En total, examinamos 48 configuraciones diferentes para la estrategia de análisis, calculadas multiplicando las diferentes elecciones realizadas en cada paso.
Grados de Libertad del Investigador como un Problema de Pruebas Múltiples
En las secciones siguientes, nos centraremos en análisis que involucran pruebas estadísticas. Consideramos a un investigador que examina una pregunta de investigación o una hipótesis sobre el impacto del oxígeno en las complicaciones postoperatorias.
Aquí, el término "estrategia de análisis" cubre tanto los pasos preparatorios tomados antes de aplicar las pruebas estadísticas como las características de las pruebas en sí. Diferentes elecciones llevan a cambios en los Valores P resultantes, variando así las decisiones de prueba (si rechazar o aceptar la hipótesis nula). Emplear diferentes estrategias para la misma pregunta de investigación es esencialmente realizar múltiples pruebas.
Denotemos el número de estrategias de análisis que un investigador explora. Cada una de las pruebas involucradas está vinculada a una hipótesis nula. Estas hipótesis y sus alternativas pueden representar diferentes formas de cuantificar la pregunta de investigación poco definida sobre el impacto del oxígeno en las complicaciones.
Las estrategias de análisis pueden diferir en varios aspectos, como cómo se manejan los datos faltantes o cómo se tratan los valores atípicos. Como resultado, realizar múltiples pruebas y destacar el valor p más bajo puede inflar la probabilidad de cometer al menos un error tipo 1. Este problema contribuye a la mayor preocupación sobre por qué la tasa de resultados falsos positivos parece más alta que el nivel de significancia previsto.
Controlando la Tasa de Error Familiar (FWER)
Siguiendo nuestra discusión sobre los grados de libertad del investigador como un problema de pruebas múltiples, ahora buscamos maneras de gestionar la tasa de error familiar. Específicamente, nuestro objetivo es controlar la probabilidad de cometer al menos un error tipo 1 a través del conjunto de pruebas, particularmente en situaciones donde todas las hipótesis nulas son verdaderas.
Existen diferentes métodos de ajuste para lograr varios niveles de control sobre la tasa de error familiar. El procedimiento de Bonferroni es la técnica más conocida y directa, ya que proporciona un control fuerte bajo cualquier combinación de hipótesis nulas verdaderas y falsas. Este método ajusta el nivel de significancia a la baja, o corresponde, modifica los valores p para reflejar este umbral más bajo. Sin embargo, este método es conocido por ser conservador y puede carecer de potencia cuando las pruebas están estrechamente relacionadas.
El procedimiento minP es único en que tiene en cuenta las relaciones entre las pruebas al centrarse en el valor p más pequeño entre las pruebas realizadas. Este ajuste aumenta la probabilidad de detectar hallazgos genuinos, haciéndolo más adecuado para casos donde las pruebas tienden a depender unas de otras. Si bien el procedimiento minP controla la tasa de error familiar de manera débil, esto no es un inconveniente para nuestra situación, donde buscamos evitar falsos positivos.
En el contexto de nuestro análisis sobre la relación entre los niveles de oxígeno y las complicaciones postoperatorias, describiremos cómo funciona el ajuste minP. Proporciona un valor p ajustado al calcular la proporción de permutaciones para las cuales el valor p más pequeño es inferior o igual al que se obtuvo del conjunto de datos original. Esto requiere un número considerable de permutaciones para funcionar de manera efectiva.
Diseño del Estudio
El objetivo del estudio es ilustrar cómo funciona el procedimiento minP al ajustar los desafíos de pruebas múltiples planteados por los grados de libertad del investigador. Utilizamos tanto conjuntos de datos originales como permutados y analizamos las 48 estrategias especificadas.
Los valores p se dejan sin cambios, se ajustan mediante el método de Bonferroni o se modifican utilizando el procedimiento minP que involucra 1000 permutaciones. Todos los análisis se llevan a cabo para varios tamaños de muestra.
El estudio se llevará a cabo en dos partes. Primero, evaluaremos la tasa de error familiar a través de diferentes tamaños de muestra usando los tres métodos de ajuste. Construiremos conjuntos de datos sin asociación genuina entre las dos variables principales generando aleatoriamente la variable de resultado. Esta simulación se repetirá varias veces, permitiéndonos verificar cuántas veces hay al menos un resultado falso positivo.
En segundo lugar, analizaremos el conjunto de datos original. Basándonos en nuestro entendimiento médico, anticipamos una fuerte conexión entre los niveles de oxígeno y los resultados, pero no conocemos las relaciones precisas. Para cada uno de los tres métodos, calcularemos la proporción de valores p significativos entre las 48 configuraciones a través de varios umbrales.
A medida que la relación se vuelve más significativa con tamaños de muestra más grandes, nos enfocamos en escenarios de muestra pequeña. Esperamos que los valores p no ajustados muestren una mayor proporción de resultados significativos en comparación con los valores p ajustados. Además, el método de Bonferroni será más conservador que el ajuste minP.
En este trabajo, hemos delineado un marco para realizar análisis estadísticos válidos a la luz de los grados de libertad del investigador a través de ajustes de pruebas múltiples. Nuestras simulaciones y datos del mundo real sugieren que el procedimiento minP es adecuado para este propósito.
Si bien los ajustes basados en permutaciones se han recomendado anteriormente para abordar los grados de libertad del investigador, nuestro enfoque difiere en varios aspectos clave. Hemos formalizado la multiplicidad con respecto a las estrategias de análisis, lo que nos permite aprovechar los métodos conocidos en el campo.
Aunque nuestro estudio presenta un mecanismo de ajuste sencillo para la investigación, plantea preguntas para futuras indagaciones. Definir un procedimiento de permutación adecuado que tenga en cuenta las particularidades de los datos puede ser complejo. Además, entender cómo se compara nuestro enfoque con los métodos de validación de datos sería beneficioso para los investigadores que sopesan las compensaciones entre potencia y precisión.
Finalmente, es importante aclarar que nuestro documento no aboga por el uso exclusivo de valores p. En su lugar, promovemos la noción de que cuando la prueba estadística es parte del proceso de análisis y múltiples estrategias generan resultados, hay mérito en ajustar por la multiplicidad antes de interpretar esos hallazgos. Nuestro método permite informar selectivamente la evidencia más fuerte mientras se gestiona el riesgo de resultados falsos positivos, contribuyendo así a una mejor replicabilidad en la investigación.
Título: Addressing researcher degrees of freedom through minP adjustment
Resumen: When different researchers study the same research question using the same dataset they may obtain different and potentially even conflicting results. This is because there is often substantial flexibility in researchers' analytical choices, an issue also referred to as ''researcher degrees of freedom''. Combined with selective reporting of the smallest p-value or largest effect, researcher degrees of freedom may lead to an increased rate of false positive and overoptimistic results. In this paper, we address this issue by formalizing the multiplicity of analysis strategies as a multiple testing problem. As the test statistics of different analysis strategies are usually highly dependent, a naive approach such as the Bonferroni correction is inappropriate because it leads to an unacceptable loss of power. Instead, we propose using the ''minP'' adjustment method, which takes potential test dependencies into account and approximates the underlying null distribution of the minimal p-value through a permutation-based procedure. This procedure is known to achieve more power than simpler approaches while ensuring a weak control of the family-wise error rate. We illustrate our approach for addressing researcher degrees of freedom by applying it to a study on the impact of perioperative paO2 on post-operative complications after neurosurgery. A total of 48 analysis strategies are considered and adjusted using the minP procedure. This approach allows to selectively report the result of the analysis strategy yielding the most convincing evidence, while controlling the type 1 error -- and thus the risk of publishing false positive results that may not be replicable.
Autores: Maximilian M Mandl, Andrea S Becker-Pennrich, Ludwig C Hinske, Sabine Hoffmann, Anne-Laure Boulesteix
Última actualización: 2024-01-21 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2401.11537
Fuente PDF: https://arxiv.org/pdf/2401.11537
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.