Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Ciencias de la Salud# Informática sanitaria

Mejorando la Selección de Cohortes para la Investigación Biomédica

Una plataforma que simplifica el acceso a datos para investigadores en estudios de cáncer.

― 8 minilectura


Optimización del acceso aOptimización del acceso adatos de investigacióncohortes.la eficiencia en la selección deUna herramienta de autoservicio mejora
Tabla de contenidos

La investigación observacional usando datos del mundo real es super clave para la investigación biomédica. Los estudios grandes con muchos voluntarios, conocidos como estudios de cohorte, son especialmente valiosos. Estos estudios recopilan datos de los participantes durante muchos años y pueden apoyar un montón de proyectos de investigación. Algunas de las cohortes más grandes incluyen programas como el NIH All of Us Research Program, UK Biobank y el Million Veteran Program. Estos pueden involucrar a cientos de miles de participantes y brindan un montón de información para futuras investigaciones.

Elegir los Datos Correctos para Investigar

Los investigadores rara vez necesitan todos los datos recogidos de estas grandes cohortes. El término "selección de cohorte" se refiere al proceso de crear conjuntos de datos específicos para proyectos de investigación mientras se mantiene la información personal de los participantes a salvo. Esto implica definir el diseño del estudio, establecer criterios de elegibilidad y elegir puntos de datos específicos para analizar. El uso creciente de registros de salud electrónicos y bases de datos de investigación depende en gran medida de una selección efectiva de cohortes. Las guías recomiendan que los resultados del estudio expliquen claramente cómo se llevó a cabo la selección de la cohorte.

Cuando los datos son sensibles o propiedad privada, los proveedores de datos pueden necesitar pasar mucho tiempo ayudando a los investigadores a entender los datos, optimizar sus solicitudes y realizar la selección de la cohorte. A pesar de los avances en tecnología, muchos procesos de Selección de Cohortes todavía tardan demasiado y pueden ser un gran cuello de botella en la investigación, incluso con nuevos sistemas basados en la nube.

Herramientas de Autoservicio para Investigadores

Otros proyectos han creado herramientas de autoservicio para ayudar a los investigadores a acceder a los datos directamente. El objetivo era permitir que los investigadores seleccionaran fácilmente sus cohortes y obtuvieran datos sin depender de los gestores de datos. Este informe describe la creación de la Plataforma de Investigadores CTS, que permite a los investigadores consultar, seleccionar, examinar y obtener rápidamente los datos específicos que necesitan para sus proyectos.

Resumen del Estudio de Maestros de California (CTS)

El Estudio de Maestros de California es un estudio de investigación sobre el cáncer que comenzó en 1995 con más de 133,000 mujeres adultas participantes. Estas participantes completaron encuestas y permitieron que se recopilara su información para la investigación. Han llenado varias encuestas de seguimiento a lo largo de los años, proporcionando información valiosa sobre salud y estilo de vida. Las actualizaciones regulares de los registros de salud han llevado a identificar a muchos participantes con problemas de salud, incluido el cáncer.

Los datos del CTS se mantienen privados para proteger a los participantes. Las encuestas iniciales se recopilaron de 1995 a 1999, y los datos continúan usándose en varios estudios hoy en día.

Métodos Anteriores de Selección de Cohortes

Antes de 2015, la selección de cohortes en CTS era completamente manual. Los gestores de datos se encargaban de las solicitudes de los investigadores y creaban los conjuntos de datos que necesitaban. En 2016, se introdujo un "data commons", el cual centralizó todos los datos y herramientas en un entorno seguro. A pesar de esta mejora, todavía era necesaria la selección manual de cohortes. Los investigadores tenían que especificar detalles sobre qué datos querían, y el equipo de datos tenía que reunirlo manualmente.

La Necesidad de una Selección de Cohortes Escalable

El objetivo era eliminar por completo la necesidad de selección manual. Los investigadores deberían poder interactuar de forma independiente con los datos y obtener sus propios resultados. La configuración anterior requería tres componentes clave para facilitar esto: flujos de trabajo amigables para la selección de cohortes, una aplicación web para el Acceso a Datos y procesos para generar automáticamente los entregables necesarios, como conjuntos de datos y scripts de análisis.

Flujos de Trabajo Amigables

Dado que el CTS se centra principalmente en el riesgo de cáncer, el diseño de la herramienta de selección de cohortes necesitaba reflejar esto. El primer paso era identificar posibles diseños de estudio, resultados y tipos de datos basados en encuestas y registros de salud de los participantes. Al capturar requisitos de usuario detallados, buscaban crear un proceso intuitivo para seleccionar datos. Los usuarios necesitarían seleccionar varios parámetros y tener la capacidad de modificar sus selecciones sin empezar de cero.

Gestión de datos y Flujo de Trabajo de Selección

Para mejorar la gestión de datos, el CTS vinculó datos de cáncer, hospitalización y encuestas en una sola base de datos eficiente. Esto permitió a los investigadores acceder y analizar datos fácilmente sin lidiar con consultas complicadas de bases de datos tradicionales. La arquitectura ayudó a garantizar una experiencia de usuario fluida mientras mantenía la seguridad y la privacidad.

Disponibilidad de Datos y Código

Todos los datos y códigos relacionados con el CTS son accesibles a través de la Plataforma de Investigadores, que los investigadores pueden utilizar si aceptan manejar los datos de manera responsable. Aunque los datos no están disponibles públicamente por razones de privacidad, la plataforma asegura que cualquiera que quiera usar los datos para investigación pueda acceder a ellos.

Construcción de una Aplicación Web Amigable

El desarrollo de la aplicación web se centró en la facilidad de uso, particularmente para investigadores que pueden no tener mucha experiencia en análisis de datos. La aplicación guía a los usuarios a través del proceso de selección, proporcionando pasos claros y opciones para elegir sus cohortes y datos. Cada paso del proceso es sencillo, lo que permite a los usuarios seleccionar puntos finales, establecer reglas y revisar sus selecciones en tiempo real.

Acceso Inmediato a Datos de Investigación

Una vez que los investigadores han hecho sus selecciones, la aplicación puede generar rápidamente los entregables necesarios, incluidos conjuntos de datos personalizados y scripts de análisis. Esta característica permite a los investigadores comenzar sus análisis casi de inmediato, con entregables generalmente listos en menos de 30 segundos.

Seguimiento de Proyectos y Cuentas de Usuarios

Los investigadores pueden registrarse para obtener cuentas en el sitio web del CTS, que lleva un seguimiento de los detalles del proyecto a medida que avanzan. Este sistema permite a los investigadores monitorear el estado del proyecto y obtener acceso a la herramienta de selección de cohortes una vez que sus propuestas sean aprobadas. La integración con una herramienta de gestión de proyectos ayuda aún más en el seguimiento de la información relacionada con el proyecto.

El Alcance del Acceso a Datos

Todos los conjuntos de datos generados incluyen covariables esenciales para ayudar con el análisis. En lugar de requerir que los usuarios tomen decisiones desde cero, la aplicación proporciona opciones predeterminadas para elecciones comunes y permite espacio para la personalización.

Mejoras Continuas en la Plataforma

La Plataforma de Investigadores se lanzó completamente en marzo de 2021 después de meses de pruebas y refinamientos. Inicialmente apoyaba estudios centrados en resultados de cáncer, pero desde entonces se ha expandido para incluir resultados de hospitalización y mortalidad. Esta adaptabilidad permite a los investigadores explorar varios puntos de datos sin necesitar mucha ayuda del equipo de investigación.

Conclusión sobre el Proceso de Selección de Cohortes

La selección de cohortes es un desafío importante en diversos entornos de investigación. Tanto los proveedores de datos como los investigadores necesitan una forma eficiente de identificar y acceder a los datos adecuados para sus estudios. Los métodos tradicionales pueden ser intensivos en mano de obra y lentos, lo que dificulta satisfacer las demandas de la investigación moderna.

Al desarrollar una plataforma de selección de cohortes de autoservicio, el CTS ha avanzado en la reducción de los cuellos de botella asociados con el acceso a datos. Este enfoque automatizado y amigable ha demostrado ser efectivo, incluso para conjuntos de datos complejos. El diseño de la plataforma enfatiza la importancia de tener flujos de trabajo robustos y claros en los que los investigadores puedan confiar para facilitar su trabajo.

El éxito de esta herramienta destaca el potencial de los procesos automatizados para mejorar la eficiencia de la investigación mientras se asegura la privacidad y seguridad de los datos. A medida que más investigadores utilicen esta plataforma, la retroalimentación continua ayudará a dar forma a mejoras y adaptaciones futuras para satisfacer las necesidades en evolución de la comunidad de investigación.

Fuente original

Título: Automated self-service cohort selection for large-scale population sciences and observational research: The California Teachers Study Researcher Platform

Resumen: ObjectiveCohort selection is ubiquitous and essential, but manual and ad hoc approaches are time-consuming, labor-intense, and difficult to scale. We sought to automate the task of cohort selection by building self-service tools that enable researchers to independently generate datasets for population sciences research. Materials and MethodsThe California Teachers Study (CTS) is a prospective observational study of 133,477 women who have been followed continuously since 1995. The CTS includes extensive survey-based and real-world data from cancer, hospitalization, and mortality linkages. We curated data from our data warehouse into a column-oriented database and developed a researcher-facing web application that guides researchers through the project lifecycle; captures researchers inputs; and automatically generates custom and analysis-ready data, code, dictionaries, and documentation. ResultsResearchers can register, access data, and propose projects on the CTS Researcher Platform via our CTS website. The Platform supports cohort and cross-sectional study designs for cancer, mortality, and any other ICD-based phenotypes or endpoints. User-friendly prompts and menus capture analytic design, inclusion/exclusion criteria, endpoint definitions, censoring rules, and covariate selection. Our platform empowers researchers everywhere to query, choose, review, and automatically and quickly receive custom data, analytic scripts, and documentation for their research projects. Research teams can review, revise, and update their choices anytime. DiscussionWe replaced inefficient traditional cohort-selection processes with an integrated self-service approach that simplifies and improves cohort selection for all stakeholders. Compared with manual methods, our solution is faster and more scalable, user-friendly, and collaborative. Other studies could re-configure our individual database, project-tracking, website, and data-delivery components for their own specific needs, or they could utilize other widely available solutions (e.g., alternative database or project-tracking tools) to enable similarly automated cohort-selection in their own settings. Our comprehensive and flexible framework could be adopted to improve cohort selection in other population sciences and observational research settings.

Autores: James V Lacey, E. S. Spielfogel, J. L. Benbow, K. E. Savage, K. Lin, C. A. M. Anderson, J. Clague-DeHart, C. N. Duffy, M. E. Martinez, H. L. Park, C. A. Thompson, S. S. Wang, S. Chandra

Última actualización: 2023-12-26 00:00:00

Idioma: English

Fuente URL: https://www.medrxiv.org/content/10.1101/2023.12.22.23300461

Fuente PDF: https://www.medrxiv.org/content/10.1101/2023.12.22.23300461.full.pdf

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a medrxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares