Usando Aprendizaje Automático para Evaluar la Calidad de la Investigación Médica
Este artículo habla sobre cómo el aprendizaje automático mejora la evaluación de la literatura médica.
― 6 minilectura
Tabla de contenidos
Cada día se publica una gran cantidad de investigaciones médicas. Con tantos Artículos saliendo, se vuelve complicado para los Profesionales de la salud encontrar los que son realmente útiles para su práctica. Muchos artículos pueden no ofrecer información confiable, y filtrar entre ellos puede llevar mucho tiempo y esfuerzo.
Filtrando Artículos de Calidad
Para ayudar con este desafío, científicos e investigadores han creado métodos de búsqueda para encontrar artículos De alta calidad rápidamente. Estos métodos se enfocan en tipos específicos de Estudios, como revisiones sistemáticas y ensayos controlados aleatorios, que son conocidos por su fiabilidad. Aunque estos métodos de búsqueda funcionan bien para encontrar estudios importantes, a menudo devuelven muchos resultados que no cumplen con los estándares de calidad. Esto lleva a perder tiempo, ya que los profesionales de la salud tienen que leer numerosos artículos irrelevantes para encontrar los que necesitan.
El Papel del Aprendizaje automático
Recientemente, se ha introducido el aprendizaje automático (ML) para ayudar a identificar investigaciones médicas de alta calidad. El ML es una tecnología que permite a las computadoras aprender de datos y hacer predicciones basadas en patrones en esos datos. Hay diferentes tipos de técnicas de aprendizaje automático, y algunas de las más comunes incluyen el aprendizaje supervisado, el aprendizaje no supervisado y el aprendizaje en conjunto.
El aprendizaje supervisado utiliza un conjunto de datos etiquetados para entrenar al sistema a tomar decisiones. Por ejemplo, los investigadores han utilizado varios algoritmos como árboles de decisión y redes neuronales para predecir resultados médicos. Otra área prometedora es el aprendizaje automático automatizado (AutoML), que simplifica el proceso de construcción y optimización de estos modelos.
Una Mirada al Proceso
En una unidad de investigación en salud específica, han establecido un sistema para evaluar estudios tan pronto como se publican. Miran varios tipos de artículos en las principales revistas de salud y utilizan estrategias de búsqueda bien probadas para recuperar estudios candidatos de bases de datos. Después de encontrar artículos, asistentes de investigación capacitados los revisan cuidadosamente para asegurarse de que cumplan con estándares de calidad específicos.
Una vez que los artículos son considerados relevantes, son clasificados por su importancia por una red de profesionales de la salud en todo el mundo. Este proceso ayuda a recopilar y resumir investigaciones valiosas para diferentes usuarios, incluidos médicos y responsables de políticas.
Mejorando la Eficiencia
Los investigadores buscan mejorar la eficiencia de su sistema incorporando aprendizaje automático. Quieren facilitar la búsqueda de artículos de alta calidad mientras mantienen altos estándares. Para esto, entrenaron un sistema de aprendizaje automático utilizando artículos previamente revisados para desarrollar modelos que predicen la probabilidad de que nuevos artículos cumplan con los criterios de calidad.
Al usar un conjunto de datos sólido y aprendizaje automatizado, los investigadores pudieron probar diferentes modelos de manera eficiente. El enfoque fue aumentar el número de artículos relevantes encontrados mientras se reducían los innecesarios. A su vez, esto ahorraría tiempo a quienes necesitan evaluar la literatura.
Entrenando los Modelos
Para entrenar los modelos de aprendizaje automático, los investigadores usaron un conjunto de artículos que habían sido evaluados críticamente por su calidad. Emplearon diversas técnicas para ayudar a los modelos a entender cuáles artículos eran de alta calidad y cuáles no. Usando diferentes algoritmos y configuraciones, apuntaron a encontrar el mejor enfoque para predecir la calidad de los artículos.
Durante la fase de entrenamiento, observaron específicamente los títulos y resúmenes de los artículos. El proceso involucró tomar un conjunto de artículos, usar algunos para el entrenamiento y reservar otros para la prueba para ver qué tal funcionaron los modelos.
Evaluando el Rendimiento
Después de entrenar los modelos de aprendizaje automático, se probaron para evaluar su efectividad. Esto incluía calcular varios métricas de rendimiento, como la sensibilidad-la capacidad de identificar correctamente artículos de alta calidad-y la especificidad-la capacidad de evitar etiquetar erróneamente artículos de baja calidad como de alta calidad.
En la práctica, se usó el algoritmo de aprendizaje automático para evaluar una cantidad significativa de artículos. Se descubrió que los modelos podían identificar correctamente muchos artículos confiables, al mismo tiempo que indicaban cuáles eran menos propensos a cumplir con los estándares de calidad. Esto resultó en un proceso de evaluación más eficiente, ahorrando significativamente tiempo para los profesionales de la salud.
Conclusión de los Hallazgos
Al incorporar el aprendizaje automático en el proceso de evaluación de artículos, la unidad de investigación en salud pudo mejorar la calidad y velocidad de cómo se revisa la literatura médica. Los modelos demostraron alta sensibilidad y lograron un buen nivel de especificidad, lo que significa que podían filtrar rápidamente los estudios menos relevantes.
El enfoque también ayudó durante la pandemia de COVID-19, cuando el volumen de literatura aumentó drásticamente. El sistema de aprendizaje automático pudo manejar esta carga de trabajo adicional, asegurando el acceso oportuno a investigaciones valiosas para los trabajadores de la salud que necesitaban información actualizada.
Direcciones Futuras
Mirando hacia adelante, el equipo de investigación planea seguir desarrollando modelos de aprendizaje automático. Quieren explorar el uso de técnicas de aprendizaje profundo más avanzadas para mejorar aún más el rendimiento. A medida que el panorama de la investigación médica evoluciona, estas herramientas pueden ofrecer grandes ventajas para garantizar que los profesionales de la salud tengan acceso a la mejor evidencia para su práctica.
El potencial del aprendizaje automático para mejorar la vigilancia de la literatura es prometedor, y el trabajo continuo se centrará en refinar estos sistemas para enfrentar futuros desafíos de manera efectiva. Al mantener el ritmo con el rápido crecimiento de la literatura médica, podemos asegurar que la investigación de alta calidad siga al alcance de quienes más lo necesitan.
Título: Machine learning to increase the efficiency of a literature surveillance system: a performance evaluation
Resumen: BackgroundGiven suboptimal performance of Boolean searching to identify methodologically sound and clinically relevant studies in large bibliographic databases such as MEDLINE, exploring the performance of machine learning (ML) tools is warranted. ObjectiveUsing a large internationally recognized dataset of articles tagged for methodological rigor, we trained and tested binary classification models to predict the probability of clinical research articles being of high methodologic quality to support a literature surveillance program. Materials and MethodsUsing an automated machine learning approach, over 12,000 models were trained on a dataset of 97,805 articles indexed in PubMed from 2012-2018 which were manually appraised for rigor by highly trained research associates with expertise in research methods and critical appraisal. As the dataset is unbalanced, with more articles that do not meet criteria for rigor, we used the unbalanced dataset and over- and under-sampled datasets. Models that maintained sensitivity for high rigor at 99% and maximized specificity were selected and tested in a retrospective set of 30,424 articles from 2020 and validated prospectively in a blinded study of 5253 articles. ResultsThe final selected algorithm, combining a model trained in each dataset, maintained high sensitivity and achieved 57% specificity in the retrospective validation test and 53% in the prospective study. The number of articles needed to read to find one that met appraisal criteria was 3.68 (95% CI 3.52 to 3.85) in the prospective study, compared with 4.63 (95% CI 4.50 to 4.77) when relying only on Boolean searching. ConclusionsML models improved by approximately 25% the efficiency of detecting high quality clinical research publications for literature surveillance and subsequent dissemination to clinicians and other evidence users.
Autores: Cynthia Lokker, W. Abdelkader, E. Bagheri, P. Rick, C. Cotoi, T. Navarro, F. Germini, L.-A. Linkins, R. B. Haynes, L. Chu, M. Afzal, A. Iorio
Última actualización: 2023-06-19 00:00:00
Idioma: English
Fuente URL: https://www.medrxiv.org/content/10.1101/2023.06.18.23291567
Fuente PDF: https://www.medrxiv.org/content/10.1101/2023.06.18.23291567.full.pdf
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a medrxiv por el uso de su interoperabilidad de acceso abierto.