El papel de la IA en las revisiones sistemáticas
Explorando cómo las herramientas de IA agilizan las revisiones sistemáticas en la investigación sanitaria.
― 13 minilectura
Tabla de contenidos
- Minería de texto y Automatización en Revisiones Sistemáticas
- Papel e Impacto de la IA y los Modelos de Lenguaje Grande
- Resumen de Revisiones Originales
- Selección de Modelos y Análisis de Costos
- Recreando el Filtrado de Títulos y Resúmenes con Modelos de IA
- Recreando el Filtrado de Texto Completo con Modelos de IA
- Criterios de Comparación y Análisis de Discrepancias
- Evaluación del Desempeño de ChatGPT-3.5 Turbo y Procedimiento de Validación
- Manejo de Datos y Consideraciones Éticas
- Resultados de la Revisión Original
- Matrices de Confusión de Títulos-Resumen para cada Revisión
- Métricas de Desempeño de Títulos-Resumen para cada Revisión
- Auto-validación de Títulos-Resumen de Respuestas del Modelo de IA
- Matrices de Confusión para el Filtrado de Texto Completo
- Métricas de Desempeño para el Filtrado de Texto Completo
- Auto-validación de Respuestas del Modelo de IA Durante el Filtrado de Texto Completo
- Papel e Impacto de la IA y los Modelos de Lenguaje Grande
- Integración con Innovaciones Metodológicas y Herramientas Existentes
- Dependencia Cauta de Sistemas de Filtrado Automatizados
- Validación de Datos y su Impacto en el Desempeño del Modelo
- Impacto en Políticas y Prácticas
- Direcciones Futuras
- Fuente original
Las Revisiones Sistemáticas y los meta-análisis son métodos importantes que se usan para recopilar y resumir hallazgos de investigaciones, ayudando a guiar decisiones en el cuidado de la salud y en políticas. Sin embargo, la forma tradicional de hacer estas revisiones toma mucho tiempo y esfuerzo, a menudo más de un año y requiriendo una buena cantidad de dinero. El aumento rápido en el número de artículos científicos hace que este trabajo sea aún más difícil, complicando el proceso de revisión y necesitando nuevos métodos para hacerlo más fácil sin perder calidad.
Las dificultades para llevar a cabo revisiones sistemáticas van más allá de simplemente necesitar recursos. Hay un retraso en incluir los hallazgos de investigación más recientes debido a lo que tardan en publicarse los estudios. Esto afecta la relevancia y la actualidad de la evidencia. Además, el proceso manual de filtrado, que es un paso crucial en las revisiones, no solo es lento, sino que también puede llevar a errores e inconsistencias, incluso cuando participan revisores experimentados. A medida que la naturaleza de las revisiones sistemáticas cambia, incluyendo la necesidad de revisiones más rápidas en respuesta a problemas de salud urgentes, hay una necesidad urgente de métodos de revisión más flexibles y eficientes para estar al día con el ritmo de la investigación.
Minería de texto y Automatización en Revisiones Sistemáticas
Usar tecnologías de minería de texto y automatización ofrece herramientas útiles para ayudar a abordar los desafíos de las revisiones sistemáticas. La minería de texto implica analizar datos textuales para extraer información importante, lo que puede ayudar en diferentes etapas del proceso de revisión, como encontrar estudios, filtrarlos y recopilar datos. Estos avances no solo pueden acelerar el proceso de revisión, sino que también mejorar la precisión de la información recopilada, lo que lleva a revisiones sistemáticas de mayor calidad.
El Procesamiento de Lenguaje Natural (NLP), que está estrechamente relacionado con la minería de texto, permite que las computadoras procesen y comprendan el lenguaje humano. Esta tecnología juega un papel vital en la automatización de las revisiones sistemáticas porque involucra tareas como encontrar artículos relevantes en grandes colecciones y clasificar documentos según si deben incluirse o excluirse de una revisión. Los desarrollos recientes en NLP, incluidos los modelos de lenguaje avanzados, han mejorado enormemente la capacidad de analizar y entender textos científicos. Estas tecnologías permiten un análisis más detallado de los artículos de investigación, resultando en métodos mejorados y escalables para llevar a cabo revisiones.
Papel e Impacto de la IA y los Modelos de Lenguaje Grande
La introducción de la Inteligencia Artificial (IA) y modelos de lenguaje avanzados en las revisiones sistemáticas representa un cambio significativo hacia métodos más eficientes y efectivos de recopilación de evidencia. Las tecnologías de IA y NLP ayudan a automatizar el proceso de extracción y análisis de datos de grandes cantidades de literatura, agilizando las revisiones. Los modelos de lenguaje son especialmente notables por su capacidad para comprender el contexto y las sutilezas del lenguaje, lo que los hace muy adecuados para tareas como el filtrado de literatura y la extracción de datos.
Este estudio analiza cómo estos modelos avanzados pueden ayudar durante el filtrado inicial de artículos. Al automatizar este paso, los investigadores pueden enfocarse más en tareas complejas como la síntesis e interpretación de datos. Además, las herramientas de IA pueden mejorar la consistencia y reducir sesgos al hacer que la aplicación de criterios de inclusión y exclusión sea más uniforme. A medida que el campo se desarrolla, la IA y los modelos de lenguaje se están convirtiendo en herramientas esenciales para proporcionar evidencia oportuna y confiable, lo cual es crucial para dar forma a las políticas y prácticas de salud.
Resumen de Revisiones Originales
Recientemente, un equipo llevó a cabo tres revisiones diferentes, cada una con su propio enfoque y método, siguiendo estrictos protocolos establecidos por las pautas de informes reconocidas. La primera revisión analizó cómo la demencia afecta los patrones de caminata para identificar firmas de movimiento únicas. La segunda exploró avances en dispositivos que miden la presión arterial sin manguito. La tercera examinó cómo el envejecimiento y otros problemas de salud impactan el COVID largo.
Para cada revisión, pares de autores filtraron títulos y resúmenes, así como textos completos de los estudios. Cualquier diferencia de opinión se resolvió con la ayuda de un tercer autor. Los datos originales usados para decidir qué estudios incluir o excluir se reunieron y organizaron en archivos, sirviendo como referencia para futuros análisis.
Selección de Modelos y Análisis de Costos
Desde el lanzamiento de un importante Modelo de Lenguaje a finales de 2022, el panorama de herramientas de IA y lenguaje ha cambiado rápidamente. Durante la fase de planificación de este estudio, un rápido análisis de costos encontró que uno de los modelos más económicos era GPT-3.5 Turbo, que cuesta alrededor de $0.31 para filtrar 1,000 estudios. En comparación, otro modelo, GPT-4 Turbo, es mucho más caro, costando alrededor de $6.61 para la misma tarea. Un nuevo modelo que se espera sea lanzado en mayo de 2024 se anticipa que será más asequible, alrededor de $3.31 por 1,000 estudios, lo que lo convierte en una buena opción para uso futuro.
Recreando el Filtrado de Títulos y Resúmenes con Modelos de IA
Usando un marco específico, se replicó el proceso de filtrado de títulos y resúmenes con el modelo GPT-3.5 Turbo. Esta configuración permitió una interfaz fácil de usar donde los revisores podían ingresar indicaciones. El revisor podía crear una indicación consistente aplicada a todos los títulos y resúmenes. Para el proceso de filtrado, el modelo utilizó indicaciones basadas en criterios de inclusión, diseñadas para obtener respuestas simples de ‘sí’ o ‘no’ que imiten cómo suelen hacerse las revisiones sistemáticas. Las respuestas fueron recopiladas y limpiadas por precisión antes de ser exportadas para un análisis posterior.
Recreando el Filtrado de Texto Completo con Modelos de IA
Para el filtrado de texto completo, el proceso se ajustó para adaptarse a los límites de la API de OpenAI. Los estudios seleccionados se convirtieron en formato texto y se dividieron en secciones más pequeñas para gestionar los datos de manera más efectiva. Cada sección se almacenó de manera individual, permitiendo búsquedas eficientes. Esta configuración utilizó otro modelo para clasificar estas secciones según cuán relevantes eran para las consultas de los usuarios.
En esta configuración, las mismas indicaciones usadas anteriormente se aplicaron para obtener respuestas de ‘sí’ o ‘no’. Tanto las indicaciones como las secciones de texto relevantes se combinaron para proporcionar entrada al modelo de lenguaje, que devolvió varias secciones relevantes para cada consulta. Esta estrategia aseguró suficiente espacio en la entrada para consultas más complejas diseñadas para el filtrado o extracción de datos.
Criterios de Comparación y Análisis de Discrepancias
Para evaluar qué tan bien funcionó GPT-3.5 Turbo en comparación con los revisores humanos, se utilizaron matrices de confusión para las fases de filtrado de títulos-resúmenes y texto completo. Se midieron métricas clave de rendimiento como precisión, sensibilidad, especificidad y otras. El análisis de discrepancias ayudó a identificar verdaderos positivos, verdaderos negativos y falsos positivos al comparar las decisiones del modelo con los juicios de los revisores durante el filtrado de títulos-resúmenes.
El análisis se centró en artículos identificados como ‘incluidos’ por tanto el modelo como los revisores en la fase de títulos-resúmenes. También se examinó cuán consistente fue el modelo de IA al verificar artículos que fueron clasificados inicialmente como incluidos pero luego cambiados en la fase de texto completo.
Evaluación del Desempeño de ChatGPT-3.5 Turbo y Procedimiento de Validación
Para evaluar qué tan bien se desempeñó el modelo de IA en comparación con un control básico, se estableció una línea base usando clasificación aleatoria. Este método involucró clasificar aleatoriamente los estudios como ‘incluidos’ o ‘excluidos,’ imitando el proceso habitual de toma de decisiones en revisiones sistemáticas. Se verificó la consistencia interna a través de pruebas de auto-validación comparando las decisiones del modelo en diferentes escenarios.
Otras evaluaciones involucraron dividir los datos en subconjuntos para calcular métricas de rendimiento, que luego se promediaron a través de todas las iteraciones. Se realizó un análisis estadístico para comparar el rendimiento del modelo con el del control, evaluando la significancia en diferentes fases de prueba.
Manejo de Datos y Consideraciones Éticas
Esta investigación utilizó datos de estudios que ya contaban con aprobaciones éticas. Los detalles de las indicaciones utilizadas en el estudio están disponibles como material complementario, y se puede solicitar información adicional si es necesario.
Resultados de la Revisión Original
Se proporcionó un resumen completo del proceso de filtrado, facilitado por GPT-3.5 Turbo, mostrando el número de estudios identificados, filtrados, incluidos y excluidos. Este resumen ayuda a resaltar el rendimiento del modelo en comparación con los revisores humanos.
Matrices de Confusión de Títulos-Resumen para cada Revisión
Matrices de confusión separadas ilustran cómo GPT-3.5 Turbo clasificó artículos durante la fase de filtrado de títulos-resúmenes en comparación con los revisores originales. Estas matrices muestran verdaderos positivos, falsos positivos, verdaderos negativos y falsos negativos, ayudando a resaltar qué tan bien funcionó el modelo.
Métricas de Desempeño de Títulos-Resumen para cada Revisión
Se capturaron métricas de desempeño para las respuestas de GPT-3.5 Turbo, mostrando cómo se desempeñó el modelo en comparación con los revisores humanos. Mostró una efectividad significativa en la identificación de estudios relevantes, superando la clasificación aleatoria en la mayoría de las métricas.
Auto-validación de Títulos-Resumen de Respuestas del Modelo de IA
Se utilizaron matrices de confusión para comparar las respuestas de la IA cuando se pedían explicaciones contra cuando no se proporcionaban explicaciones. Aunque hubo un alto nivel de acuerdo entre estos dos conjuntos de respuestas, pedir explicaciones mostró una ligera caída en el rendimiento.
Matrices de Confusión para el Filtrado de Texto Completo
Se presentó datos que comparan las decisiones tomadas por la IA versus las tomadas por revisores humanos durante el filtrado de texto completo. Esto incluyó ejemplos de decisiones alineadas y discrepancias para estudios inicialmente incluidos por ambas partes.
Métricas de Desempeño para el Filtrado de Texto Completo
Se compartieron las métricas sobre qué tan bien se desempeñó GPT-3.5 Turbo durante el filtrado de texto completo, indicando que la sensibilidad mejoró notablemente cuando se evaluaron los textos completos, resaltando una reducción en los artículos relevantes que se pasaron por alto.
Auto-validación de Respuestas del Modelo de IA Durante el Filtrado de Texto Completo
Los pasos de auto-validación también se examinaron durante la fase de filtrado de texto completo. Se presentaron matrices de confusión para mostrar cómo se compararon las respuestas de la IA ya sea que se proporcionaran explicaciones o no. Hubo menos acuerdo en esta fase, lo que indica una necesidad de mejoras adicionales en el manejo de datos complejos.
Papel e Impacto de la IA y los Modelos de Lenguaje Grande
La llegada de la IA y los modelos de lenguaje representa un cambio significativo en cómo se realizan las revisiones sistemáticas. Estos modelos han mostrado avances rápidos en los estándares de rendimiento, permitiendo un filtrado más eficiente y una mejor extracción de información de una gran cantidad de literatura. Este avance respalda la necesidad de metodologías de revisión más rápidas ante el aumento de la producción científica.
Integración con Innovaciones Metodológicas y Herramientas Existentes
La combinación del filtrado por IA con las herramientas actuales de revisión sistemática señala un progreso en la automatización de los procesos de revisión. Aunque estas herramientas han mostrado potencial en la recopilación y evaluación de información científica, siguen existiendo desafíos para asegurar que los sistemas de IA filtren e identifiquen estudios relevantes de manera efectiva.
Dependencia Cauta de Sistemas de Filtrado Automatizados
Herramientas de código abierto como LangChain ilustran cómo la IA y los modelos de lenguaje pueden mejorar la eficiencia de las revisiones. Sin embargo, hay limitaciones, particularmente en áreas que requieren juicio humano, subrayando la importancia de una integración cuidadosa de la IA en el proceso de revisión.
Validación de Datos y su Impacto en el Desempeño del Modelo
La evaluación de GPT-3.5 Turbo reveló su capacidad para manejar conjuntos de datos diversos e identificó áreas para mejorar. Se encontraron inconsistencias menores en los datos generados por los revisores, pero en general, el modelo logró un buen rendimiento incluso con estos pequeños errores.
Impacto en Políticas y Prácticas
Mientras que la adopción de IA, especialmente modelos de lenguaje avanzados, ofrece un gran potencial para las revisiones sistemáticas, plantea preocupaciones sobre la dependencia de un solo modelo para todas las decisiones. Este riesgo requiere un enfoque equilibrado al incorporar herramientas de IA en el proceso de revisión.
Direcciones Futuras
A medida que se continúan los esfuerzos para refinar el proceso de revisión, equilibrar la velocidad y la exhaustividad sigue siendo crucial. La investigación futura debería centrarse en mejorar la capacidad del sistema para manejar diversos formatos de datos y métodos de procesamiento, mejorando su capacidad para la automatización de revisiones completas.
En conclusión, aunque la IA en las revisiones sistemáticas tiene claras ventajas, es vital usar estas tecnologías con cuidado, asegurando que complementen el juicio humano para mantener la profundidad e integridad del proceso de revisión. El desarrollo y prueba del protocolo de filtrado de modelos de lenguaje muestra avances prometedores en las prácticas de investigación moderna, siendo esencial una mejora continua para mantener el ritmo con los cambios en la indagación científica.
Título: Evaluating the Efficacy of Large Language Models for Systematic Review and Meta-Analysis Screening
Resumen: BackgroundSystematic reviews and meta-analyses are essential for informed research and policymaking, yet they are typically resource-intensive and time-consuming. Recent advances in artificial intelligence and machine learning offer promising opportunities to streamline these processes. ObjectiveTo enhance the efficiency of systematic reviews, we explored the automation of various stages using GPT-3.5 Turbo. We assessed the models efficacy and performance by comparing it against three expert-conducted reviews across a comprehensive dataset of 24,534 studies. MethodsThe models performance was evaluated through a comparison with three expert reviews, utilizing a pseudo-K-folds permutation and a one-tailed ANOVA with an alpha level of 0.05 to ensure statistical validity. Key performance metrics such as accuracy, sensitivity, specificity, predictive values, F1-score, and the Matthews correlation coefficient were analyzed using two sets of prompts. ResultsOur approach significantly streamlined the systematic review process, which typically takes a year, reducing it to a few hours without sacrificing quality. In the initial screening phase, accuracy, specificity, and negative predictive values ranged between 80% and 95%. Sensitivity improved markedly during the second screening phase, demonstrating the models robustness when provided with more extensive data. ConclusionWhile ongoing refinements are needed, this tool represents a significant advancement in research methodologies, potentially making systematic reviews more accessible to a wider range of researchers. Impact StatementOur manuscript presents a novel review screening protocol built using open-source frameworks, which significantly enhances the systematic review process in terms of efficiency and cost-effectiveness. Leveraging the capabilities of GPT and embedding models, our protocol demonstrates the potential to transform a traditionally time-consuming and expensive task into an accelerated and economical operation, all while maintaining high standards of accuracy and reliability. Key PointsO_LIGPT screening can streamline systematic reviews from a year-long, expensive process to just hours at minimal cost. C_LIO_LIValidated across different topics, the protocol exhibits high reliability and consistency in study inclusion. C_LIO_LIThe AI-driven process reduces human bias, with prompt optimization considerably improving sensitivity. C_LI
Autores: Ronald Luo, Z. Sastimoglu, A. I. Faisal, M. J. Deen
Última actualización: 2024-06-04 00:00:00
Idioma: English
Fuente URL: https://www.medrxiv.org/content/10.1101/2024.06.03.24308405
Fuente PDF: https://www.medrxiv.org/content/10.1101/2024.06.03.24308405.full.pdf
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a medrxiv por el uso de su interoperabilidad de acceso abierto.