Mejorando la comprensión de la IA sobre los informes de ensayos clínicos
Este proyecto examina cómo la IA interpreta los informes de ensayos clínicos y identifica declaraciones verdaderas.
― 5 minilectura
Tabla de contenidos
Este artículo habla sobre un proyecto que participó en una competencia para entender qué tan bien pueden los computadores interpretar los Informes de Ensayos Clínicos. Se enfoca en una tarea específica que consiste en verificar si las afirmaciones sobre estos informes son verdaderas o falsas. El proyecto utiliza un Modelo de Lenguaje grande, un tipo de inteligencia artificial, para analizar la información en estos informes.
Antecedentes
Los ensayos clínicos son estudios que prueban nuevos tratamientos médicos para ver qué tan bien funcionan y qué efectos secundarios pueden tener. Cada ensayo se documenta en un Informe de Ensayo Clínico (CTR), que incluye diferentes secciones detallando los criterios de elegibilidad, los tratamientos utilizados, los resultados del estudio y cualquier evento adverso que ocurrió. Las afirmaciones que analizamos a menudo dicen algo sobre uno o dos CTRs. El objetivo es verificar si estas afirmaciones están respaldadas por la información en los informes.
La Tarea
La tarea consiste en clasificar si las afirmaciones sobre los informes de ensayos clínicos pueden considerarse verdaderas (entailment) o falsas (contradicción). Esto requiere entender relaciones complejas entre los informes y las afirmaciones. La evaluación se centra en tres puntos principales: Precisión, Fidelidad y consistencia del razonamiento del modelo de lenguaje.
Desafíos con Modelos de Lenguaje
Aunque los modelos de lenguaje grandes han mostrado un gran rendimiento en varias tareas, tienen problemas cuando se enfrentan a campos especializados como la medicina. Pueden cometer errores fácilmente, especialmente al entender las sutiles diferencias entre las afirmaciones y la información proporcionada en los CTRs. También existe el riesgo de que los modelos aprendan atajos en lugar de entender genuinamente el contenido.
Enfoque para la Tarea
El enfoque del proyecto implica usar un modelo específico conocido como Mistral-7B, que está diseñado para seguir instrucciones bien. Para mejorar su comprensión, los investigadores refinaron el modelo proporcionándole una mezcla de datos reales y generados artificialmente. Esto ayuda al modelo a aprender mejor al darle más ejemplos con los que trabajar. El equipo creó varios prompts que guían al modelo sobre cómo interpretar los CTRs de manera precisa.
Aumento de Datos
El conjunto de datos disponible para el entrenamiento incluía 1700 ejemplos, que puede que no sean suficientes para que el modelo aprenda de manera efectiva. Para mejorar los datos, se emplearon diferentes métodos:
Generación Manual: Esto consistió en tomar afirmaciones existentes y crear nuevos ejemplos negándolos o parafraseándolos para mantener el mismo significado.
Datos Mixtos: Se crearon nuevos ejemplos utilizando tanto métodos manuales como técnicas automatizadas, buscando tener un conjunto diverso de Datos de Entrenamiento.
Datos Totalmente Sintéticos: Se generó un conjunto mucho más grande de instancias automáticamente, ampliando aún más el material de entrenamiento disponible para el modelo.
Ajuste del Modelo
El modelo pasó por un ajuste fino para adaptarlo a la tarea específica de analizar informes de ensayos clínicos. Este proceso incluyó ajustar varias configuraciones para permitir que el modelo operara de manera eficiente y efectiva, manejando textos más largos de hasta 6000 tokens. El equipo utilizó diferentes bibliotecas para gestionar el proceso de entrenamiento.
Resultados
Al finalizar la tarea, se evaluó al modelo según su rendimiento. Los resultados mostraron una puntuación macro sólida de 0.80 para clasificar afirmaciones correctamente. Sin embargo, la capacidad del modelo para diagnosticar estas afirmaciones de manera consistente y precisa tenía margen de mejora, especialmente ante cambios en el texto.
Análisis de Errores
Después de analizar los errores cometidos por el modelo, se encontró que tuvo más dificultades con afirmaciones que habían sido alteradas, como aquellas que se parafrasearon o involucraron información numérica diferente. El modelo se desempeñó mejor en afirmaciones básicas que no habían sido cambiadas. El equipo notó tipos específicos de errores, como los que surgieron de texto agregado, que el modelo no había sido entrenado explícitamente para manejar.
Conclusión
La tarea mostró cómo los modelos de lenguaje podrían ajustarse para aplicaciones específicas, como analizar textos médicos. Si bien el modelo logró buenos resultados al clasificar afirmaciones como verdaderas o falsas, aún quedan desafíos. La investigación destacó la importancia de datos de entrenamiento de alta calidad y la necesidad de examinar cuidadosamente cómo los modelos interpretan los cambios en el texto.
Trabajo Futuro
De cara al futuro, el equipo de investigación tiene la intención de explorar varias vías para mejorar su sistema:
Probar Otros Modelos: El equipo quiere ver qué tan bien se desempeñan diferentes modelos, especialmente aquellos diseñados específicamente para aplicaciones médicas.
Mejorar Prompts: Buscarán maneras de mejorar la estructura de los prompts utilizados para comunicarse con el modelo, haciéndolo más efectivo.
Datos de Entrenamiento Adicionales: El equipo planea reunir más ejemplos diversos de otras fuentes para llenar los vacíos en su conjunto de entrenamiento actual.
Enfocarse en Intervenciones: El futuro entrenamiento prestará más atención a cambios específicos en las afirmaciones en lugar de solo al contenido base.
Al abordar estas áreas, el equipo espera mejorar tanto la precisión como la fiabilidad de su modelo en el campo del análisis de ensayos clínicos.
Título: Lisbon Computational Linguists at SemEval-2024 Task 2: Using A Mistral 7B Model and Data Augmentation
Resumen: This paper describes our approach to the SemEval-2024 safe biomedical Natural Language Inference for Clinical Trials (NLI4CT) task, which concerns classifying statements about Clinical Trial Reports (CTRs). We explored the capabilities of Mistral-7B, a generalist open-source Large Language Model (LLM). We developed a prompt for the NLI4CT task, and fine-tuned a quantized version of the model using an augmented version of the training dataset. The experimental results show that this approach can produce notable results in terms of the macro F1-score, while having limitations in terms of faithfulness and consistency. All the developed code is publicly available on a GitHub repository
Autores: Artur Guimarães, Bruno Martins, João Magalhães
Última actualización: 2024-08-06 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2408.03127
Fuente PDF: https://arxiv.org/pdf/2408.03127
Licencia: https://creativecommons.org/licenses/by-sa/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://github.com/araag2/SemEval2024-Task2
- https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard
- https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.2
- https://clinicaltrials.gov/
- https://github.com/ai-systems/Task-2-SemEval-2024/blob/main/README.md
- https://huggingface.co/docs/transformers/en/index
- https://github.com/dmlls/negate
- https://huggingface.co/docs/peft/en/index
- https://huggingface.co/docs/trl/en/index
- https://github.com/ai-systems/Task-2-SemEval-2024/blob/main/evaluate.py
- https://github.com/araag2/SemEval2024-Task2/blob/main/environment.yml
- https://huggingface.co/augtoma/qCammel-70-x
- https://huggingface.co/BioMistral
- https://www.trec-cds.org/
- https://github.com/araag2/SemEval2024-Task2/blob/main/finetune_Mistral.py
- https://github.com/araag2/SemEval2024-Task2/blob/main/finetune