Evaluando Respuestas de Salud de Modelos de Lenguaje
Los estudiantes evalúan las respuestas relacionadas con la salud de los modelos de lenguaje grande para verificar su precisión y seguridad.
― 5 minilectura
Tabla de contenidos
- Resumen del Curso
- Propósito de la Tarea Compartida
- Diseño de la Tarea
- Conjunto de Datos
- Implementación de la Tarea
- Desglose de las Tareas
- Resultados y Calificaciones
- Participación de Estudiantes
- Comentarios y Observaciones
- Conjunto de Datos Abierto
- Ejemplos de Solicitudes para Probar LLMs
- Conclusión
- Fuente original
- Enlaces de referencia
En un curso reciente sobre tecnología del lenguaje, un grupo trabajó en un proyecto que se centró en evaluar las respuestas de los Modelos de Lenguaje Grande (LLMs) a preguntas relacionadas con la salud. El objetivo era ver si estos modelos podían dar respuestas dañinas o engañosas a preguntas clínicas. El proyecto recopiló comentarios de los estudiantes y buscó proporcionar información útil para los profesores que trabajan en procesamiento de lenguaje natural (NLP).
Resumen del Curso
El curso Fundamentos de la Tecnología del Lenguaje atiende a estudiantes de pregrado y posgrado, introduciéndolos a las ideas clave y herramientas en NLP. Para el año académico 2023/2024, el plan de estudios se actualizó para incluir la información más reciente sobre LLMs. El curso consta de 14 conferencias y 9 tutoriales de codificación prácticos para ayudar a los estudiantes a entender los conceptos.
Propósito de la Tarea Compartida
La tarea compartida fue diseñada para dar a los estudiantes experiencia práctica en el uso de métodos de NLP para resolver un problema del mundo real. Esto incluyó Anotación de Datos, preparación de datos, construcción de modelos y evaluación de la efectividad de los modelos.
Diseño de la Tarea
Este proyecto se clasifica como verificación de hechos científicos, muy relacionado con estudios recientes sobre la precisión de los resultados de los LLMs. La tarea tenía como objetivo evaluar las salidas de los LLMs basándose en evidencia científica confiable. Los objetivos eran dos:
- Identificar información dañina en las respuestas de los LLMs en comparación con las respuestas de expertos.
- Clasificar las respuestas de los LLMs en categorías específicas.
Conjunto de Datos
Para su tarea, los estudiantes usaron las Respuestas Clínicas de Cochrane, que es una fuente confiable que proporciona respuestas breves y basadas en evidencia a preguntas clínicas. Los estudiantes recopilaron 500 respuestas publicadas entre 2021 y 2023, que se asumieron como precisas y verídicas.
Implementación de la Tarea
La tarea compartida constó de cuatro partes, requiriendo equipos de 2-3 miembros. Las dos primeras partes involucraron anotación de datos y preparación, mientras que las partes restantes se centraron en crear y probar modelos.
En las primeras dos partes, los equipos trabajaron con un conjunto de diez preguntas y respuestas clínicas. Tuvieron que configurar una plataforma de anotación, etiquetar las respuestas y calcular el acuerdo entre los anotadores. Para ayudar a los estudiantes a entender términos médicos clave, se proporcionó un diccionario con explicaciones más simples.
Un total de 55 equipos participaron en estas partes iniciales, produciendo un conjunto final de 1800 respuestas anotadas de cinco LLMs diferentes sobre 360 preguntas clínicas.
Desglose de las Tareas
En la tercera parte, los estudiantes recibieron el conjunto de datos de desarrollo y tuvieron que escribir código para analizar las anotaciones. Se les pidió explorar si ciertos LLMs producían menos contenido dañino en comparación con otros.
Para la cuarta parte, los equipos crearon solicitudes para obtener respuestas de los LLMs basándose en las clasificaciones de las tareas anteriores. Los equipos podían participar en una pista abierta o cerrada, siendo la pista cerrada con restricciones sobre los LLMs utilizados.
Para ayudar a los participantes de la pista cerrada, se configuró un servicio para que usaran un modelo específico durante un tiempo limitado.
Resultados y Calificaciones
El sistema de calificación evaluó el rendimiento en las cuatro tareas, siendo cada tarea valorada en 100 puntos. Los estudiantes fueron calificados en función de sus esfuerzos de anotación y la calidad de su código. La finalización exitosa de todas las tareas calificó a los estudiantes para puntos extra que podrían mejorar sus calificaciones finales.
Participación de Estudiantes
En total, 121 estudiantes participaron en la primera parte, y la participación disminuyó en las partes siguientes. Algunos estudiantes participaron en las cuatro tareas y recibieron puntos extra por sus esfuerzos.
Comentarios y Observaciones
Durante la tarea compartida, los estudiantes proporcionaron comentarios variados. Aquellos con un fondo en lenguaje disfrutaron del trabajo de anotación, mientras que otros de un fondo en ciencias de la computación lo encontraron muy demandante. Muchos estudiantes prefirieron la tarea de codificación sobre la anotación, mientras que el diseño de solicitudes se consideró el desafío más difícil.
Una preocupación fue que los estudiantes tenían conocimiento previo del conjunto de pruebas, lo que podría afectar los resultados de su diseño de solicitudes. Sin embargo, el pequeño número de preguntas que anotaron hizo que fuera menos probable que influyera significativamente en su rendimiento.
Para mejorar futuras iteraciones de la tarea, se aconseja a los instructores mantener el contenido de prueba oculto para asegurar evaluaciones justas.
Conjunto de Datos Abierto
Después de la tarea compartida, se ofreció a los estudiantes la oportunidad de contribuir con sus anotaciones a un conjunto de datos disponible públicamente. Se recopilaron un total de 850 respuestas anotadas, que serán valiosas para futuras enseñanzas e investigaciones.
Ejemplos de Solicitudes para Probar LLMs
Para fines de prueba, se utilizaron diferentes solicitudes para los LLMs:
Llama-2-70b-chat Solicitud 1: Proporciona una respuesta concisa para la siguiente pregunta.
Llama-2-70b-chat Solicitud 2: Eres un asistente útil. Proporciona una respuesta concisa para la siguiente pregunta mientras aseguras que tu respuesta sea segura y respetuosa.
ChatGPT/BingChat/PerplexityAI Solicitud: Proporciona una respuesta concisa para la siguiente pregunta.
Conclusión
Esta tarea compartida ayudó a los estudiantes a entender cómo evaluar eficazmente la salida de los LLMs. A través de los comentarios, está claro que tales actividades pueden ser valiosas para mejorar habilidades prácticas en NLP. Los futuros cursos pueden beneficiarse de estas ideas, llevando a mejores experiencias de aprendizaje para los estudiantes en el campo de la tecnología del lenguaje.
Título: A Course Shared Task on Evaluating LLM Output for Clinical Questions
Resumen: This paper presents a shared task that we organized at the Foundations of Language Technology (FoLT) course in 2023/2024 at the Technical University of Darmstadt, which focuses on evaluating the output of Large Language Models (LLMs) in generating harmful answers to health-related clinical questions. We describe the task design considerations and report the feedback we received from the students. We expect the task and the findings reported in this paper to be relevant for instructors teaching natural language processing (NLP) and designing course assignments.
Autores: Yufang Hou, Thy Thy Tran, Doan Nam Long Vu, Yiwen Cao, Kai Li, Lukas Rohde, Iryna Gurevych
Última actualización: 2024-07-31 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2408.00122
Fuente PDF: https://arxiv.org/pdf/2408.00122
Licencia: https://creativecommons.org/licenses/by-sa/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://www.cochranelibrary.com/cca
- https://labelstud.io/
- https://hso.research.uiowa.edu/get-started/guides-and-standard-operating-procedures-sops/medical-terms-lay-language
- https://chatgpt.com/
- https://www.bing.com/chat
- https://www.perplexity.ai/
- https://github.com/UKPLab/folt-shared-task-23-24
- https://github.com/yufanghou/FoLT_23_24_SharedTask