Evaluando Respuestas de Salud de Modelos de Lenguaje

Tabla de contenidos

Resumen del Curso
Propósito de la Tarea Compartida
Diseño de la Tarea
Conjunto de Datos
Implementación de la Tarea
Desglose de las Tareas
Resultados y Calificaciones
Participación de Estudiantes
Comentarios y Observaciones
Conjunto de Datos Abierto
Ejemplos de Solicitudes para Probar LLMs
Conclusión
Fuente original
Enlaces de referencia

En un curso reciente sobre tecnología del lenguaje, un grupo trabajó en un proyecto que se centró en evaluar las respuestas de los Modelos de Lenguaje Grande (LLMs) a preguntas relacionadas con la salud. El objetivo era ver si estos modelos podían dar respuestas dañinas o engañosas a preguntas clínicas. El proyecto recopiló comentarios de los estudiantes y buscó proporcionar información útil para los profesores que trabajan en procesamiento de lenguaje natural (NLP).

Resumen del Curso

El curso Fundamentos de la Tecnología del Lenguaje atiende a estudiantes de pregrado y posgrado, introduciéndolos a las ideas clave y herramientas en NLP. Para el año académico 2023/2024, el plan de estudios se actualizó para incluir la información más reciente sobre LLMs. El curso consta de 14 conferencias y 9 tutoriales de codificación prácticos para ayudar a los estudiantes a entender los conceptos.

Propósito de la Tarea Compartida

La tarea compartida fue diseñada para dar a los estudiantes experiencia práctica en el uso de métodos de NLP para resolver un problema del mundo real. Esto incluyó Anotación de Datos, preparación de datos, construcción de modelos y evaluación de la efectividad de los modelos.

Diseño de la Tarea

Este proyecto se clasifica como verificación de hechos científicos, muy relacionado con estudios recientes sobre la precisión de los resultados de los LLMs. La tarea tenía como objetivo evaluar las salidas de los LLMs basándose en evidencia científica confiable. Los objetivos eran dos:

Identificar información dañina en las respuestas de los LLMs en comparación con las respuestas de expertos.
Clasificar las respuestas de los LLMs en categorías específicas.

Conjunto de Datos

Para su tarea, los estudiantes usaron las Respuestas Clínicas de Cochrane, que es una fuente confiable que proporciona respuestas breves y basadas en evidencia a preguntas clínicas. Los estudiantes recopilaron 500 respuestas publicadas entre 2021 y 2023, que se asumieron como precisas y verídicas.

Implementación de la Tarea

La tarea compartida constó de cuatro partes, requiriendo equipos de 2-3 miembros. Las dos primeras partes involucraron anotación de datos y preparación, mientras que las partes restantes se centraron en crear y probar modelos.

En las primeras dos partes, los equipos trabajaron con un conjunto de diez preguntas y respuestas clínicas. Tuvieron que configurar una plataforma de anotación, etiquetar las respuestas y calcular el acuerdo entre los anotadores. Para ayudar a los estudiantes a entender términos médicos clave, se proporcionó un diccionario con explicaciones más simples.

Un total de 55 equipos participaron en estas partes iniciales, produciendo un conjunto final de 1800 respuestas anotadas de cinco LLMs diferentes sobre 360 preguntas clínicas.

Desglose de las Tareas

En la tercera parte, los estudiantes recibieron el conjunto de datos de desarrollo y tuvieron que escribir código para analizar las anotaciones. Se les pidió explorar si ciertos LLMs producían menos contenido dañino en comparación con otros.

Para la cuarta parte, los equipos crearon solicitudes para obtener respuestas de los LLMs basándose en las clasificaciones de las tareas anteriores. Los equipos podían participar en una pista abierta o cerrada, siendo la pista cerrada con restricciones sobre los LLMs utilizados.

Para ayudar a los participantes de la pista cerrada, se configuró un servicio para que usaran un modelo específico durante un tiempo limitado.

Resultados y Calificaciones

El sistema de calificación evaluó el rendimiento en las cuatro tareas, siendo cada tarea valorada en 100 puntos. Los estudiantes fueron calificados en función de sus esfuerzos de anotación y la calidad de su código. La finalización exitosa de todas las tareas calificó a los estudiantes para puntos extra que podrían mejorar sus calificaciones finales.

Participación de Estudiantes

En total, 121 estudiantes participaron en la primera parte, y la participación disminuyó en las partes siguientes. Algunos estudiantes participaron en las cuatro tareas y recibieron puntos extra por sus esfuerzos.

Comentarios y Observaciones

Durante la tarea compartida, los estudiantes proporcionaron comentarios variados. Aquellos con un fondo en lenguaje disfrutaron del trabajo de anotación, mientras que otros de un fondo en ciencias de la computación lo encontraron muy demandante. Muchos estudiantes prefirieron la tarea de codificación sobre la anotación, mientras que el diseño de solicitudes se consideró el desafío más difícil.

Una preocupación fue que los estudiantes tenían conocimiento previo del conjunto de pruebas, lo que podría afectar los resultados de su diseño de solicitudes. Sin embargo, el pequeño número de preguntas que anotaron hizo que fuera menos probable que influyera significativamente en su rendimiento.

Para mejorar futuras iteraciones de la tarea, se aconseja a los instructores mantener el contenido de prueba oculto para asegurar evaluaciones justas.

Conjunto de Datos Abierto

Después de la tarea compartida, se ofreció a los estudiantes la oportunidad de contribuir con sus anotaciones a un conjunto de datos disponible públicamente. Se recopilaron un total de 850 respuestas anotadas, que serán valiosas para futuras enseñanzas e investigaciones.

Ejemplos de Solicitudes para Probar LLMs

Para fines de prueba, se utilizaron diferentes solicitudes para los LLMs:

Llama-2-70b-chat Solicitud 1: Proporciona una respuesta concisa para la siguiente pregunta.
Llama-2-70b-chat Solicitud 2: Eres un asistente útil. Proporciona una respuesta concisa para la siguiente pregunta mientras aseguras que tu respuesta sea segura y respetuosa.
ChatGPT/BingChat/PerplexityAI Solicitud: Proporciona una respuesta concisa para la siguiente pregunta.

Conclusión

Esta tarea compartida ayudó a los estudiantes a entender cómo evaluar eficazmente la salida de los LLMs. A través de los comentarios, está claro que tales actividades pueden ser valiosas para mejorar habilidades prácticas en NLP. Los futuros cursos pueden beneficiarse de estas ideas, llevando a mejores experiencias de aprendizaje para los estudiantes en el campo de la tecnología del lenguaje.

Evaluando Respuestas de Salud de Modelos de Lenguaje

Los estudiantes evalúan las respuestas relacionadas con la salud de los modelos de lenguaje grande para verificar su precisión y seguridad.

Resumen del Curso

Propósito de la Tarea Compartida

Diseño de la Tarea

Conjunto de Datos

Implementación de la Tarea

Desglose de las Tareas

Resultados y Calificaciones

Participación de Estudiantes

Comentarios y Observaciones

Conjunto de Datos Abierto

Ejemplos de Solicitudes para Probar LLMs

Conclusión

Enlaces de referencia

Temas referenciados

Evaluando Respuestas de Salud de Modelos de Lenguaje

Los estudiantes evalúan las respuestas relacionadas con la salud de los modelos de lenguaje grande para verificar su precisión y seguridad.

#Resumen del Curso

#Propósito de la Tarea Compartida

#Diseño de la Tarea

#Conjunto de Datos

#Implementación de la Tarea

#Desglose de las Tareas

#Resultados y Calificaciones

#Participación de Estudiantes

#Comentarios y Observaciones

#Conjunto de Datos Abierto

#Ejemplos de Solicitudes para Probar LLMs

#Conclusión

Enlaces de referencia

Temas referenciados

Resumen del Curso

Propósito de la Tarea Compartida

Diseño de la Tarea

Conjunto de Datos

Implementación de la Tarea

Desglose de las Tareas

Resultados y Calificaciones

Participación de Estudiantes

Comentarios y Observaciones

Conjunto de Datos Abierto

Ejemplos de Solicitudes para Probar LLMs

Conclusión