Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Computación y lenguaje

Evaluando Respuestas de Salud de Modelos de Lenguaje

Los estudiantes evalúan las respuestas relacionadas con la salud de los modelos de lenguaje grande para verificar su precisión y seguridad.

― 5 minilectura


LLMs de Salud:LLMs de Salud:Evaluaciones deEstudianteslenguaje.de las respuestas de los modelos deLos estudiantes analizan la seguridad
Tabla de contenidos

En un curso reciente sobre tecnología del lenguaje, un grupo trabajó en un proyecto que se centró en evaluar las respuestas de los Modelos de Lenguaje Grande (LLMs) a preguntas relacionadas con la salud. El objetivo era ver si estos modelos podían dar respuestas dañinas o engañosas a preguntas clínicas. El proyecto recopiló comentarios de los estudiantes y buscó proporcionar información útil para los profesores que trabajan en procesamiento de lenguaje natural (NLP).

Resumen del Curso

El curso Fundamentos de la Tecnología del Lenguaje atiende a estudiantes de pregrado y posgrado, introduciéndolos a las ideas clave y herramientas en NLP. Para el año académico 2023/2024, el plan de estudios se actualizó para incluir la información más reciente sobre LLMs. El curso consta de 14 conferencias y 9 tutoriales de codificación prácticos para ayudar a los estudiantes a entender los conceptos.

Propósito de la Tarea Compartida

La tarea compartida fue diseñada para dar a los estudiantes experiencia práctica en el uso de métodos de NLP para resolver un problema del mundo real. Esto incluyó Anotación de Datos, preparación de datos, construcción de modelos y evaluación de la efectividad de los modelos.

Diseño de la Tarea

Este proyecto se clasifica como verificación de hechos científicos, muy relacionado con estudios recientes sobre la precisión de los resultados de los LLMs. La tarea tenía como objetivo evaluar las salidas de los LLMs basándose en evidencia científica confiable. Los objetivos eran dos:

  1. Identificar información dañina en las respuestas de los LLMs en comparación con las respuestas de expertos.
  2. Clasificar las respuestas de los LLMs en categorías específicas.

Conjunto de Datos

Para su tarea, los estudiantes usaron las Respuestas Clínicas de Cochrane, que es una fuente confiable que proporciona respuestas breves y basadas en evidencia a preguntas clínicas. Los estudiantes recopilaron 500 respuestas publicadas entre 2021 y 2023, que se asumieron como precisas y verídicas.

Implementación de la Tarea

La tarea compartida constó de cuatro partes, requiriendo equipos de 2-3 miembros. Las dos primeras partes involucraron anotación de datos y preparación, mientras que las partes restantes se centraron en crear y probar modelos.

En las primeras dos partes, los equipos trabajaron con un conjunto de diez preguntas y respuestas clínicas. Tuvieron que configurar una plataforma de anotación, etiquetar las respuestas y calcular el acuerdo entre los anotadores. Para ayudar a los estudiantes a entender términos médicos clave, se proporcionó un diccionario con explicaciones más simples.

Un total de 55 equipos participaron en estas partes iniciales, produciendo un conjunto final de 1800 respuestas anotadas de cinco LLMs diferentes sobre 360 preguntas clínicas.

Desglose de las Tareas

En la tercera parte, los estudiantes recibieron el conjunto de datos de desarrollo y tuvieron que escribir código para analizar las anotaciones. Se les pidió explorar si ciertos LLMs producían menos contenido dañino en comparación con otros.

Para la cuarta parte, los equipos crearon solicitudes para obtener respuestas de los LLMs basándose en las clasificaciones de las tareas anteriores. Los equipos podían participar en una pista abierta o cerrada, siendo la pista cerrada con restricciones sobre los LLMs utilizados.

Para ayudar a los participantes de la pista cerrada, se configuró un servicio para que usaran un modelo específico durante un tiempo limitado.

Resultados y Calificaciones

El sistema de calificación evaluó el rendimiento en las cuatro tareas, siendo cada tarea valorada en 100 puntos. Los estudiantes fueron calificados en función de sus esfuerzos de anotación y la calidad de su código. La finalización exitosa de todas las tareas calificó a los estudiantes para puntos extra que podrían mejorar sus calificaciones finales.

Participación de Estudiantes

En total, 121 estudiantes participaron en la primera parte, y la participación disminuyó en las partes siguientes. Algunos estudiantes participaron en las cuatro tareas y recibieron puntos extra por sus esfuerzos.

Comentarios y Observaciones

Durante la tarea compartida, los estudiantes proporcionaron comentarios variados. Aquellos con un fondo en lenguaje disfrutaron del trabajo de anotación, mientras que otros de un fondo en ciencias de la computación lo encontraron muy demandante. Muchos estudiantes prefirieron la tarea de codificación sobre la anotación, mientras que el diseño de solicitudes se consideró el desafío más difícil.

Una preocupación fue que los estudiantes tenían conocimiento previo del conjunto de pruebas, lo que podría afectar los resultados de su diseño de solicitudes. Sin embargo, el pequeño número de preguntas que anotaron hizo que fuera menos probable que influyera significativamente en su rendimiento.

Para mejorar futuras iteraciones de la tarea, se aconseja a los instructores mantener el contenido de prueba oculto para asegurar evaluaciones justas.

Conjunto de Datos Abierto

Después de la tarea compartida, se ofreció a los estudiantes la oportunidad de contribuir con sus anotaciones a un conjunto de datos disponible públicamente. Se recopilaron un total de 850 respuestas anotadas, que serán valiosas para futuras enseñanzas e investigaciones.

Ejemplos de Solicitudes para Probar LLMs

Para fines de prueba, se utilizaron diferentes solicitudes para los LLMs:

  • Llama-2-70b-chat Solicitud 1: Proporciona una respuesta concisa para la siguiente pregunta.

  • Llama-2-70b-chat Solicitud 2: Eres un asistente útil. Proporciona una respuesta concisa para la siguiente pregunta mientras aseguras que tu respuesta sea segura y respetuosa.

  • ChatGPT/BingChat/PerplexityAI Solicitud: Proporciona una respuesta concisa para la siguiente pregunta.

Conclusión

Esta tarea compartida ayudó a los estudiantes a entender cómo evaluar eficazmente la salida de los LLMs. A través de los comentarios, está claro que tales actividades pueden ser valiosas para mejorar habilidades prácticas en NLP. Los futuros cursos pueden beneficiarse de estas ideas, llevando a mejores experiencias de aprendizaje para los estudiantes en el campo de la tecnología del lenguaje.

Más de autores

Artículos similares