Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Computación y lenguaje# Inteligencia artificial

¿Puede la IA reemplazar la evaluación entre compañeros en los MOOC?

Explorando el papel de la IA en mejorar la consistencia en las calificaciones en la educación en línea.

― 10 minilectura


Revolución en laRevolución en laCalificación de IA enMOOCslínea.las calificaciones en los cursos enLa IA promete mejorar la precisión de
Tabla de contenidos

Los cursos masivos en línea (MOOCs) han hecho que la educación sea gratuita y accesible para cualquiera que tenga conexión a internet. Con la gran cantidad de estudiantes inscribiéndose en estos cursos, calificar sus trabajos de escritura puede ser un desafío. Para ayudar con esto, algunos cursos utilizan la Calificación entre pares, donde los estudiantes califican el trabajo de otros basándose en un conjunto simple de pautas. Aunque este método fomenta la participación, a menudo carece de fiabilidad. Este artículo analiza cómo los grandes modelos de lenguaje (LLMs) podrían potencialmente reemplazar la calificación entre pares en los MOOCs.

El Problema con la Calificación en los MOOCs

Los MOOCs permiten que cualquiera aprenda de las mejores universidades sin pagar matrícula. Sin embargo, con miles de estudiantes, se vuelve difícil para un profesor leer y calificar cada tarea. La calificación entre pares ayuda a distribuir esta carga de trabajo, pero los estudiantes no siempre pueden proporcionar calificaciones precisas o justas. Esta inconsistencia plantea preguntas sobre la calidad de la retroalimentación que reciben los estudiantes, lo que puede afectar su experiencia de aprendizaje.

La Promesa de los Grandes Modelos de Lenguaje

Con los recientes avances en inteligencia artificial y procesamiento de lenguaje natural, grandes modelos de lenguaje como GPT-4 y GPT-3.5 han mostrado un gran potencial en varias aplicaciones, incluida la calificación. Al usar estos modelos, podría ser posible proporcionar retroalimentación más confiable y eficiente a los estudiantes en los MOOCs.

Metodología

En este estudio, examinamos cómo se podrían utilizar los LLMs para evaluar tareas en tres materias: Astronomía Introductoria, Astrobiología y la Historia y Filosofía de la Astronomía. Usamos diferentes estrategias de prompt con los LLMs para ver qué enfoque daba mejores resultados. Los tres métodos de prompt incluyeron:

  1. Proporcionar respuestas correctas del Instructor.
  2. Añadir rúbricas de calificación creadas por el instructor junto con las respuestas correctas.
  3. Generar nuevas rúbricas utilizando el LLM basándose en las respuestas correctas del instructor.

Hallazgos del Estudio

Realizamos pruebas en 18 escenarios diferentes para evaluar el desempeño de los LLMs en la calificación. Los resultados indicaron que cuando se les dieron respuestas y rúbricas de calificación proporcionadas por el instructor, produjeron calificaciones más alineadas con las de los instructores en comparación con la calificación entre pares.

Desempeño de los Modelos

En general, GPT-4 superó a GPT-3.5. Cuando se evaluó en tareas que requerían menos pensamiento creativo, las calificaciones de GPT-4 se alinearon estrechamente con las dadas por los instructores. Sin embargo, la Historia y Filosofía de la Astronomía presentaron más desafíos para ambos modelos debido a su demanda de pensamiento especulativo. A pesar de esto, GPT-4 aún tuvo un mejor desempeño que la calificación entre pares en estos casos.

Los Beneficios de Automatizar la Calificación

Usar LLMs para calificar ofrece varias ventajas:

  1. Consistencia: Los LLMs pueden proporcionar calificaciones que son más consistentes que las evaluaciones entre pares.
  2. Eficiencia: Automatizar el proceso de calificación ahorra tiempo a los instructores, permitiéndoles centrarse en enseñar y apoyar a los estudiantes.
  3. Retroalimentación Detallada: Los LLMs pueden generar retroalimentación clara y constructiva basada en criterios específicos, ayudando a los estudiantes a entender mejor sus errores.

Desafíos en la Calificación con LLMs

A pesar de los beneficios, hay algunos desafíos en el uso de LLMs para calificar. El curso de Historia y Filosofía de la Astronomía sigue siendo difícil tanto para los LLMs como para la calificación entre pares porque a menudo requiere respuestas imaginativas. Los modelos aún tienen dificultades con tareas que necesitan un pensamiento profundo y razonamiento creativo.

Perspectivas sobre Diferentes Tareas del Curso

A través de las tres materias estudiadas, los desafíos de calificación variaron:

  • Astronomía Introductoria: Los LLMs encontraron más fácil evaluar respuestas fácticas. Los resultados de calificación fueron cercanos a las evaluaciones del instructor.

  • Astrobiología: Aunque el modelo obtuvo puntuaciones más altas en general, la variabilidad entre calificaciones fue notable. Hubo casos de desacuerdo con los instructores, especialmente en respuestas cortas o demasiado largas.

  • Historia y Filosofía de la Astronomía: Las tareas de este curso presentaron dificultades únicas, ya que requerían que los estudiantes expresaran sus pensamientos claramente y los apoyaran con razonamientos. Tanto los LLMs como los calificadores entre pares encontraron difícil producir calificaciones que coincidieran con las de los instructores.

Trabajo Relacionado

Investigaciones anteriores han explorado la calificación entre pares dentro de los MOOCs. Estos estudios señalaron que, aunque la revisión entre pares puede mejorar la participación, las inconsistencias y sesgos en la calificación siguen siendo una preocupación. Aunque se han explorado los LLMs en la educación, pocos estudios han analizado directamente su uso para reemplazar la calificación entre pares.

Cómo Se Destaca Este Estudio

Este estudio es único ya que investiga la posibilidad de reemplazar completamente la calificación entre pares en los MOOCs utilizando LLMs. Al centrarse en la precisión de la calificación y la retroalimentación, buscamos reducir la necesidad de intervención humana en el proceso de calificación mientras mejoramos la experiencia educativa.

La Técnica Zero-Shot Chain-of-Thought

Para guiar a los LLMs, utilizamos una técnica llamada zero-shot chain-of-thought (ZCoT). Este método hace que el modelo razone paso a paso, lo que ayuda a aclarar su proceso de pensamiento. Hubo dos razones principales para elegir ZCoT:

  1. Mejor Alineación: Encontramos en pruebas iniciales que ZCoT producía resultados más alineados con las calificaciones de los instructores que los métodos de prompt estándar.
  2. Transparencia: Al requerir que el LLM explique su razonamiento, pudimos verificar mejor la corrección y justicia en la calificación.

Estrategias de Prompt Explicadas

Desarrollamos tres prompts clave que combinan ZCoT con varias informaciones adicionales:

  1. ZCoT con Respuestas Correctas: Esta versión simple proporciona solo las respuestas correctas del instructor para que el modelo las use durante la calificación.

  2. ZCoT con Rúbricas: Esta versión incluye tanto las respuestas correctas como las rúbricas de calificación del instructor, lo que permite un proceso de calificación más refinado.

  3. ZCoT con Rúbricas Generadas por LLM: En este enfoque, el LLM crea sus propias rúbricas de calificación basándose en las respuestas correctas, buscando aprovechar su amplio conocimiento para criterios de calificación potencialmente mejorados.

Proceso de Evaluación

La efectividad de los LLMs en la calificación se evaluó comparando sus puntuaciones con las dadas por los instructores para cada pregunta. También utilizamos una técnica llamada bootstrap resampling para evaluar cuán de cerca coincidían las calificaciones asignadas por los LLMs con las calificaciones de los instructores.

Perspectivas de la Evaluación

  1. Ausencia de Diferencias Significativas: En casi todos los casos, no hubo diferencias significativas entre las calificaciones asignadas por los LLMs y las dadas por los instructores.

  2. Desempeño de GPT-4: Este modelo generó consistentemente puntuaciones que estaban más alineadas con las calificaciones de los instructores que GPT-3.5, particularmente en cursos de Astronomía y Astrobiología.

  3. Rúbricas Generadas por LLM vs. Rúbricas Proporcionadas por Instructores: Las rúbricas creadas por LLMs produjeron calificaciones similares a las de los instructores, indicando el potencial de los LLMs para crear criterios de calificación efectivos de forma autónoma.

Conclusión

El estudio demuestra que LLMs como GPT-4 pueden reemplazar la calificación entre pares en los MOOCs, especialmente en cursos con rúbricas de calificación claras. Aunque hay desafíos en la calificación de tareas que requieren creatividad, los LLMs generalmente superan a la calificación entre pares y pueden proporcionar retroalimentación más rápida y consistente.

Direcciones Futuras

El estudio sugiere que se necesita más investigación para refinar las metodologías de calificación, particularmente para materias que requieren habilidades de razonamiento más profundas como Filosofía y Matemáticas avanzadas. Mejorar la alineación entre las calificaciones asignadas por LLM y las evaluaciones de los instructores será crucial para una adopción más amplia en entornos educativos.

Desglose de Preguntas de Asignación

Para entender mejor cómo se estructuran las asignaciones en los cursos, listamos las preguntas planteadas a los estudiantes:

Curso: Astronomía Introductoria

  1. ¿Cómo difiere la astronomía de las ciencias de laboratorio como la química o la biología en términos del método científico?
  2. ¿Cómo pueden los astrónomos estar seguros sobre objetos remotos?
  3. Discute estructuras antiguas relacionadas con la astronomía y argumenta en contra de las teorías de "astronautas antiguos".
  4. ¿Cuáles son las ventajas de los telescopios grandes? Proporciona al menos un ejemplo.
  5. ¿Por qué son importantes los telescopios espaciales a pesar de su alto costo?
  6. ¿Cuáles son algunas regiones de longitud de onda más allá de la luz visible que ayudan a los astrónomos a aprender sobre el universo?
  7. Describe los dos métodos principales para encontrar exoplanetas.
  8. ¿Por qué es difícil ver exoplanetas directamente?
  9. ¿Qué similitudes o diferencias existen entre nuestro Sistema Solar y sistemas planetarios distantes?
  10. ¿Qué causa la luz del Sol y cómo se forman los elementos en las estrellas?
  11. Describe cómo una gran nube de gas se convierte en una estrella y planetas.
  12. ¿Cuáles son los estados finales de las estrellas masivas y sus propiedades?
  13. Discute por qué los telescopios grandes son comparados con máquinas del tiempo.
  14. ¿Qué evidencia respalda la teoría de que el universo comenzó hace 13.8 mil millones de años?
  15. Identifica los dos ingredientes dominantes del universo y las incertidumbres que los rodean.

Curso: Astrobiología

  1. Identifica métodos de detección para exoplanetas y explica cómo funcionan.
  2. Discute la relación entre zonas habitables y tipos espectrales.
  3. Evalúa una afirmación sobre planetas similares a la Tierra basada en evidencia.
  4. Evalúa la conclusión de otro estudiante sobre la habitabilidad de exoplanetas.
  5. Argumenta la plausibilidad de la exobiología basada en factores como tipo y distancia de exoplanetas.
  6. Identifica una era geológica y discute sus implicaciones para el estado de la exobiología.

Curso: Historia y Filosofía de la Astronomía

  1. Discute la importancia de la astronomía para los humanos nómadas en el 20,000 a.C.
  2. Explica las implicaciones filosóficas de un universo con un principio definido y un futuro infinito.
  3. Discute la conexión entre libertad, derechos personales y la búsqueda de la ciencia en la filosofía de la Ilustración.
  4. Explora las implicaciones de un modelo de estado estacionario donde el universo es eterno e inmutable.

Reflexiones Finales

Los hallazgos de este estudio indican un fuerte potencial para integrar LLMs en los sistemas de calificación de los MOOCs. Al reducir la dependencia de la calificación entre pares, podemos crear un entorno de aprendizaje más efectivo y de apoyo para los estudiantes en línea. Con más investigaciones y refinamientos, los LLMs podrían mejorar significativamente la experiencia educativa a nivel mundial.

Fuente original

Título: Grading Massive Open Online Courses Using Large Language Models

Resumen: Massive open online courses (MOOCs) offer free education globally. Despite this democratization of learning, the massive enrollment in these courses makes it impractical for an instructor to assess every student's writing assignment. As a result, peer grading, often guided by a straightforward rubric, is the method of choice. While convenient, peer grading often falls short in terms of reliability and validity. In this study, we explore the feasibility of using large language models (LLMs) to replace peer grading in MOOCs. To this end, we adapt the zero-shot chain-of-thought (ZCoT) prompting technique to automate the feedback process once the LLM assigns a score to an assignment. Specifically, to instruct LLMs for grading, we use three distinct prompts based on ZCoT: (1) ZCoT with instructor-provided correct answers, (2) ZCoT with both instructor-provided correct answers and rubrics, and (3) ZCoT with instructor-provided correct answers and LLM-generated rubrics. We tested these prompts in 18 different scenarios using two LLMs, GPT-4 and GPT-3.5, across three MOOCs: Introductory Astronomy, Astrobiology, and the History and Philosophy of Astronomy. Our results show that ZCoT, when augmented with instructor-provided correct answers and rubrics, produces grades that are more aligned with those assigned by instructors compared to peer grading. Finally, our findings indicate a promising potential for automated grading systems in MOOCs, especially in subjects with well-defined rubrics, to improve the learning experience for millions of online learners worldwide.

Autores: Shahriar Golchin, Nikhil Garuda, Christopher Impey, Matthew Wenger

Última actualización: 2024-12-16 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2406.11102

Fuente PDF: https://arxiv.org/pdf/2406.11102

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares