Automatizando la Retroalimentación de Estudiantes con IA
Un nuevo enfoque para mejorar la retroalimentación de los estudiantes usando ChatGPT.
― 8 minilectura
Tabla de contenidos
Dar retroalimentación clara a los estudiantes es vital en la educación. Les ayuda a mejorar sus respuestas y aprender mejor. Este documento presenta un nuevo método para usar ChatGPT para calificar las respuestas de los estudiantes y explicar las razones detrás de esas calificaciones.
Por qué es importante la retroalimentación
La retroalimentación es una parte importante del aprendizaje. Cuando los estudiantes reciben retroalimentación sobre sus respuestas rápidamente, pueden hacer cambios y aprender de sus errores. Sin embargo, proporcionar esta retroalimentación manualmente puede llevar mucho tiempo. También hay diferencias en cómo califica cada maestro, lo que puede llevar a confusiones e inconsistencias.
Los sistemas de Calificación automatizados se han vuelto más comunes, especialmente con el auge de la tecnología. Estos sistemas usan Modelos de lenguaje preentrenados para ayudar a evaluar las respuestas de los estudiantes de manera eficiente. Sin embargo, a menudo se enfocan en dar una puntuación sin ofrecer Comentarios detallados sobre lo que el estudiante hizo bien o mal. Esta falta de detalle hace que sea más difícil para los estudiantes entender cómo mejorar.
El papel de ChatGPT en la evaluación
Los avances recientes en modelos de lenguaje, como ChatGPT, han demostrado que pueden desempeñarse bien en varias tareas lingüísticas. Estos modelos pueden analizar respuestas y proporcionar retroalimentación detallada. Al usar ChatGPT, podemos potencialmente mejorar cómo se realizan las Evaluaciones.
Sin embargo, ejecutar grandes modelos de lenguaje puede ser costoso, y no todas las escuelas tienen acceso a estos recursos. Este documento presenta un marco que ayuda a generar retroalimentación comprensible y confiable usando ChatGPT, mientras también crea un modelo de lenguaje más pequeño que puede funcionar de manera más efectiva en las escuelas.
El marco AERA
El marco propuesto, llamado AERA (Evaluación Automatizada de Respuestas Estudiantiles Explicables), busca destilar la capacidad de generación de retroalimentación de ChatGPT en un modelo más pequeño. Los pasos en el marco incluyen:
Pedir retroalimentación a ChatGPT: Usar diferentes tipos de preguntas para que ChatGPT genere retroalimentación sobre las respuestas de los estudiantes.
Mejorar la calidad de la retroalimentación: A veces, la retroalimentación necesita ser refinada para alinearse mejor con los estándares de calificación.
Crear un modelo más pequeño: La retroalimentación refinada se usa para entrenar un modelo más pequeño, que luego puede ser utilizado para calificar y proporcionar retroalimentación.
Componentes clave del marco
Solicitar retroalimentación
Para comenzar, creamos varias plantillas para preguntar a ChatGPT sobre las respuestas de los estudiantes. Estas plantillas tienen diferentes niveles de dificultad, desde preguntas simples hasta instrucciones más complejas. El objetivo es ver qué tipo de solicitud funciona mejor para que ChatGPT proporcione retroalimentación precisa.
Por ejemplo, una solicitud simple podría preguntar: "¿Qué calificación debería tener esta respuesta del estudiante y por qué?". Esto requiere que ChatGPT piense sobre el proceso de calificación y brinde razones para su decisión.
Una solicitud más compleja incluye más detalles sobre qué buscar en la respuesta, como puntos clave esperados y cómo aplicar la rúbrica de calificación. Esto le da a ChatGPT una guía más clara sobre cómo evaluar la respuesta.
Refinar la calidad de la retroalimentación
Reconocemos que ChatGPT puede no generar siempre retroalimentación precisa. A veces, los estándares de calificación o los puntos clave pueden no estar claros. Para abordar esto, introducimos un paso de refinamiento que mejora la retroalimentación generada por ChatGPT.
Este proceso de refinamiento implica verificar la retroalimentación generada contra respuestas correctas conocidas. Si ChatGPT da una calificación que parece incorrecta, podemos ajustar la retroalimentación en consecuencia. Esto ayuda a garantizar que los comentarios finales dados a los estudiantes sean precisos y beneficiosos.
Entrenar un modelo más pequeño
La última parte del marco implica entrenar un modelo de lenguaje más pequeño utilizando la retroalimentación refinada de ChatGPT. Este modelo será más eficiente y más fácil de usar en entornos de aula, donde los recursos pueden ser limitados.
Al entrenar con la retroalimentación de alta calidad, se puede enseñar al modelo más pequeño a calificar las respuestas de los estudiantes y dar comentarios detallados sin depender de un modelo grande como ChatGPT.
Importancia de la transparencia
Los sistemas de calificación automatizados a menudo se han visto como "cajas negras", donde no está claro cómo llegan a sus puntuaciones. Esta falta de transparencia puede llevar a la desconfianza entre estudiantes y educadores. Nuestro enfoque enfatiza la generación de razones para las calificaciones, lo que promueve la confianza en el proceso de evaluación.
Al proporcionar explicaciones junto con las calificaciones, el sistema se vuelve más transparente. Los estudiantes pueden ver exactamente por qué recibieron una puntuación particular y entender cómo mejorar. Esto se alinea bien con los objetivos educativos, ya que ayuda a fomentar una mentalidad de crecimiento entre los estudiantes.
Desafíos en la evaluación automatizada
Si bien usar tecnología en la educación ofrece muchos beneficios, también hay desafíos que considerar. Un problema importante es asegurar la consistencia en cómo se evalúan las respuestas. Si diferentes evaluadores utilizan diferentes estándares, puede llevar a confusiones para los estudiantes.
Otro desafío es la calidad de los datos. Muchos conjuntos de datos usados para entrenar modelos solo incluyen puntuaciones, pero no retroalimentación detallada. Esto dificulta entrenar modelos de manera efectiva, ya que carecen del contexto necesario para proporcionar explicaciones.
Además, aunque los modelos de lenguaje son potentes, pueden generar respuestas incorrectas o vagas. Por ejemplo, ChatGPT a veces puede malinterpretar matices en las respuestas de los estudiantes o proporcionar retroalimentación generalizada que no es útil para la mejora individual.
Configuración experimental
Para evaluar nuestro marco, elegimos un conjunto de datos de respuestas de estudiantes del conjunto de datos de Puntuación de Respuestas Cortas de la Fundación Hewlett. Este conjunto de datos incluye miles de respuestas cortas de estudiantes en varias materias. Nos enfocamos en subconjuntos relacionados con ciencia y biología para asegurar la relevancia de la evaluación.
Comparamos nuestro método con modelos de clasificación tradicionales, como BERT y Longformer. Estos modelos han sido populares en la calificación automatizada, pero a menudo carecen de la capacidad de proporcionar retroalimentación significativa.
Resultados y análisis
Después de realizar nuestros experimentos, encontramos que nuestro marco AERA puede producir retroalimentación de alta calidad. En muchos casos, el modelo más pequeño entrenado con datos refinados tuvo un mejor desempeño que los modelos más grandes. Esto muestra que nuestro enfoque no solo es efectivo, sino que también es práctico para entornos educativos.
Evaluación humana
Para validar aún más nuestros resultados, realizamos evaluaciones humanas. Reseñadores independientes evaluaron la retroalimentación generada por nuestro sistema y ChatGPT. Buscaron la corrección en la retroalimentación y si coincidía con los criterios de calificación.
Las evaluaciones mostraron que la retroalimentación generada a través de nuestro marco era a menudo más clara y precisa. Los evaluadores prefirieron nuestras explicaciones, ya que eran más fáciles de entender y más alineadas con los estándares de calificación.
Conclusión
El marco AERA ofrece una nueva forma de automatizar la evaluación de respuestas estudiantiles mientras proporciona retroalimentación clara y confiable. Al aprovechar las fortalezas de ChatGPT y refinar sus salidas, podemos crear un sistema que mejora la experiencia educativa para los estudiantes. Este método no solo ahorra tiempo a los educadores, sino que también asegura que los estudiantes reciban la guía que necesitan para mejorar su trabajo.
Trabajo futuro
Si bien los hallazgos iniciales son prometedores, aún queda trabajo por hacer. La investigación futura puede centrarse en ampliar el rango de materias y tipos de preguntas evaluadas. Además, las mejoras continuas en el proceso de refinamiento pueden ayudar a mejorar la comprensión del modelo sobre varios estándares académicos.
En conclusión, a medida que la tecnología sigue evolucionando, integrar herramientas de IA como AERA puede transformar la educación, haciendo que las evaluaciones sean más efectivas y beneficiosas para todos los estudiantes. A través de la mejora continua y la adaptación, podemos crear un entorno de aprendizaje más equitativo y solidario.
Título: Distilling ChatGPT for Explainable Automated Student Answer Assessment
Resumen: Providing explainable and faithful feedback is crucial for automated student answer assessment. In this paper, we introduce a novel framework that explores using ChatGPT, a cutting-edge large language model, for the concurrent tasks of student answer scoring and rationale generation. We identify the appropriate instructions by prompting ChatGPT with different templates to collect the rationales, where inconsistent rationales are refined to align with marking standards. The refined ChatGPT outputs enable us to fine-tune a smaller language model that simultaneously assesses student answers and provides rationales. Extensive experiments on the benchmark dataset show that the proposed method improves the overall QWK score by 11% compared to ChatGPT. Furthermore, our thorough analysis and human evaluation demonstrate that the rationales generated by our proposed method are comparable to those of ChatGPT. Our approach provides a viable solution to achieve explainable automated assessment in education. Code available at https://github.com/lijiazheng99/aera.
Autores: Jiazheng Li, Lin Gui, Yuxiang Zhou, David West, Cesare Aloisi, Yulan He
Última actualización: 2023-10-24 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2305.12962
Fuente PDF: https://arxiv.org/pdf/2305.12962
Licencia: https://creativecommons.org/licenses/by-nc-sa/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://github.com/lijiazheng99/aera
- https://chat.openai.com/chat
- https://www.aqa.org.uk/exams-administration/coursework-controlled-assessment-nea/standardisation
- https://kaggle.com/competitions/asap-sas
- https://www.aclweb.org/portal/content/acl-code-ethics
- https://github.com/huggingface/pytorch-transformers
- https://github.com/doccano/doccano