Automatizando la Retroalimentación de Estudiantes para la Evaluación de Ingeniería
Un conjunto de datos para mejorar la calificación automática y la retroalimentación en la educación en ingeniería.
― 8 minilectura
Tabla de contenidos
- La necesidad de una calificación efectiva
- Declaración del problema
- El conjunto de datos EngSAF
- Metodologías de calificación
- Desafíos en la calificación
- Generación de retroalimentación
- Construcción del conjunto de datos
- Control de calidad
- Implementación en el mundo real
- Resultados experimentales
- Impacto de la retroalimentación en el aprendizaje
- Direcciones futuras
- Conclusión
- Consideraciones éticas
- Discusión sobre mejoras
- Reflexión sobre los desafíos
- Fuente original
- Enlaces de referencia
Calificar las respuestas cortas de los estudiantes es una parte necesaria de la educación, especialmente ahora que el aprendizaje se vuelve más online. Los estudiantes dependen del feedback para entender por qué recibieron ciertas calificaciones, lo que puede ayudarlos a mejorar. Últimamente, se ha impulsado la automatización de este sistema de Calificación para hacerlo más eficiente y efectivo. Este texto presenta un conjunto de datos llamado Engineering Short Answer Feedback (EngSAF), que busca mejorar la calificación automatizada al proporcionar retroalimentación detallada junto con las etiquetas de calificación. Este conjunto de datos incluye respuestas de estudiantes, respuestas correctas y preguntas de distintos campos de la ingeniería.
La necesidad de una calificación efectiva
A medida que la educación se digitaliza, encontrar formas de evaluar a los estudiantes de manera eficiente es esencial. Dar retroalimentación es vital en este proceso, ya que ayuda a justificar las calificaciones y guía a los estudiantes sobre cómo pueden mejorar. En situaciones de prueba, hay diferentes tipos de preguntas, incluyendo opción múltiple, completar en blanco y respuestas cortas. Entre estas, las respuestas cortas pueden ser difíciles de calificar porque permiten más flexibilidad en las respuestas.
En países donde hay muchos estudiantes por docente, automatizar la calificación puede aliviar la carga de los instructores y mejorar el proceso de evaluación. Los métodos tradicionales de calificación a menudo se centran solo en asignar puntuaciones, sin proporcionar la retroalimentación necesaria que puede ayudar a los estudiantes a aprender.
Declaración del problema
El objetivo principal es crear un sistema que pueda tomar una pregunta, una respuesta correcta y la respuesta de un estudiante para dar tanto una calificación como una retroalimentación útil. La retroalimentación debería explicar por qué un estudiante recibió una cierta calificación, enfocándose específicamente en el contenido de su respuesta. Esta tarea implica comparar la respuesta del estudiante con la correcta para verificar la alineación.
El conjunto de datos EngSAF
El conjunto de datos EngSAF consiste en alrededor de 5,800 respuestas de estudiantes a 119 preguntas de distintas disciplinas de ingeniería. Cada pregunta tiene una respuesta correcta correspondiente proporcionada por un instructor. Este conjunto de datos está diseñado para abarcar una amplia gama de temas de diferentes campos de la ingeniería, siendo uno de los primeros de su tipo en esta área.
Metodologías de calificación
Existen varios métodos para calificar automáticamente respuestas cortas. Los primeros intentos usaron coincidencias de palabras clave, donde se verificaban palabras específicas en las respuestas de los estudiantes contra la respuesta correcta. Con el tiempo, se han desarrollado métodos más sofisticados utilizando algoritmos de procesamiento de lenguaje natural (NLP).
Las técnicas de aprendizaje automático, especialmente los modelos de aprendizaje profundo, han mostrado potencial en este campo. Estos modelos pueden analizar la relación entre palabras en las respuestas, haciéndolos mejores para entender las respuestas de los estudiantes. Sin embargo, la mayoría de los sistemas de calificación existentes se centran solo en dar calificaciones y no incluyen retroalimentación, donde el conjunto de datos EngSAF marca la diferencia.
Desafíos en la calificación
Hay varios desafíos en el desarrollo de un sistema de calificación efectivo para respuestas cortas:
Variabilidad en las respuestas: Los estudiantes responden de diferentes maneras, lo que lleva a una amplia gama de calidad en las respuestas. Algunos pueden dar respuestas claras y bien estructuradas, mientras que otros pueden ser vagos o estar mal redactados.
Impacto de la retroalimentación: La retroalimentación proporcionada debe ser constructiva. La retroalimentación negativa puede afectar la percepción de los estudiantes y desmotivarlos. Por lo tanto, la retroalimentación debería motivarlos y guiarlos para mejorar.
Diversidad en las respuestas de los estudiantes: Los estudiantes interpretan las preguntas de manera diferente. Esta subjetividad complica la calificación y la provisión de retroalimentación universal.
Generación de retroalimentación
Para abordar estos desafíos, utilizamos las capacidades de avanzados modelos de lenguaje grande (LLMs) para generar retroalimentación. Estos modelos pueden analizar la respuesta del estudiante, la respuesta de referencia y la etiqueta de calificación dada por el instructor para proporcionar una retroalimentación interesante. El objetivo es crear retroalimentación que sea constructiva, abordando las fortalezas y debilidades en la respuesta del estudiante.
Construcción del conjunto de datos
El conjunto de datos EngSAF contiene preguntas y respuestas recopiladas de exámenes y pruebas reales en una universidad. Las preguntas cubren tres áreas: principios de ingeniería, habilidades técnicas y resolución de problemas. La entrada del instructor asegura que cada pregunta y su respuesta correcta sean relevantes y precisas.
Control de calidad
Para asegurar la fiabilidad del conjunto de datos, se lleva a cabo una evaluación de calidad. Evaluadores humanos revisan la retroalimentación y las calificaciones asignadas a las respuestas de los estudiantes. Se utiliza un sistema de puntuación estructurado para evaluar la fluidez de la retroalimentación, su relevancia y su impacto emocional en los estudiantes.
Implementación en el mundo real
Para la aplicación práctica, se desplegó el modelo EngSAF en un examen real en una universidad. Esto implicó integrar el modelo en un examen de fin de semestre, donde evaluó las respuestas de los estudiantes a preguntas de respuesta corta en tiempo real. Luego, los resultados fueron evaluados por expertos para verificar la precisión y calidad de la retroalimentación proporcionada.
Resultados experimentales
Después de desplegar el sistema, encontramos que el modelo logró una alta tasa de precisión en la predicción de calificaciones y la provisión de retroalimentación. Los resultados indicaron que usar preguntas como parte de la entrada mejoró el rendimiento del modelo. Además, la retroalimentación generada fue valorada positivamente en términos de calidad e impacto emocional.
Impacto de la retroalimentación en el aprendizaje
La efectividad de la retroalimentación es crucial para moldear el aprendizaje de los estudiantes. La retroalimentación constructiva ayuda a los estudiantes a identificar áreas de mejora, reforzando comportamientos de aprendizaje positivos. La meta es asegurar que los estudiantes reciban retroalimentación que refleje no solo su comprensión actual, sino que también los anime a mejorar sus conocimientos y habilidades.
Direcciones futuras
Este proyecto abre varias avenidas para trabajos futuros. Ampliar el conjunto de datos para incluir respuestas más complejas y diversas podría mejorar la precisión del modelo. Además, incorporar conocimientos externos podría aumentar la calidad de la retroalimentación. El estudio también sugiere el potencial de personalizar la retroalimentación a disciplinas específicas de ingeniería, lo que podría refinar aún más el proceso de calificación.
Conclusión
En resumen, el conjunto de datos EngSAF representa un avance significativo en la automatización de la calificación de respuestas cortas mientras se proporciona retroalimentación útil. Al enfocarse en retroalimentación específica del contenido, el conjunto de datos ayuda a cerrar la brecha entre calificaciones y aprendizaje significativo. Esta investigación contribuye al desarrollo continuo de herramientas de evaluación automatizadas que pueden apoyar tanto a estudiantes como a educadores, fomentando un entorno de aprendizaje más efectivo en la educación en ingeniería y más allá. Los hallazgos del despliegue en el mundo real demuestran la aplicabilidad práctica y fiabilidad del sistema, proporcionando una base sólida para futuros avances en mecanismos de calificación y retroalimentación automatizados.
Consideraciones éticas
El conjunto de datos EngSAF se construyó teniendo en cuenta las consideraciones éticas. La privacidad de los estudiantes fue priorizada, asegurando que no se divulgaran detalles personales. Se obtuvo el consentimiento de los instructores, y el objetivo fue usar los datos de manera responsable para mejorar la educación mientras se mantiene un equilibrio entre automatización y el toque humano en la evaluación.
Discusión sobre mejoras
Si bien los resultados iniciales son prometedores, es necesario un trabajo continuo para abordar los problemas relacionados con la calidad de la retroalimentación sintética. Explorar formas de hacer la retroalimentación menos genérica y más personalizada podría mejorar aún más la efectividad del sistema de calificación. Además, abordar el desequilibrio en las etiquetas puede ayudar a crear un modelo más confiable.
Reflexión sobre los desafíos
Crear un sistema de calificación automatizado es inherentemente complejo debido a la naturaleza subjetiva del lenguaje y la comprensión humana. Sin embargo, el progreso logrado a través de iniciativas como EngSAF muestra el potencial de la tecnología para apoyar las prácticas educativas. La mejora continua y la adaptación a nuevos hallazgos serán esenciales para que esta tecnología tenga éxito completamente.
Título: "I understand why I got this grade": Automatic Short Answer Grading with Feedback
Resumen: The demand for efficient and accurate assessment methods has intensified as education systems transition to digital platforms. Providing feedback is essential in educational settings and goes beyond simply conveying marks as it justifies the assigned marks. In this context, we present a significant advancement in automated grading by introducing Engineering Short Answer Feedback (EngSAF) -- a dataset of 5.8k student answers accompanied by reference answers and questions for the Automatic Short Answer Grading (ASAG) task. The EngSAF dataset is meticulously curated to cover a diverse range of subjects, questions, and answer patterns from multiple engineering domains. We leverage state-of-the-art large language models' (LLMs) generative capabilities with our Label-Aware Synthetic Feedback Generation (LASFG) strategy to include feedback in our dataset. This paper underscores the importance of enhanced feedback in practical educational settings, outlines dataset annotation and feedback generation processes, conducts a thorough EngSAF analysis, and provides different LLMs-based zero-shot and finetuned baselines for future comparison. Additionally, we demonstrate the efficiency and effectiveness of the ASAG system through its deployment in a real-world end-semester exam at the Indian Institute of Technology Bombay (IITB), showcasing its practical viability and potential for broader implementation in educational institutions.
Autores: Dishank Aggarwal, Pushpak Bhattacharyya, Bhaskaran Raman
Última actualización: 2024-06-30 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2407.12818
Fuente PDF: https://arxiv.org/pdf/2407.12818
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://github.com/dishankaggarwal/EngSAF
- https://www.nltk.org/
- https://www.nationmaster.com/country-info/stats/Education/Pupil--teacher-ratio,-secondary#2011
- https://www.theglobaleconomy.com/India/student
- https://gemini.google.com/
- https://www.grammarly.com/
- https://pypi.org/project/sacrebleu/
- https://mistral.ai/
- https://openai.com/
- https://huggingface.co/models
- https://huggingface.co/sentence-transformers
- https://www.kaggle.com/c/asap-aes/data