Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Física # Enseñanza de la Física

El papel de la IA en la calificación de tareas de física

Este artículo explora el potencial de la IA para calificar problemas de física en universidades.

Ryan Mok, Faraaz Akhtar, Louis Clare, Christine Li, Jun Ida, Lewis Ross, Mario Campanelli

― 8 minilectura


Calificación de IA en Calificación de IA en Física los profesores? de manera efectiva en comparación con ¿Puede la IA calificar tareas de física
Tabla de contenidos

Calificar trabajos escolares es a menudo como intentar encontrar la salida de un laberinto con los ojos vendados. Toma mucho tiempo y muchos profesores se preocupan de que sus propias opiniones se cuelen en la mezcla. Los estudiantes terminan esperando mucho tiempo para recibir sus notas, y la retroalimentación que reciben puede que no les ayude a mejorar.

¿Pero qué pasaría si la IA pudiera ayudar? Este artículo habla de cómo usar IA, específicamente chatbots basados en grandes modelos de lenguaje (LLMs), puede ser un cambio total en la forma de calificar Problemas de física en universidades. Imagina tener un asistente súper inteligente que nunca duerme y siempre está listo para ayudar a los estudiantes a aprender. Este artículo investiga qué tan bien pueden calificar estos herramientas de IA asignaciones de física en comparación con los profesores humanos.

La Influencia Cresciente de la IA

En los últimos años, la IA ha invadido casi todos los campos. Todo comenzó con un chatbot llamado ChatGPT, desarrollado por OpenAI, que podía mantener conversaciones por texto y parecía entender el lenguaje humano de una forma que no habíamos visto antes. Otras empresas, como Google y Meta, rápidamente siguieron el ejemplo creando sus propios chatbots. Estas herramientas pueden mantener conversaciones y realizar tareas que parecen habilidades humanas.

Modelos más recientes, como GPT-4 y otros, han demostrado que pueden afrontar algunas tareas humanas difíciles. Incluso pueden trabajar con imágenes y documentos, no solo con texto, lo que los hace aún más útiles. El auge de estos modelos multimodales ha abierto muchas posibilidades en la educación, especialmente en materias como física.

Cómo Usar la IA en la Educación

Antes de entrar en lo divertido, vale la pena mencionar que la IA se ha estado utilizando en la educación desde hace un tiempo. Por ejemplo, hay sistemas de tutoría inteligentes que ayudan a los estudiantes a aprender sin necesidad de un profesor presente todo el tiempo. Estudios más recientes han mostrado cómo ChatGPT puede ayudar con tareas como resolver problemas de física. Sin embargo, todavía no sabemos lo suficiente sobre cómo estos modelos pueden otorgar calificaciones.

Este artículo analiza más de cerca qué tan bien pueden calificar los chatbots de IA problemas de física de pregrado. Las buenas prácticas de Calificación son súper importantes para los estudiantes porque la retroalimentación les ayuda a ver en qué necesitan mejorar su comprensión. La calificación tradicional consume mucho tiempo y requiere mucho esfuerzo humano. Si pudiéramos automatizar este proceso con IA, podría liberar tiempo a los profesores y dar a los estudiantes retroalimentación más rápida y consistente.

Calificando con Chatbots de IA

Para ver si la IA puede manejar la calificación, es importante entender qué hace que estos chatbots funcionen. Usan grandes modelos de lenguaje construidos sobre enormes cantidades de datos de internet. Cuando haces una pregunta, responden basándose en patrones que han aprendido. Para calificar, necesitan ser enseñados a manejar problemas de física eficazmente.

Se realizó un estudio para ver qué tan bien diferentes modelos de IA podían no solo calificar sino también proporcionar retroalimentación útil. Los investigadores analizaron varios modelos, incluyendo GPT-4 y otros, para ver cuál podía manejar mejor algunos problemas clásicos de física.

Cómo Funciona la Calificación con IA

En un escenario típico, un estudiante envía su Solución escrita a mano a un problema de física. Para que la IA entienda lo que escribió el estudiante, la escritura debe ser convertida a un formato digital. Una vez digitalizada, la IA puede leerla, entenderla y calificarla.

Para este estudio, los investigadores escanearon respuestas manuscritas en PDFs y luego las transformaron a un formato que la IA pudiera entender. Crearon un conjunto de problemas de física cubriendo mecánica clásica, teoría electromagnética y mecánica cuántica de cursos a nivel universitario. Se diseñó un esquema de calificación claro para guiar tanto a la IA como a los evaluadores humanos.

Creando Problemas y Soluciones de Física

Los investigadores idearon una variedad de problemas de física, asegurándose de incorporar cálculos y preguntas basadas en texto. Por ejemplo, tuvieron problemas sobre electrostática y circuitos junto con preguntas que necesitaban explicaciones largas. La idea era imitar lo que los estudiantes podrían ver en exámenes o cuestionarios reales.

Para evitar pedir a estudiantes reales que resolvieran los problemas-porque eso podría complicarse con el consentimiento-los investigadores generaron las respuestas usando la IA misma. Se crearon tres soluciones diferentes para cada problema, así la IA podía calificar múltiples intentos para una mejor precisión.

Calificación: IA vs. Humanos

Cuando llegó el momento de calificar las soluciones, los modelos de IA fueron puestos a prueba de dos maneras diferentes. Primero, calificaron “a ciegas”, sin ningún esquema de calificación, y luego calificaron con un esquema de calificación para ver cuánto mejoró la evaluación.

En la calificación a ciegas, se pidió a la IA que asignara notas y proporcionara retroalimentación basándose únicamente en su comprensión de las respuestas. Esto, por supuesto, llevó a variaciones en las calificaciones porque la calificación de la IA podía ser un poco aleatoria. Para la calificación con el esquema, a la IA se le dio una forma estructurada de evaluar soluciones según criterios específicos.

Cómo Intervienen los Humanos

Para comparar el rendimiento de la IA con la calificación humana, se trajeron evaluadores humanos para evaluar el mismo conjunto de soluciones de física. Siguieron el mismo esquema de calificación para mantener la consistencia. Cada solución fue calificada por múltiples evaluadores humanos, y sus puntuaciones promedio se calcularon para ver qué tan cerca estaba la IA de las calificaciones humanas.

Resultó que la calificación humana era un poco más estricta que la calificación de la IA, a menudo porque la IA pasaba por alto errores clave o daba notas demasiado generosamente. Esto destacó que, aunque la IA puede ayudar, confiar solo en ella podría llevar a que algunos estudiantes obtengan un pase que realmente no merecieron.

Tendencias y Observaciones

Cuando los investigadores graficaron los resultados, notaron algunos patrones. Modelos como Claude 3.5 Sonnet calificaron de manera mucho más indulgente que los humanos, mientras que GPT-4 proporcionó un mejor rendimiento en la calificación en general al usar el esquema de calificación.

La retroalimentación proporcionada por la IA también varió mucho. Algunos modelos dieron Comentarios genéricos como "buen trabajo", incluso cuando las respuestas contenían errores. Los modelos más avanzados fueron algo mejores para identificar dónde se equivocaban los estudiantes, pero aún necesitaban mejorar en señalar errores específicos.

Recalibrando las Calificaciones de la IA

Para ayudar a que las calificaciones de la IA se alineen más estrechamente con las calificaciones humanas, se puede usar una técnica llamada recalibración de calificaciones. Ajustando las calificaciones de la IA basándose en su rendimiento en relación con las calificaciones humanas, se puede lograr un mejor ajuste. Sin embargo, esto no elimina las inconsistencias en el estilo de calificación de la IA.

La Conexión entre Calificación y Resolución de Problemas

Curiosamente, se descubrió que la habilidad de la IA para calificar bien a menudo estaba ligada a qué tan bien resolvía los problemas de física en primer lugar. Si la IA tenía dificultades para resolver un problema, también tendría problemas para asignar calificaciones precisas. Esta conexión sugiere que si la IA pudiera mejorar sus habilidades de resolución de problemas, es probable que también mejoraran sus habilidades de calificación.

Conclusión: ¿Qué Sigue?

En resumen, aunque la IA tiene el potencial de ayudar con la calificación en la educación de física, aún no está lista para hacerse cargo completamente. El estudio mostró que, aunque la IA puede calificar más rápido, todavía comete demasiados errores matemáticos. Sin embargo, al usar un esquema de calificación, la precisión de las calificaciones mejora significativamente.

A medida que la IA continúa evolucionando, hay esperanza de que estas herramientas puedan ser refinadas para ofrecer calificaciones y retroalimentación aún más precisas. Mientras tanto, los profesores podrían querer mantener sus bolígrafos de calificación a la mano por si acaso.

Fuente original

Título: Using AI Large Language Models for Grading in Education: A Hands-On Test for Physics

Resumen: Grading assessments is time-consuming and prone to human bias. Students may experience delays in receiving feedback that may not be tailored to their expectations or needs. Harnessing AI in education can be effective for grading undergraduate physics problems, enhancing the efficiency of undergraduate-level physics learning and teaching, and helping students understand concepts with the help of a constantly available tutor. This report devises a simple empirical procedure to investigate and quantify how well large language model (LLM) based AI chatbots can grade solutions to undergraduate physics problems in Classical Mechanics, Electromagnetic Theory and Quantum Mechanics, comparing humans against AI grading. The following LLMs were tested: Gemini 1.5 Pro, GPT-4, GPT-4o and Claude 3.5 Sonnet. The results show AI grading is prone to mathematical errors and hallucinations, which render it less effective than human grading, but when given a mark scheme, there is substantial improvement in grading quality, which becomes closer to the level of human performance - promising for future AI implementation. Evidence indicates that the grading ability of LLM is correlated with its problem-solving ability. Through unsupervised clustering, it is shown that Classical Mechanics problems may be graded differently from other topics. The method developed can be applied to investigate AI grading performance in other STEM fields.

Autores: Ryan Mok, Faraaz Akhtar, Louis Clare, Christine Li, Jun Ida, Lewis Ross, Mario Campanelli

Última actualización: 2024-11-20 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2411.13685

Fuente PDF: https://arxiv.org/pdf/2411.13685

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Artículos similares