AI che valuta esami scritti a mano in termodinamica
Uno studio sul ruolo dell'IA nella valutazione degli esami di termodinamica rivela i suoi punti di forza e di debolezza.
― 7 leggere min
Indice
- La Sfida della Scrittura a Mano
- AI nell'Istruzione
- Metodi di Valutazione Tradizionali
- Il Potenziale dell'AI per la Valutazione
- La Struttura dell'Esame
- Problemi nell'Esame
- Processo di Valutazione
- Comprendere i Grandi Modelli Linguistici
- Utilizzo di Infrastrutture Cloud
- Struttura dell'Esame
- L'Importanza della Privacy
- Sfide del Riconoscimento Ottico dei Caratteri
- Utilizzo dell'AI per la Valutazione
- Diversi Flussi di Lavoro di Valutazione
- Osservazioni dalla Valutazione
- Risultati dello Studio
- Raccomandazioni per Futuri Esami
- Conclusione
- Fonte originale
In questo studio, abbiamo esaminato come l'intelligenza artificiale (AI) possa aiutare a valutare Esami scritti a mano in termodinamica. Ci siamo concentrati su un esame ad alto rischio con 252 Studenti e quattro problemi. La nostra principale sfida era convertire le risposte scritte a mano in un formato leggibile per l'AI. Abbiamo anche scoperto che come impostavamo i criteri di Valutazione influenzava le prestazioni dell'AI.
La Sfida della Scrittura a Mano
Uno dei maggiori ostacoli era rendere le risposte scritte a mano leggibili dalle macchine. Gli studenti spesso usano stili di scrittura diversi, e il modo in cui scrivono può rendere difficile per il software capire cosa intendono. Abbiamo scoperto che valutare risposte complesse, come disegni o diagrammi, era particolarmente difficile per l'AI. Anche se l'AI poteva identificare gli esami che passavano, aveva ancora bisogno di valutatori umani per quelli che fallivano.
AI nell'Istruzione
L'ascesa dell'AI ha aperto nuove opzioni per l'istruzione, incluso il grading. Poiché i sistemi AI, come i modelli linguistici, possono analizzare grandi quantità di dati rapidamente, mostrano promesse nel fornire feedback su risposte aperte. Negli studi passati, i sistemi AI hanno mostrato alcune concordanze con i valutatori umani, ma quegli studi non hanno catturato le complessità reali degli esami.
Metodi di Valutazione Tradizionali
Tradizionalmente, valutare esami di fisica richiede un'analisi dettagliata. Gli insegnanti valutano le risposte finali e il processo che gli studenti seguono per arrivarci. Questo include valutare la logica, i concetti e le abilità matematiche. Anche se i computer possono aiutare con la valutazione di alcune risposte, il giudizio umano è necessario per valutazioni approfondite, specialmente quando gli studenti seguono percorsi diversi per risolvere un problema.
Il Potenziale dell'AI per la Valutazione
L'AI potrebbe offrire un modo scalabile per fornire feedback sui compiti d'esame. Recenti avanzamenti hanno reso possibile per i sistemi AI analizzare le risposte degli studenti e fornire voti preliminari o classificazioni. Tuttavia, ci sono ancora molte sfide, in particolare quando si tratta di comprendere il testo scritto a mano. Abbiamo esplorato diversi modi per utilizzare l'AI per la valutazione e ci siamo concentrati su come questi metodi si sono comportati in situazioni reali.
La Struttura dell'Esame
L'esame di termodinamica che abbiamo studiato includeva argomenti standard come energia, entropia ed entalpia. Gli studenti avevano 15 minuti per leggere i problemi e due ore per completarli. Era permesso utilizzare materiali di riferimento e calcolatrici, e le loro risposte dovevano essere scritte a mano. Con 252 dei 434 studenti che accettavano di partecipare, abbiamo raccolto un set di dati ricco.
Problemi nell'Esame
L'esame presentava quattro problemi, ognuno con parti diverse. Il primo problema riguardava il funzionamento in regime stazionario di un reattore. Il secondo problema si concentrava sul funzionamento di un motore di aereo, mentre il terzo coinvolgeva un gas caldo e un sistema solido-liquido. Il quarto problema si concentrava su un processo di liofilizzazione per la conservazione degli alimenti. Ogni problema richiedeva agli studenti di fornire soluzioni dettagliate, spesso includendo derivazioni e calcoli.
Processo di Valutazione
Abbiamo sviluppato vari flussi di lavoro per la valutazione. Il primo passo era scansionare gli esami e convertirli in un formato che l'AI potesse interpretare. Abbiamo utilizzato strumenti come MathPix per il riconoscimento ottico dei caratteri (OCR) per trasformare la scrittura a mano in un formato leggibile dalle macchine. Successivamente, abbiamo impiegato un modello linguistico, GPT-4, per analizzare il testo valutato.
Comprendere i Grandi Modelli Linguistici
I grandi modelli linguistici creano risposte basate su probabilità. Producono testo in sequenze, simile a come le persone costruiscono frasi. Tuttavia, le risposte possono variare ampiamente a seconda delle impostazioni, il che può renderle più prevedibili o più creative-anche se non necessariamente corrette. Per questo studio, abbiamo mantenuto un approccio standard ma regolato per compiti specifici, come la valutazione.
Utilizzo di Infrastrutture Cloud
Abbiamo accesso ai modelli OpenAI attraverso un servizio che garantiva che l'elaborazione avvenisse in centri dati svizzeri. Questa impostazione è stata cruciale per mantenere la privacy dei dati e l'affidabilità. Abbiamo valutato gli esami sulla base di vari criteri per garantire un processo di valutazione equo e accurato.
Struttura dell'Esame
Nell'esame di termodinamica, abbiamo impostato parametri per guidare la valutazione. Gli studenti dovevano fornire soluzioni chiare e complete, e ogni problema d'esame era assegnato a due assistenti didattici per garantire una valutazione rigorosa. La valutazione era basata su un sistema a punti, con criteri dettagliati impostati per riflettere la comprensione di base dell'argomento.
L'Importanza della Privacy
Per mantenere la privacy degli studenti, abbiamo separato i moduli di consenso dalle sottomissioni degli esami. Questo ha permesso un processo di valutazione cieca, che ha aiutato a evitare pregiudizi. Tuttavia, questo ha anche introdotto complessità poiché i valutatori non erano a conoscenza di quali studenti avessero acconsentito a far parte dello studio.
Sfide del Riconoscimento Ottico dei Caratteri
Il processo OCR ha presentato le sue difficoltà. Gli studenti hanno scritto su vari tipi di carta, alcune decorate con loghi e intestazioni che complicavano il processo di riconoscimento. La qualità della scrittura variava notevolmente; alcuni studenti avevano una scrittura ordinata, mentre altri erano più difficili da leggere. Questa inconsistenza ha impattato l'accuratezza della valutazione.
Utilizzo dell'AI per la Valutazione
Dopo aver convertito i documenti d'esame in un formato leggibile dalle macchine, abbiamo utilizzato l'AI per valutare le risposte. Il nostro approccio prevedeva l'uso di un rubric di valutazione dettagliato, che assegnava punti per ogni passaggio nella risposta di uno studente. Questo dettaglio fine ha aggiunto complessità al processo di valutazione e ha occasionalmente portato a errori.
Diversi Flussi di Lavoro di Valutazione
Abbiamo esplorato quattro flussi di lavoro distinti nella valutazione:
- Flusso di Lavoro 1: Utilizzava rubric dettagliati di valutazione.
- Flusso di Lavoro 2: Valutava per parti del problema, rendendo più facile per l'AI tenere traccia.
- Flusso di Lavoro 3: Valutava le risposte dando un voto totale per l'intero problema, che riduceva l'accuratezza.
- Flusso di Lavoro 4: Si concentrava solo sull'elaborazione senza rubric, il che portava a una maggiore variabilità.
Il primo flusso di lavoro portava spesso a errori di contabilità, mentre il secondo flusso mostrava una migliore correlazione tra AI e valutazione umana. Ogni metodo aveva i suoi punti di forza e di debolezza, portandoci a conclusioni preziose sulle capacità dell'AI.
Osservazioni dalla Valutazione
Quando abbiamo valutato gli esami, abbiamo trovato che i problemi con diagrammi complessi erano spesso fraintesi dall'AI. Le descrizioni dell'AI di queste risposte grafiche erano vaghe e non potevano essere utilizzate per una valutazione accurata. Tuttavia, per le derivazioni matematiche, l'AI ha mostrato promesse nel valutare il lavoro degli studenti con un'accuratezza ragionevole.
Risultati dello Studio
Nel complesso, mentre l'AI ha fornito risultati promettenti nell'identificare quali studenti passavano, gli strumenti non erano pronti per sostituire completamente i valutatori umani. Gli esami ad alto rischio richiedono ancora supervisione umana per garantire valutazioni eque. L'AI ha faticato con casi complessi e spesso aveva bisogno di verifica su esami con punteggi bassi.
Raccomandazioni per Futuri Esami
Per migliorare il processo di valutazione nei futuri esami, si potrebbero apportare diverse modifiche:
- Utilizzare carta semplice per minimizzare la confusione durante il processo OCR.
- Fornire schede d'esame specifiche con intestazioni chiare per assistere nel processamento.
- Incoraggiare gli studenti a scrivere risposte più dettagliate per catturare i loro processi di pensiero.
- Evitare di utilizzare penne che cancellano gli errori; complicano l'accuratezza dell'OCR.
Conclusione
L'esplorazione dell'AI nella valutazione degli esami scritti a mano in termodinamica ha rivelato intuizioni preziose sul suo potenziale e limiti. Anche se l'AI può assistere nel processo di valutazione, è chiaro che i valutatori umani rimangono essenziali. L'apprendimento da questo studio può guidare futuri sforzi nella tecnologia educativa per integrare meglio l'AI nei sistemi di valutazione, contribuendo a creare processi di valutazione più efficaci e affidabili.
Affrontando le sfide incontrate e implementando raccomandazioni, possiamo lavorare verso una valutazione più efficiente che avvantaggi sia studenti che educatori nel lungo periodo.
Titolo: Grading Assistance for a Handwritten Thermodynamics Exam using Artificial Intelligence: An Exploratory Study
Estratto: Using a high-stakes thermodynamics exam as sample (252~students, four multipart problems), we investigate the viability of four workflows for AI-assisted grading of handwritten student solutions. We find that the greatest challenge lies in converting handwritten answers into a machine-readable format. The granularity of grading criteria also influences grading performance: employing a fine-grained rubric for entire problems often leads to bookkeeping errors and grading failures, while grading problems in parts is more reliable but tends to miss nuances. We also found that grading hand-drawn graphics, such as process diagrams, is less reliable than mathematical derivations due to the difficulty in differentiating essential details from extraneous information. Although the system is precise in identifying exams that meet passing criteria, exams with failing grades still require human grading. We conclude with recommendations to overcome some of the encountered challenges.
Autori: Gerd Kortemeyer, Julian Nöhl, Daria Onishchuk
Ultimo aggiornamento: 2024-06-25 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2406.17859
Fonte PDF: https://arxiv.org/pdf/2406.17859
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.