IA Avaliando Provas Escritas em Termodinâmica
Um estudo sobre o papel da IA na correção de provas de termodinâmica mostra seus pontos fortes e fracos.
― 8 min ler
Índice
- O Desafio da Caligrafia
- IA na Educação
- Métodos Tradicionais de Correção
- O Potencial da IA para Correção
- A Estrutura da Prova
- Problemas na Prova
- Processo de Correção
- Compreendendo Modelos de Linguagem Grandes
- Usando Infraestrutura em Nuvem
- Estrutura da Prova
- A Importância da Privacidade
- Desafios do Reconhecimento Óptico de Caracteres
- Usando IA para Correção
- Diferentes Fluxos de Trabalho de Correção
- Observações da Correção
- Resultados do Estudo
- Recomendações para Futuras Provas
- Conclusão
- Fonte original
Neste estudo, olhamos como a inteligência artificial (IA) pode ajudar a corrigir Provas escritas à mão em termodinâmica. Focamos em uma prova importante com 252 alunos e quatro questões. Nosso maior desafio foi transformar as respostas escritas em um formato que a IA conseguisse ler. Também descobrimos que a forma como definimos os critérios de correção afetava o desempenho da IA.
O Desafio da Caligrafia
Um dos maiores obstáculos foi fazer com que as respostas escritas à mão fossem legíveis para a máquina. Os alunos costumam ter estilos diferentes de caligrafia, e a maneira como escrevem pode dificultar a compreensão do que querem dizer. Descobrimos que corrigir respostas complexas, como desenhos ou diagramas, era especialmente difícil para a IA. Enquanto a IA conseguia identificar as provas que passavam, ainda precisava de corretores humanos para aquelas que não passavam.
IA na Educação
A ascensão da IA abriu novas opções para a educação, incluindo a correção. Como os sistemas de IA, como modelos de linguagem, conseguem analisar grandes quantidades de dados rapidamente, eles mostram potencial para dar feedback sobre respostas abertas. Em estudos anteriores, os sistemas de IA mostraram alguma concordância com corretores humanos, mas esses estudos não capturaram todas as complexidades das provas reais.
Métodos Tradicionais de Correção
Tradicionalmente, corrigir provas de física exige uma análise detalhada. Os professores avaliam as respostas finais e o processo que os alunos seguem para chegar lá. Isso inclui avaliar lógica, conceitos e habilidades matemáticas. Embora os computadores possam ajudar a corrigir algumas respostas, o julgamento humano é necessário para avaliações mais completas, especialmente quando os alunos seguem caminhos diferentes para resolver um problema.
O Potencial da IA para Correção
A IA pode oferecer uma maneira escalável de fornecer feedback em provas. Avanços recentes tornaram possível para sistemas de IA analisarem as respostas dos alunos e fornecerem Notas ou classificações preliminares. No entanto, muitos desafios ainda existem, principalmente quando se trata de entender texto manuscrito. Nós exploramos diferentes maneiras de usar a IA para correção e focamos em como esses métodos funcionaram em situações do mundo real.
A Estrutura da Prova
A prova de termodinâmica que estudamos incluía tópicos padrão, como energia, entropia e entalpia. Os alunos tinham 15 minutos para ler as questões e duas horas para completá-las. Eles podiam usar materiais de referência e calculadoras, e as respostas tinham que ser escritas à mão. Com 252 dos 434 alunos concordando em participar, coletamos um conjunto de dados rico.
Problemas na Prova
A prova tinha quatro questões, cada uma com diferentes partes. A primeira questão lidava com a operação em estado estacionário de um reator. A segunda questão focava na operação de um motor de avião, enquanto a terceira envolvia um gás quente e um sistema sólido-líquido. A quarta questão centrava-se em um processo de liofilização para preservação de alimentos. Cada problema exigia que os alunos fornecessem soluções detalhadas, muitas vezes incluindo derivações e cálculos.
Processo de Correção
Desenvolvemos vários fluxos de trabalho para a correção. O primeiro passo foi escanear as provas e convertê-las em um formato que a IA pudesse interpretar. Usamos ferramentas como MathPix para reconhecimento óptico de caracteres (OCR) para transformar a caligrafia em um formato legível pela máquina. Depois disso, usamos um modelo de linguagem, o GPT-4, para analisar o texto corrigido.
Compreendendo Modelos de Linguagem Grandes
Modelos de linguagem grandes criam respostas com base em probabilidades. Eles geram texto em sequências, semelhante à maneira como as pessoas constroem frases. No entanto, as respostas podem variar amplamente dependendo das configurações, o que pode torná-las mais previsíveis ou mais criativas-embora não necessariamente corretas. Para este estudo, mantivemos uma abordagem padrão, mas ajustamos para tarefas específicas, como a correção.
Usando Infraestrutura em Nuvem
Acessamos modelos da OpenAI por meio de um serviço que garantia que o processamento fosse feito em data centers suíços. Essa configuração foi crucial para manter a privacidade e a confiabilidade dos dados. Avaliamos as provas com base em vários critérios para garantir um processo de correção justo e minucioso.
Estrutura da Prova
Na prova de termodinâmica, estabelecemos parâmetros para guiar a correção. Os alunos tinham que fornecer soluções claras e abrangentes, e cada problema da prova foi atribuído a dois assistentes de ensino para garantir uma correção rigorosa. A correção foi baseada em um sistema de pontos, com critérios detalhados para refletir a compreensão básica do assunto.
A Importância da Privacidade
Para manter a privacidade dos alunos, separamos os formulários de consentimento das submissões das provas. Isso permitiu um processo de correção cego, que ajudou a evitar viés. No entanto, isso também introduziu complexidades, já que os corretores não sabiam quais alunos tinham consentido em participar do estudo.
Desafios do Reconhecimento Óptico de Caracteres
O processo de OCR apresentou seu próprio conjunto de dificuldades. Os alunos escreveram em vários tipos de papel, alguns decorados com logotipos e cabeçalhos que complicavam o reconhecimento. A qualidade da caligrafia também variou bastante; alguns alunos tinham escrita limpa, enquanto outros eram mais difíceis de ler. Essa inconsistência impactou a precisão da correção.
Usando IA para Correção
Depois de converter as provas em um formato legível pela máquina, usamos IA para corrigir as respostas. Nossa abordagem envolveu usar um rubrica de correção detalhada, que atribuía pontos para cada passo na resposta de um aluno. Esse detalhe fino adicionou complexidade ao processo de correção e, às vezes, levou a erros.
Diferentes Fluxos de Trabalho de Correção
Exploramos quatro fluxos de trabalho distintos na correção:
- Fluxo de Trabalho 1: Usou rubricas de correção detalhadas.
- Fluxo de Trabalho 2: Corrigiu por partes dos problemas, facilitando para a IA acompanhar.
- Fluxo de Trabalho 3: Avaliou as respostas dando uma nota total para o problema todo, o que reduziu a precisão.
- Fluxo de Trabalho 4: Focou apenas em processar sem rubricas, o que levou a uma maior variabilidade.
O primeiro fluxo de trabalho frequentemente resultava em erros de contabilidade, enquanto o segundo mostrava uma melhor correlação entre a IA e a correção humana. Cada método tinha suas forças e fraquezas, levando a conclusões valiosas sobre as capacidades da IA.
Observações da Correção
Quando corrigimos as provas, descobrimos que problemas com diagramas complexos eram frequentemente mal compreendidos pela IA. As descrições da IA sobre essas respostas gráficas eram vagas e não podiam ser confiadas para uma correção precisa. Para derivações matemáticas, no entanto, a IA mostrou promessas em avaliar o trabalho dos alunos com uma precisão razoável.
Resultados do Estudo
No geral, embora a IA tenha fornecido resultados promissores em identificar quais alunos passaram, as ferramentas ainda não estavam prontas para substituir totalmente os corretores humanos. Provas de alto risco ainda requerem supervisão humana para garantir avaliações justas. A IA teve dificuldades com casos complexos e frequentemente precisava de verificação em provas com notas baixas.
Recomendações para Futuras Provas
Para melhorar o processo de correção em provas futuras, várias mudanças poderiam ser feitas:
- Usar papel liso para minimizar confusões durante o processo de OCR.
- Fornecer folhas de prova específicas com cabeçalhos claros para ajudar no processamento.
- Incentivar os alunos a escrever respostas mais detalhadas para capturar seus processos de pensamento.
- Evitar usar canetas que escrevem de forma que dificultam a correção; isso complica a precisão do OCR.
Conclusão
A exploração da IA na correção de provas escritas em termodinâmica revelou insights valiosos sobre seu potencial e limitações. Embora a IA possa ajudar no processo de correção, é claro que os avaliadores humanos continuam sendo essenciais. O aprendizado deste estudo pode guiar futuros esforços em tecnologia educacional para integrar melhor a IA nos sistemas de correção, ajudando a criar processos de avaliação mais eficazes e confiáveis.
Ao abordar os desafios encontrados e implementar recomendações, podemos trabalhar em direção a uma correção mais eficiente que beneficie tanto alunos quanto educadores a longo prazo.
Título: Grading Assistance for a Handwritten Thermodynamics Exam using Artificial Intelligence: An Exploratory Study
Resumo: Using a high-stakes thermodynamics exam as sample (252~students, four multipart problems), we investigate the viability of four workflows for AI-assisted grading of handwritten student solutions. We find that the greatest challenge lies in converting handwritten answers into a machine-readable format. The granularity of grading criteria also influences grading performance: employing a fine-grained rubric for entire problems often leads to bookkeeping errors and grading failures, while grading problems in parts is more reliable but tends to miss nuances. We also found that grading hand-drawn graphics, such as process diagrams, is less reliable than mathematical derivations due to the difficulty in differentiating essential details from extraneous information. Although the system is precise in identifying exams that meet passing criteria, exams with failing grades still require human grading. We conclude with recommendations to overcome some of the encountered challenges.
Autores: Gerd Kortemeyer, Julian Nöhl, Daria Onishchuk
Última atualização: 2024-06-25 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2406.17859
Fonte PDF: https://arxiv.org/pdf/2406.17859
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.