O Papel da IA na Correção de Trabalhos de Física
Esse artigo explora o potencial da IA em corrigir problemas de física nas universidades.
Ryan Mok, Faraaz Akhtar, Louis Clare, Christine Li, Jun Ida, Lewis Ross, Mario Campanelli
― 7 min ler
Índice
- A Influência Crescente da IA
- Como Usar a IA na Educação
- Avaliando com Chatbots de IA
- Como Funciona a Avaliação com IA
- Criando Problemas e Soluções de Física
- Avaliação: IA vs. Humanos
- Como os Humanos Avaliam
- Tendências e Observações
- Reajustando as Notas da IA
- A Conexão Entre Avaliação e Resolução de Problemas
- Conclusão: E Agora?
- Fonte original
- Ligações de referência
Dar nota nas tarefas escolares é tipo tentar achar a saída de um labirinto de olhos vendados. Leva muito tempo e muitos professores ficam com medo de que suas próprias opiniões acabem entrando na avaliação. Os alunos acabam esperando muito tempo para receber suas Notas, e o Feedback que recebem pode não ajudar muito a melhorar.
Mas e se a IA pudesse ajudar? Este artigo fala sobre como o uso de IA, especificamente chatbots baseados em grandes modelos de linguagem (LLMs), pode ser um divisor de águas na hora de dar nota em Problemas de física nas universidades. Imagina ter um assistente super inteligente que nunca dorme e tá sempre pronto pra ajudar os alunos a aprender. Este artigo investiga quão bem esses ferramentas de IA conseguem avaliar tarefas de física comparadas aos professores humanos.
A Influência Crescente da IA
Nos últimos anos, a IA invadiu praticamente todos os campos. O grande hype começou com um chatbot chamado ChatGPT, desenvolvido pela OpenAI, que conseguia ter conversas baseadas em texto e parecia entender a linguagem humana de um jeito que a gente nunca tinha visto antes. Outras empresas, como Google e Meta, logo seguiram o exemplo criando seus próprios chatbots. Essas ferramentas conseguem conversar e realizar tarefas que lembram as habilidades humanas.
Modelos mais novos, como o GPT-4 e outros, mostraram que podem lidar com algumas tarefas humanas complicadas. Eles conseguem até trabalhar com imagens e documentos, não só texto, o que torna tudo ainda mais útil. O surgimento desses modelos multimodais abriu várias possibilidades na educação, especialmente em matérias como física.
Como Usar a IA na Educação
Antes de entrar nas partes legais, vale mencionar que a IA já tá sendo usada na educação há um tempão. Por exemplo, existem sistemas de tutoria inteligente que ajudam os alunos a aprender sem precisar de um professor presente o tempo todo. Estudos mais recentes mostraram como o ChatGPT pode ajudar em tarefas como resolver problemas de física. No entanto, ainda não sabemos o suficiente sobre como esses modelos conseguem avaliar e dar notas.
Esse artigo analisa mais de perto como os chatbots de IA conseguem dar nota em problemas de física de graduação. Boas práticas de avaliação são muito importantes para os alunos porque o feedback ajuda eles a ver onde precisam melhorar. A avaliação tradicional demora muito e exige um esforço humano grande. Se a gente conseguisse automatizar esse processo com IA, isso liberaria mais tempo pros professores e daria aos alunos um retorno mais rápido e consistente.
Avaliando com Chatbots de IA
Pra ver se a IA consegue dar conta da avaliação, é importante entender como esses chatbots funcionam. Eles usam grandes modelos de linguagem construídos com uma quantidade imensa de dados da internet. Quando você faz uma pergunta, eles respondem baseado nos padrões que aprenderam. Pra dar nota, eles precisam ser ensinados a lidar com problemas de física de forma eficaz.
Um estudo foi realizado pra ver como diferentes modelos de IA poderiam não só avaliar, mas também oferecer feedback útil. Os pesquisadores analisaram vários modelos, incluindo o GPT-4 e outros, pra ver qual deles conseguia lidar melhor com alguns problemas clássicos de física.
Como Funciona a Avaliação com IA
Em um cenário típico, um aluno envia sua Solução escrita à mão pra um problema de física. Pra IA entender o que o aluno escreveu, a letra precisa ser convertida em formato digital. Depois que é digitalizado, a IA pode ler, entender e então avaliar.
Pra esse estudo, os pesquisadores escanearam respostas manuscritas em PDFs e depois as transformaram em um formato que a IA conseguisse entender. Eles criaram um conjunto de problemas de física cobrindo mecânica clássica, teoria eletromagnética e mecânica quântica de cursos universitários. Um Esquema de Avaliação claro foi criado pra guiar tanto a IA quanto os avaliadores humanos.
Criando Problemas e Soluções de Física
Os pesquisadores pensaram em uma variedade de problemas de física, garantindo que incluíssem cálculos e perguntas discursivas. Por exemplo, tiveram problemas sobre eletrostática e circuitos, junto com questões que precisavam de explicações longas. A ideia era imitar o que os alunos podem encontrar em provas ou quizzes de verdade.
Pra evitar pedir pra alunos reais resolverem os problemas-porque isso poderia ser complicado com consentimento-os pesquisadores geraram as respostas usando a própria IA. Três soluções diferentes foram criadas pra cada problema, assim a IA poderia avaliar várias tentativas pra melhor precisão.
Avaliação: IA vs. Humanos
Quando chegou a hora de dar nota pras soluções, os modelos de IA foram testados de duas maneiras diferentes. Primeiro, eles avaliaram “cegamente”, sem nenhum esquema de avaliação, e depois avaliaram com um esquema pra ver quanto a avaliação melhorou.
Na avaliação cega, a IA foi pedida pra dar notas e fornecer feedback baseado apenas na sua compreensão das respostas. Isso naturalmente levou a variações nas notas porque a avaliação da IA podia ser um pouco aleatória. Na avaliação com esquema, a IA recebeu uma forma estruturada de avaliar soluções baseada em critérios específicos.
Como os Humanos Avaliam
Pra comparar o desempenho da IA com a avaliação humana, avaliadores humanos foram chamados pra avaliar o mesmo conjunto de soluções de física. Eles seguiram o mesmo esquema de avaliação pra manter as coisas consistentes. Cada solução foi avaliada por vários avaliadores humanos, e a média das notas deles foi calculada pra ver quão próximo a IA chegou das notas humanas.
Acontece que a avaliação humana foi um pouco mais rigorosa do que a avaliação da IA, muitas vezes porque a IA deixava passar erros importantes ou dava notas de forma muito generosa. Isso destacou que, enquanto a IA pode ajudar, confiar apenas nela pode fazer alguns alunos receberem uma nota que eles não mereciam de verdade.
Tendências e Observações
Quando os pesquisadores plotaram os resultados, perceberam alguns padrões. Modelos como Claude 3.5 Sonnet deram notas muito mais brandas do que os humanos, enquanto o GPT-4 teve um desempenho de avaliação melhor no geral usando o esquema de avaliação.
O feedback dado pela IA também variou muito. Alguns modelos deram comentários genéricos como "bom trabalho", mesmo quando as respostas tinham erros. Os modelos mais avançados eram um pouco melhores em identificar onde os alunos erraram, mas ainda precisavam melhorar em apontar erros específicos.
Reajustando as Notas da IA
Pra ajudar as notas da IA a se alinhar mais com as notas humanas, uma técnica chamada reajuste de notas pode ser usada. Ajustando as notas da IA com base em como elas se saíram em relação às notas humanas, um melhor ajuste pode ser alcançado. No entanto, isso não elimina as inconsistências no estilo de avaliação da IA.
A Conexão Entre Avaliação e Resolução de Problemas
Curiosamente, foi descoberto que a habilidade da IA em avaliar bem estava frequentemente ligada a quão bem ela resolvia os problemas de física desde o começo. Se a IA tinha dificuldade em resolver um problema, também iria ter dificuldade em dar notas precisas. Essa conexão sugere que se a IA pudesse melhorar suas habilidades de resolução de problemas, suas capacidades de avaliação provavelmente também melhorariam.
Conclusão: E Agora?
Resumindo, enquanto a IA tem o potencial de ajudar na avaliação na educação em física, ela ainda não tá pronta pra assumir tudo. O estudo mostrou que, enquanto a IA pode avaliar mais rápido, ela ainda comete muitos erros matemáticos. No entanto, ao usar um esquema de avaliação, a precisão das notas melhora significativamente.
À medida que a IA continua a evoluir, há esperança de que essas ferramentas possam ser refinadas pra entregar avaliações e feedback ainda mais precisos. Enquanto isso, os professores podem querer ficar com suas canetas de avaliação à mão só por precaução!
Título: Using AI Large Language Models for Grading in Education: A Hands-On Test for Physics
Resumo: Grading assessments is time-consuming and prone to human bias. Students may experience delays in receiving feedback that may not be tailored to their expectations or needs. Harnessing AI in education can be effective for grading undergraduate physics problems, enhancing the efficiency of undergraduate-level physics learning and teaching, and helping students understand concepts with the help of a constantly available tutor. This report devises a simple empirical procedure to investigate and quantify how well large language model (LLM) based AI chatbots can grade solutions to undergraduate physics problems in Classical Mechanics, Electromagnetic Theory and Quantum Mechanics, comparing humans against AI grading. The following LLMs were tested: Gemini 1.5 Pro, GPT-4, GPT-4o and Claude 3.5 Sonnet. The results show AI grading is prone to mathematical errors and hallucinations, which render it less effective than human grading, but when given a mark scheme, there is substantial improvement in grading quality, which becomes closer to the level of human performance - promising for future AI implementation. Evidence indicates that the grading ability of LLM is correlated with its problem-solving ability. Through unsupervised clustering, it is shown that Classical Mechanics problems may be graded differently from other topics. The method developed can be applied to investigate AI grading performance in other STEM fields.
Autores: Ryan Mok, Faraaz Akhtar, Louis Clare, Christine Li, Jun Ida, Lewis Ross, Mario Campanelli
Última atualização: 2024-11-20 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2411.13685
Fonte PDF: https://arxiv.org/pdf/2411.13685
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.