Aprimorando a Avaliação Automática com Árvores de Pensamento
Um novo método melhora a clareza e a precisão em sistemas de pontuação automatizada.
― 6 min ler
Índice
- A Necessidade de Explicabilidade na Pontuação
- O Conceito de Árvores de Pensamento
- Desdobramento Passo a Passo
- Passo 1: Imitando a Avaliação Humana
- Passo 2: Gerando Decisões Intermediárias
- Passo 3: Criando Justificativas Sintéticas
- Passo 4: Treinando os Modelos
- Resultados Experimentais
- Qualidade das Justificativas Geradas
- Comparação com Modelos Existentes
- A Importância dos Dados
- Avaliação Humana
- Limitações e Desafios
- Direções Futuras
- Conclusão
- Fonte original
- Ligações de referência
Sistemas de Pontuação Automatizada estão se tornando mais comuns na educação, especialmente para avaliar as respostas dos alunos em ciências. Esses sistemas ajudam a economizar tempo para os professores, mas existem desafios para torná-los confiáveis e compreensíveis. Um aspecto chave é gerar razões ou justificativas claras para as pontuações dadas aos alunos. Este artigo discute um novo método que visa melhorar a pontuação das respostas dos alunos usando uma estrutura que imita como os humanos avaliam as respostas.
A Necessidade de Explicabilidade na Pontuação
Quando máquinas pontuam as respostas dos alunos, é importante que seu raciocínio seja claro. Isso ajuda professores e alunos a entenderem por que uma certa pontuação foi dada. Métodos anteriores tiveram dificuldades em fornecer razões precisas, frequentemente produzindo justificativas incorretas ou vagas. Portanto, há uma necessidade urgente de um sistema que possa produzir tanto pontuações precisas quanto explicações claras.
O Conceito de Árvores de Pensamento
Para abordar o problema de gerar melhores justificativas, uma abordagem nova chamada "Árvores de Pensamento" é introduzida. Árvores de Pensamento são caminhos de tomada de decisão estruturados que se assemelham a como um humano poderia pensar em uma resposta. Usando Modelos de Linguagem de Grande Escala (LLMs) para criar essas árvores, o sistema pode imitar melhor a avaliação humana e melhorar a conexão entre pontuação e justificativa.
Desdobramento Passo a Passo
Passo 1: Imitando a Avaliação Humana
O primeiro passo envolve desmembrar como um professor avalia a resposta de um aluno. Normalmente, um professor primeiro entende o que o aluno escreveu, identifica os pontos-chave que correspondem à pergunta e, em seguida, atribui uma pontuação com base em um rubrico fornecido. A abordagem das Árvores de Pensamento imita esse processo, permitindo que o LLM avalie os principais elementos da resposta passo a passo.
Passo 2: Gerando Decisões Intermediárias
Após gerar as Árvores de Pensamento, a próxima fase é resumir as decisões intermediárias tomadas durante a avaliação. Essas decisões ajudam a formar justificativas que explicam por que uma pontuação foi dada. Cada ramificação da Árvore de Pensamento representa um ponto de decisão específico, orientando a pontuação final.
Passo 3: Criando Justificativas Sintéticas
Nesta etapa, as decisões intermediárias são resumidas em justificativas claras e concisas. Isso é alcançado enquadrando a geração de justificativas como uma tarefa de resumo, o que permite ao sistema produzir justificativas mais coerentes e relevantes que se alinham com a avaliação inicial.
Passo 4: Treinando os Modelos
Para melhorar o desempenho dos LLMs utilizados neste processo, um método de treinamento em duas etapas é implementado. O primeiro passo envolve o ajuste fino do modelo nas justificativas geradas, enquanto o segundo passo se concentra na otimização do modelo para reconhecer justificativas preferidas com base nas avaliações humanas. Essa combinação ajuda a alinhar as saídas do modelo com o que é esperado de um avaliador humano.
Resultados Experimentais
Após o desenvolvimento desta estrutura, experimentos extensivos foram realizados para avaliar sua eficácia. Os resultados mostraram uma melhoria significativa na precisão da avaliação em comparação com métodos tradicionais. A nova estrutura alcançou um aumento de 38% na precisão da pontuação, demonstrando que não só produz melhores pontuações, mas também melhora a qualidade das justificativas geradas.
Qualidade das Justificativas Geradas
Para avaliar a qualidade das justificativas produzidas pela estrutura, tanto avaliações automatizadas usando LLMs quanto avaliações humanas foram conduzidas. Os resultados indicaram que as justificativas geradas eram mais informativas e precisas do que aquelas produzidas por modelos anteriores. Importante, o novo método não produziu falsos positivos, o que significa que as justificativas eram sempre relevantes para as pontuações atribuídas.
Comparação com Modelos Existentes
A estrutura foi comparada com modelos existentes para destacar seus avanços. Os resultados mostraram que o método da Árvore de Pensamento superou classificadores de texto tradicionais e outros modelos explicáveis. Ao se concentrar em elementos-chave e gerar justificativas claras, o sistema ajudou a fechar a lacuna entre pontuação precisa e avaliações explicáveis.
A Importância dos Dados
Um grande desafio no desenvolvimento de sistemas de pontuação automatizada eficazes é a escassez de dados de qualidade. Para abordar essa questão, a nova estrutura gera Dados Sintéticos que expandem o conjunto de dados disponível. Esses dados sintéticos não só aprimoram o treinamento dos LLMs, mas também melhoram a robustez geral do sistema de pontuação.
Avaliação Humana
Para validar ainda mais a eficácia das justificativas geradas, uma avaliação humana foi conduzida. Anotadores avaliaram as justificativas quanto à precisão, relevância e fidelidade às decisões de avaliação originais. Os resultados mostraram que a nova estrutura produziu justificativas que refletiam mais com precisão os elementos-chave das respostas dos alunos.
Limitações e Desafios
Embora a nova estrutura demonstre melhorias significativas, algumas limitações devem ser reconhecidas. A complexidade das Árvores de Pensamento pode levar a altos custos computacionais, especialmente com conjuntos maiores de elementos-chave da resposta. Além disso, questões relacionadas à filtragem de conteúdo prejudicial pelos LLMs podem restringir a geração de certas respostas.
Direções Futuras
Olhando para o futuro, refinamentos adicionais à estrutura podem melhorar ainda mais seu desempenho. Explorar diferentes modelos e otimizar o processo de geração de justificativas pode abrir novas avenidas para sistemas de pontuação automatizados. Equilibrar a precisão das avaliações com a clareza das justificativas geradas continuará a ser uma área crítica de foco.
Conclusão
A introdução da estrutura de Geração de Justificativas Guiadas por Árvores de Pensamento representa um avanço promissor no campo da pontuação automatizada para respostas de alunos. Ao imitar efetivamente o processo de avaliação humana e gerar justificativas claras e precisas, essa estrutura não só melhora o desempenho da pontuação, mas também aumenta a explicabilidade das avaliações automatizadas. À medida que a educação integra cada vez mais a tecnologia, inovações como essas desempenharão um papel vital no apoio a professores e alunos.
Título: Calibrating LLMs with Preference Optimization on Thought Trees for Generating Rationale in Science Question Scoring
Resumo: Generating rationales that justify scoring decisions has been a promising way to facilitate explainability in automated scoring systems. However, existing methods do not match the accuracy of classifier-based methods. Plus, the generated rationales often contain hallucinated information. To address these issues, we propose a novel framework capable of generating more faithful rationales and, more importantly, matching performance with classifier-based black-box scoring systems. We first mimic the human assessment process by querying Large Language Models (LLMs) to generate a thought tree. We then summarise intermediate assessment decisions from each thought tree path for creating synthetic rationale data and rationale preference data. Finally, we utilise the generated synthetic data to calibrate LLMs through a two-step training process: supervised fine-tuning and preference optimization. Extensive experimental results demonstrate that our framework achieves a 38% assessment performance improvement in the QWK score compared to prior work while producing higher-quality rationales, as recognised by human evaluators and LLMs. Our work sheds light on the effectiveness of performing preference optimization using synthetic preference data obtained from thought tree paths.
Autores: Jiazheng Li, Hainiu Xu, Zhaoyue Sun, Yuxiang Zhou, David West, Cesare Aloisi, Yulan He
Última atualização: 2024-06-28 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2406.19949
Fonte PDF: https://arxiv.org/pdf/2406.19949
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.