Aproveitando a IA pra facilitar as discussões do curso
Usar IA pra classificar e responder perguntas dos alunos nas discussões do curso.
― 6 min ler
Índice
Na faculdade, os alunos costumam usar fóruns de discussão para fazer perguntas sobre seus cursos. Infelizmente, os professores e assistentes podem gastar muito tempo respondendo essas perguntas, especialmente quando tem muita gente na turma. Com as melhorias recentes na tecnologia, a gente pode usar modelos de linguagem grandes (LLMs) pra ajudar a responder essas perguntas.
Esse estudo analisa um novo sistema que ajuda a classificar e responder perguntas em um fórum de discussão do curso, quebrando as perguntas em partes mais simples. O sistema usa um LLM, especificamente uma versão do GPT-3, pra categorizar as perguntas em quatro tipos principais: conceituais, de Dever de casa, Logísticas e não respondíveis. Cada tipo de pergunta tem seu jeito próprio de ser respondido, o que deixa o sistema mais eficiente.
Importância dos Tipos de Pergunta
Entender o tipo de pergunta é essencial pra dar a resposta certa. Aqui vai um resumo dos quatro tipos:
Perguntas Conceituais: Essas perguntas podem ser respondidas sem detalhes específicos do curso. Por exemplo, "Como escolhemos a taxa de aprendizado?"
Perguntas de Dever de Casa: Essas precisam de informações específicas das instruções do dever de casa pra serem respondidas. Um exemplo poderia ser, "O que z representa no Laboratório 1?"
Perguntas Logísticas: Essas perguntas precisam de detalhes do syllabus do curso, tipo, "Em qual sala vai ser o exame?"
Perguntas Não Respondíveis: Essas perguntas precisam de ajuda de um instrutor, como, "O instrutor não está aqui. As horas de atendimento foram canceladas?"
Como o Sistema Funciona
O sistema proposto usa um processo em duas etapas:
Classificando a Pergunta: A primeira etapa envolve descobrir a que tipo a pergunta pertence. O LLM processa a pergunta e a coloca em uma das quatro categorias.
Respondendo a Pergunta: Uma vez que a pergunta é classificada, o sistema tenta respondê-la ou decide não responder. Pra perguntas que podem ser respondidas, são usadas diferentes estratégias baseadas no tipo de pergunta. Por exemplo, perguntas conceituais não precisam de detalhes específicos do curso na resposta, enquanto as perguntas de dever de casa precisam de instruções relevantes dos trabalhos.
Por que Isso Importa
Esse método pode ajudar a reduzir a carga de trabalho dos instrutores, enquanto ainda fornece respostas rápidas e precisas pros alunos. Se o LLM conseguir classificar as perguntas e fornecer respostas, pode economizar muito tempo pros educadores. Mas também tem um risco. Se o sistema der uma resposta errada, pode confundir os alunos ou aumentar a carga de trabalho dos instrutores.
Resultados do Estudo
Os pesquisadores avaliaram o sistema de classificação usando 72 perguntas de um curso de aprendizado de máquina de nível superior de um semestre anterior. Três membros da equipe de curso trabalharam juntos pra classificar essas perguntas nos quatro tipos. Em casos de desacordo, eles consideraram a opinião da maioria como a classificação correta. Das 72 perguntas, eles encontraram:
- 13 perguntas eram conceituais
- 34 eram de dever de casa
- 8 eram logísticas
- 14 eram não respondíveis
O modelo que eles usaram pra classificação foi uma versão específica do GPT-3 conhecida como text-davinci-003. Após os testes, descobriram que o sistema alcançou uma taxa de precisão de 81% na classificação das perguntas.
Avaliando o Sistema
Os pesquisadores olharam pra vários fatores pra ver como eles influenciavam o desempenho do sistema:
Descrição da Tarefa
Eles começaram dando uma descrição clara de como classificar as perguntas. Quando incluíram essa descrição, o sistema funcionou bem com uma precisão de 81%. Mas, quando removeram, a precisão caiu pra 74%, e usar apenas uma parte da descrição resultou em uma precisão ainda menor de 72%.
Número de Exemplos
Pra ajudar o sistema a aprender, eles forneceram exemplos de perguntas junto com suas classificações. Depois de testar diferentes números de exemplos, descobriram que usar 31 exemplos produzia a melhor precisão.
Mudança nos Rótulos das Perguntas
O desempenho do sistema de classificação também mudou com base em como os tipos de perguntas eram rotulados. Por exemplo, se eles renomeassem os tipos pra rótulos genéricos, como "a, b, c, d," a precisão despencava pra 70%.
Respondendo Perguntas Conceituais
Em seguida, os pesquisadores se concentraram na capacidade do sistema de responder a perguntas conceituais. Eles usaram mais 63 perguntas da próxima oferta do curso. No total, trabalharam com 132 perguntas. Os resultados indicaram que o LLM teve o melhor desempenho em perguntas conceituais, o que era esperado, já que esse tipo de pergunta não exige informações específicas do curso.
Pra checar a qualidade das respostas fornecidas pelo LLM, eles olharam pra várias métricas que comparavam as respostas geradas pela máquina com as dos instrutores do curso.
Avaliação Humana
Os instrutores revisaram as respostas a 28 perguntas conceituais do modelo e as rotularam como "boas" ou "ruins". Os resultados mostraram que apenas cerca de 29% das respostas foram consideradas boas. Os problemas comuns nas respostas ruins incluíam:
- Classificação incorreta: Algumas perguntas que deveriam ser classificadas como dever de casa foram identificadas como conceituais.
- Erros factuais: Respostas que estavam simplesmente erradas ou eram enganosas.
- Inadequação: Respostas que estavam tecnicamente corretas, mas não eram adequadas ao nível de conhecimento dos alunos.
- Outros problemas incluíam mal-entendidos sobre a pergunta, incoerência e fornecimento de informações irrelevantes.
Conclusão
Esse estudo mostra que usar perguntas decompondo é uma boa estratégia pra classificar e responder perguntas de alunos em fóruns de discussão. O sistema conseguiu classificar perguntas com uma precisão de 81%, mas teve dificuldades em fornecer respostas corretas pra perguntas conceituais.
Muitas respostas incorretas foram devido ao sistema não alinhar com o que os instrutores do curso esperavam. No futuro, os pesquisadores sugerem melhorar o modelo ajustando-o especificamente com perguntas de fóruns de discussão.
Uma área promissora pra futuras explorações é combinar LLMs com outras técnicas pra melhorar as respostas a perguntas de dever de casa e logísticas. Isso poderia levar a um suporte ainda melhor pros alunos que buscam ajuda em seus cursos.
Título: Decomposed Prompting to Answer Questions on a Course Discussion Board
Resumo: We propose and evaluate a question-answering system that uses decomposed prompting to classify and answer student questions on a course discussion board. Our system uses a large language model (LLM) to classify questions into one of four types: conceptual, homework, logistics, and not answerable. This enables us to employ a different strategy for answering questions that fall under different types. Using a variant of GPT-3, we achieve $81\%$ classification accuracy. We discuss our system's performance on answering conceptual questions from a machine learning course and various failure modes.
Autores: Brandon Jaipersaud, Paul Zhang, Jimmy Ba, Andrew Petersen, Lisa Zhang, Michael R. Zhang
Última atualização: 2024-07-30 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2407.21170
Fonte PDF: https://arxiv.org/pdf/2407.21170
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.