Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem# Interação Homem-Computador

Aproveitando a IA pra facilitar as discussões do curso

Usar IA pra classificar e responder perguntas dos alunos nas discussões do curso.

― 6 min ler


A IA facilita perguntas eA IA facilita perguntas erespostas dos estudantes.dos alunos de forma eficiente.A IA classifica e responde às perguntas
Índice

Na faculdade, os alunos costumam usar fóruns de discussão para fazer perguntas sobre seus cursos. Infelizmente, os professores e assistentes podem gastar muito tempo respondendo essas perguntas, especialmente quando tem muita gente na turma. Com as melhorias recentes na tecnologia, a gente pode usar modelos de linguagem grandes (LLMs) pra ajudar a responder essas perguntas.

Esse estudo analisa um novo sistema que ajuda a classificar e responder perguntas em um fórum de discussão do curso, quebrando as perguntas em partes mais simples. O sistema usa um LLM, especificamente uma versão do GPT-3, pra categorizar as perguntas em quatro tipos principais: conceituais, de Dever de casa, Logísticas e não respondíveis. Cada tipo de pergunta tem seu jeito próprio de ser respondido, o que deixa o sistema mais eficiente.

Importância dos Tipos de Pergunta

Entender o tipo de pergunta é essencial pra dar a resposta certa. Aqui vai um resumo dos quatro tipos:

  1. Perguntas Conceituais: Essas perguntas podem ser respondidas sem detalhes específicos do curso. Por exemplo, "Como escolhemos a taxa de aprendizado?"

  2. Perguntas de Dever de Casa: Essas precisam de informações específicas das instruções do dever de casa pra serem respondidas. Um exemplo poderia ser, "O que z representa no Laboratório 1?"

  3. Perguntas Logísticas: Essas perguntas precisam de detalhes do syllabus do curso, tipo, "Em qual sala vai ser o exame?"

  4. Perguntas Não Respondíveis: Essas perguntas precisam de ajuda de um instrutor, como, "O instrutor não está aqui. As horas de atendimento foram canceladas?"

Como o Sistema Funciona

O sistema proposto usa um processo em duas etapas:

  1. Classificando a Pergunta: A primeira etapa envolve descobrir a que tipo a pergunta pertence. O LLM processa a pergunta e a coloca em uma das quatro categorias.

  2. Respondendo a Pergunta: Uma vez que a pergunta é classificada, o sistema tenta respondê-la ou decide não responder. Pra perguntas que podem ser respondidas, são usadas diferentes estratégias baseadas no tipo de pergunta. Por exemplo, perguntas conceituais não precisam de detalhes específicos do curso na resposta, enquanto as perguntas de dever de casa precisam de instruções relevantes dos trabalhos.

Por que Isso Importa

Esse método pode ajudar a reduzir a carga de trabalho dos instrutores, enquanto ainda fornece respostas rápidas e precisas pros alunos. Se o LLM conseguir classificar as perguntas e fornecer respostas, pode economizar muito tempo pros educadores. Mas também tem um risco. Se o sistema der uma resposta errada, pode confundir os alunos ou aumentar a carga de trabalho dos instrutores.

Resultados do Estudo

Os pesquisadores avaliaram o sistema de classificação usando 72 perguntas de um curso de aprendizado de máquina de nível superior de um semestre anterior. Três membros da equipe de curso trabalharam juntos pra classificar essas perguntas nos quatro tipos. Em casos de desacordo, eles consideraram a opinião da maioria como a classificação correta. Das 72 perguntas, eles encontraram:

  • 13 perguntas eram conceituais
  • 34 eram de dever de casa
  • 8 eram logísticas
  • 14 eram não respondíveis

O modelo que eles usaram pra classificação foi uma versão específica do GPT-3 conhecida como text-davinci-003. Após os testes, descobriram que o sistema alcançou uma taxa de precisão de 81% na classificação das perguntas.

Avaliando o Sistema

Os pesquisadores olharam pra vários fatores pra ver como eles influenciavam o desempenho do sistema:

Descrição da Tarefa

Eles começaram dando uma descrição clara de como classificar as perguntas. Quando incluíram essa descrição, o sistema funcionou bem com uma precisão de 81%. Mas, quando removeram, a precisão caiu pra 74%, e usar apenas uma parte da descrição resultou em uma precisão ainda menor de 72%.

Número de Exemplos

Pra ajudar o sistema a aprender, eles forneceram exemplos de perguntas junto com suas classificações. Depois de testar diferentes números de exemplos, descobriram que usar 31 exemplos produzia a melhor precisão.

Mudança nos Rótulos das Perguntas

O desempenho do sistema de classificação também mudou com base em como os tipos de perguntas eram rotulados. Por exemplo, se eles renomeassem os tipos pra rótulos genéricos, como "a, b, c, d," a precisão despencava pra 70%.

Respondendo Perguntas Conceituais

Em seguida, os pesquisadores se concentraram na capacidade do sistema de responder a perguntas conceituais. Eles usaram mais 63 perguntas da próxima oferta do curso. No total, trabalharam com 132 perguntas. Os resultados indicaram que o LLM teve o melhor desempenho em perguntas conceituais, o que era esperado, já que esse tipo de pergunta não exige informações específicas do curso.

Pra checar a qualidade das respostas fornecidas pelo LLM, eles olharam pra várias métricas que comparavam as respostas geradas pela máquina com as dos instrutores do curso.

Avaliação Humana

Os instrutores revisaram as respostas a 28 perguntas conceituais do modelo e as rotularam como "boas" ou "ruins". Os resultados mostraram que apenas cerca de 29% das respostas foram consideradas boas. Os problemas comuns nas respostas ruins incluíam:

  • Classificação incorreta: Algumas perguntas que deveriam ser classificadas como dever de casa foram identificadas como conceituais.
  • Erros factuais: Respostas que estavam simplesmente erradas ou eram enganosas.
  • Inadequação: Respostas que estavam tecnicamente corretas, mas não eram adequadas ao nível de conhecimento dos alunos.
  • Outros problemas incluíam mal-entendidos sobre a pergunta, incoerência e fornecimento de informações irrelevantes.

Conclusão

Esse estudo mostra que usar perguntas decompondo é uma boa estratégia pra classificar e responder perguntas de alunos em fóruns de discussão. O sistema conseguiu classificar perguntas com uma precisão de 81%, mas teve dificuldades em fornecer respostas corretas pra perguntas conceituais.

Muitas respostas incorretas foram devido ao sistema não alinhar com o que os instrutores do curso esperavam. No futuro, os pesquisadores sugerem melhorar o modelo ajustando-o especificamente com perguntas de fóruns de discussão.

Uma área promissora pra futuras explorações é combinar LLMs com outras técnicas pra melhorar as respostas a perguntas de dever de casa e logísticas. Isso poderia levar a um suporte ainda melhor pros alunos que buscam ajuda em seus cursos.

Mais de autores

Artigos semelhantes