Desenvolvimento de Chatbot de RH: Uma Abordagem Colaborativa
Um projeto pra criar um chatbot de RH com a ajuda de especialistas e métodos de busca avançados.
― 7 min ler
Índice
- Processo de Desenvolvimento
- IA em Suporte ao Cliente
- Fontes de Dados
- Coleta de Dados
- Conjunto de Dados FAQ
- Conjunto de Dados de Expressões de Usuário
- Estatísticas do Conjunto de Dados
- Estrutura do Chatbot
- Técnicas de Recuperação de Informação
- Recuperador de Passagens Densas (DPR)
- Busca Vetorial da OpenAI
- Processamento de Consultas de Usuários
- Geração de Respostas
- Avaliando o Desempenho
- Métricas de Avaliação
- Avaliação Humana
- Resultados e Descobertas
- Desempenho do Recuperador
- Resultados da Avaliação de NLG
- Avaliação de Correlação
- Conclusão
- Fonte original
- Ligações de referência
Modelos de Linguagem Grande (LLMs) têm se mostrado úteis em várias tarefas, incluindo suporte para Recursos Humanos (RH). Um projeto foi iniciado para criar um chatbot de RH que possa responder de forma eficaz às perguntas dos funcionários. Esse chatbot foi desenvolvido com a ajuda de especialistas da SAP SE, uma empresa especializada em software para negócios.
Processo de Desenvolvimento
Para melhorar o desempenho do chatbot, foi adotada uma abordagem de "humano no loop". Isso significa que especialistas participaram em várias etapas do projeto, como coleta de dados, aperfeiçoamento de como o chatbot responde e revisão de suas saídas. O objetivo era aumentar a precisão e a utilidade do chatbot.
O chatbot utiliza um método chamado Geração Aumentada por Recuperação (RAG). Essa abordagem ajuda a fornecer respostas mais precisas, reduzindo informações incorretas ou enganosas. A equipe trabalhou continuamente para melhorar a forma como o chatbot recupera informações e como formula as respostas. As descobertas sugeriram que o GPT-4, um LLM específico, teve um desempenho melhor em comparação com outros modelos ao responder a perguntas relacionadas a RH. Além disso, os métodos de avaliação usados, como G-Eval e Prometheus, mostraram-se confiáveis, combinando bem com avaliações humanas.
IA em Suporte ao Cliente
Nos últimos anos, muitas empresas começaram a incorporar IA para melhorar seu atendimento ao cliente. Usando chatbots alimentados por LLMs, as empresas conseguem responder rapidamente a perguntas dos funcionários. Isso permite que os profissionais de RH se concentrem em tarefas mais complexas, economizando tempo e dinheiro, além de aumentar a satisfação dos funcionários.
Neste projeto, foram usados dados de RH da SAP para testar a eficácia do chatbot. Especialistas ajudaram no ciclo de desenvolvimento, contribuindo para a coleta de dados, aprimoramento das perguntas e avaliação das respostas do chatbot.
Fontes de Dados
O conjunto de dados para o chatbot de RH foi criado reunindo as políticas internas de RH da SAP. Esse conjunto incluiu perguntas, respostas e o contexto de origem das perguntas. Cada entrada tinha detalhes específicos, como a localização e o status do emprego do funcionário, junto com as políticas da empresa.
O conjunto de dados foi dividido em dois tipos: um conjunto de perguntas frequentes (FAQ) contendo perguntas comuns e um conjunto de expressões de usuários que incluiu consultas reais de usuários. Ambos os tipos seguiram a mesma estrutura, mas diferiram na forma como as perguntas foram formuladas. A equipe então compilou uma base de conhecimento com cerca de 50.000 artigos únicos para ajudar a responder a novas consultas.
Coleta de Dados
Conjunto de Dados FAQ
Esse conjunto, que continha cerca de 48.000 perguntas potenciais e suas respectivas respostas, foi cuidadosamente elaborado por especialistas com base nas políticas internas da empresa.
Conjunto de Dados de Expressões de Usuário
Composto por cerca de 41.000 perguntas reais de usuários, esse conjunto foi criado analisando interações anteriores do chatbot. Para simplificar o processo, foi usado um método simples de correspondência de texto para associar consultas de usuários com perguntas do conjunto de dados FAQ.
Estatísticas do Conjunto de Dados
A análise mostrou que a maioria dos artigos no conjunto de dados continha menos de 4.000 tokens, tornando-os adequados para processamento pelo chatbot. As perguntas mais comuns giravam em torno de tópicos como contracheques e dias de folga.
Estrutura do Chatbot
O chatbot funciona usando uma estrutura RAG padrão, que foi otimizada com a contribuição de especialistas ao longo do ciclo de desenvolvimento. Esse processo garantiu que o chatbot recuperasse eficazmente artigos relevantes de RH quando os usuários fizessem perguntas.
Quando um usuário envia uma pergunta, o sistema busca na base de conhecimento os artigos mais relevantes. Os módulos de recuperação foram ajustados para melhorar sua precisão. Um recuperador de passagens densas (DPR) foi implementado, focando na recuperação dos artigos mais apropriados com base nas consultas dos usuários.
Técnicas de Recuperação de Informação
Recuperador de Passagens Densas (DPR)
O DPR foi criado ajustando um modelo específico para alcançar uma melhor alinhamento entre perguntas dos usuários e artigos relevantes. Ele foi treinado com pares de perguntas e respostas, permitindo que aprendesse as respostas mais adequadas para consultas dadas. O processo de treinamento visava gerar embeddings onde perguntas e respostas semelhantes estivessem intimamente ligadas.
Busca Vetorial da OpenAI
Um método baseado na OpenAI também foi usado para realizar buscas vetoriais para recuperar artigos, utilizando modelos de embedding para criar representações dos artigos. Esse método também empregava várias técnicas de transformação para melhorar a precisão da recuperação.
Processamento de Consultas de Usuários
Várias técnicas foram usadas para melhorar como as consultas dos usuários eram interpretadas pelo chatbot. Por exemplo, o sistema poderia dividir uma pergunta de usuário em tópicos, gerar trechos hipotéticos de artigos relevantes ou reformular a pergunta de diferentes maneiras, mantendo a intenção original.
Geração de Respostas
Para gerar respostas, a equipe ajustou o modelo LongT5, que foi treinado com os conjuntos de dados FAQ e expressões de usuários para responder perguntas de forma eficaz. Além disso, modelos da OpenAI, como ChatGPT e GPT-4, foram usados para produzir respostas com base nos artigos recuperados, com atenção cuidadosa a como as perguntas eram elaboradas para se adequar ao contexto de RH.
Avaliando o Desempenho
Métricas de Avaliação
A avaliação do desempenho do chatbot envolveu vários métodos. Métricas baseadas em referência como BLEU e ROUGE foram usadas para avaliar a similaridade entre as respostas geradas e as esperadas. Além disso, métricas mais novas que utilizam LLMs para avaliação foram exploradas, ajudando a fornecer insights sobre como o chatbot se saiu.
Avaliação Humana
Especialistas foram essenciais para avaliar as respostas do chatbot, adicionando uma camada de controle de qualidade. Eles avaliaram as respostas com base em critérios como clareza, precisão e usabilidade. Diferentes sistemas de pontuação foram utilizados para refletir as opiniões dos especialistas sobre a eficácia do chatbot.
Resultados e Descobertas
Desempenho do Recuperador
Os resultados indicaram que o DPR baseado em BERT superou significativamente o recuperador baseado na OpenAI. Enquanto o DPR alcançou uma precisão top-1 em torno de 22,24%, o recuperador da OpenAI conseguiu apenas cerca de 11,12%. Essa disparidade destacou desafios no conjunto de dados, particularmente a presença de vários artigos abordando perguntas semelhantes.
Resultados da Avaliação de NLG
As pontuações de avaliação entre diferentes modelos mostraram que o GPT-4 se destacou em termos de geração de respostas de alta qualidade. Embora métricas tradicionais indicassem pontuações mais baixas devido à natureza criativa da saída, o GPT-4 demonstrou um equilíbrio entre habilidade linguística e relevância do conteúdo. O modelo LongT5 ajustado teve um desempenho menos favorável em comparação.
Avaliação de Correlação
A correlação entre as pontuações de avaliação automatizada e as avaliações humanas foi analisada. As descobertas sugeriram que as métricas tradicionais tendem a ter dificuldades com saídas mais criativas, enfatizando a necessidade de métodos de avaliação mais avançados no contexto dos LLMs.
Conclusão
Este projeto ilustrou como os LLMs podem ser aplicados efetivamente em contextos de RH, particularmente quando aprimorados com a expertise humana. Embora desafios permaneçam na otimização da recuperação e na garantia de respostas precisas, os resultados indicaram que utilizar especialistas na área durante o processo de desenvolvimento pode levar a um melhor desempenho do chatbot. À medida que a tecnologia continua a evoluir, novas pesquisas podem focar em refinar as métricas de avaliação e aprimorar as capacidades do chatbot em aplicações do dia a dia.
Título: Towards Optimizing and Evaluating a Retrieval Augmented QA Chatbot using LLMs with Human in the Loop
Resumo: Large Language Models have found application in various mundane and repetitive tasks including Human Resource (HR) support. We worked with the domain experts of SAP SE to develop an HR support chatbot as an efficient and effective tool for addressing employee inquiries. We inserted a human-in-the-loop in various parts of the development cycles such as dataset collection, prompt optimization, and evaluation of generated output. By enhancing the LLM-driven chatbot's response quality and exploring alternative retrieval methods, we have created an efficient, scalable, and flexible tool for HR professionals to address employee inquiries effectively. Our experiments and evaluation conclude that GPT-4 outperforms other models and can overcome inconsistencies in data through internal reasoning capabilities. Additionally, through expert analysis, we infer that reference-free evaluation metrics such as G-Eval and Prometheus demonstrate reliability closely aligned with that of human evaluation.
Autores: Anum Afzal, Alexander Kowsik, Rajna Fani, Florian Matthes
Última atualização: 2024-07-08 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2407.05925
Fonte PDF: https://arxiv.org/pdf/2407.05925
Licença: https://creativecommons.org/publicdomain/zero/1.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://docs.llamaindex.ai/en/stable/optimizing/advanced_retrieval/query_transformations/
- https://docs.llamaindex.ai/en/latest/examples/retrievers/reciprocal_rerank_fusion/
- https://huggingface.co/google/long-t5-local-base
- https://haystack.deepset.ai/
- https://streamlit.io/