Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage# Intelligence artificielle

Développement de Chatbot RH : Une Approche Collaborative

Un projet pour créer un chatbot RH avec des conseils d'experts et des méthodes de recherche avancées.

― 8 min lire


Aperçus du projet deAperçus du projet dechatbot RHet le développement des chatbots RH.Un regard approfondi sur l'efficacité
Table des matières

Les grands modèles de langage (LLMs) sont devenus super utiles pour plein de tâches, y compris le soutien aux ressources humaines (RH). Un projet a été lancé pour créer un chatbot RH capable de répondre efficacement aux questions des employés. Ce chatbot a été développé avec l'aide d'experts de SAP SE, une entreprise spécialisée dans les logiciels pour les entreprises.

Processus de développement

Pour améliorer les performances du chatbot, ils ont utilisé une approche "Humain dans la boucle". Ça veut dire que des experts ont joué un rôle à différentes étapes du projet, comme la collecte de données, le raffinement des réponses du chatbot, et la révision de ses résultats. L'objectif était d'améliorer l'exactitude et l'utilité du chatbot.

Le chatbot utilise une méthode appelée Génération augmentée par récupération (RAG). Cette approche aide à fournir des réponses plus précises en réduisant les informations incorrectes ou trompeuses. L'équipe a travaillé en continu pour améliorer la façon dont le chatbot récupère des informations et formule ses réponses. Ils ont découvert que GPT-4, un LLM spécifique, affichait de meilleures performances comparé à d'autres modèles pour les questions liées aux RH. De plus, les méthodes d'évaluation qu'ils ont utilisées, comme G-Eval et Prometheus, se sont révélées fiables, se rapprochant des évaluations humaines.

IA dans le service client

Ces dernières années, de nombreuses entreprises ont commencé à intégrer l'IA pour améliorer leur service client. En utilisant des chatbots alimentés par des LLMs, les entreprises peuvent répondre rapidement aux demandes des employés. Ça permet aux professionnels des RH de se concentrer sur des tâches plus complexes, ce qui peut faire gagner du temps et de l'argent tout en améliorant la satisfaction des employés.

Dans ce projet, les données RH de SAP ont été utilisées pour tester l'efficacité du chatbot. Des experts ont contribué au cycle de développement en participant à la collecte de données, à l'amélioration des prompts, et à l'évaluation des réponses du chatbot.

Sources de données

Le jeu de données pour le chatbot RH a été créé en rassemblant les politiques internes de RH de SAP. Ce jeu de données incluait des questions, des réponses, et le contexte d'où provenaient les questions. Chaque entrée contenait des détails spécifiques, comme l'emplacement de l'employé et son statut professionnel, ainsi que les politiques de l'entreprise pertinentes.

Le jeu de données a été divisé en deux types : un jeu de données FAQ contenant des questions courantes, et un jeu de données d'énoncés utilisateurs qui comprenait de vraies requêtes d'utilisateurs. Les deux types suivaient la même structure mais différaient par la façon dont les questions étaient formulées. L'équipe a ensuite compilé une base de connaissances avec environ 50 000 articles uniques pour aider à répondre aux nouvelles demandes.

Collecte de données

Jeu de données FAQ

Ce jeu de données, qui contenait environ 48 000 questions potentielles et leurs réponses correspondantes, a été soigneusement élaboré par des experts en fonction des politiques internes de l'entreprise.

Jeu de données des énoncés utilisateurs

Composé d'environ 41 000 vraies questions d'utilisateurs, ce jeu de données a été créé en analysant les interactions précédentes avec le chatbot. Pour simplifier le processus, une méthode simple de correspondance de texte a été utilisée pour associer les requêtes des utilisateurs aux questions du jeu de données FAQ.

Statistiques du jeu de données

L'analyse a montré que la plupart des articles dans le jeu de données contenaient moins de 4 000 tokens, ce qui les rendait adaptés au traitement par le chatbot. Les questions les plus courantes concernaient des sujets comme les bulletins de paie et les jours de congé.

Cadre du chatbot

Le chatbot fonctionne avec un cadre RAG standard, qui a été optimisé avec l'aide d'experts tout au long du cycle de développement. Ce processus a garanti que le chatbot récupère efficacement les articles RH pertinents lorsque les utilisateurs posent des questions.

Quand un utilisateur envoie une question, le système recherche dans la base de connaissances les articles les plus pertinents. Les modules de récupération ont été ajustés pour améliorer leur précision. Un récupérateur de passages denses (DPR) a été mis en place, se concentrant sur la récupération des articles les plus appropriés en fonction des requêtes des utilisateurs.

Techniques de récupération d'informations

Récupérateur de passages denses (DPR)

Le DPR a été créé en ajustant un modèle spécifique pour obtenir une meilleure correspondance entre les questions des utilisateurs et les articles pertinents. Il a été formé avec des paires de questions et de réponses, lui permettant d'apprendre les réponses les plus appropriées pour les requêtes données. Le processus d'entraînement visait à générer des embeddings où des questions et réponses similaires étaient étroitement liées.

Recherche vectorielle OpenAI

Un méthode basée sur OpenAI a également été utilisée pour effectuer des recherches vectorielles afin de récupérer des articles, en utilisant des modèles d'embeddings pour créer des représentations d'articles. Cette méthode a aussi employé différentes techniques de transformation pour améliorer la précision de la récupération.

Traitement des requêtes utilisateurs

Plusieurs techniques ont été utilisées pour améliorer comment les requêtes des utilisateurs étaient interprétées par le chatbot. Par exemple, le système pouvait décomposer une question utilisateur en sujets, générer des extraits hypothétiques à partir d'articles pertinents, ou reformuler la question de différentes manières tout en conservant l'intention originale.

Génération de réponses

Pour générer des réponses, l'équipe a affiné le modèle LongT5, qui a été entraîné avec les ensembles de données FAQ et d'énoncés utilisateurs pour répondre efficacement aux questions. De plus, les modèles d'OpenAI, comme ChatGPT et GPT-4, ont été utilisés pour produire des réponses basées sur les articles récupérés, en faisant bien attention à la façon dont les prompts étaient formulés pour convenir au contexte RH.

Évaluation des performances

Métriques d'évaluation

L'évaluation des performances du chatbot a impliqué diverses méthodes. Des métriques basées sur des références comme BLEU et ROUGE ont été utilisées pour évaluer la similarité entre les réponses générées et les réponses attendues. De plus, de nouvelles métriques utilisant des LLMs pour l'évaluation ont été explorées, aidant à fournir des aperçus sur la façon dont le chatbot a performé.

Évaluation humaine

Les experts ont joué un rôle essentiel dans l'évaluation des réponses du chatbot, ajoutant une couche de contrôle qualité. Ils ont évalué les réponses sur des critères comme la clarté, l'exactitude et l'utilité. Différents systèmes de notation ont été employés pour refléter les opinions d'experts sur l'efficacité du chatbot.

Résultats et conclusions

Performances du récupérateur

Les résultats ont indiqué que le DPR basé sur BERT a surperformé le récupérateur basé sur OpenAI de manière significative. Alors que le DPR a atteint une précision top-1 d'environ 22,24%, le récupérateur OpenAI n'a obtenu qu'environ 11,12%. Cette disparité a mis en lumière les défis liés au jeu de données, notamment la présence de plusieurs articles abordant des questions similaires.

Résultats d'évaluation NLG

Les scores d'évaluation à travers différents modèles ont montré que GPT-4 se démarquait en termes de génération de réponses de haute qualité. Bien que les métriques traditionnelles aient indiqué des scores plus bas en raison de la nature créative de la sortie, GPT-4 a démontré un équilibre entre compétence linguistique et pertinence du contenu. Le modèle LongT5 affiné a moins bien performé en comparaison.

Évaluation de la corrélation

La corrélation entre les scores d'évaluation automatisée et les évaluations humaines a été analysée. Les résultats ont suggéré que les métriques traditionnelles ont tendance à avoir des difficultés avec des sorties plus créatives, soulignant le besoin de méthodes d'évaluation plus avancées dans le contexte des LLMs.

Conclusion

Ce projet a illustré comment les LLMs peuvent être appliqués efficacement dans des contextes RH, surtout lorsqu'ils sont renforcés par l'expertise humaine. Bien que des défis demeurent pour optimiser la récupération et garantir des réponses précises, les résultats ont indiqué que l'utilisation d'experts du domaine dans le processus de développement peut mener à une amélioration des performances du chatbot. À mesure que la technologie continue d'évoluer, des recherches supplémentaires peuvent se concentrer sur le perfectionnement des métriques d'évaluation et l'amélioration des capacités du chatbot dans des applications réelles.

Source originale

Titre: Towards Optimizing and Evaluating a Retrieval Augmented QA Chatbot using LLMs with Human in the Loop

Résumé: Large Language Models have found application in various mundane and repetitive tasks including Human Resource (HR) support. We worked with the domain experts of SAP SE to develop an HR support chatbot as an efficient and effective tool for addressing employee inquiries. We inserted a human-in-the-loop in various parts of the development cycles such as dataset collection, prompt optimization, and evaluation of generated output. By enhancing the LLM-driven chatbot's response quality and exploring alternative retrieval methods, we have created an efficient, scalable, and flexible tool for HR professionals to address employee inquiries effectively. Our experiments and evaluation conclude that GPT-4 outperforms other models and can overcome inconsistencies in data through internal reasoning capabilities. Additionally, through expert analysis, we infer that reference-free evaluation metrics such as G-Eval and Prometheus demonstrate reliability closely aligned with that of human evaluation.

Auteurs: Anum Afzal, Alexander Kowsik, Rajna Fani, Florian Matthes

Dernière mise à jour: 2024-07-08 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2407.05925

Source PDF: https://arxiv.org/pdf/2407.05925

Licence: https://creativecommons.org/publicdomain/zero/1.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires