Simple Science

La science de pointe expliquée simplement

# Informatique # Calcul et langage # Intelligence artificielle

Évaluer les agents IA dans les systèmes CRM

Un nouveau benchmark teste les agents IA dans des tâches CRM réalistes.

Kung-Hsiang Huang, Akshara Prabhakar, Sidharth Dhawan, Yixin Mao, Huan Wang, Silvio Savarese, Caiming Xiong, Philippe Laban, Chien-Sheng Wu

― 9 min lire


IA dans la CRM : Un test IA dans la CRM : Un test difficile défis de l'IA dans le service client. De nouvelles méthodes révèlent les
Table des matières

Les systèmes de gestion de la relation client (CRM) sont super importants pour les entreprises. Ils aident à gérer les interactions entre les boîtes et leurs clients. En ajoutant des agents AI à ces systèmes, on peut simplifier plein de tâches routinières et améliorer le service client. Mais tester ces agents AI, c'est pas évident car on n'a pas d'exemples concrets qui montrent à quel point les tâches CRM peuvent être complexes.

Pour résoudre ça, on a créé un nouveau benchmark qui nous permet d’évaluer les agents AI sur des tâches CRM réalistes qu’on trouve dans de vraies entreprises. On a bossé avec des experts CRM pour identifier neuf tâches de service client qui se répartissent en trois rôles : agent de service, analyste et manager. En construisant une organisation simulée qui reflète des objets commerciaux couramment utilisés et en l'uploadant dans un vrai espace Salesforce CRM, on donne aux systèmes AI une chance d'accomplir ces tâches dans un environnement réel.

Les premiers tests montrent que même les meilleurs agents AI ont du mal à réaliser 40 % des tâches et ne parviennent qu'à résoudre 55 % avec des outils spécialement conçus. Ça montre que les agents AI ont besoin de meilleures compétences pour suivre les règles et utiliser les fonctions efficacement afin de bien fonctionner dans des situations de travail réelles.

C'est quoi les systèmes CRM ?

Les systèmes CRM sont essentiels pour les entreprises modernes. Ils aident les entreprises à garder un œil sur leurs interactions avec les clients actuels et potentiels. C'est important pour maintenir des relations et booster les ventes. Avec l'AI intégrée dans les systèmes CRM, les tâches qui prenaient beaucoup de temps peuvent être automatisées, ce qui conduit à un meilleur service pour les clients et plus d'efficacité pour les employés.

Le besoin de tests réalistes

Tester les agents AI dans des contextes pro pose des défis parce que les benchmarks actuels ne sont pas assez complexes pour montrer les scénarios du monde réel. Les anciens benchmarks se concentraient sur des tâches basiques, en laissant de côté les relations compliquées entre différents points de données. Par exemple, une tâche pourrait impliquer de gérer une demande sur un compte qui a plein de liens avec d'autres aspects, comme des commandes ou des cas, une réalité qui n’a pas été capturée dans les tests précédents.

Présentation d'un nouveau benchmark

Pour surmonter ces limites, on a développé un benchmark complet pour évaluer les agents AI sur des tâches CRM réalistes. Le nouveau benchmark crée un environnement sandbox qui reflète la structure réelle du système CRM de Salesforce. Notre approche nous permet de relever deux grands défis :

  1. Connectivité des données : Les données du monde réel ont des connexions complexes entre les objets. Par exemple, un compte client peut être lié à plusieurs cas et commandes. Notre génération de données reflète ces relations avec précision.

  2. Simulation de la dynamique des données réelles : On a aussi créé des variables cachées pour que nos données simulées ressemblent aux changements dynamiques qu'on voit dans les vraies données CRM. Ça garantit que nos tests ne sont pas seulement valides mais aussi pratiques.

Quelles tâches sont incluses ?

Dans notre benchmark, les tâches qu'on a conçues reflètent les activités typiques effectuées par différents rôles CRM. Voici un aperçu rapide des neuf tâches incluses :

  1. Affectation de nouveaux cas : Assigner le bon agent humain à un nouveau cas en fonction de ses compétences et de sa disponibilité.

  2. Compréhension du temps de traitement : Identifier quel agent a le temps de traitement moyen le plus court/long.

  3. Compréhension du transfert : Trouver quel agent a transféré le moins/le plus de cas sur une certaine période.

  4. Désambiguïsation des noms : Clarifier les noms de produits liés aux transactions client.

  5. Identification de violations de politiques : Vérifier si des règles de l’entreprise ont été enfreintes lors des interactions avec les clients.

  6. Réponse à des questions de connaissance : Fournir des réponses précises basées sur des articles de connaissance dans le système CRM.

  7. Identification des problèmes majeurs : Découvrir le problème le plus rapporté pour un produit spécifique.

  8. Analyse des tendances mensuelles : Analyser les tendances des cas sur plusieurs mois pour un produit donné.

  9. Identification des meilleures régions : Identifier les régions où les cas sont résolus le plus rapidement.

Ces tâches représentent les défis adaptés à trois rôles clés dans le CRM : Manager de service, Agent de service et Analyste de service.

Créer un environnement sandbox réaliste

Pour créer un environnement de test réaliste, on a fait face à des défis, surtout autour de la confidentialité des données et de s'assurer que les données soient à la fois réalistes et diversifiées. On a construit 16 objets commerciaux qui peuvent inclure tout, des comptes clients aux historiques de commandes.

Deux grands défis étaient :

  1. Connectivité des objets : Les données réelles ont beaucoup d'interconnexions. On s'est assuré que nos données générées reflètent bien ces connexions.

  2. Relations cachées : Les vraies données ont souvent des relations causales cachées, comme des facteurs influençant le comportement des clients. On a modélisé ces facteurs dans nos données générées.

Pour garantir la qualité, on a utilisé une vérification en double couche pour éliminer les doublons et vérifier que les données respectaient nos normes prédéfinies. On a aussi effectué des contrôles qualité approfondis pour s'assurer que notre environnement sandbox reflète des scénarios du monde réel.

Obtenir des retours d'experts

Pour garantir que notre sandbox semblait réaliste, on a mené une étude d'experts. On a invité des professionnels qui utilisent régulièrement Salesforce CRM à tester notre environnement. Ils devaient réaliser des tâches spécifiques et ensuite évaluer le réalisme de leur expérience.

Les résultats de cette étude étaient prometteurs. Plus de 90 % des experts ont jugé notre sandbox réaliste ou très réaliste. Ce retour confirme que notre environnement de test est une bonne réflexion des systèmes CRM réels.

Évaluer les performances des AI

Après avoir vérifié le réalisme de notre environnement, on a cherché à mesurer comment divers agents AI pouvaient accomplir des tâches. On a évalué plusieurs modèles à la pointe de la technologie comme GPT-4 et Claude 3.5 sous différents cadres opérationnels.

Nos découvertes ont montré que même les agents AI les plus performants avaient du mal avec ces tâches. Avec le cadre ReAct, le meilleur modèle a réussi à compléter seulement environ 38 % des tâches. Même avec des outils et fonctions supplémentaires, ça n'est passé qu'à 55 %.

Ce résultat a mis en avant les défis que présente notre benchmark et a souligné la nécessité pour les systèmes AI d'améliorer leurs capacités pour être efficaces dans de vrais environnements CRM.

Solutions rentables

L'efficacité des coûts est cruciale, surtout pour les entreprises qui cherchent à intégrer l'AI. Parmi les agents AI testés, GPT-4 s'est avéré être le plus rentable. Il a réussi à maintenir un faible coût par tâche tout en fournissant des résultats précis. Ça en fait un choix de premier plan pour les entreprises qui ont besoin de tests dans des systèmes CRM.

Comprendre les Types de fonctions

Nos expériences ont révélé que l'ajout de capacités d'appel de fonctions aux agents AI n'améliore pas toujours leurs performances. Différents types de fonctions ont des impacts variés sur la façon dont les agents performe. Certaines fonctions qui semblaient bénéfiques peuvent en fait gêner les modèles plus faibles.

Le takeaway ici, c'est que, même si les modèles plus performants peuvent bénéficier d' capacités supplémentaires, les modèles plus faibles pourraient se perdre. Ça souligne l'importance de comprendre combien de soutien les agents AI ont vraiment besoin.

Cohérence à travers les essais

La cohérence est essentielle pour les agents AI, surtout dans un cadre de travail. On a testé combien les agents pouvaient résoudre des tâches de manière cohérente à travers plusieurs essais. Étonnamment, la performance de tous les cadres testés a chuté à un taux similaire, ce qui suggère que même les meilleurs modèles ont du mal à fournir des résultats fiables.

Conclusion

Le benchmark qu'on a introduit offre une nouvelle façon d'évaluer les agents AI sur des tâches CRM réalistes, comblant ainsi une lacune dans les méthodes actuelles. Cependant, nos résultats indiquent que même les AI avancés luttent pour répondre aux exigences des scénarios CRM réels. Le chemin à suivre implique non seulement d'améliorer les capacités de l'AI mais aussi de s'assurer qu'elles peuvent gérer les complexités typiques des environnements de service client modernes.

En créant ce benchmark, on espère motiver des développements supplémentaires dans le domaine, rendant l'AI de plus en plus précieuse pour les entreprises qui gèrent les relations avec leurs clients. Qui sait ? Avec le temps et l'effort, on pourrait avoir des agents AI capables de gérer le service client comme un pro chevronné. D'ici là, on va sûrement devoir garder ces agents humains sur liste de contacts !

Source originale

Titre: CRMArena: Understanding the Capacity of LLM Agents to Perform Professional CRM Tasks in Realistic Environments

Résumé: Customer Relationship Management (CRM) systems are vital for modern enterprises, providing a foundation for managing customer interactions and data. Integrating AI agents into CRM systems can automate routine processes and enhance personalized service. However, deploying and evaluating these agents is challenging due to the lack of realistic benchmarks that reflect the complexity of real-world CRM tasks. To address this issue, we introduce CRMArena, a novel benchmark designed to evaluate AI agents on realistic tasks grounded in professional work environments. Following guidance from CRM experts and industry best practices, we designed CRMArena with nine customer service tasks distributed across three personas: service agent, analyst, and manager. The benchmark includes 16 commonly used industrial objects (e.g., account, order, knowledge article, case) with high interconnectivity, along with latent variables (e.g., complaint habits, policy violations) to simulate realistic data distributions. Experimental results reveal that state-of-the-art LLM agents succeed in less than 40% of the tasks with ReAct prompting, and less than 55% even with function-calling abilities. Our findings highlight the need for enhanced agent capabilities in function-calling and rule-following to be deployed in real-world work environments. CRMArena is an open challenge to the community: systems that can reliably complete tasks showcase direct business value in a popular work environment.

Auteurs: Kung-Hsiang Huang, Akshara Prabhakar, Sidharth Dhawan, Yixin Mao, Huan Wang, Silvio Savarese, Caiming Xiong, Philippe Laban, Chien-Sheng Wu

Dernière mise à jour: 2024-11-04 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2411.02305

Source PDF: https://arxiv.org/pdf/2411.02305

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires