Avaliação de Agentes de IA em Sistemas de CRM
Um novo benchmark testa agentes de IA em tarefas realistas de CRM.
Kung-Hsiang Huang, Akshara Prabhakar, Sidharth Dhawan, Yixin Mao, Huan Wang, Silvio Savarese, Caiming Xiong, Philippe Laban, Chien-Sheng Wu
― 8 min ler
Índice
- O Que São Sistemas de CRM?
- A Necessidade de Testes Realistas
- Apresentando um Novo Padrão
- Quais Tarefas Estão Incluídas?
- Construindo um Ambiente de Teste Realista
- Recebendo Feedback dos Especialistas
- Avaliando o Desempenho da IA
- Soluções Eficientes em Custo
- Entendendo os Tipos de Funções
- Consistência Nos Testes
- Conclusão
- Fonte original
- Ligações de referência
Sistemas de Gestão de Relacionamento com o Cliente (CRM) são super importantes para as empresas. Eles ajudam a gerenciar como as empresas interagem com seus clientes. Adicionar agentes de IA a esses sistemas pode facilitar várias tarefas rotineiras e melhorar o atendimento ao cliente. Mas testar esses agentes de IA é complicado porque falta exemplos da vida real que mostrem a complexidade das tarefas reais de CRM.
Pra resolver isso, a gente criou um novo padrão que permite avaliar os agentes de IA com base em tarefas realistas de CRM que a gente encontra em ambientes de trabalho reais. Trabalhamos com especialistas em CRM pra identificar nove tarefas de atendimento ao cliente que caem em três funções: agente de serviço, analista e gerente. Construindo uma organização simulada que imita objetos de negócios comumente usados e subindo isso pra um espaço real do Salesforce CRM, a gente dá aos sistemas de IA a chance de cumprir essas tarefas em um ambiente do mundo real.
Testes iniciais mostram que mesmo os melhores agentes de IA têm dificuldade de completar 40% das tarefas e conseguem resolver apenas 55% com ferramentas especialmente projetadas. Isso destaca que os agentes de IA precisam de melhores habilidades pra seguir regras e usar funções de forma eficaz pra ter sucesso em ambientes de trabalho reais.
O Que São Sistemas de CRM?
Os sistemas de CRM são essenciais para as empresas modernas. Eles ajudam as empresas a acompanhar suas interações com clientes atuais e potenciais. Isso é importante pra manter relacionamentos e aumentar as vendas. Com IA integrada aos sistemas de CRM, tarefas que costumavam consumir muito tempo podem ser automatizadas, levando a um atendimento melhor pra os clientes e mais eficiência pros funcionários.
A Necessidade de Testes Realistas
Testar agentes de IA em ambientes profissionais traz desafios porque os padrões atuais não são complexos o suficiente pra mostrar cenários do mundo real. Padrões anteriores focaram em tarefas básicas, deixando de lado as relações complicadas entre vários pontos de dados. Por exemplo, uma tarefa pode envolver lidar com uma consulta sobre uma conta que tem muitas conexões com outros aspectos, como pedidos ou casos-uma realidade que não foi capturada em testes anteriores.
Apresentando um Novo Padrão
Pra superar essas limitações, a gente desenvolveu um padrão abrangente pra avaliar agentes de IA em tarefas realistas de CRM. O novo padrão cria um ambiente de testes que reflete a estrutura real do sistema CRM do Salesforce. Nossa abordagem permite que a gente enfrente dois grandes desafios:
-
Conectividade de Dados: Dados do mundo real têm conexões complexas entre objetos. Por exemplo, uma conta de cliente pode estar ligada a vários casos e pedidos. Nossa geração de dados reflete essas relações com precisão.
-
Simulando Dinâmicas de Dados Reais: A gente também criou variáveis ocultas pra fazer nossos dados simulados parecerem as mudanças dinâmicas vistas nos dados reais de CRM. Isso garante que nossos testes não sejam só válidos, mas também práticos.
Quais Tarefas Estão Incluídas?
No nosso padrão, as tarefas que a gente desenhou refletem atividades típicas feitas por diferentes funções de CRM. Aqui vai um resumo rápido das nove tarefas incluídas:
-
Roteamento de Novos Casos: Atribuir o agente humano certo a um caso que chega com base em suas habilidades e disponibilidade.
-
Entendimento do Tempo de Atendimento: Identificar qual agente tem o menor/maior tempo médio de atendimento de consultas.
-
Entendimento de Transferências: Descobrir qual agente transferiu casos o menos/o mais em um determinado período.
-
Desambiguar Entidades de Nome: Clarificar nomes de produtos relacionados a transações de clientes.
-
Identificação de Violações de Política: Verificar se alguma regra da empresa foi quebrada durante as interações com os clientes.
-
Resposta a Perguntas de Conhecimento: Fornecer respostas precisas com base em artigos de conhecimento dentro do sistema de CRM.
-
Identificação da Principal Questão: Descobrir a questão mais relatada para um produto específico.
-
Análise de Tendências Mensais: Analisar tendências de casos ao longo de diferentes meses para um determinado produto.
-
Identificação da Melhor Região: Identificar regiões onde os casos são resolvidos mais rapidamente.
Essas tarefas representam os desafios adequados para três funções-chave em CRM: Gerente de Serviço, Agente de Serviço e Analista de Serviço.
Construindo um Ambiente de Teste Realista
Pra criar um ambiente de testes realista, a gente enfrentou desafios, especialmente em relação à privacidade dos dados e garantir que os dados fossem não só realistas, mas diversos. A gente construiu 16 objetos de negócios que podem incluir tudo, desde contas de clientes até históricos de pedidos.
Dois desafios significativos foram:
-
Conectividade de Objetos: Dados da vida real têm muitas interconexões. A gente garantiu que nossos dados gerados refletem essas conexões com precisão.
-
Relações Ocultas: Dados reais muitas vezes têm relações causais ocultas, como fatores que afetam o comportamento do cliente. A gente modelou esses fatores nos dados gerados.
Pra assegurar qualidade, usamos uma verificação em duas camadas pra eliminar duplicatas e checar se os dados atendiam nossos padrões pré-definidos. Também fizemos checagens de qualidade rigorosas pra garantir que nosso ambiente de testes refletisse cenários do mundo real.
Recebendo Feedback dos Especialistas
Pra garantir que nosso sandbox parecesse realista, fizemos um estudo com especialistas. A gente convidou profissionais que usam regularmente o Salesforce CRM pra testar nosso ambiente. Eles tinham que completar tarefas específicas e depois avaliar o quão realista foi a experiência.
Os resultados desse estudo foram promissores. Mais de 90% dos especialistas avaliaram nosso sandbox como realista ou muito realista. Esse feedback confirma que nosso ambiente de testes é uma boa representação dos sistemas de CRM reais.
Avaliando o Desempenho da IA
Depois de verificar a realidade do nosso ambiente, partimos pra medir quão bem vários agentes de IA poderiam executar as tarefas. Avaliamos vários modelos de ponta como o GPT-4 e o Claude 3.5 sob diferentes frameworks operacionais.
Nossas descobertas mostraram que mesmo os agentes de IA mais fortes tiveram dificuldade com essas tarefas. Com o framework ReAct, o melhor modelo conseguiu completar apenas cerca de 38% das tarefas. Mesmo com ferramentas e funções adicionais, isso subiu pra apenas 55%.
Esse resultado enfatizou os desafios que nosso padrão apresenta e destacou a necessidade de os sistemas de IA melhorarem suas capacidades pra serem eficazes em cenários reais de CRM.
Soluções Eficientes em Custo
A eficiência de custo é crucial, especialmente pra empresas que querem integrar IA. Dos agentes de IA que a gente testou, o GPT-4 acabou sendo o mais custo-efetivo. Ele conseguiu manter um custo baixo por tarefa enquanto fornecia resultados precisos. Isso faz dele uma ótima escolha pra empresas que precisam de testes dentro dos sistemas de CRM.
Tipos de Funções
Entendendo osNossos experimentos revelaram que adicionar capacidades de chamada de função aos agentes de IA nem sempre melhora seu desempenho. Diferentes tipos de funções têm impactos variados sobre como os agentes se saem. Algumas funções que pareciam vantajosas podem, na verdade, atrapalhar modelos mais fracos.
A lição aqui é que, enquanto modelos mais fortes podem se beneficiar de capacidades adicionais, modelos mais fracos podem ficar confusos. Isso destaca a importância de entender quanto apoio os agentes de IA realmente precisam.
Consistência Nos Testes
Consistência é essencial para os agentes de IA, especialmente em ambientes de trabalho. Testamos quão consistentemente os agentes poderiam resolver tarefas em várias tentativas. Surpreendentemente, o desempenho de todos os frameworks testados caiu a uma taxa semelhante, sugerindo que mesmo os melhores modelos têm dificuldade em entregar resultados confiáveis.
Conclusão
O padrão que apresentamos oferece uma nova maneira de avaliar os agentes de IA em tarefas realistas de CRM, preenchendo uma lacuna nos métodos atuais. Contudo, nossas descobertas indicam que mesmo a IA avançada luta pra atender à demanda de cenários reais de CRM. O caminho à frente envolve não só melhorar as capacidades da IA, mas também garantir que elas possam lidar com as complexidades típicas dos ambientes modernos de atendimento ao cliente.
Ao criar esse padrão, esperamos motivar mais desenvolvimentos na área, tornando a IA uma ferramenta cada vez mais valiosa pras empresas que gerenciam relacionamentos com clientes. Quem sabe? Com tempo e esforço, podemos ter agentes de IA que conseguem lidar com o atendimento ao cliente como um profissional experiente. Até lá, parece que vamos precisar manter aqueles agentes humanos em discagem rápida!
Título: CRMArena: Understanding the Capacity of LLM Agents to Perform Professional CRM Tasks in Realistic Environments
Resumo: Customer Relationship Management (CRM) systems are vital for modern enterprises, providing a foundation for managing customer interactions and data. Integrating AI agents into CRM systems can automate routine processes and enhance personalized service. However, deploying and evaluating these agents is challenging due to the lack of realistic benchmarks that reflect the complexity of real-world CRM tasks. To address this issue, we introduce CRMArena, a novel benchmark designed to evaluate AI agents on realistic tasks grounded in professional work environments. Following guidance from CRM experts and industry best practices, we designed CRMArena with nine customer service tasks distributed across three personas: service agent, analyst, and manager. The benchmark includes 16 commonly used industrial objects (e.g., account, order, knowledge article, case) with high interconnectivity, along with latent variables (e.g., complaint habits, policy violations) to simulate realistic data distributions. Experimental results reveal that state-of-the-art LLM agents succeed in less than 40% of the tasks with ReAct prompting, and less than 55% even with function-calling abilities. Our findings highlight the need for enhanced agent capabilities in function-calling and rule-following to be deployed in real-world work environments. CRMArena is an open challenge to the community: systems that can reliably complete tasks showcase direct business value in a popular work environment.
Autores: Kung-Hsiang Huang, Akshara Prabhakar, Sidharth Dhawan, Yixin Mao, Huan Wang, Silvio Savarese, Caiming Xiong, Philippe Laban, Chien-Sheng Wu
Última atualização: 2024-11-04 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2411.02305
Fonte PDF: https://arxiv.org/pdf/2411.02305
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://architect.salesforce.com/diagrams/data-models/service-cloud/service-cloud-overview
- https://www.salesforce.com/crm/
- https://github.com/SalesforceAIResearch/CRMArena
- https://github.com/simple-salesforce/simple-salesforce
- https://partners.salesforce.com/s/education/general/Salesforce_Orgs
- https://developer.salesforce.com/docs/atlas.en-us.soql_sosl.meta/soql_sosl/sforce_api_calls_soql_sosl_intro.htm
- https://www.userinterviews.com/