Valutare agenti AI nei sistemi CRM
Un nuovo benchmark testa gli agenti AI in compiti realistici di CRM.
Kung-Hsiang Huang, Akshara Prabhakar, Sidharth Dhawan, Yixin Mao, Huan Wang, Silvio Savarese, Caiming Xiong, Philippe Laban, Chien-Sheng Wu
― 7 leggere min
Indice
- Cosa Sono i Sistemi CRM?
- La Necessità di Test Realistici
- Introduzione di un Nuovo Benchmark
- Quali Compiti Sono Inclusi?
- Creazione di un Ambiente Sandbox Realistico
- Ottenere Feedback dagli Esperti
- Benchmarking delle Prestazioni degli AI
- Soluzioni Economiche
- Comprensione dei Tipi di Funzione
- Coerenza nei Test
- Conclusione
- Fonte originale
- Link di riferimento
I sistemi di Customer Relationship Management (CRM) sono super importanti per le aziende. Aiutano a gestire come le compagnie interagiscono con i loro clienti. Aggiungere agenti AI a questi sistemi può rendere molte attività di routine più facili e migliorare il servizio clienti. Tuttavia, testare questi agenti AI è complicato perché ci mancano esempi reali che mostrino la complessità delle vere attività CRM.
Per affrontare questo, abbiamo creato un nuovo Benchmark che ci permette di valutare gli agenti AI basandoci su compiti CRM realistici che si trovano nei veri posti di lavoro. Abbiamo collaborato con esperti di CRM per identificare nove compiti di servizio clienti suddivisi in tre ruoli: agente di servizio, analista e manager. Creando un'organizzazione simulata che rispecchia gli oggetti aziendali comunemente usati e caricandola in uno spazio CRM Salesforce reale, diamo ai sistemi AI la possibilità di completare questi compiti in un ambiente reale.
I primi test mostrano che anche i migliori agenti AI faticano a completare il 40% dei compiti e riescono a risolvere solo il 55% con strumenti appositamente progettati. Questo evidenzia che gli agenti AI hanno bisogno di migliori abilità nel seguire le regole e utilizzare le funzioni in modo efficace per lavorare con successo in veri contesti lavorativi.
Cosa Sono i Sistemi CRM?
I sistemi CRM sono essenziali per le aziende moderne. Aiutano le compagnie a tenere traccia delle loro interazioni con clienti attuali e potenziali. Questo è importante per mantenere le relazioni e aumentare le vendite. Con l'AI integrata nei sistemi CRM, i compiti che prima richiedevano molto tempo possono essere automatizzati, portando a un servizio migliorato per i clienti e a una maggiore efficienza per i dipendenti.
La Necessità di Test Realistici
Testare gli agenti AI in contesti professionali presenta delle sfide perché gli attuali benchmark non sono abbastanza complessi da mostrare scenari del mondo reale. I benchmark precedenti si concentravano su compiti base, escludendo le relazioni complicate tra vari punti dati. Ad esempio, un compito potrebbe comportare la gestione di una richiesta su un conto che ha molte connessioni con altri aspetti, come ordini o casi-una realtà non catturata nei test precedenti.
Introduzione di un Nuovo Benchmark
Per superare queste limitazioni, abbiamo sviluppato un benchmark completo per valutare gli agenti AI su compiti CRM realistici. Il nuovo benchmark crea un ambiente sandbox che riflette la struttura reale del sistema CRM di Salesforce. Il nostro approccio ci consente di affrontare due sfide principali:
-
Connettività dei Dati: I dati del mondo reale hanno connessioni complesse tra gli oggetti. Ad esempio, un conto cliente potrebbe essere collegato a più casi e ordini. La nostra generazione di dati riflette accuratamente queste relazioni.
-
Simulazione delle Dinamiche dei Dati Reali: Abbiamo anche creato variabili nascoste per rendere i nostri dati simulati simili ai cambiamenti dinamici visti nei dati CRM reali. Questo assicura che i nostri test siano non solo validi ma anche pratici.
Quali Compiti Sono Inclusi?
Nel nostro benchmark, i compiti che abbiamo progettato riflettono le attività tipiche svolte dai diversi ruoli CRM. Ecco una rapida panoramica dei nove compiti inclusi:
-
Smistamento Nuovi Casi: Assegnare il giusto agente umano a un caso in arrivo, in base alle loro competenze e disponibilità.
-
Comprensione del Tempo di Gestione: Identificare quale agente ha il tempo medio più breve/lungo per gestire richieste.
-
Comprensione del Conteggio Trasferimenti: Scoprire quale agente ha trasferito meno/di più casi in un certo intervallo di tempo.
-
Disambiguazione delle Entità di Nome: Chiarire i nomi dei prodotti legati alle transazioni dei clienti.
-
Identificazione delle Violazioni delle Politiche: Controllare se ci sono state violazioni delle regole aziendali durante le interazioni con i clienti.
-
Risposta a Domande di Conoscenza: Fornire risposte accurate basate su articoli di conoscenza all'interno del sistema CRM.
-
Identificazione del Problema Principale: Scoprire il problema più segnalato per un determinato prodotto.
-
Analisi delle Tendenze Mensili: Analizzare le tendenze dei casi nel corso dei diversi mesi per un determinato prodotto.
-
Identificazione della Migliore Regione: Identificare le regioni dove i casi vengono risolti più rapidamente.
Questi compiti rappresentano le sfide adatte a tre ruoli chiave nel CRM: Manager di Servizio, Agente di Servizio e Analista di Servizio.
Creazione di un Ambiente Sandbox Realistico
Per creare un ambiente di test realistico, abbiamo affrontato delle sfide, specialmente riguardo alla privacy dei dati e assicurandoci che i dati non fossero solo realistici ma anche diversi. Abbiamo costruito 16 oggetti aziendali che possono includere tutto, dai conti cliente alla storia degli ordini.
Due sfide significative sono state:
-
Connettività degli Oggetti: I dati reali hanno molte interconnessioni. Abbiamo assicurato che i nostri dati generati riflettano accuratamente queste connessioni.
-
Relazioni Nascoste: I dati reali spesso hanno relazioni causali nascoste, come fattori che influenzano il comportamento dei clienti. Abbiamo modellato questi fattori nei nostri dati generati.
Per garantire la qualità, abbiamo usato una verifica a doppio strato per eliminare i duplicati e controllare che i dati soddisfacessero i nostri standard predefiniti. Abbiamo anche effettuato controlli di qualità approfonditi per assicurarci che il nostro ambiente sandbox rispecchiasse scenari reali.
Ottenere Feedback dagli Esperti
Per garantire che la nostra sandbox si sentisse realistica, abbiamo condotto uno studio con esperti. Abbiamo invitato professionisti che usano regolarmente Salesforce CRM per testare il nostro ambiente. Dovevano completare compiti specifici e poi valutare il realismo di ciò che avevano vissuto.
I risultati di questo studio sono stati promettenti. Oltre il 90% degli esperti ha valutato la nostra sandbox come realistica o molto realistica. Questo feedback conferma che il nostro ambiente di test è una buona riflessione dei veri sistemi CRM.
Benchmarking delle Prestazioni degli AI
Dopo aver verificato il realismo del nostro ambiente, ci siamo messi a misurare quanto bene vari agenti AI potessero svolgere compiti. Abbiamo valutato diversi modelli all'avanguardia come GPT-4 e Claude 3.5 sotto diversi quadri operativi.
I nostri risultati hanno mostrato che anche gli agenti AI più forti faticavano con questi compiti. Con il framework ReAct, il miglior modello è riuscito a completare solo circa il 38% dei compiti. Anche con strumenti e funzioni aggiuntive, questo è migliorato solo al 55%.
Questo risultato ha sottolineato le sfide che il nostro benchmark presenta e ha evidenziato la necessità di sistemi AI per migliorare le loro capacità per essere efficaci in situazioni CRM del mondo reale.
Soluzioni Economiche
L'efficienza dei costi è cruciale, specialmente per le aziende che cercano di integrare l'AI. Tra gli agenti AI che abbiamo testato, GPT-4 si è rivelato il più economico. È riuscito a mantenere un costo basso per compito fornendo risultati accurati. Questo lo rende una scelta top per le aziende che necessitano di test all'interno dei sistemi CRM.
Tipi di Funzione
Comprensione deiI nostri esperimenti hanno rivelato che aggiungere funzionalità di chiamata a funzione agli agenti AI non sempre migliora le loro prestazioni. Diversi tipi di funzioni hanno impatti variabili su quanto bene gli agenti performano. Alcune funzioni che sembravano vantaggiose potrebbero in realtà ostacolare modelli più deboli.
Il takeaway qui è che mentre i modelli più forti possono trarre vantaggio da capacità aggiuntive, i modelli più deboli potrebbero confondersi. Questo sottolinea l'importanza di comprendere di quanto supporto hanno realmente bisogno gli agenti AI.
Coerenza nei Test
La coerenza è essenziale per gli agenti AI, particolarmente nei contesti di lavoro. Abbiamo testato quanto costantemente gli agenti potessero risolvere i compiti in diversi tentativi. Sorprendentemente, le prestazioni di tutti i framework testati sono diminuite a un tasso simile, suggerendo che anche i modelli migliori faticano a fornire risultati affidabili.
Conclusione
Il benchmark che abbiamo introdotto offre un nuovo modo per valutare gli agenti AI su compiti CRM realistici, colmando una lacuna nei metodi attuali. Tuttavia, le nostre scoperte indicano che anche l'AI avanzata fatica a soddisfare le richieste delle scenari CRM del mondo reale. La strada da percorrere implica non solo migliorare le capacità dell'AI, ma anche garantire che possano gestire le complessità tipiche degli ambienti di servizio clienti moderni.
Creando questo benchmark, speriamo di motivare ulteriori sviluppi nel campo, rendendo l'AI uno strumento sempre più prezioso per le aziende che gestiscono le relazioni con i clienti. Chissà? Con tempo e impegno, potremmo avere agenti AI che possono gestire il servizio clienti come dei veri professionisti. Fino ad allora, sembra che dovremo tenere quegli agenti umani a portata di mano!
Titolo: CRMArena: Understanding the Capacity of LLM Agents to Perform Professional CRM Tasks in Realistic Environments
Estratto: Customer Relationship Management (CRM) systems are vital for modern enterprises, providing a foundation for managing customer interactions and data. Integrating AI agents into CRM systems can automate routine processes and enhance personalized service. However, deploying and evaluating these agents is challenging due to the lack of realistic benchmarks that reflect the complexity of real-world CRM tasks. To address this issue, we introduce CRMArena, a novel benchmark designed to evaluate AI agents on realistic tasks grounded in professional work environments. Following guidance from CRM experts and industry best practices, we designed CRMArena with nine customer service tasks distributed across three personas: service agent, analyst, and manager. The benchmark includes 16 commonly used industrial objects (e.g., account, order, knowledge article, case) with high interconnectivity, along with latent variables (e.g., complaint habits, policy violations) to simulate realistic data distributions. Experimental results reveal that state-of-the-art LLM agents succeed in less than 40% of the tasks with ReAct prompting, and less than 55% even with function-calling abilities. Our findings highlight the need for enhanced agent capabilities in function-calling and rule-following to be deployed in real-world work environments. CRMArena is an open challenge to the community: systems that can reliably complete tasks showcase direct business value in a popular work environment.
Autori: Kung-Hsiang Huang, Akshara Prabhakar, Sidharth Dhawan, Yixin Mao, Huan Wang, Silvio Savarese, Caiming Xiong, Philippe Laban, Chien-Sheng Wu
Ultimo aggiornamento: 2024-11-04 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2411.02305
Fonte PDF: https://arxiv.org/pdf/2411.02305
Licenza: https://creativecommons.org/licenses/by-nc-sa/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://architect.salesforce.com/diagrams/data-models/service-cloud/service-cloud-overview
- https://www.salesforce.com/crm/
- https://github.com/SalesforceAIResearch/CRMArena
- https://github.com/simple-salesforce/simple-salesforce
- https://partners.salesforce.com/s/education/general/Salesforce_Orgs
- https://developer.salesforce.com/docs/atlas.en-us.soql_sosl.meta/soql_sosl/sforce_api_calls_soql_sosl_intro.htm
- https://www.userinterviews.com/