Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Calcolo e linguaggio# Intelligenza artificiale# Apprendimento automatico

Valutazione degli agenti AI nel supporto clienti

Un nuovo metodo per valutare gli agenti AI nel supporto clienti tramite generazione di test.

Samuel Arcadinho, David Aparicio, Mariana Almeida

― 5 leggere min


Agenti AI nel testing delAgenti AI nel testing delsupporto clientidegli agenti AI.Nuovi metodi per testare l'efficacia
Indice

L'uso di modelli linguistici avanzati (LLM) nel supporto clienti sta crescendo. Questi modelli possono aiutare a creare agenti AI che partecipano a conversazioni realistiche, seguono passaggi specifici e usano varie funzioni per assistere gli utenti. Tuttavia, testare questi agenti non è semplice perché le conversazioni possono variare molto, e la maggior parte dei test esistenti valuta solo interazioni semplici.

Quest'articolo introduce un nuovo modo di creare test per valutare gli LLM come agenti conversazionali. Il nostro approccio si basa su procedure definite dagli utenti per generare test diversi e realistici. Presentiamo anche un nuovo dataset, chiamato ALMITA, progettato per valutare quanto bene gli agenti AI possono operare in scenari di supporto clienti.

La Sfida di Valutare gli Agenti AI

Anche se gli LLM hanno dimostrato una grande promessa in vari compiti, la loro efficacia come agenti interattivi è ancora incerta. Molti test attualmente si concentrano su compiti specifici, il che non rappresenta completamente ciò che questi agenti devono fare nelle conversazioni reali. Per il supporto clienti, un agente AI efficace deve gestire diversi tipi di richieste e domande seguendo procedure rigorose.

È fondamentale valutare la capacità dell'AI di attenersi a queste procedure e gestire possibili manipolazioni degli utenti. Per farlo, abbiamo bisogno di un dataset di valutazione completo che possa rivelare i punti di forza e di debolezza di questi agenti.

Pipeline di Generazione Test Automatica

Il nostro metodo per generare test consiste in vari passaggi progettati per creare scenari diversi. Il processo inizia con la definizione di un problema, come "cancellare un ordine". Successivamente, generiamo una procedura che descrive come l'AI dovrebbe rispondere a quel problema.

  1. Generazione dell'Intento: Creiamo un intento specifico che funge da base per generare una procedura.
  2. Generazione della Procedura: Per ogni intento, sviluppiamo una procedura dettagliata che specifica i passaggi che l'agente deve seguire.
  3. Estrazione delle API: Identifichiamo le interfacce di programmazione delle applicazioni (API) rilevanti che l'agente può usare per assistere gli utenti.
  4. Generazione del Flowgraph: Creiamo un diagramma di flusso che delinea il flusso logico delle azioni dell'agente basato sulla procedura e sulle API.
  5. Generazione del Grafico della Conversazione: Convertiamo il diagramma di flusso in un grafico della conversazione che imita un'impostazione di dialogo.
  6. Generazione di Rumore: Per simulare interazioni realistiche, aggiungiamo elementi o comportamenti inaspettati al grafico della conversazione.
  7. Campionamento dei Percorsi: Campioniamo casualmente percorsi dal grafico della conversazione per creare diversi scenari di conversazione.
  8. Generazione della Conversazione: Infine, generiamo conversazioni sintetiche basate sui percorsi campionati.

Il risultato finale consiste in test che permettono di valutare le prestazioni dell'agente AI in varie situazioni.

Il Dataset ALMITA

Abbiamo creato il dataset ALMITA, che funge da benchmark per valutare gli agenti AI nel supporto clienti. Questo dataset include una varietà di interazioni, garantendo test completi.

ALMITA è stato sviluppato generando intenti tramite un LLM e creando procedure corrispondenti. Queste procedure sono state poi valutate per qualità e conformità a regole specifiche. Il dataset risultante contiene una raccolta di test sintetici che possono essere utilizzati per misurare le prestazioni di vari agenti AI.

Valutazione dei Modelli Linguistici

Abbiamo testato più modelli linguistici usando il dataset ALMITA per misurare la loro efficacia come agenti di supporto clienti. Le dimensioni chiave valutate includono:

  • Richiamo della Risposta: La capacità dell'agente di rispondere correttamente quando è appropriato.
  • Risposta Corretta: Se la risposta dell'agente corrisponde a quella attesa quando deve rispondere.
  • Richiamo API: L'accuratezza dell'agente nel riconoscere quando chiamare un'API.
  • API Corretta: Correttezza dell'API chiamata dall'agente.
  • Parametri API Corretti: Se l'agente usa i parametri giusti per le chiamate API.
  • Correttezza del Test: Accuratezza generale dei test.

I risultati hanno indicato che, mentre i modelli testati hanno performato bene in interazioni isolate, hanno faticato a mantenere coerenza in conversazioni più lunghe. Questo suggerisce che è necessario un ulteriore sviluppo per far funzionare gli LLM in modo efficace in scenari di supporto clienti nel mondo reale.

L'Importanza delle Strutture Intermedie

La generazione di strutture grafiche intermedie, come flowgraph e grafici di conversazione, migliora significativamente la qualità delle conversazioni generate. Queste strutture guidano l'AI nel mantenere coerenza e rilevanza rispetto al compito in corso.

Utilizzando grafici intermedi, possiamo migliorare l'accuratezza delle conversazioni generate e garantire un'esplorazione completa dei percorsi conversazionali. Questo approccio strutturato consente anche l'introduzione di scenari inaspettati, che possono aiutare nella valutazione della robustezza dell'AI.

Limitazioni e Direzioni Future

La nostra valutazione ha alcune limitazioni. Per esempio, non abbiamo valutato quantitativamente la diversità dei test generati. Anche se abbiamo effettuato annotazioni umane per verificare la correttezza dei test, il numero di annotatori era ridotto.

Inoltre, ci siamo concentrati sull'utilizzo di un unico modello per generare test. Esplorare la pipeline di generazione con più modelli potrebbe produrre dataset più ricchi. Guardando al futuro, intendiamo affinare il nostro approccio per considerare gradi variabili di severità degli errori nelle risposte AI e esplorare metriche più sfumate per la correttezza conversazionale.

Conclusione

Man mano che gli LLM vengono sempre più integrati nel supporto clienti, è fondamentale sviluppare metodi robusti per valutare le loro prestazioni come agenti conversazionali. La nostra pipeline di generazione di test automatizzati, insieme al dataset ALMITA, fornisce un framework completo per valutare le capacità degli agenti AI. Questo lavoro può guidare la ricerca e lo sviluppo futuri nel campo, aiutando a migliorare l'efficacia dell'AI in scenari del mondo reale.

Fonte originale

Titolo: Automated test generation to evaluate tool-augmented LLMs as conversational AI agents

Estratto: Tool-augmented LLMs are a promising approach to create AI agents that can have realistic conversations, follow procedures, and call appropriate functions. However, evaluating them is challenging due to the diversity of possible conversations, and existing datasets focus only on single interactions and function-calling. We present a test generation pipeline to evaluate LLMs as conversational AI agents. Our framework uses LLMs to generate diverse tests grounded on user-defined procedures. For that, we use intermediate graphs to limit the LLM test generator's tendency to hallucinate content that is not grounded on input procedures, and enforces high coverage of the possible conversations. Additionally, we put forward ALMITA, a manually curated dataset for evaluating AI agents in customer support, and use it to evaluate existing LLMs. Our results show that while tool-augmented LLMs perform well in single interactions, they often struggle to handle complete conversations. While our focus is on customer support, our method is general and capable of AI agents for different domains.

Autori: Samuel Arcadinho, David Aparicio, Mariana Almeida

Ultimo aggiornamento: 2024-10-10 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2409.15934

Fonte PDF: https://arxiv.org/pdf/2409.15934

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Articoli simili