Avaliação de Agentes de IA no Suporte ao Cliente
Um novo método para avaliar agentes de IA no suporte ao cliente por meio da geração de testes.
Samuel Arcadinho, David Aparicio, Mariana Almeida
― 6 min ler
Índice
O uso de modelos de linguagem avançados (LLMs) no suporte ao cliente tá crescendo. Esses modelos podem ajudar a criar agentes de IA que participam de conversas realistas, seguem passos específicos e usam várias funções pra ajudar os usuários. Mas, testar esses agentes não é fácil, porque as conversas podem variar muito, e a maioria dos testes existentes só avalia interações simples.
Esse artigo apresenta um novo jeito de criar testes pra avaliar LLMs como agentes de conversa. Nossa abordagem se baseia em procedimentos definidos pelo usuário pra gerar testes diversos e realistas. Também mostramos um novo conjunto de dados, chamado ALMITA, projetado pra avaliar quão bem os agentes de IA podem operar em cenários de suporte ao cliente.
O Desafio de Avaliar Agentes de IA
Embora os LLMs tenham mostrado grande potencial em várias tarefas, a eficácia deles como agentes interativos ainda é incerta. Muitos testes atualmente focam em tarefas específicas, o que não representa completamente o que esses agentes precisam fazer em conversas do mundo real. Para suporte ao cliente, um agente de IA eficaz precisa lidar com diferentes tipos de perguntas e pedidos, seguindo procedimentos rigorosos.
É essencial avaliar a habilidade da IA de seguir esses procedimentos e lidar com possíveis manobras dos usuários. Pra isso, precisamos de um conjunto de dados de avaliação abrangente que revele os pontos fortes e fracos desses agentes.
Pipeline de Geração de Testes Automatizados
Nosso método pra gerar testes consiste em várias etapas projetadas pra criar cenários diversos. O processo começa definindo um problema, como "cancelar pedido". Depois disso, geramos um procedimento que descreve como a IA deve responder a esse problema.
- Geração de Intenção: Criamos uma intenção específica que serve como base pra gerar um procedimento.
- Geração de Procedimento: Para cada intenção, desenvolvemos um procedimento detalhado que especifica os passos que o agente deve seguir.
- Extração de API: Identificamos interfaces de programação relevantes (APIs) que o agente pode usar ao ajudar os usuários.
- Geração de Fluxogramas: Criamos um fluxograma que descreve o fluxo lógico das ações do agente com base no procedimento e nas APIs.
- Geração de Gráfico de Conversa: Convertendo o fluxograma em um gráfico de conversa que imita um diálogo.
- Geração de Ruído: Pra simular interações realistas, adicionamos elementos ou comportamentos inesperados ao gráfico de conversa.
- Amostragem de Caminhos: Amostramos aleatoriamente caminhos do gráfico de conversa pra criar diferentes cenários de conversa.
- Geração de Conversas: Por fim, geramos conversas sintéticas com base nos caminhos amostrados.
O resultado final consiste em testes que permitem avaliar o desempenho do agente de IA em várias situações.
O Conjunto de Dados ALMITA
Criamos o conjunto de dados ALMITA, que serve como um benchmark pra avaliar agentes de IA no suporte ao cliente. Esse conjunto inclui uma variedade de interações, garantindo testes abrangentes.
O ALMITA foi desenvolvido gerando intenções através de um LLM e criando procedimentos correspondentes. Esses procedimentos foram então avaliados quanto à qualidade e conformidade com regras específicas. O conjunto resultante contém uma coleção de testes sintéticos que podem ser usados pra medir o desempenho de vários agentes de IA.
Avaliação de Modelos de Linguagem
Testamos vários modelos de linguagem usando o conjunto de dados ALMITA pra medir sua eficácia como agentes de suporte ao cliente. As principais dimensões avaliadas incluem:
- Lembrança de Resposta: A habilidade do agente de responder corretamente quando é apropriado.
- Resposta Correta: Se a resposta do agente corresponde à resposta esperada quando era pra responder.
- Lembrança de API: A precisão do agente em reconhecer quando chamar uma API.
- API Correta: Correção da API chamada pelo agente.
- Parâmetros da API Correto: Se o agente usa os parâmetros certos nas chamadas de API.
- Corretude do Teste: A precisão geral dos testes.
Os resultados indicaram que, embora os modelos testados tenham se saído bem em interações isoladas, eles tiveram dificuldades em manter a coerência em conversas mais longas. Isso sugere que mais desenvolvimento é necessário pros LLMs funcionarem de maneira eficaz em cenários reais de suporte ao cliente.
A Importância das Estruturas Intermediárias
A geração de estruturas gráficas intermediárias, como fluxogramas e gráficos de conversa, melhora bastante a qualidade das conversas geradas. Essas estruturas guiam a IA pra manter coerência e relevância na tarefa em questão.
Usando gráficos intermediários, podemos melhorar a precisão das conversas geradas e garantir uma exploração abrangente dos caminhos de conversa. Essa abordagem estruturada também permite a introdução de cenários inesperados que podem ajudar a avaliar a robustez da IA.
Limitações e Direções Futuras
Nossa avaliação tem algumas limitações. Pra começar, não avaliamos a diversidade dos testes gerados quantitativamente. Embora tenhamos feito uma anotação humana pra verificar a correção dos testes, o número de anotadores foi pequeno.
Além disso, focamos em usar um único modelo pra gerar os testes. Explorar o pipeline de geração com múltiplos modelos poderia resultar em conjuntos de dados mais ricos. Olhando pra frente, planejamos aperfeiçoar nossa abordagem pra considerar diferentes graus de severidade de erro nas respostas da IA e explorar métricas mais sutis de correção de conversa.
Conclusão
Com os LLMs sendo cada vez mais integrados no suporte ao cliente, é vital desenvolver métodos robustos pra avaliar o desempenho deles como agentes de conversa. Nosso pipeline de geração de testes automatizados, junto com o conjunto de dados ALMITA, fornece uma estrutura abrangente pra avaliar as capacidades dos agentes de IA. Esse trabalho pode guiar pesquisas e desenvolvimentos futuros na área, ajudando a melhorar a eficácia da IA em cenários do mundo real.
Título: Automated test generation to evaluate tool-augmented LLMs as conversational AI agents
Resumo: Tool-augmented LLMs are a promising approach to create AI agents that can have realistic conversations, follow procedures, and call appropriate functions. However, evaluating them is challenging due to the diversity of possible conversations, and existing datasets focus only on single interactions and function-calling. We present a test generation pipeline to evaluate LLMs as conversational AI agents. Our framework uses LLMs to generate diverse tests grounded on user-defined procedures. For that, we use intermediate graphs to limit the LLM test generator's tendency to hallucinate content that is not grounded on input procedures, and enforces high coverage of the possible conversations. Additionally, we put forward ALMITA, a manually curated dataset for evaluating AI agents in customer support, and use it to evaluate existing LLMs. Our results show that while tool-augmented LLMs perform well in single interactions, they often struggle to handle complete conversations. While our focus is on customer support, our method is general and capable of AI agents for different domains.
Autores: Samuel Arcadinho, David Aparicio, Mariana Almeida
Última atualização: 2024-10-10 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2409.15934
Fonte PDF: https://arxiv.org/pdf/2409.15934
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.