Avaliação de Agentes de IA no Suporte ao Cliente

Índice

O Desafio de Avaliar Agentes de IA
Pipeline de Geração de Testes Automatizados
O Conjunto de Dados ALMITA
Avaliação de Modelos de Linguagem
A Importância das Estruturas Intermediárias
Limitações e Direções Futuras
Conclusão
Fonte original
Ligações de referência

O uso de modelos de linguagem avançados (LLMs) no suporte ao cliente tá crescendo. Esses modelos podem ajudar a criar agentes de IA que participam de conversas realistas, seguem passos específicos e usam várias funções pra ajudar os usuários. Mas, testar esses agentes não é fácil, porque as conversas podem variar muito, e a maioria dos testes existentes só avalia interações simples.

Esse artigo apresenta um novo jeito de criar testes pra avaliar LLMs como agentes de conversa. Nossa abordagem se baseia em procedimentos definidos pelo usuário pra gerar testes diversos e realistas. Também mostramos um novo conjunto de dados, chamado ALMITA, projetado pra avaliar quão bem os agentes de IA podem operar em cenários de suporte ao cliente.

O Desafio de Avaliar Agentes de IA

Embora os LLMs tenham mostrado grande potencial em várias tarefas, a eficácia deles como agentes interativos ainda é incerta. Muitos testes atualmente focam em tarefas específicas, o que não representa completamente o que esses agentes precisam fazer em conversas do mundo real. Para suporte ao cliente, um agente de IA eficaz precisa lidar com diferentes tipos de perguntas e pedidos, seguindo procedimentos rigorosos.

É essencial avaliar a habilidade da IA de seguir esses procedimentos e lidar com possíveis manobras dos usuários. Pra isso, precisamos de um conjunto de dados de avaliação abrangente que revele os pontos fortes e fracos desses agentes.

Pipeline de Geração de Testes Automatizados

Nosso método pra gerar testes consiste em várias etapas projetadas pra criar cenários diversos. O processo começa definindo um problema, como "cancelar pedido". Depois disso, geramos um procedimento que descreve como a IA deve responder a esse problema.

Geração de Intenção: Criamos uma intenção específica que serve como base pra gerar um procedimento.
Geração de Procedimento: Para cada intenção, desenvolvemos um procedimento detalhado que especifica os passos que o agente deve seguir.
Extração de API: Identificamos interfaces de programação relevantes (APIs) que o agente pode usar ao ajudar os usuários.
Geração de Fluxogramas: Criamos um fluxograma que descreve o fluxo lógico das ações do agente com base no procedimento e nas APIs.
Geração de Gráfico de Conversa: Convertendo o fluxograma em um gráfico de conversa que imita um diálogo.
Geração de Ruído: Pra simular interações realistas, adicionamos elementos ou comportamentos inesperados ao gráfico de conversa.
Amostragem de Caminhos: Amostramos aleatoriamente caminhos do gráfico de conversa pra criar diferentes cenários de conversa.
Geração de Conversas: Por fim, geramos conversas sintéticas com base nos caminhos amostrados.

O resultado final consiste em testes que permitem avaliar o desempenho do agente de IA em várias situações.

O Conjunto de Dados ALMITA

Criamos o conjunto de dados ALMITA, que serve como um benchmark pra avaliar agentes de IA no suporte ao cliente. Esse conjunto inclui uma variedade de interações, garantindo testes abrangentes.

O ALMITA foi desenvolvido gerando intenções através de um LLM e criando procedimentos correspondentes. Esses procedimentos foram então avaliados quanto à qualidade e conformidade com regras específicas. O conjunto resultante contém uma coleção de testes sintéticos que podem ser usados pra medir o desempenho de vários agentes de IA.

Avaliação de Modelos de Linguagem

Testamos vários modelos de linguagem usando o conjunto de dados ALMITA pra medir sua eficácia como agentes de suporte ao cliente. As principais dimensões avaliadas incluem:

Lembrança de Resposta: A habilidade do agente de responder corretamente quando é apropriado.
Resposta Correta: Se a resposta do agente corresponde à resposta esperada quando era pra responder.
Lembrança de API: A precisão do agente em reconhecer quando chamar uma API.
API Correta: Correção da API chamada pelo agente.
Parâmetros da API Correto: Se o agente usa os parâmetros certos nas chamadas de API.
Corretude do Teste: A precisão geral dos testes.

Os resultados indicaram que, embora os modelos testados tenham se saído bem em interações isoladas, eles tiveram dificuldades em manter a coerência em conversas mais longas. Isso sugere que mais desenvolvimento é necessário pros LLMs funcionarem de maneira eficaz em cenários reais de suporte ao cliente.

A Importância das Estruturas Intermediárias

A geração de estruturas gráficas intermediárias, como fluxogramas e gráficos de conversa, melhora bastante a qualidade das conversas geradas. Essas estruturas guiam a IA pra manter coerência e relevância na tarefa em questão.

Usando gráficos intermediários, podemos melhorar a precisão das conversas geradas e garantir uma exploração abrangente dos caminhos de conversa. Essa abordagem estruturada também permite a introdução de cenários inesperados que podem ajudar a avaliar a robustez da IA.

Limitações e Direções Futuras

Nossa avaliação tem algumas limitações. Pra começar, não avaliamos a diversidade dos testes gerados quantitativamente. Embora tenhamos feito uma anotação humana pra verificar a correção dos testes, o número de anotadores foi pequeno.

Além disso, focamos em usar um único modelo pra gerar os testes. Explorar o pipeline de geração com múltiplos modelos poderia resultar em conjuntos de dados mais ricos. Olhando pra frente, planejamos aperfeiçoar nossa abordagem pra considerar diferentes graus de severidade de erro nas respostas da IA e explorar métricas mais sutis de correção de conversa.

Conclusão

Com os LLMs sendo cada vez mais integrados no suporte ao cliente, é vital desenvolver métodos robustos pra avaliar o desempenho deles como agentes de conversa. Nosso pipeline de geração de testes automatizados, junto com o conjunto de dados ALMITA, fornece uma estrutura abrangente pra avaliar as capacidades dos agentes de IA. Esse trabalho pode guiar pesquisas e desenvolvimentos futuros na área, ajudando a melhorar a eficácia da IA em cenários do mundo real.

Avaliação de Agentes de IA no Suporte ao Cliente

Um novo método para avaliar agentes de IA no suporte ao cliente por meio da geração de testes.

O Desafio de Avaliar Agentes de IA

Pipeline de Geração de Testes Automatizados

O Conjunto de Dados ALMITA

Avaliação de Modelos de Linguagem

A Importância das Estruturas Intermediárias

Limitações e Direções Futuras

Conclusão

Ligações de referência

Tópicos referenciados

Avaliação de Agentes de IA no Suporte ao Cliente

Um novo método para avaliar agentes de IA no suporte ao cliente por meio da geração de testes.

#O Desafio de Avaliar Agentes de IA

#Pipeline de Geração de Testes Automatizados

#O Conjunto de Dados ALMITA

#Avaliação de Modelos de Linguagem

#A Importância das Estruturas Intermediárias

#Limitações e Direções Futuras

#Conclusão

Ligações de referência

Tópicos referenciados

O Desafio de Avaliar Agentes de IA

Pipeline de Geração de Testes Automatizados

O Conjunto de Dados ALMITA

Avaliação de Modelos de Linguagem

A Importância das Estruturas Intermediárias

Limitações e Direções Futuras

Conclusão