Apresentando o MMSMR: Um Novo Conjunto de Dados pra Avaliar Chatbots

Índice

O Desafio de Avaliar Diálogos
O Que Fizemos
Contexto e Trabalhos Relacionados
Criação do Conjunto de Dados
Avaliando o Desempenho do Modelo
Treinamento de Modelos de Diálogo
Avaliação e Anotações Humanas
Insights sobre a Diversidade das Referências
Conclusão
Fonte original
Ligações de referência

Nós criamos um novo conjunto de dados chamado MMSMR, que significa Massively Multi-System Multi-Reference. Esse conjunto foi feito pra melhorar como medimos e avaliamos Conversas em sistemas de diálogo, tipo chatbots. O objetivo é facilitar a compreensão de como esses sistemas se comunicam com as pessoas.

O Desafio de Avaliar Diálogos

Avaliar quão bom um chatbot é em ter conversas não é fácil. Os métodos que usamos atualmente muitas vezes não batem com o que as pessoas realmente acham. A gente quer encontrar um jeito melhor. Um grande problema é que muitas abordagens de Avaliação usam só uma resposta de referência pra cada pergunta. Isso pode causar problemas, porque pode haver várias Respostas boas pra mesma pergunta.

Pra resolver isso, criamos um conjunto de dados que inclui várias respostas feitas por humanos pra cada pergunta. Com isso, esperamos ter uma visão mais clara de como um chatbot se sai.

O Que Fizemos

Treinamos 1.750 chatbots diferentes e testamos eles usando nosso novo conjunto de dados e outro bem conhecido chamado DailyDialog. Coletamos várias respostas pra diferentes solicitações e avaliamos como os chatbots se saíram com base em diferentes Métricas.

Nossas principais contribuições são:

Criamos um novo conjunto de dados de avaliação de conversação com solicitações tiradas de material pra ensinar inglês como segunda língua.
Coletamos várias respostas de referência geradas por humanos pra essas solicitações.
Treinamos e lançamos os resultados de vários modelos pra que pudéssemos ver como diferentes chatbots se saíram.
Fornecemos todos os dados necessários pra que outros possam pesquisar sem precisar treinar novos modelos.

Contexto e Trabalhos Relacionados

Não somos os primeiros a estudar como avaliar chatbots usando múltiplas referências. Trabalhos anteriores mostraram que usar mais de uma referência pode melhorar a conexão entre métricas de avaliação automática e opiniões humanas. Muitos pesquisadores tentaram diferentes métodos pra avaliar chatbots usando referências geradas por humanos e automáticas.

No entanto, a maioria dos estudos focou em Conjuntos de dados que tinham muito poucos sistemas de diálogo e não usou múltiplas referências tanto quanto poderiam.

Criação do Conjunto de Dados

Pra criar nosso conjunto de dados, coletamos 3.500 novas conversas de múltiplos turnos de um site que foca no ensino de inglês. Pedimos pra trabalhadores de uma plataforma de tarefas fornecerem de duas a cinco respostas pra diferentes conversas. Isso nos ajudou a reunir uma variedade de respostas pra cada solicitação.

Verificamos a qualidade das respostas medindo sua diversidade. A média de semelhança entre as respostas é alta, o que sugere que nossa coleção é diversificada. Essa diversidade é essencial pra avaliar o desempenho do chatbot, já que usar só respostas semelhantes não seria eficaz.

Avaliando o Desempenho do Modelo

Queríamos entender a eficácia de diferentes métodos de pontuação comparando-os com avaliações humanas. Analisamos várias métricas pra ver como elas se alinhavam com os julgamentos humanos.

Pra isso, fizemos várias análises:

Medimos a correlação entre as pontuações de várias métricas e as avaliações humanas.
Vimos como diferentes métricas conseguiam distinguir o desempenho de vários modelos de chatbot.
Analisamos de perto como o desempenho de diferentes métricas variava ao aplicá-las a sistemas de chatbot bons e ruins.

Usando múltiplos modelos, conseguimos insights sobre como as métricas de avaliação se saíram quando havia diferenças significativas no desempenho dos chatbots.

Treinamento de Modelos de Diálogo

Usamos uma estrutura específica pra treinar nossos modelos de chatbot. Isso envolveu configurar parâmetros que se sabe que funcionam bem pra tradução automática de baixo recurso. Fizemos vários testes com configurações diferentes pra entender como o desempenho dos modelos mudava baseado em diferentes fatores.

Como parte do nosso treinamento, utilizamos vários métodos pra gerar respostas, como busca gananciosa e diferentes estratégias de amostragem. Isso nos permitiu avaliar quão bem nossos modelos poderiam responder em cenários do mundo real.

Avaliação e Anotações Humanas

Pra coletar avaliações humanas, organizamos pra que os trabalhadores fornecessem respostas a solicitações de conversa. Cada conversa recebeu várias respostas, permitindo que coletássemos feedback sobre a qualidade das respostas de maneira eficaz.

Os trabalhadores foram compensados pelo tempo e garantimos respostas de alta qualidade filtrando tudo que não fosse único ou útil.

Insights sobre a Diversidade das Referências

Ao analisar as respostas em diferentes conjuntos de dados, observamos que as respostas tinham uma diversidade considerável. A variedade de respostas pra cada solicitação era essencial pra uma avaliação justa. Se todas as respostas forem muito semelhantes, os benefícios de usar múltiplas referências diminuiriam.

Observamos que, conforme os trabalhadores completavam mais tarefas, eles tendiam a fornecer menos respostas únicas. Isso é algo importante pra ficar de olho ao planejar avaliações e garantir a qualidade dos dados.

Conclusão

MMSMR é um grande passo à frente pra entender como os chatbots conseguem ter conversas. Ao fornecer um conjunto de dados diversificado com múltiplas referências, nosso objetivo é melhorar o processo de avaliação e apoiar mais pesquisas em sistemas de diálogo.

Nossas descobertas indicam que usar muitas referências leva a melhores resultados de avaliação, alinhando-se mais de perto com as opiniões humanas. Esse trabalho pode ajudar a garantir que os futuros chatbots sejam mais eficazes em se envolver em conversas significativas.

No geral, o desenvolvimento do MMSMR abre novas possibilidades pra pesquisadores que buscam aprimorar a forma como avaliamos agentes conversacionais. Com conjuntos de dados sólidos, podemos trabalhar em direção a sistemas que consigam se comunicar de forma mais natural e eficaz com os usuários.

Apresentando o MMSMR: Um Novo Conjunto de Dados pra Avaliar Chatbots

O conjunto de dados MMSMR tem como objetivo melhorar a avaliação de conversas de chatbots com respostas humanas variadas.

O Desafio de Avaliar Diálogos

O Que Fizemos

Contexto e Trabalhos Relacionados

Criação do Conjunto de Dados

Avaliando o Desempenho do Modelo

Treinamento de Modelos de Diálogo

Avaliação e Anotações Humanas

Insights sobre a Diversidade das Referências

Conclusão

Ligações de referência

Tópicos referenciados

Apresentando o MMSMR: Um Novo Conjunto de Dados pra Avaliar Chatbots

O conjunto de dados MMSMR tem como objetivo melhorar a avaliação de conversas de chatbots com respostas humanas variadas.

#O Desafio de Avaliar Diálogos

#O Que Fizemos

#Contexto e Trabalhos Relacionados

#Criação do Conjunto de Dados

#Avaliando o Desempenho do Modelo

#Treinamento de Modelos de Diálogo

#Avaliação e Anotações Humanas

#Insights sobre a Diversidade das Referências

#Conclusão

Ligações de referência

Tópicos referenciados

O Desafio de Avaliar Diálogos

O Que Fizemos

Contexto e Trabalhos Relacionados

Criação do Conjunto de Dados

Avaliando o Desempenho do Modelo

Treinamento de Modelos de Diálogo

Avaliação e Anotações Humanas

Insights sobre a Diversidade das Referências

Conclusão