Apresentando o MMSMR: Um Novo Conjunto de Dados pra Avaliar Chatbots
O conjunto de dados MMSMR tem como objetivo melhorar a avaliação de conversas de chatbots com respostas humanas variadas.
― 5 min ler
Índice
Nós criamos um novo conjunto de dados chamado MMSMR, que significa Massively Multi-System Multi-Reference. Esse conjunto foi feito pra melhorar como medimos e avaliamos Conversas em sistemas de diálogo, tipo chatbots. O objetivo é facilitar a compreensão de como esses sistemas se comunicam com as pessoas.
O Desafio de Avaliar Diálogos
Avaliar quão bom um chatbot é em ter conversas não é fácil. Os métodos que usamos atualmente muitas vezes não batem com o que as pessoas realmente acham. A gente quer encontrar um jeito melhor. Um grande problema é que muitas abordagens de Avaliação usam só uma resposta de referência pra cada pergunta. Isso pode causar problemas, porque pode haver várias Respostas boas pra mesma pergunta.
Pra resolver isso, criamos um conjunto de dados que inclui várias respostas feitas por humanos pra cada pergunta. Com isso, esperamos ter uma visão mais clara de como um chatbot se sai.
O Que Fizemos
Treinamos 1.750 chatbots diferentes e testamos eles usando nosso novo conjunto de dados e outro bem conhecido chamado DailyDialog. Coletamos várias respostas pra diferentes solicitações e avaliamos como os chatbots se saíram com base em diferentes Métricas.
Nossas principais contribuições são:
- Criamos um novo conjunto de dados de avaliação de conversação com solicitações tiradas de material pra ensinar inglês como segunda língua.
- Coletamos várias respostas de referência geradas por humanos pra essas solicitações.
- Treinamos e lançamos os resultados de vários modelos pra que pudéssemos ver como diferentes chatbots se saíram.
- Fornecemos todos os dados necessários pra que outros possam pesquisar sem precisar treinar novos modelos.
Contexto e Trabalhos Relacionados
Não somos os primeiros a estudar como avaliar chatbots usando múltiplas referências. Trabalhos anteriores mostraram que usar mais de uma referência pode melhorar a conexão entre métricas de avaliação automática e opiniões humanas. Muitos pesquisadores tentaram diferentes métodos pra avaliar chatbots usando referências geradas por humanos e automáticas.
No entanto, a maioria dos estudos focou em Conjuntos de dados que tinham muito poucos sistemas de diálogo e não usou múltiplas referências tanto quanto poderiam.
Criação do Conjunto de Dados
Pra criar nosso conjunto de dados, coletamos 3.500 novas conversas de múltiplos turnos de um site que foca no ensino de inglês. Pedimos pra trabalhadores de uma plataforma de tarefas fornecerem de duas a cinco respostas pra diferentes conversas. Isso nos ajudou a reunir uma variedade de respostas pra cada solicitação.
Verificamos a qualidade das respostas medindo sua diversidade. A média de semelhança entre as respostas é alta, o que sugere que nossa coleção é diversificada. Essa diversidade é essencial pra avaliar o desempenho do chatbot, já que usar só respostas semelhantes não seria eficaz.
Avaliando o Desempenho do Modelo
Queríamos entender a eficácia de diferentes métodos de pontuação comparando-os com avaliações humanas. Analisamos várias métricas pra ver como elas se alinhavam com os julgamentos humanos.
Pra isso, fizemos várias análises:
- Medimos a correlação entre as pontuações de várias métricas e as avaliações humanas.
- Vimos como diferentes métricas conseguiam distinguir o desempenho de vários modelos de chatbot.
- Analisamos de perto como o desempenho de diferentes métricas variava ao aplicá-las a sistemas de chatbot bons e ruins.
Usando múltiplos modelos, conseguimos insights sobre como as métricas de avaliação se saíram quando havia diferenças significativas no desempenho dos chatbots.
Treinamento de Modelos de Diálogo
Usamos uma estrutura específica pra treinar nossos modelos de chatbot. Isso envolveu configurar parâmetros que se sabe que funcionam bem pra tradução automática de baixo recurso. Fizemos vários testes com configurações diferentes pra entender como o desempenho dos modelos mudava baseado em diferentes fatores.
Como parte do nosso treinamento, utilizamos vários métodos pra gerar respostas, como busca gananciosa e diferentes estratégias de amostragem. Isso nos permitiu avaliar quão bem nossos modelos poderiam responder em cenários do mundo real.
Avaliação e Anotações Humanas
Pra coletar avaliações humanas, organizamos pra que os trabalhadores fornecessem respostas a solicitações de conversa. Cada conversa recebeu várias respostas, permitindo que coletássemos feedback sobre a qualidade das respostas de maneira eficaz.
Os trabalhadores foram compensados pelo tempo e garantimos respostas de alta qualidade filtrando tudo que não fosse único ou útil.
Insights sobre a Diversidade das Referências
Ao analisar as respostas em diferentes conjuntos de dados, observamos que as respostas tinham uma diversidade considerável. A variedade de respostas pra cada solicitação era essencial pra uma avaliação justa. Se todas as respostas forem muito semelhantes, os benefícios de usar múltiplas referências diminuiriam.
Observamos que, conforme os trabalhadores completavam mais tarefas, eles tendiam a fornecer menos respostas únicas. Isso é algo importante pra ficar de olho ao planejar avaliações e garantir a qualidade dos dados.
Conclusão
MMSMR é um grande passo à frente pra entender como os chatbots conseguem ter conversas. Ao fornecer um conjunto de dados diversificado com múltiplas referências, nosso objetivo é melhorar o processo de avaliação e apoiar mais pesquisas em sistemas de diálogo.
Nossas descobertas indicam que usar muitas referências leva a melhores resultados de avaliação, alinhando-se mais de perto com as opiniões humanas. Esse trabalho pode ajudar a garantir que os futuros chatbots sejam mais eficazes em se envolver em conversas significativas.
No geral, o desenvolvimento do MMSMR abre novas possibilidades pra pesquisadores que buscam aprimorar a forma como avaliamos agentes conversacionais. Com conjuntos de dados sólidos, podemos trabalhar em direção a sistemas que consigam se comunicar de forma mais natural e eficaz com os usuários.
Título: How to Choose How to Choose Your Chatbot: A Massively Multi-System MultiReference Data Set for Dialog Metric Evaluation
Resumo: We release MMSMR, a Massively Multi-System MultiReference dataset to enable future work on metrics and evaluation for dialog. Automatic metrics for dialogue evaluation should be robust proxies for human judgments; however, the verification of robustness is currently far from satisfactory. To quantify the robustness correlation and understand what is necessary in a test set, we create and release an 8-reference dialog dataset by extending single-reference evaluation sets and introduce this new language learning conversation dataset. We then train 1750 systems and evaluate them on our novel test set and the DailyDialog dataset. We release the novel test set, and model hyper parameters, inference outputs, and metric scores for each system on a variety of datasets.
Autores: Huda Khayrallah, Zuhaib Akhtar, Edward Cohen, Jyothir S, João Sedoc
Última atualização: 2024-11-19 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2305.14533
Fonte PDF: https://arxiv.org/pdf/2305.14533
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://www.rong-chang.com
- https://github.com/facebookresearch/flores/tree/5696dd4ef07e29977d5690d2539513a4ef2fe7f0
- https://github.com/facebookresearch/ParlAI/tree/1e905fec8ef4876a07305f19c3bbae633e8b33af
- https://github.com/Shimorina/human-evaluation-datasheet/blob/main/sheet/markdown/human-evaluation-datasheet.md