Abordando a Toxicidade nas Conversas com Chatbots
Pesquisas mostram que respostas prejudiciais podem surgir de perguntas seguras durante interações com chatbots.
― 5 min ler
Índice
Os chatbots estão ficando cada vez mais comuns em várias áreas como atendimento ao cliente, ajuda pessoal e aprendizado online. Esses sistemas são feitos pra conversar com as pessoas e dar informações e apoio úteis. Melhorias recentes em como as máquinas entendem a linguagem e aprendem levaram à criação de chatbots avançados, como o ChatGPT. Mas tem um problema que precisa de atenção: às vezes, os chatbots podem dizer coisas prejudiciais ou ofensivas, mesmo quando a conversa parece segura no início.
O Problema da Toxicidade em Chatbots
À medida que os chatbots se envolvem em conversas, existe a chance de que eles gerem Respostas Tóxicas. Respostas tóxicas são definidas como comentários ofensivos, insultantes ou ameaçadores relacionados a temas sensíveis como gênero, política ou raça. Esse tipo de resposta pode machucar os participantes, quebrar a comunicação e prejudicar a reputação do chatbot e de seus desenvolvedores. O problema dos chatbots gerando respostas tóxicas tem chamado a atenção tanto da indústria quanto da pesquisa.
Estudos atuais tendem a focar em interações únicas ou em uma pergunta por vez. Eles descobrem que muitos chatbots conseguem evitar gerar respostas tóxicas quando perguntados de forma direta. No entanto, quando essas conversas se estendem por várias trocas, comportamentos tóxicos podem surgir inesperadamente.
Entendendo Interações de Múltiplas Trocas
Em uma conversa com várias perguntas e respostas, uma pergunta pode influenciar como a próxima pode ser respondida. Isso significa que um chatbot poderia responder de forma inadequada mesmo quando as perguntas anteriores pareciam inofensivas. Portanto, há uma necessidade real de estudar essas conversas de múltiplas trocas pra entender como e por que os chatbots geram respostas tóxicas.
Objetivos da Pesquisa
Este estudo tem como objetivo investigar como comportamentos prejudiciais em chatbots podem ser acionados durante conversas de múltiplas trocas. Queremos entender como certas perguntas podem levar a respostas mais tóxicas mesmo que inicialmente parecessem seguras. Assim, conseguimos identificar melhor os fatores que permitem que conteúdos prejudiciais surgam.
Metodologia
Pra isso, criamos um chatbot especial capaz de engajar em conversas projetadas pra provocar respostas tóxicas. Esse bot malicioso foi ajustado usando uma coleção de dados conversacionais que contém elementos tanto seguros quanto prejudiciais. Preparando diferentes tipos de diálogos, conseguimos aprender como provocar respostas tóxicas de vários chatbots.
Conjuntos de dados
ConstruindoReunimos vários conjuntos de dados pra treinar nosso chatbot malicioso. Esses conjuntos incluíram diálogos classificados por seus níveis de toxicidade. Assim, conseguimos introduzir gradualmente conteúdos mais prejudiciais nas conversas. Também criamos uma coleção separada de prompts, que são frases iniciais usadas pra começar conversas com os chatbots-alvo.
Realizando Avaliações
Usando esses conjuntos de dados, testamos quão bem nosso chatbot malicioso poderia provocar respostas tóxicas em vários modelos, como o BlenderBot e o DialoGPT. O objetivo era checar se o bot poderia desencadear mais respostas tóxicas mudando o contexto e os níveis de toxicidade.
Descobertas
Nos nossos testes, descobrimos que até perguntas consideradas não tóxicas poderiam resultar em respostas tóxicas quando faziam parte de uma conversa mais longa. Notavelmente, muitas das frases que pareciam seguras individualmente ainda assim conseguiam provocar saídas prejudiciais em contextos de múltiplas trocas.
Resultados dos Testes de Múltiplas Trocas
Em um cenário, o engajamento de um chatbot levou a 67% das instâncias resultando em respostas tóxicas. Isso mostra como o risco de toxicidade pode aumentar ao longo da conversa. Também aprendemos que trocas anteriores em um chat de múltiplas trocas podem preparar o terreno pra interações posteriores, permitindo que respostas prejudiciais passem despercebidas.
Comparando Modelos de Chatbot
Através de testes extensivos, encontramos variações em como diferentes modelos de chatbot reagiram aos nossos ataques. Os resultados indicaram que alguns modelos eram mais vulneráveis que outros, especialmente os menores. Os modelos maiores tinham defesas melhores contra serem provocados a gerar conteúdo prejudicial.
Discussão
As descobertas desta pesquisa destacam a importância de entender como o contexto afeta as respostas dos chatbots. Embora os testes de consulta única tenham sido o foco no passado, é bem claro que interações de múltiplas trocas apresentam um novo conjunto de desafios pra garantir comunicação segura em chatbots.
Implicações para Desenvolvedores
Para os desenvolvedores, o estudo ressalta a necessidade de repensar como os chatbots são treinados e avaliados. Os processos de ajuste fino devem focar não apenas em consultas individuais, mas também no contexto mais amplo em que essas consultas ocorrem.
Próximos Passos
Seguindo em frente, mais pesquisas são necessárias pra criar métodos e sistemas que possam detectar e mitigar efetivamente respostas tóxicas nas conversas. Isso pode envolver a criação de ferramentas de avaliação mais abrangentes pra avaliar comportamentos de chatbots e melhorar suas medidas de segurança.
Conclusão
Os chatbots são ferramentas poderosas que podem fornecer ajuda significativa em várias aplicações, mas há um risco real de que eles gerem conteúdo tóxico durante as interações. Este estudo lançou luz sobre como respostas prejudiciais podem surgir de conversas aparentemente seguras. Ao entender melhor essas interações, os desenvolvedores podem trabalhar na criação de sistemas de chatbot mais robustos e seguros, capazes de proteger os usuários de conteúdos prejudiciais no futuro.
Resumindo, lidar com a questão da toxicidade em chatbots requer uma abordagem multifacetada que considere as complexidades da conversa e dos dados de treinamento. Através de pesquisas e desenvolvimentos contínuos, podemos criar chatbots que são não só úteis, mas também seguros para todos os usuários.
Título: Understanding Multi-Turn Toxic Behaviors in Open-Domain Chatbots
Resumo: Recent advances in natural language processing and machine learning have led to the development of chatbot models, such as ChatGPT, that can engage in conversational dialogue with human users. However, the ability of these models to generate toxic or harmful responses during a non-toxic multi-turn conversation remains an open research question. Existing research focuses on single-turn sentence testing, while we find that 82\% of the individual non-toxic sentences that elicit toxic behaviors in a conversation are considered safe by existing tools. In this paper, we design a new attack, \toxicbot, by fine-tuning a chatbot to engage in conversation with a target open-domain chatbot. The chatbot is fine-tuned with a collection of crafted conversation sequences. Particularly, each conversation begins with a sentence from a crafted prompt sentences dataset. Our extensive evaluation shows that open-domain chatbot models can be triggered to generate toxic responses in a multi-turn conversation. In the best scenario, \toxicbot achieves a 67\% activation rate. The conversation sequences in the fine-tuning stage help trigger the toxicity in a conversation, which allows the attack to bypass two defense methods. Our findings suggest that further research is needed to address chatbot toxicity in a dynamic interactive environment. The proposed \toxicbot can be used by both industry and researchers to develop methods for detecting and mitigating toxic responses in conversational dialogue and improve the robustness of chatbots for end users.
Autores: Bocheng Chen, Guangjing Wang, Hanqing Guo, Yuanda Wang, Qiben Yan
Última atualização: 2023-07-13 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2307.09579
Fonte PDF: https://arxiv.org/pdf/2307.09579
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://www.kaggle.com/code/danofer/reddit-comments-scores-nlp/notebook
- https://urldefense.com/v3/__
- https://openai.com/api/policies/sharing-publication/__;!!HXCxUKc!zfnr_zzJ_lpl6PrzLPmJL7DXiJUp6a-1e0q91XHYv0g7hKW4fqRnoW8YH-v0Q7SgYZMFARgBTYu9aT3y8lfkSuDtAwk2
- https://ctan.org/pkg/pifont
- https://aclanthology.org/2021.acl-long.329.pdf