Abordando o viés social em modelos de linguagem
Um novo modelo detecta viés social em textos usando dados sintéticos.
― 5 min ler
Índice
Modelos de linguagem grandes (LLMs) são ferramentas poderosas que conseguem fazer várias tarefas, mas também podem gerar conteúdo prejudicial ou enviesado. Isso traz desafios, principalmente em áreas sensíveis como saúde e finanças. Tem-se concentrado cada vez mais em criar sistemas que consigam detectar e limitar saídas indesejadas desses modelos. Uma maneira de lidar com esses problemas é desenvolver modelos de proteção, que servem para identificar conteúdo nocivo gerado por LLMs.
Viés Social
O Problema doViés social refere-se a um tratamento injusto contra indivíduos ou grupos com base em características como raça, gênero ou crenças. Às vezes, esse viés aparece em textos sem usar uma linguagem explicitamente nociva. Por exemplo, uma afirmação pode sugerir discriminação contra alguém com base em sua aparência, mesmo que não use palavras ofensivas. Detectar esse tipo de viés automaticamente é fundamental, pois pode evitar a propagação de estereótipos prejudiciais em conteúdos gerados por LLMs.
O Desenvolvimento de um Detector de Viés Social
Para criar um sistema que detecta viés social, uma equipe reuniu vários conjuntos de dados que incluíam diferentes tipos de textos. Eles treinaram um modelo usando um método que envolve ajustar um modelo existente chamado BERT. Embora esse modelo tenha se saído razoavelmente bem nos testes, ele cometeu muitos erros ao classificar erroneamente declarações inofensivas como nocivas.
Para melhorar o modelo, a equipe analisou por que ele estava enfrentando dificuldades. Descobriram que o modelo tinha problemas em distinguir entre duas formas de usar a linguagem: "usar" e "mencionar". Quando alguém usa uma declaração nociva, isso é um exemplo de "uso". Se alguém se refere a uma declaração nociva para apontar sua imprecisão, isso é um exemplo de "menção".
A equipe percebeu que muitos dos erros eram devido à falta de reconhecimento dessa diferença pelo modelo. Isso os levou a repensar sua abordagem e explorar maneiras de melhorar seus dados de treinamento.
Geração de Dados Sintéticos
Criando um Pipeline dePara aprimorar os dados de treinamento, a equipe desenvolveu um método para gerar dados sintéticos. Isso envolveu criar um conjunto estruturado de diretrizes, ou uma taxonomia, para categorizar vários tipos de viés social. Eles usaram essa taxonomia para produzir uma grande quantidade de pares de textos, onde uma declaração era tendenciosa e a outra não. No total, criaram mais de 300.000 exemplos de texto para ajudar a treinar seu sistema de detecção de viés.
Esse método não só adicionou diversidade aos dados, mas também garantiu que os exemplos ajudassem o modelo a aprender a fazer melhores distinções entre declarações nocivas e inofensivas.
Testando e Avaliando os Modelos
A equipe testou seus modelos usando vários conjuntos de avaliação. Eles se concentraram em métricas como a taxa de falsos positivos, que mede com que frequência declarações inofensivas são incorretamente rotuladas como nocivas, e a Taxa de Falsos Negativos, que mede com que frequência declarações nocivas são ignoradas.
Através de seus experimentos, eles descobriram que sua nova abordagem, que incluía geração de dados sintéticos e foco na distinção uso-menção, resultou em taxas menores de falsos positivos. Isso significa que o modelo estava melhor em não classificar erroneamente textos inofensivos como nocivos.
A Abordagem em Cascata
Uma estratégia inovadora que a equipe usou foi chamada de abordagem em cascata. Esse método envolve usar dois modelos em sequência. O primeiro modelo determina se o texto é potencialmente nocivo. Se for sinalizado como nocivo, o segundo modelo verifica se o texto é um uso ou uma menção. Esse processo em duas etapas ajuda a reduzir erros e melhorar a precisão na identificação de conteúdo prejudicial.
Desafios e Limitações
Embora os novos modelos tenham mostrado potencial, a equipe reconheceu que sua abordagem não era perfeita. Eles notaram que sua taxonomia pode não cobrir todos os tipos possíveis de viés social. O viés pode evoluir, e novas formas podem surgir ao longo do tempo. Isso significa que os dados de treinamento e as taxonomias precisam ser continuamente atualizados para se manterem eficazes.
A equipe também reconheceu que, embora o uso de dados sintéticos gerados pela sua taxonomia tenha melhorado seus modelos, eles ainda precisavam equilibrar isso com dados compilados por humanos para garantir que os modelos tivessem as melhores informações disponíveis.
Direções Futuras
Olhando para o futuro, os pesquisadores planejam refinar ainda mais seus modelos. Eles estão considerando novos métodos de treinamento que aproveitem as forças tanto dos dados sintéticos quanto dos gerados por humanos. Eles também querem explorar abordagens para melhorar a confiança do modelo em suas previsões, reduzindo o risco de falsos positivos e negativos.
Além disso, planejam se envolver com a comunidade e coletar feedback para ampliar sua compreensão do viés na linguagem e obter insights sobre como melhorar seus sistemas.
Conclusão
O trabalho feito por essa equipe destaca a importância de lidar com o viés social em modelos de linguagem. Ao desenvolver um pipeline de geração de dados sintéticos e focar na distinção uso-menção, eles estão avançando na melhoria da precisão dos detectores de viés. À medida que os modelos de linguagem continuam a evoluir, o desenvolvimento contínuo de modelos de proteção será crucial para garantir seu uso seguro e responsável na sociedade.
Título: When in Doubt, Cascade: Towards Building Efficient and Capable Guardrails
Resumo: Large language models (LLMs) have convincing performance in a variety of downstream tasks. However, these systems are prone to generating undesirable outputs such as harmful and biased text. In order to remedy such generations, the development of guardrail (or detector) models has gained traction. Motivated by findings from developing a detector for social bias, we adopt the notion of a use-mention distinction - which we identified as the primary source of under-performance in the preliminary versions of our social bias detector. Armed with this information, we describe a fully extensible and reproducible synthetic data generation pipeline which leverages taxonomy-driven instructions to create targeted and labeled data. Using this pipeline, we generate over 300K unique contrastive samples and provide extensive experiments to systematically evaluate performance on a suite of open source datasets. We show that our method achieves competitive performance with a fraction of the cost in compute and offers insight into iteratively developing efficient and capable guardrail models. Warning: This paper contains examples of text which are toxic, biased, and potentially harmful.
Autores: Manish Nagireddy, Inkit Padhi, Soumya Ghosh, Prasanna Sattigeri
Última atualização: 2024-07-08 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2407.06323
Fonte PDF: https://arxiv.org/pdf/2407.06323
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://ctan.org/pkg/algorithm
- https://ctan.org/pkg/algorithmicx
- https://huggingface.co/meta-llama/Llama-2-7b-chat-hf
- https://huggingface.co/mistralai/Mixtral-8x7B-Instruct-v0.1
- https://huggingface.co/google-bert/bert-base-uncased
- https://huggingface.co/tomh/toxigen_hatebert
- https://huggingface.co/meta-llama/LlamaGuard-7b
- https://huggingface.co/meta-llama/Meta-Llama-Guard-2-8B
- https://llama.meta.com/llama3/license/