Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem# Computadores e sociedade# Aprendizagem de máquinas

Avaliando a Toxicidade em Modelos de Linguagem Multilíngues

Um novo conjunto de dados avalia como os modelos de linguagem lidam com conteúdo prejudicial em diferentes culturas.

― 6 min ler


Enfrentando a ToxicidadeEnfrentando a Toxicidadeem Modelos de Linguagemprejudicial entre culturas.desafios na detecção de linguagemNovo conjunto de dados destaca os
Índice

Modelos de linguagem grandes (LLMs) e pequenos (SLMs) tão ficando bem populares em várias áreas, mas as preocupações sobre a segurança deles ainda existem. Um aspecto fundamental de usar esses modelos é entender como eles conseguem reconhecer linguagem prejudicial, especialmente em diferentes idiomas e culturas. Com o surgimento de modelos multilíngues, é importante descobrir se conseguimos avaliar a segurança deles tão rápido quanto tão são lançados.

Pra isso, a gente criou um novo conjunto de dados chamado RTP-LX. Esse conjunto inclui prompts Tóxicos e suas respostas em 28 idiomas. O RTP-LX foi feito com cuidadosa consideração de detalhes culturais pra encontrar linguagem prejudicial que pode não ser óbvia à primeira vista.

Testamos sete S/LLMs diferentes pra ver como eles conseguem identificar conteúdo prejudicial em vários idiomas. Nossas descobertas mostram que, embora esses modelos geralmente tenham um bom desempenho em termos de precisão, eles nem sempre concordam com os julgamentos humanos ao avaliar a toxicidade de forma holística. Eles têm dificuldades especialmente em reconhecer linguagem prejudicial em situações onde o contexto importa, como insultos sutis ou preconceitos.

A Necessidade de Avaliação de Toxicidade

À medida que LLMs e SLMs tão sendo cada vez mais usados em várias aplicações, o risco de gerar conteúdo prejudicial aumentou. Esses modelos aprendem com dados disponíveis na internet, que muitas vezes podem incluir linguagem tóxica. À medida que a gente desenvolve modelos multilíngues mais capazes, precisamos de maneiras eficazes de detectar linguagem tóxica em muitos idiomas.

Nesse artigo, apresentamos o RTP-LX, um conjunto de dados especialmente criado pra avaliar como os modelos conseguem reconhecer linguagem tóxica em diferentes culturas e idiomas. O objetivo é garantir que esses modelos possam ser usados de forma segura, evitando conteúdo prejudicial.

O que é RTP-LX?

RTP-LX, que significa "RTP-Language eXpanded," é um conjunto de dados que consiste em prompts tóxicos e as respostas geradas a partir desses prompts em 28 idiomas. Esse conjunto foi criado avaliando cuidadosamente a toxicidade da linguagem e garantindo que linguagem prejudicial culturalmente específica fosse incluída.

A criação do RTP-LX envolveu tanto tradução humana quanto anotação. Buscamos a expertise de falantes nativos pra garantir que o conjunto de dados representasse com precisão a linguagem e as nuances culturais. Ao fazer parceria com falantes nativos, garantimos que o conjunto de dados capturasse efetivamente conteúdo prejudicial que pode ser ignorado por não nativos.

Como Avaliamos os Modelos

Pra avaliar o desempenho dos S/LLMs selecionados, usamos o conjunto de dados RTP-LX e comparamos as saídas dos modelos com as anotações fornecidas por juízes humanos. Queríamos ver se os modelos podiam identificar de forma confiável conteúdo prejudicial, especialmente no contexto de diferentes idiomas e culturas.

Nossa avaliação envolveu tarefas específicas onde os S/LLMs foram solicitados a identificar conteúdo tóxico com base nos prompts fornecidos. Medimos o desempenho deles usando várias métricas pra ver como eles se saíram em comparação com os juízes humanos. Enquanto os modelos tiveram boas pontuações em precisão, havia lacunas significativas quando se tratava de entender de forma sutil o conteúdo prejudicial.

Descobertas

Desempenho Geral

Os resultados mostraram que os S/LLMs normalmente alcançaram níveis aceitáveis de precisão. No entanto, houve uma notável discordância com os juízes humanos ao julgar a toxicidade geral de um prompt. Essa discordância foi especialmente pronunciada em situações dependentes do contexto, onde formas sutis de dano, como microagressões e preconceitos, estavam presentes.

Nossas descobertas indicam que, enquanto modelos como GPT-4 Turbo e Gemma 7B se saíram melhor em geral, ainda assim tiveram dificuldades em reconhecer linguagem prejudicial mais sutil. Alguns modelos, especialmente os menores como Gemma 2B, mostraram desempenho mais fraco em identificar toxicidade.

Desafios na Detecção

Detectar linguagem tóxica em um contexto multilíngue e sensível culturalmente é complexo. Muitos modelos demonstraram uma tendência a ignorar formas mais sutis de dano. Por exemplo, eles eram melhores em identificar instâncias claras de violência e conteúdo sexual, mas achavam desafiador sinalizar conteúdo que poderia ser prejudicial em certos contextos, como piadas ou referências que podem ofender grupos específicos.

Isso destaca uma limitação significativa nas capacidades atuais dos S/LLMs. Os modelos frequentemente produzem rótulos mais altos do que o necessário, levando a uma situação onde eles ou perdem conteúdo prejudicial importante ou classificam incorretamente conteúdo benigno como prejudicial.

A Importância da Sensibilidade Cultural

Ao avaliar modelos de linguagem, a sensibilidade cultural é crucial. O conjunto de dados RTP-LX foi projetado com isso em mente, já que muitas expressões prejudiciais estão profundamente ligadas a contextos culturais. Por exemplo, uma frase que pode parecer inofensiva em uma cultura pode ser altamente ofensiva em outra devido a razões históricas ou sociais.

O processo de criação do RTP-LX envolveu reunir prompts culturalmente relevantes que refletem os desafios únicos de entender toxicidade em diferentes idiomas. Isso garantiu que a avaliação pudesse mensurar com precisão a capacidade de cada modelo de entender essas sutilezas.

Direções Futuras

Pra melhorar a eficácia dos modelos em reconhecer linguagem tóxica, mais pesquisas são necessárias. É preciso expandir o conjunto de dados RTP-LX pra incluir mais dialetos e variações linguísticas. Isso garantirá uma compreensão mais ampla de diferentes contextos linguísticos e características linguísticas que influenciam a percepção de toxicidade.

Além disso, precisa haver um foco em melhorar como os modelos são treinados, especialmente em relação à sua capacidade de lidar com linguagem sutil e sensível ao contexto. Dada a rápida evolução dessas tecnologias, é essencial acompanhar as medidas de segurança pra evitar usos prejudiciais.

Conclusão

O RTP-LX é um passo importante pra enfrentar os desafios da detecção de linguagem tóxica em contextos multilíngues. Embora os S/LLMs testados tenham alcançado níveis razoáveis de precisão, suas dificuldades com conteúdo mais sutil destacam lacunas que ainda precisam ser abordadas. A sensibilidade cultural e a diversidade linguística devem continuar sendo uma prioridade no desenvolvimento e avaliação de futuros modelos.

Nossa pesquisa fornece insights valiosos sobre como os S/LLMs podem detectar melhor conteúdo prejudicial em uma variedade de idiomas e configurações culturais. Ao continuar a refinar nossas abordagens e tecnologias, podemos trabalhar em direção a uma implementação mais segura de modelos de linguagem e, em última análise, reduzir os impactos prejudiciais da linguagem tóxica em espaços online.

Enquanto olhamos pro futuro, é claro que construir sistemas mais confiáveis de compreensão de linguagem será fundamental pra promover uma comunicação online mais saudável e respeitosa.

Fonte original

Título: RTP-LX: Can LLMs Evaluate Toxicity in Multilingual Scenarios?

Resumo: Large language models (LLMs) and small language models (SLMs) are being adopted at remarkable speed, although their safety still remains a serious concern. With the advent of multilingual S/LLMs, the question now becomes a matter of scale: can we expand multilingual safety evaluations of these models with the same velocity at which they are deployed? To this end, we introduce RTP-LX, a human-transcreated and human-annotated corpus of toxic prompts and outputs in 28 languages. RTP-LX follows participatory design practices, and a portion of the corpus is especially designed to detect culturally-specific toxic language. We evaluate 10 S/LLMs on their ability to detect toxic content in a culturally-sensitive, multilingual scenario. We find that, although they typically score acceptably in terms of accuracy, they have low agreement with human judges when scoring holistically the toxicity of a prompt; and have difficulty discerning harm in context-dependent scenarios, particularly with subtle-yet-harmful content (e.g. microaggressions, bias). We release this dataset to contribute to further reduce harmful uses of these models and improve their safe deployment.

Autores: Adrian de Wynter, Ishaan Watts, Nektar Ege Altıntoprak, Tua Wongsangaroonsri, Minghui Zhang, Noura Farra, Lena Baur, Samantha Claudet, Pavel Gajdusek, Can Gören, Qilong Gu, Anna Kaminska, Tomasz Kaminski, Ruby Kuo, Akiko Kyuba, Jongho Lee, Kartik Mathur, Petter Merok, Ivana Milovanović, Nani Paananen, Vesa-Matti Paananen, Anna Pavlenko, Bruno Pereira Vidal, Luciano Strika, Yueh Tsao, Davide Turcato, Oleksandr Vakhno, Judit Velcsov, Anna Vickers, Stéphanie Visser, Herdyan Widarmanto, Andrey Zaikin, Si-Qing Chen

Última atualização: 2024-12-16 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2404.14397

Fonte PDF: https://arxiv.org/pdf/2404.14397

Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes