Apresentando o LionGuard: Uma Ferramenta de Moderação Localizada para Singapura
O LionGuard melhora a segurança do conteúdo ao focar no contexto linguístico único de Cingapura.
― 5 min ler
Índice
- O Problema com as Ferramentas de Moderação Atuais
- Importância do Contexto Local
- Desenvolvimento do LionGuard
- Singlish: Uma Variante Linguística Única
- O Papel da Rotulagem Automatizada
- Testes e Resultados
- Limitações das Ferramentas de Moderação Atuais
- O Futuro das Ferramentas de Moderação
- Conclusão
- Fonte original
- Ligações de referência
À medida que os modelos de linguagem se tornam mais comuns em várias aplicações, as preocupações sobre a segurança do conteúdo que eles geram estão crescendo. Muitos sistemas de moderação existentes costumam refletir uma visão ocidental, tornando-se menos eficazes em diferentes contextos culturais. Este artigo apresenta uma nova ferramenta de moderação chamada LionGuard, projetada especificamente para contextos de Cingapura. Ela visa fornecer melhores medidas de segurança contra conteúdos prejudiciais gerados por modelos de linguagem.
O Problema com as Ferramentas de Moderação Atuais
As ferramentas de moderação atuais, como as do OpenAI e outras, focam principalmente no inglês e não lidam efetivamente com variações locais na linguagem. Por exemplo, o Singlish, uma variante única do inglês usada em Cingapura, tem suas próprias palavras e frases distintas que podem levar a mal-entendidos ao usar sistemas de moderação convencionais. Essas ferramentas podem perder referências locais importantes e gírias, resultando em uma moderação ineficaz.
Importância do Contexto Local
Usar um contexto local nos sistemas de moderação é vital para identificar com precisão conteúdos prejudiciais. O Singlish incorpora elementos do chinês, malaio e tâmil, tornando-se bem diferente do inglês padrão. As nuances dessa variante linguística significam que frases e termos que podem parecer inofensivos em inglês podem ter significados ofensivos em Singlish.
Desenvolvimento do LionGuard
O LionGuard foi desenvolvido para preencher a lacuna deixada pelas ferramentas de moderação existentes. Esta ferramenta é projetada para reconhecer e responder às nuances do Singlish, fornecendo uma avaliação mais precisa do conteúdo prejudicial. O desenvolvimento envolveu várias etapas chave.
Riscos de Segurança
Etapa 1: DefinindoA primeira etapa foi estabelecer uma taxonomia de riscos de segurança específica para Cingapura. Isso envolveu o estudo de estruturas de moderação existentes e alinhá-las com leis e diretrizes locais. As categorias de segurança incluíam conteúdo odioso, assédio, incentivo ao dano público, autoagressão, conteúdo sexual, comentários tóxicos e observações violentas.
Etapa 2: Coletando Dados
Para treinar o LionGuard, foi coletado um grande conjunto de dados de textos em Singlish. Este conjunto incluía comentários de vários fóruns online, garantindo que representasse uma ampla gama de sentimentos e contextos. Os dados foram então rotulados para riscos de segurança usando modelos de linguagem ajustados, resultando em uma extensa coleção de 138.000 textos em Singlish.
Etapa 3: Treinando o Classificador
O LionGuard emprega um classificador de moderação treinado no conjunto de dados específico. O classificador foi projetado para diferenciar efetivamente entre conteúdo seguro e inseguro. Ele utilizou vários tipos de modelos, selecionando as combinações com melhor desempenho para garantir precisão.
Etapa 4: Validação e Benchmarking
Após o treinamento, o LionGuard foi comparado com ferramentas de moderação existentes para avaliar sua eficácia. Os resultados mostraram que o LionGuard superou outros sistemas de moderação na identificação de conteúdo inseguro em Singlish. Isso confirmou a importância da Localização na moderação de conteúdo.
Singlish: Uma Variante Linguística Única
O Singlish não é apenas uma variante do inglês; é uma linguagem diversificada influenciada por várias línguas presentes em Cingapura. Seu vocabulário e gramática únicos tornam essencial que as ferramentas de moderação compreendam totalmente esse contexto. Palavras como "chionging" e "lao" refletem nuances culturais que podem escapar a modelos não locais.
Rotulagem Automatizada
O Papel daUma parte interessante do desenvolvimento do LionGuard foi o uso de rotulagem automatizada para acelerar o processo. Usando modelos de linguagem avançados, a equipe conseguiu rotular textos de acordo com as categorias de segurança estabelecidas de forma mais eficiente do que os métodos tradicionais de rotulagem humana. Essa abordagem é especialmente benéfica para gerar grandes conjuntos de dados rapidamente, mantendo a precisão.
Testes e Resultados
O LionGuard foi submetido a testes rigorosos contra APIs de moderação existentes e rótulos revisados por humanos. Os resultados demonstraram não apenas maior precisão na detecção de conteúdo prejudicial, mas também tempos de processamento mais rápidos, tornando-o uma solução prática para necessidades de moderação em tempo real.
Limitações das Ferramentas de Moderação Atuais
Apesar dos avanços, as ferramentas de moderação existentes costumam ter dificuldades com gírias e referências culturais que são comuns em diferentes regiões. Por exemplo, termos que podem ser considerados ofensivos em Cingapura podem não ser reconhecidos como tal em contextos ocidentais. Isso destaca a necessidade de soluções mais localizadas.
O Futuro das Ferramentas de Moderação
O desenvolvimento do LionGuard destaca a importância de adaptar ferramentas de moderação às necessidades locais. Embora tenha sido projetado especificamente para Cingapura, os métodos e estruturas estabelecidos podem ser aplicados a outras línguas e regiões com poucos recursos. Essa adaptabilidade promove a criação de ambientes online mais seguros em todo o mundo.
Conclusão
O LionGuard representa um avanço significativo na moderação de conteúdo, enfatizando a necessidade de abordagens localizadas no tratamento de variações linguísticas. À medida que nossa comunicação continua a evoluir, as ferramentas que usamos para garantir a segurança também precisam se desenvolver, refletindo as diversas línguas e culturas que moldam nossas interações.
Ao focar no contexto local e utilizar tecnologias avançadas, podemos criar sistemas de moderação mais eficazes que atendam a comunidades específicas e suas linguagens únicas. Isso não só aumentará a segurança das plataformas online, mas também promoverá um espaço digital mais inclusivo.
Título: LionGuard: Building a Contextualized Moderation Classifier to Tackle Localized Unsafe Content
Resumo: As large language models (LLMs) become increasingly prevalent in a wide variety of applications, concerns about the safety of their outputs have become more significant. Most efforts at safety-tuning or moderation today take on a predominantly Western-centric view of safety, especially for toxic, hateful, or violent speech. In this paper, we describe LionGuard, a Singapore-contextualized moderation classifier that can serve as guardrails against unsafe LLM outputs. When assessed on Singlish data, LionGuard outperforms existing widely-used moderation APIs, which are not finetuned for the Singapore context, by 14% (binary) and up to 51% (multi-label). Our work highlights the benefits of localization for moderation classifiers and presents a practical and scalable approach for low-resource languages.
Autores: Jessica Foo, Shaun Khoo
Última atualização: 2024-07-18 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2407.10995
Fonte PDF: https://arxiv.org/pdf/2407.10995
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://platform.openai.com/docs/guides/moderation/overview
- https://developers.perspectiveapi.com/s/about-the-api-attributes-and-languages?language=en_US
- https://huggingface.co/meta-llama/LlamaGuard-7b
- https://www.imda.gov.sg/-/media/imda/files/regulations-and-licensing/regulations/codes-of-practice/codes-of-practice-media/policiesandcontentguidelinesinternetinternecodeofpractice.pdf
- https://huggingface.co/govtech/lionguard-v1
- https://str.sg/3J4U
- https://www.ricemedia.co/pretty-privilege-bbfa/
- https://forums.hardwarezone.com.sg/forums/eat-drink-man-woman.16/
- https://www.imda.gov.sg/-/media/imda/files/regulations-and-licensing/regulations/codes-of-practice/codes-of-practice-media/code-of-practice-for-online-safety.pdf
- https://huggingface.co/spaces/mteb/leaderboard