Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem

Novo Modelo Combate o Discurso de Ódio Online

Uma nova forma de identificar e explicar discurso de ódio nas redes sociais.

Paloma Piot, Javier Parapar

― 7 min ler


Combatendo o Ódio com IACombatendo o Ódio com IAeficaz.explica discurso de ódio de formaModelo de IA inovador identifica e
Índice

Discurso de ódio virou uma preocupação crescente nas redes sociais e na internet. Isso inclui linguagem que é ofensiva ou que promove hostilidade contra indivíduos ou grupos, com base em raça, religião, gênero ou outros atributos. Com cerca de 30% dos jovens enfrentando cyberbullying e quase metade dos adultos negros passando por assédio racial online, tá claro que identificar e gerenciar discurso de ódio na internet é crucial.

Imagina só você rolando seu feed na sua rede social favorita e vendo um post que te dá irritação. Isso é discurso de ódio em ação! É como uma dor de cabeça chata que não vai embora. Pra resolver isso, os pesquisadores tão trabalhando em ferramentas que conseguem detectar discurso de ódio automaticamente. Essas ferramentas são movidas por aprendizado de máquina, que permite que elas aprendam com grandes quantidades de dados de texto.

O Problema da Caixa Preta

Muitas ferramentas de detecção atuais funcionam como uma "caixa preta." Isso quer dizer que elas conseguem dizer se um post é discurso de ódio ou não, mas não explicam como chegaram a essa conclusão. Essa falta de transparência pode frustrar usuários que querem saber por que certos posts são sinalizados. É tipo um mágico fazendo um truque; você pode ficar impressionado, mas também quer entender como ele fez.

Com a nova lei chamada de Digital Services Act, as plataformas online agora precisam dar razões claras pra qualquer remoção ou restrição de conteúdo. Isso vai além de simplesmente dizer que um post é discurso de ódio. Os usuários querem entender o "porquê" por trás disso. Explicações claras poderiam ajudar a criar confiança entre usuários e plataformas, fazendo com que seja menos provável que os usuários se sintam tratados de maneira injusta.

O Papel dos Grandes Modelos de Linguagem

Avanços recentes em inteligência artificial apresentaram grandes modelos de linguagem (LLMs) que conseguem classificar discurso de ódio de forma mais eficaz. Esses modelos são como super cérebros que mandam bem em entender linguagem. Mas tem um ponto: eles são caros de usar e precisam de muita potência de computação. Rodar esses modelos pode custar uma grana e também afetar o planeta por causa do consumo de eletricidade.

A Ideia da Destilação de Modelos

Pra resolver os problemas com modelos grandes, os pesquisadores tão explorando uma técnica chamada destilação de modelos. É mais ou menos como fazer um smoothie: você pega algo grande e complexo (como uma salada de frutas) e mistura até ficar em uma forma menor e mais fácil de lidar. Nesse caso, um grande e poderoso modelo de linguagem pode ser destilado em um modelo menor que mantém a maioria das habilidades do modelo original, mas que é mais rápido e barato de usar.

Pegando o Melhor dos Dois Mundos

Imagina ter um robô pequeno que ainda consegue dar um soco forte! Esse modelo menor pode não só classificar posts como discurso de ódio ou não, mas também dar explicações pros seus julgamentos. O objetivo é criar um modelo que funcione bem o suficiente pra ser útil no mundo real sem precisar de um computador super moderno pra rodá-lo.

O Processo de Destilação

O processo de destilação começa com o grande modelo gerando rótulos para textos junto com explicações claras. Isso é feito usando uma técnica chamada Chain-of-Thought prompting. É como dar ao modelo um guia com exemplos pra ele aprender a tomar decisões informadas sobre discurso de ódio.

Uma vez que o grande modelo criou um monte de rótulos e explicações, essas informações são usadas pra treinar um modelo menor. O objetivo é fazer esse modelo menor ser inteligente o suficiente pra classificar discurso de ódio e explicar seu raciocínio, assim como o grande modelo faz.

Aplicações na Vida Real

Imagina esse modelo destilado sendo usado em plataformas de redes sociais. Um post é sinalizado pra revisão, e o modelo não só diz pros moderadores que é discurso de ódio, mas também explica por que acha isso. Isso poderia ajudar os usuários a entender as decisões da plataforma e possivelmente reduzir conflitos em relação ao conteúdo sinalizado.

Enquanto pode ser engraçado pensar em um chatbot com um senso de humor sarcástico explicando por que um post é odioso, o verdadeiro objetivo é tornar o ambiente online mais seguro e solidário.

A Montanha-Russa dos Resultados

Em testes, descobriu-se que o modelo destilado teve um desempenho surpreendentemente bom. Ele alcançou um alto nível de precisão na classificação de discurso de ódio e forneceu explicações sólidas pros seus julgamentos. Os resultados mostraram que destilar o modelo maior em um menor não diminuiu a performance; na verdade, melhorou! Parece que menor pode realmente ser melhor.

Justo e Claro

Ter um modelo que consegue explicar seu raciocínio não só ajuda os usuários a entender as decisões que tão sendo tomadas, mas também promove justiça na Moderação de Conteúdo. Se os usuários conseguem ver a lógica por trás das remoções de conteúdo, eles são menos propensos a se sentir injustamente alvo. Esse nível de transparência é vital pra manter uma atmosfera online positiva.

O Fator Humano

Pra garantir que as explicações geradas pelo modelo eram realmente úteis, os pesquisadores fizeram avaliações com humanos. Isso envolveu trazer pessoas reais pra olhar as saídas do modelo e ver se elas faziam sentido. Afinal, você não quer um modelo dizendo que um post perfeitamente inocente é discurso de ódio - isso é só problema!

Analisando o Feedback

Durante a avaliação, foi encontrado que as explicações do modelo destilado eram bem abrangentes. A maioria dos revisores concordou que o modelo deu explicações corretas e completas pras suas classificações. Isso é como ter um grupo de amigos que concorda que um filme é bom ou ruim; quando você consegue um consenso, geralmente é um sinal de que você tá indo na direção certa.

O Modelo Ecológico

Um dos aspectos mais legais desse trabalho é que o modelo destilado não é só mais barato, mas também mais ecológico. O consumo de energia de operar o modelo grande versus o pequeno é bem diferente. Em um mundo cada vez mais consciente do seu impacto de carbono, um modelo menor que serve ao mesmo propósito se torna um verdadeiro divisor de águas.

Um Futuro Cheio de Possibilidades

Os pesquisadores por trás desse modelo tão empolgados com seu potencial. Eles tão buscando desenvolver e aprimorar ainda mais a tecnologia, como destilar diferentes modelos e aplicar isso em várias línguas e culturas. Isso poderia significar que no futuro, diferentes países poderiam ter seus próprios modelos adaptados às suas narrativas e contextos específicos de discurso de ódio!

Conclusão

Em resumo, lidar com discurso de ódio nas redes sociais é uma questão urgente que requer soluções inovadoras. O desenvolvimento de modelos menores e eficientes que conseguem classificar discurso de ódio e fornecer explicações abre muitas avenidas empolgantes pra melhorar as interações online. É como combinar o cérebro de um gênio com o coração de um amigo cuidadoso. Com a pesquisa e desenvolvimento em andamento, podemos esperar ver soluções mais eficazes e justas pra gerenciar discurso de ódio online.

Quem diria que combater discurso de ódio poderia ser tão high-tech? É um caso clássico de usar a ciência pra deixar o mundo um pouquinho melhor, um post de cada vez.

Fonte original

Título: Towards Efficient and Explainable Hate Speech Detection via Model Distillation

Resumo: Automatic detection of hate and abusive language is essential to combat its online spread. Moreover, recognising and explaining hate speech serves to educate people about its negative effects. However, most current detection models operate as black boxes, lacking interpretability and explainability. In this context, Large Language Models (LLMs) have proven effective for hate speech detection and to promote interpretability. Nevertheless, they are computationally costly to run. In this work, we propose distilling big language models by using Chain-of-Thought to extract explanations that support the hate speech classification task. Having small language models for these tasks will contribute to their use in operational settings. In this paper, we demonstrate that distilled models deliver explanations of the same quality as larger models while surpassing them in classification performance. This dual capability, classifying and explaining, advances hate speech detection making it more affordable, understandable and actionable.

Autores: Paloma Piot, Javier Parapar

Última atualização: Dec 18, 2024

Idioma: English

Fonte URL: https://arxiv.org/abs/2412.13698

Fonte PDF: https://arxiv.org/pdf/2412.13698

Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes