Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem

Combatendo o sexismo online com métodos de detecção inovadores

A pesquisa foca em melhorar sistemas pra identificar e classificar sexismo online de forma eficaz.

― 5 min ler


Combatendo o SexismoCombatendo o SexismoOnlinesexismo online.A pesquisa avança modelos para detectar
Índice

Sexismo e misoginia são problemas sérios que têm crescido nas redes sociais. Esse aumento não só torna os espaços online hostis, mas também promove estereótipos negativos, prejudicando indivíduos e comunidades. Para combater esses comportamentos nocivos, os pesquisadores estão trabalhando na Detecção e Classificação do sexismo online. Um concurso recente se concentrou em melhorar esses sistemas de detecção para torná-los mais fáceis de entender. O objetivo é identificar claramente o conteúdo sexista e classificá-lo em categorias específicas.

Contexto

O aumento do sexismo online trouxe desafios significativos para monitorar e lidar com esse comportamento. Várias pesquisas focaram na detecção do sexismo, mas muitos sistemas existentes são difíceis de interpretar. A tarefa recente visa aprimorar a clareza desses modelos de detecção. Os participantes dessa tarefa precisavam criar sistemas que sinalizassem mensagens sexistas e as classificassem em diferentes tipos com base na gravidade ou especificidades.

Abordagem de Pesquisa

Diante dos desafios em coletar dados precisos, os pesquisadores geralmente buscam maneiras de usar dados existentes para treinar seus modelos de forma eficaz. Estudos anteriores mostraram que treinar modelos com dados de categorias relevantes pode levar a um desempenho melhor na identificação de tipos específicos de conteúdo. Nossa abordagem foi influenciada por essas descobertas.

Utilizamos vários conjuntos de dados relevantes para a detecção de Discurso de ódio e sexismo, que incluíam vários tipos de sistemas de rotulagem-alguns rotulando mensagens como discurso de ódio e outros focando em diferentes classificações de sexismo. Nosso objetivo era identificar as melhores técnicas para preparar os dados, treinar os modelos e melhorar o desempenho usando duas estratégias principais: Treinamento adicional e aprendizado de múltiplas tarefas ao mesmo tempo.

Coleta e Preparação de Dados

A detecção de sexismo foi baseada em um grande conjunto de dados contendo mensagens de plataformas de redes sociais como Reddit e Gab. Esse conjunto de dados foi usado para treinar e avaliar nossos modelos. Os dados foram divididos em duas partes: uma para treinamento e outra para teste. Também usamos vários outros conjuntos de dados que focavam em discurso de ódio e sexismo.

Antes do treinamento, precisávamos limpar e organizar os dados. Esse processo envolveu remover nomes de usuário e URLs das mensagens para garantir que informações pessoais não fossem usadas na nossa análise. Além disso, padronizamos hashtags e convertamos emojis em palavras para facilitar o processamento de texto.

Treinamento Adicional

Na nossa pesquisa, testamos diferentes métodos de treinamento para ver qual era o mais eficaz. Especificamente, examinamos dois métodos:

  1. Pré-treinamento Adaptativo ao Domínio (DAPT): Esse método usou dados relacionados ao tema do sexismo para treinar o modelo ainda mais.

  2. Pré-treinamento Adaptativo à Tarefa (TAPT): Esse método focou exclusivamente em dados relevantes para as tarefas específicas em questão.

Testamos esses métodos para descobrir qual deles poderia melhorar a capacidade do modelo de detectar sexismo nos textos.

Aprendizado de Múltiplas Tarefas

Outra parte importante da nossa pesquisa envolveu a utilização do aprendizado de múltiplas tarefas (MTL). Essa abordagem permite que um modelo aprenda com várias tarefas ao mesmo tempo, em vez de se concentrar em apenas uma. Ao treinar em diferentes tipos de tarefas relacionadas, esperávamos enriquecer a compreensão do modelo sobre o conteúdo e melhorar seu desempenho geral.

No MTL, usamos um modelo compartilhado que processava tarefas juntas, mas mantinha partes distintas para cada tarefa. Assim, o modelo poderia combinar conhecimento de várias áreas enquanto resolvia diferentes problemas. Examinamos quão útil era treinar nossos modelos dessa forma, focando particularmente nas tarefas relacionadas à detecção de sexismo e discurso de ódio.

Resultados dos Experimentos

Ao longo dos nossos testes, descobrimos que o treinamento adicional usando dados específicos do domínio geralmente melhorava o desempenho. Constatamos que o aprendizado de múltiplas tarefas foi particularmente benéfico para certas tarefas, especialmente quando estas envolviam detecção de discurso de ódio geral. Para tarefas focadas em formas específicas de sexismo, métodos de treinamento padrão se mostraram mais eficazes.

Conclusão

O estudo revelou insights promissores sobre os processos de detecção de sexismo online. Ao usar estratégias de treinamento adicional e aprendizado de múltiplas tarefas, conseguimos aprimorar o desempenho dos nossos modelos. Diferentes tarefas se beneficiaram de diferentes técnicas de treinamento, destacando a importância de escolher a abordagem certa com base nos objetivos específicos da pesquisa.

Avançando, é claro que criar modelos que possam detectar e classificar efetivamente o sexismo nos espaços online é crucial. À medida que os ambientes online continuam a crescer, nossos esforços para torná-los mais seguros e respeitosos para todos os usuários também devem crescer.

Fonte original

Título: LCT-1 at SemEval-2023 Task 10: Pre-training and Multi-task Learning for Sexism Detection and Classification

Resumo: Misogyny and sexism are growing problems in social media. Advances have been made in online sexism detection but the systems are often uninterpretable. SemEval-2023 Task 10 on Explainable Detection of Online Sexism aims at increasing explainability of the sexism detection, and our team participated in all the proposed subtasks. Our system is based on further domain-adaptive pre-training (Gururangan et al., 2020). Building on the Transformer-based models with the domain adaptation, we compare fine-tuning with multi-task learning and show that each subtask requires a different system configuration. In our experiments, multi-task learning performs on par with standard fine-tuning for sexism detection and noticeably better for coarse-grained sexism classification, while fine-tuning is preferable for fine-grained classification.

Autores: Konstantin Chernyshev, Ekaterina Garanina, Duygu Bayram, Qiankun Zheng, Lukas Edman

Última atualização: 2023-06-08 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2306.05075

Fonte PDF: https://arxiv.org/pdf/2306.05075

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes