Detecção de Discurso de Ódio em Línguas de Baixos Recursos
Essa pesquisa mostra os desafios e os avanços em detectar discurso de ódio em várias línguas.
Susmita Das, Arpita Dutta, Kingshuk Roy, Abir Mondal, Arnab Mukhopadhyay
― 7 min ler
Índice
- O que é Discurso de Ódio?
- Categorias de Discurso de Ódio
- Racismo e Xenofobia
- Sexismo e Ódio de Gênero
- Discurso de Ódio Religioso
- Ableísmo
- Por que o Discurso de Ódio é Difícil de Detectar?
- A Necessidade de Detecção Automática de Discurso de Ódio
- Os Conjuntos de dados
- Técnicas Usadas na Detecção de Discurso de Ódio
- Métodos Tradicionais
- Técnicas Modernas
- Desafios em Línguas de Baixo Recurso
- Oportunidades de Pesquisa
- Conclusão
- Fonte original
- Ligações de referência
As redes sociais mudaram a forma como a gente se comunica nos últimos dez anos. A galera pode trocar ideias, opiniões e, às vezes, comentários nada legais. O anonimato nessas plataformas muitas vezes gera Discurso de ódio, que se tornou um grande problema no mundo todo. Não é só sobre o que as pessoas falam, mas também sobre como falam. Com as línguas evoluindo, novas palavras e expressões surgem. Isso cria um desafio para quem tá tentando entender e lidar com o discurso de ódio.
Enquanto o inglês recebeu bastante atenção quando o assunto é detecção de discurso de ódio, muita gente usa suas línguas nativas online. Isso gerou uma necessidade de pesquisa focada nessas línguas de baixo recurso, onde não tem dados ou pesquisas suficientes. Essa pesquisa vai destrinchar a situação e apresentar achados sobre a detecção de discurso de ódio nessas línguas.
O que é Discurso de Ódio?
Definir discurso de ódio não é fácil. É como tentar pegar um peixe escorregadio. Diferentes grupos têm opiniões diferentes sobre o que conta como discurso de ódio. De forma geral, discurso de ódio inclui palavras ou ações que atacam indivíduos ou grupos com base em raça, religião, gênero ou outros fatores de identidade. Por exemplo, se alguém usa termos pejorativos para ofender uma raça ou religião específica, isso se encaixa como discurso de ódio.
Várias plataformas de redes sociais têm suas definições. Por exemplo:
- Meta: Define discurso de ódio como ataques diretos contra pessoas com base em características protegidas como raça e gênero.
- YouTube: Acha que discurso de ódio é qualquer coisa que incite violência contra certos grupos.
- Twitter: Proíbe ataques com base em raça, gênero e outras características pessoais.
- TikTok: Foca em conteúdo que desumaniza indivíduos com base em suas características.
- LinkedIn: Proíbe discurso de ódio que mira em pessoas com base em características pessoais.
Categorias de Discurso de Ódio
O discurso de ódio pode ser classificado em várias categorias, dependendo de quem ou o que ele ataca. Aqui estão algumas principais:
Racismo e Xenofobia
Essa categoria inclui comentários negativos sobre pessoas com base em sua raça ou nacionalidade. Por exemplo, imigrantes frequentemente enfrentam hostilidade por onde vêm.
Sexismo e Ódio de Gênero
Isso envolve comentários tendenciosos em relação a indivíduos com base em seu gênero. Enquanto mulheres frequentemente são as mais atingidas por esses comentários, pessoas de vários gêneros também sofrem com discurso de ódio.
Discurso de Ódio Religioso
Esse tipo ataca indivíduos com base em suas crenças religiosas. A discriminação pode levar à violência, conflitos ou agitação social.
Ableísmo
Aqui, o discurso de ódio é direcionado a indivíduos com deficiência. Isso pode incluir comentários pejorativos ou suposições sobre suas habilidades.
Por que o Discurso de Ódio é Difícil de Detectar?
Detectar discurso de ódio é complicado por várias razões. Primeiro, a linguagem pode ser complexa e o contexto importa. O que pode parecer um comentário inofensivo em um contexto pode ser ofensivo em outro. A galera muitas vezes usa sarcasmo ou trocadilhos que podem confundir os sistemas automatizados.
Segundo, as redes sociais geram uma quantidade enorme de dados diariamente, tornando quase impossível monitorar tudo manualmente. Por isso, há uma grande necessidade de máquinas ajudarem nessa tarefa de detectar discurso de ódio automaticamente.
A Necessidade de Detecção Automática de Discurso de Ódio
À medida que mais pessoas usam as redes sociais para se expressar, a quantidade de discurso de ódio cresceu junto. O monitoramento manual simplesmente não é viável. Muitos pesquisadores recorreram a métodos automáticos de detecção usando tecnologia para combater esse problema.
Os sistemas automatizados utilizam técnicas avançadas em processamento de linguagem natural, aprendizado de máquina e aprendizado profundo. Eles analisam enormes quantidades de texto para identificar conteúdo odioso. No entanto, a maioria dessa pesquisa se concentrou no inglês, deixando uma lacuna nos estudos relacionados a outras línguas.
Conjuntos de dados
OsColetar dados sobre discurso de ódio é uma parte chave para treinar sistemas de detecção. A maioria dos conjuntos de dados disponíveis está em inglês. Vários conjuntos de dados do Twitter e outras plataformas oferecem recursos valiosos, mas a coleta para línguas de baixo recurso continua sendo um desafio.
Pesquisadores começaram a compilar conjuntos de dados em línguas como árabe, hindi, tamil e outras, focando em aspectos monolíngues e multilíngues. No entanto, a quantidade e a qualidade ainda não estão no mesmo nível dos conjuntos de dados em inglês.
Técnicas Usadas na Detecção de Discurso de Ódio
Os principais métodos para detectar discurso de ódio envolvem uma mistura de abordagens tradicionais e modernas:
Métodos Tradicionais
No início, a detecção baseada em palavras-chave era comum. Isso envolvia identificar certas palavras ou frases associadas ao discurso de ódio. Embora útil, não considerava o contexto e as nuances, levando a muitos falsos positivos.
Técnicas Modernas
As abordagens mais recentes mudaram para o uso de modelos de aprendizado profundo que consideram contexto, sentimento e até imagens. Por exemplo:
- BERT: Esse modelo entende a relação entre palavras e seus significados em contexto.
- CNN: Redes Neurais Convolucionais são frequentemente usadas para identificar padrões no texto.
- RNN: Redes Neurais Recorrentes são projetadas para entender sequências, tornando-as úteis para o processamento de linguagem.
Desafios em Línguas de Baixo Recurso
Para línguas de baixo recurso, os desafios se multiplicam:
- Falta de Dados: Simplesmente não há dados suficientes disponíveis publicamente para treinar modelos eficazmente, levando a uma detecção menos precisa.
- Nuances Culturais: Diferentes regiões usam as línguas de forma diferente, o que cria dificuldade em desenvolver um modelo que sirva pra tudo.
- Definição de Discurso de Ódio: O termo "discurso de ódio" tem significados diferentes entre culturas, complicando a anotação de conjuntos de dados.
Oportunidades de Pesquisa
Embora os desafios sejam muitos, também há várias oportunidades para melhorar a detecção de discurso de ódio:
- Aprimorar a Coleta de Dados: Focar em coletar mais dados de línguas de baixo recurso pode ajudar.
- Consciência Cultural: Criar modelos que considerem o contexto cultural tornará os sistemas de detecção mais eficazes.
- Colaboração Interdisciplinar: Incentivar o trabalho em equipe entre sociólogos, linguistas e cientistas de dados pode levar a uma melhor compreensão e soluções.
Conclusão
A detecção de discurso de ódio, especialmente em línguas de baixo recurso, apresenta uma série de desafios e oportunidades. À medida que as redes sociais continuam sendo uma plataforma de comunicação, a importância de identificar e lidar automaticamente com o discurso de ódio se torna crucial para manter um ambiente online seguro. Embora muito ainda precise ser feito, avanços em tecnologia e na compreensão das nuances da linguagem podem abrir caminho para um futuro mais inclusivo. Vamos deixar as máquinas nos ajudarem a preencher as lacunas e enfrentar esse problema juntos!
Título: A Survey on Automatic Online Hate Speech Detection in Low-Resource Languages
Resumo: The expanding influence of social media platforms over the past decade has impacted the way people communicate. The level of obscurity provided by social media and easy accessibility of the internet has facilitated the spread of hate speech. The terms and expressions related to hate speech gets updated with changing times which poses an obstacle to policy-makers and researchers in case of hate speech identification. With growing number of individuals using their native languages to communicate with each other, hate speech in these low-resource languages are also growing. Although, there is awareness about the English-related approaches, much attention have not been provided to these low-resource languages due to lack of datasets and online available data. This article provides a detailed survey of hate speech detection in low-resource languages around the world with details of available datasets, features utilized and techniques used. This survey further discusses the prevailing surveys, overlapping concepts related to hate speech, research challenges and opportunities.
Autores: Susmita Das, Arpita Dutta, Kingshuk Roy, Abir Mondal, Arnab Mukhopadhyay
Última atualização: 2024-11-28 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2411.19017
Fonte PDF: https://arxiv.org/pdf/2411.19017
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://creativecommons.org/licenses/by-sa/4.0/
- https://transparency.meta.com/en-gb/policies/community-standards/hate-speech/
- https://www.youtube.com/intl/ALL
- https://help.twitter.com/en/rules-and-policies/x-rules
- https://www.tiktok.com/safety/en/countering-hate/
- https://www.linkedin.com/help/linkedin/answer/a1339812
- https://github.com/ZeerakW/hatespeech
- https://github.com/t-davidson/hate-s
- https://github.com/jing-qian/A-Bench
- https://github.com/ziqizhang/data
- https://github.com/intelligence-csd-auth-gr/Ethos-Hate-Speech-Dataset
- https://github.com/punyajoy/HateXplain
- https://zpitenis.com/ogtd
- https://github.com/paulafortuna/Port
- https://github.com/msang/hate-speech-corpus
- https://goo.gl/27EVbU
- https://github.com/nuhaalbadi/Arabic
- https://github.com/UCSM-DUE/
- https://github.com/
- https://github.com/ialfina/id-hatespeech-detection
- https://huggingface.co/datasets/sinhala-nlp/SOLD
- https://github.com/pmathur5k10/Hinglish-Offensive-Text-Classification
- https://github.com/rezacsedu/Bengali-Hate-Speech-Dataset
- https://github.com/l3cube-pune/MarathiNLP
- https://coltekin.github.io/offensive-turkish/
- https://github.com/verimsu/
- https://github.com/mawic/german-abusive-language-covid-19
- https://github.com/clips/hades
- https://github.com/adlnlp/K-MHaS
- https://github.com/deepanshu1995/HateSpeech-HindiEnglish-Code-Mixed-Social-Media-Text
- https://github.com/naurosromim/hate-speech-dataset-for-Bengali-social-media
- https://github.com/msang/hateval/
- https://projects.cai
- https://sites.google.com/site/offensevalsharedtask/home
- https://github.com/marcoguerini/CONAN
- https://hasocfire.github.io/hasoc/2019/dataset.html
- https://hasocfire.github.io/hasoc/2021/dataset.html
- https://gombru.github.io/2019/10/09/MMHS/
- https://hatefulmemeschallenge.com/
- https://github.com/Farhan-jafri/Russia-Ukraine
- https://github.com/eftekhar-hossain/MUTE-AACL22