Abordando Comentários Tóxicos nas Redes Sociais Bengali
Este estudo investiga comentários tóxicos direcionados a grupos marginalizados em Bengali nas redes sociais.
― 7 min ler
Índice
- O Problema dos Comentários Tóxicos
- Importância do Estudo
- Objetivos da Pesquisa
- Trabalhos Anteriores
- Coleta de Dados
- Coletando Comentários
- Anotação de Dados
- Escolhendo Anotadores
- Diretrizes para Anotação
- Análise de Dados
- Estatísticas do Conjunto de Dados
- Metodologia
- Modelos Pré-treinados
- Treinamento do Modelo
- Resultados Experimentais
- Avaliação de Desempenho
- Conclusão
- Fonte original
- Ligações de referência
As redes sociais têm um grande impacto na forma como a gente se conecta e compartilha ideias hoje em dia. Plataformas como Facebook, Twitter e Instagram nos deixam conversar com pessoas e acompanhar tendências. Mas, ao mesmo tempo, esses espaços também são mal usados por alguns usuários que postam Comentários Tóxicos. Esses comentários podem ser cruéis, machucar ou até ser cheios de ódio. Esse estudo investiga comentários tóxicos em Bengali que atacam grupos específicos: pessoas trans, povos Indígenas e Migrantes.
O Problema dos Comentários Tóxicos
Comentários tóxicos podem prejudicar indivíduos e comunidades. Eles podem incluir insultos, ameaças ou estereótipos prejudiciais. Esse tipo de linguagem pode tornar as redes sociais um lugar hostil para alguns grupos. É necessário identificar e medir comentários tóxicos para entender melhor seu impacto. Analisando de perto os tipos de comentários direcionados a grupos específicos, podemos ver como esses comportamentos os afetam.
Importância do Estudo
Entender a toxicidade nos comentários é crucial para promover um ambiente online mais seguro. Medindo com que frequência e quão severamente certos grupos enfrentam comentários tóxicos, conseguimos encontrar maneiras de ajudar. Se um grupo recebe muitos comentários negativos, vamos saber que eles precisam de mais apoio. Essa pesquisa é especialmente importante porque não houve muito foco em comentários tóxicos na língua bengali antes.
Objetivos da Pesquisa
Essa pesquisa tem como objetivos:
- Criar um conjunto de dados de comentários tóxicos em bengali.
- Identificar comentários tóxicos dirigidos a pessoas trans, povos indígenas e migrantes.
- Medir os níveis de toxicidade (baixo, médio, alto) desses comentários.
- Reconhecer que o que pode parecer inofensivo para uma pessoa pode ser prejudicial para outra.
Trabalhos Anteriores
Alguns pesquisadores já analisaram comentários tóxicos em bengali, mas a maioria dos estudos focou em línguas como o inglês. Por exemplo, algumas pesquisas se concentraram em aprendizado de máquina para encontrar comentários abusivos ou prejudiciais. Foram usados métodos diferentes para classificar esses comentários, e alguns estudos até criaram conjuntos de dados específicos a partir de comentários do Facebook.
Esses estudos mostram que é importante abordar o problema dos comentários tóxicos. Eles ajudam a destacar a necessidade de ferramentas e métodos eficazes para classificar e avaliar a toxicidade, especialmente em bengali e para diferentes grupos de identidade.
Coleta de Dados
Para entender como comentários tóxicos afetam diferentes grupos, coletamos um total de 3100 comentários. Esses comentários se dividem em quatro categorias: comentários trans, comentários indígenas, comentários de migrantes e comentários tóxicos universais. Cada comentário é classificado com base em seu nível de toxicidade - alto, médio ou baixo.
Coletando Comentários
Comentários Trans: Procuramos comentários em posts de influenciadores e vídeos do TikTok. Focamos em encontrar comentários prejudiciais, incluindo aqueles que incitam a violência ou mostram agressão.
Comentários Indígenas: Para esse grupo, coletamos comentários de vloggers de comida e viagem que destacam a cultura indígena. Novamente, buscamos linguagem prejudicial ou respostas agressivas a comentários.
Comentários de Migrantes: Para reunir comentários sobre migrantes, revisamos posts em páginas de notícias no Facebook e vídeos do YouTube. O objetivo era encontrar comentários prejudiciais ou aqueles que desejavam mal aos migrantes.
Comentários Tóxicos Universais: Para essa categoria, coletamos comentários tóxicos que não eram direcionados a um grupo específico, mas ainda assim eram ofensivos. Esses comentários vêm de várias fontes de redes sociais.
Anotação de Dados
Depois de coletar os comentários, precisamos rotulá-los para treinar nossos modelos. Essa rotulagem pode ser feita por humanos ou ferramentas automatizadas. A rotulagem humana pode oferecer melhor precisão, enquanto métodos automatizados aceleram o processo.
Escolhendo Anotadores
É importante ter anotadores diversos para reduzir viés. Selecionamos quatro anotadores com diferentes formações, garantindo que todos fossem fluentes em bengali. As idades deles variavam de 23 a 26 anos e eles tinham experiência em processamento de linguagem natural.
Diretrizes para Anotação
Estabelecemos regras claras para identificar comentários tóxicos. Cada comentário foi avaliado com base em sua linguagem e intenção. Os níveis de toxicidade foram classificados como baixo, médio ou alto. Por exemplo:
- Baixa Toxicidade: Comentários que expressam confusão ou desdenham da situação, mas não são diretamente prejudiciais.
- Média Toxicidade: Comentários que zombam ou criticam, mas não ameaçam violência.
- Alta Toxicidade: Comentários que incluem ameaças, hostilidade clara ou desejos de mal.
Análise de Dados
Uma vez que os comentários foram anotados, analisamos os dados para ver padrões de toxicidade. Essa análise nos ajuda a entender com que frequência grupos específicos enfrentam comentários prejudiciais e a gravidade desses comentários.
Estatísticas do Conjunto de Dados
Dos 3100 comentários totais, 2300 foram rotulados como tóxicos, enquanto 800 foram marcados como comentários tóxicos universais. A classificação desses comentários foi a seguinte:
- 700 comentários visavam pessoas trans.
- 800 comentários visavam povos indígenas.
- 800 comentários visavam migrantes.
Metodologia
Usamos uma abordagem estruturada para estudar os níveis de toxicidade dos comentários. Nossa metodologia incluiu:
- Pré-processamento dos dados para limpá-los e formatá-los corretamente para análise.
- Uso de modelos pré-treinados para classificar os comentários com base em seus níveis de toxicidade.
Modelos Pré-treinados
Usamos vários modelos avançados, incluindo Bangla-BERT, DistilBERT, entre outros. Esses modelos nos ajudam a entender as nuances da língua bengali e a fornecer análises precisas dos comentários.
Treinamento do Modelo
Os modelos foram treinados usando um processo chamado aprendizado de transferência, que ajuda a melhorar sua precisão ajustando suas configurações com base em nosso conjunto de dados. Avaliamos como os modelos se saíram usando métricas como precisão e F1-score.
Resultados Experimentais
Depois de analisar os comentários, descobrimos que o Bangla-BERT teve o melhor desempenho em comparação com outros modelos. Ele conseguiu uma pontuação de precisão impressionante de 0.8903. Os outros modelos tiveram pontuações de precisão mais baixas, mostrando que o Bangla-BERT é particularmente eficaz para o nosso propósito.
Avaliação de Desempenho
Também medimos como os modelos classificaram os comentários em níveis de toxicidade baixa, média e alta. Os resultados foram mistos, mas o Bangla-BERT consistentemente superou os outros. Essa descoberta destaca a necessidade de modelos especificamente projetados para a língua bengali.
Conclusão
Esse estudo enfatiza a importância de abordar comentários tóxicos em espaços online multicultural, especialmente para grupos marginalizados como pessoas trans, povos indígenas e migrantes. Enquanto a pesquisa em outras línguas avançou, nosso foco no bengali adiciona conhecimento necessário a esse campo. Criamos um conjunto de dados que identifica e classifica comentários tóxicos, ajudando a entender questões mais profundas em jogo.
Futuras pesquisas envolverão a ampliação de nosso conjunto de dados e o aprimoramento de nossos métodos. Ao melhorar nossa compreensão dos níveis de toxicidade, podemos desenvolver melhores ferramentas para criar ambientes online mais seguros para todos. Os resultados deste estudo podem ajudar a combater o assédio online e promover gentileza e compreensão nas interações em redes sociais.
Título: Assessing the Level of Toxicity Against Distinct Groups in Bangla Social Media Comments: A Comprehensive Investigation
Resumo: Social media platforms have a vital role in the modern world, serving as conduits for communication, the exchange of ideas, and the establishment of networks. However, the misuse of these platforms through toxic comments, which can range from offensive remarks to hate speech, is a concerning issue. This study focuses on identifying toxic comments in the Bengali language targeting three specific groups: transgender people, indigenous people, and migrant people, from multiple social media sources. The study delves into the intricate process of identifying and categorizing toxic language while considering the varying degrees of toxicity: high, medium, and low. The methodology involves creating a dataset, manual annotation, and employing pre-trained transformer models like Bangla-BERT, bangla-bert-base, distil-BERT, and Bert-base-multilingual-cased for classification. Diverse assessment metrics such as accuracy, recall, precision, and F1-score are employed to evaluate the model's effectiveness. The experimental findings reveal that Bangla-BERT surpasses alternative models, achieving an F1-score of 0.8903. This research exposes the complexity of toxicity in Bangla social media dialogues, revealing its differing impacts on diverse demographic groups.
Autores: Mukaffi Bin Moin, Pronay Debnath, Usafa Akther Rifa, Rijeet Bin Anis
Última atualização: 2024-09-25 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2409.17130
Fonte PDF: https://arxiv.org/pdf/2409.17130
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://www.saha.ac.in/theory/palashbaran.pal/bangtex/bangtex.html
- https://www.linkedin.com/pulse/importance-social-media-todays-world-johan-smith
- https://internetlab.org.br/en/news/drag-queens-and-artificial-intelligence-should-computers-decide-what-is-toxic-on-the-internet/
- https://doi
- https://doi.org/10.1016/j.dib.2022.108416
- https://github.com/sagorbrur/bangla-bert
- https://doi.org/10.1145/3555088
- https://doi.org/10.1177/001316446002000104