Enfrentando a Discriminação Regional nas Mídias Sociais do Vietnã
Um novo sistema detecta discriminação regional em comentários online vietnamitas.
An Nghiep Huynh, Thanh Dat Do, Trong Hop Do
― 7 min ler
Índice
A discriminação regional é um problema sério no Vietnã e costuma aparecer nas redes sociais. Embora muita gente inteligente tenha analisado discursos de ódio em vietnamita, pouco se focou na discriminação regional. É como tentar consertar um carro sem olhar o motor. Este trabalho discute um novo sistema que ajuda a detectar quando as pessoas postam comentários Discriminatórios baseados de onde alguém é.
O Contexto
Depois de anos de conflitos e divisões, a discriminação regional tem aumentado no Vietnã. As pessoas costumam julgar os outros com base de onde vêm, o que pode levar à divisão e a sentimentos feridos. É tipo ter dois times de futebol rivais-eles nunca vão se entender.
As redes sociais se tornaram uma espada de dois gumes. Enquanto conectam as pessoas, também proporcionam uma plataforma para espalhar negatividade. Em dezembro de 2023, um programa de notícias popular destacou o impacto da discriminação regional nas redes sociais no Vietnã. Eles enfatizaram como esse comportamento pode prejudicar a unidade nacional.
Por Que Isso É Importante
Vivemos em uma época em que as redes sociais estão em toda parte. Elas podem unir as pessoas ou separá-las. Os comentários negativos não só machucam indivíduos, mas também podem ampliar as divisões nas comunidades. É como tentar fazer um sanduíche sem pão-não rola.
Este estudo tem como objetivo construir um sistema que ajude a identificar e processar esses comentários discriminatórios em tempo real. Assim, podemos coletar dados para melhorar nossa compreensão da situação e talvez até mesmo prevenir isso.
Trabalhos Relacionados
Existem outros estudos por aí, especialmente analisando discursos de ódio em vietnamita. Eles costumam incluir um processamento de dados cuidadoso, como mudar tudo para letras minúsculas e remover links desnecessários. É um pouco como limpar seu quarto bagunçado antes de convidar os amigos. Um bom exemplo aqui é o modelo PhoBERT-CNN, que combina diferentes técnicas para analisar textos.
Essas abordagens nos dão um ponto de partida, mas também mostram lacunas nas aplicações práticas. Em vez de só criar modelos, precisamos encontrar formas de aplicá-los no mundo real, especialmente nas redes sociais.
Coletando Dados
Desenvolvemos nosso próprio conjunto de dados chamado ViRDC, que inclui cerca de 17.000 comentários coletados de redes sociais. O objetivo é estudar como as pessoas expressam discriminação regional online. Esse conjunto de dados é nosso tesouro de insights e vai nos ajudar a entender a linguagem usada nesses contextos.
Os comentários são classificados em três categorias:
- Outros: Comentários que não são realmente significativos.
- Discriminatórios: Comentários que insultam ou menosprezam pessoas baseado de onde vêm.
- Apoio: Comentários que defendem pessoas da discriminação ou mostram respeito por diferentes culturas.
Essa divisão em três partes ajuda a capturar os diferentes tons e mensagens presentes nas interações online.
Pré-processando os Dados
Antes de analisarmos os dados, primeiro temos que arrumar tudo. Isso significa preparar o texto bruto para que fique mais fácil para os modelos processarem. É um pouco como picar legumes antes de colocar na salada.
Aqui está o que fazemos:
- Converter tudo para minúsculas para que "Olá" e "olá" sejam vistos como a mesma coisa.
- Remover links, tags e ícones, porque só fazem barulho.
- Eliminar espaços extras ou caracteres repetidos para manter tudo em ordem.
- Retirar a pontuação, que pode confundir nossos modelos.
- Normalizar a codificação das palavras vietnamitas para garantir consistência.
- Detectar e decifrar gírias ou expressões de adolescentes para garantir que pegamos o significado certo.
- Balancear os três rótulos para garantir que nosso modelo funcione bem em todas as categorias.
Depois de todo esse trabalho, ficamos com um conjunto de dados limpinho, pronto para treinar nossos modelos.
Construindo o Modelo
A próxima parte divertida é construir os modelos que vão ajudar a classificar os comentários. Testamos várias abordagens e aqui estão alguns dos principais:
Random Forest: Esse método constrói várias árvores de decisão e combina os resultados. É como perguntar a um grupo de amigos suas opiniões e ir com a maioria. O Random Forest é ótimo porque consegue lidar com vários tipos de dados e não se confunde fácil.
Regressão Logística Multinomial: Essa técnica olha para muitos resultados possíveis e ajuda a descobrir as chances de cada um. É perfeita para nossos problemas de múltiplas classes.
Naive Bayes Multinomial: Esse modelo assume que as palavras em um comentário agem de forma independente, tornando-se uma escolha sólida para classificação de textos. É como ter um grupo de amigos escolhendo suas coberturas favoritas para uma pizza-cada um tem seu gosto, mas todos contribuem para a pizza final.
Modelos de Aprendizado por Transferência: Esses modelos, como o PhoBERT, usam conhecimento prévio para lidar com novos desafios. Imagine um estudante que aprende matemática em um país e depois se muda para outro-ele não começa do zero. Ele pode aplicar o que já sabe.
Misturando esses modelos, queremos criar um sistema que possa identificar comentários discriminatórios com precisão.
Realizando Experimentos
Depois de construir nossos modelos, tivemos que ver como eles se saíram. Colocamos eles à prova, focando em duas pontuações principais: precisão e F1-macro. Enquanto a precisão nos diz quantos comentários foram rotulados corretamente, a pontuação F1-macro ajuda a entender como o modelo se sai em diferentes categorias.
É como jogar um videogame e checar não só sua pontuação geral, mas também como você se saiu em diferentes níveis.
Resultados e Descobertas
Após os testes, descobrimos que o Random Forest superou os outros modelos. Ele é muito eficaz em encontrar padrões nos comentários, ajudando a diferenciar entre os rótulos "Discriminação" e "Outros". No entanto, às vezes ele tem dificuldades com comentários que não mostram claramente linguagem discriminatória.
Por exemplo, sentenças que podem parecer ruins, mas não têm intenção de discriminar, podem confundir o modelo. Erros de ortografia, frases estranhas ou palavras comuns que aparecem em diferentes contextos também apresentam desafios.
Dados em Tempo Real
Uma das partes mais legais do nosso sistema é que ele pode processar dados em tempo real, graças à tecnologia de streaming. Isso significa que, em vez de esperar por um grande lote de comentários para analisar, podemos examinar cada um à medida que chega. É um pouco como assistir seu programa favorito ao vivo e poder reagir na hora!
Usamos ferramentas como Apache Kafka e Apache Spark Streaming para lidar com esse fluxo de informações. Aqui está como funciona:
Coleta de Dados: Coletamos comentários de plataformas de redes sociais como Facebook e TikTok.
Processamento: Os comentários passam pelo Kafka, onde são organizados e enviados para processamento.
Classificação: O modelo com melhor desempenho analisa cada comentário e o classifica com base em nossos rótulos predefinidos.
Armazenamento: Os resultados são salvos em um formato fácil de visualizar e entender.
Ainda criamos uma interface amigável para mostrar os resultados, cheia de tabelas e gráficos!
Conclusão e Trabalho Futuro
Em resumo, desenvolvemos com sucesso um sistema para detectar comentários discriminatórios regionais nas redes sociais vietnamitas. Ao criar o conjunto de dados ViRDC e experimentar vários modelos de aprendizado de máquina, montamos uma maneira confiável de analisar e processar esses comentários em tempo real.
Mas não vamos parar por aqui. Nossos planos futuros incluem integrar modelos avançados de processamento de linguagem natural para lidar com diferentes tipos de discriminação. Também queremos melhorar nosso processo de etiquetagem e explorar métodos de deep learning para um desempenho melhor.
No final, nosso objetivo é criar um sistema fácil de usar e que funcione bem com as plataformas de redes sociais existentes. Acreditamos que esse esforço vai ajudar a promover compreensão e aceitação entre as diversas regiões do Vietnã-um comentário de cada vez!
Título: A Big Data-empowered System for Real-time Detection of Regional Discriminatory Comments on Vietnamese Social Media
Resumo: Regional discrimination is a persistent social issue in Vietnam. While existing research has explored hate speech in the Vietnamese language, the specific issue of regional discrimination remains under-addressed. Previous studies primarily focused on model development without considering practical system implementation. In this work, we propose a task called Detection of Regional Discriminatory Comments on Vietnamese Social Media, leveraging the power of machine learning and transfer learning models. We have built the ViRDC (Vietnamese Regional Discrimination Comments) dataset, which contains comments from social media platforms, providing a valuable resource for further research and development. Our approach integrates streaming capabilities to process real-time data from social media networks, ensuring the system's scalability and responsiveness. We developed the system on the Apache Spark framework to efficiently handle increasing data inputs during streaming. Our system offers a comprehensive solution for the real-time detection of regional discrimination in Vietnam.
Autores: An Nghiep Huynh, Thanh Dat Do, Trong Hop Do
Última atualização: 2024-10-29 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2411.02587
Fonte PDF: https://arxiv.org/pdf/2411.02587
Licença: https://creativecommons.org/publicdomain/zero/1.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.