Lutter contre la discrimination régionale sur les réseaux sociaux au Vietnam
Un nouveau système détecte la discrimination régionale dans les commentaires en ligne vietnamiens.
An Nghiep Huynh, Thanh Dat Do, Trong Hop Do
― 8 min lire
Table des matières
La discrimination régionale est un gros problème au Vietnam, et ça se voit souvent sur les réseaux sociaux. Même si beaucoup de gens intelligents ont étudié les discours de haine en vietnamien, ils n'ont pas beaucoup fait attention à la discrimination régionale. C'est un peu comme essayer de réparer une voiture sans vérifier le moteur. Cet article parle d'un nouveau système qui aide à détecter quand les gens postent des commentaires Discriminatoires basés sur leur origine.
Le tableau général
Après des années de conflits et de divisions, la discrimination régionale a augmenté au Vietnam. Les gens jugent souvent les autres en fonction de leur provenance, ce qui peut mener à des divisions et des blessures. C'est comme avoir deux équipes de foot rivales qui n'arrivent pas à s'entendre.
Les réseaux sociaux sont devenus une arme à double tranchant. D'un côté, ils rapprochent les gens, mais de l'autre, ils donnent aussi une plateforme pour répandre la négativité. En décembre 2023, un programme de news populaire a mis en avant l'impact de la discrimination régionale sur les réseaux sociaux au Vietnam. Ils ont souligné à quel point ce comportement pouvait nuire à l'unité nationale.
Pourquoi c'est important
On vit à une époque où les réseaux sociaux sont omniprésents. Ils peuvent unir les gens ou les séparer. Les commentaires négatifs ne blessent pas seulement les individus, ils peuvent aussi creuser les divisions au sein des communautés. C'est comme essayer de faire un sandwich sans pain, ça ne marche pas.
Cette étude vise à créer un système qui aide à identifier et traiter ces commentaires discriminatoires en temps réel. En faisant ça, on peut rassembler des données pour mieux comprendre la situation et peut-être même la prévenir.
Travaux connexes
Il y a d'autres études qui existent, surtout sur les discours de haine en vietnamien. Elles incluent souvent un traitement de données soigné comme mettre tout en minuscules et enlever les liens inutiles. C'est un peu comme ranger ta chambre en bazar avant d'inviter des amis. Un bon exemple ici est le modèle PhoBERT-CNN qui combine différentes techniques pour analyser le texte.
Ces approches nous donnent un bon point de départ mais mettent aussi en lumière des lacunes dans les applications pratiques. Au lieu de juste créer des modèles, on doit trouver des moyens de les appliquer dans le monde réel, surtout sur les réseaux sociaux.
Collecte de données
On a développé notre propre dataset appelé ViRDC, qui inclut environ 17 000 commentaires collectés sur les réseaux sociaux. Le but est d'étudier comment les gens expriment la discrimination régionale en ligne. Ce dataset est notre coffre aux trésors d'insights et nous aidera à comprendre le langage utilisé dans ces contextes.
Les commentaires sont triés en trois catégories :
- Autre : Commentaires qui ne sont pas vraiment significatifs.
- Discriminatoires : Commentaires qui insultent directement les gens selon leur origine.
- Soutiens : Commentaires qui défendent des personnes contre la discrimination ou montrent du respect pour différentes cultures.
Cette division en trois aides à capter les différents tons et messages présents dans les interactions en ligne.
Prétraitement des données
Avant de pouvoir analyser les données, on doit d'abord les nettoyer. Cela signifie préparer le texte brut pour qu'il soit plus facile à digérer pour les modèles. C'est un peu comme couper des légumes avant de les mettre dans une salade.
Voici ce qu'on fait :
- Mettre tout en minuscules pour que "Bonjour" et "bonjour" soient considérés comme identiques.
- Enlever les liens, tags et icônes parce que ça rajoute du bruit.
- Éliminer les espaces supplémentaires ou les caractères répétés pour garder tout propre.
- Enlever la ponctuation, qui peut souvent embrouiller nos modèles.
- Normaliser l'encodage des mots vietnamiens pour assurer la cohérence.
- Détecter et décoder les phrases d'ado ou le langage familier pour s'assurer qu'on capte le bon sens.
- Équilibrer les trois étiquettes pour s'assurer que notre modèle performe bien dans toutes les catégories.
Après tout ce boulot, on se retrouve avec un dataset propre prêt pour entraîner nos modèles.
Construction du modèle
Ensuite vient la partie fun : construire les modèles qui aideront à classifier les commentaires. On a essayé plusieurs approches, et voilà quelques-uns des principaux acteurs :
Random Forest : Cette méthode construit plein d'arbres de décision et combine leurs résultats. C'est comme demander l'avis d'un groupe d'amis et faire ce que la majorité dit. Random Forest est super efficace parce qu'il peut gérer différents types de données et ne se laisse pas facilement embrouiller.
Régression logistique multinomiale : Cette technique regarde plein de résultats possibles et nous aide à déterminer les chances de chacun. C'est parfait pour nos problèmes à plusieurs classes.
Naive Bayes multinomial : Ce modèle suppose que les mots dans un commentaire agissent indépendamment, ce qui en fait un bon choix pour la classification de texte. C'est comme si un groupe d'amis choisissait leurs garnitures préférées pour une pizza-chacun a son goût, mais tous contribuent à la pizza finale.
Modèles de transfert d'apprentissage : Ces modèles, comme PhoBERT, utilisent les connaissances précédentes pour relever de nouveaux défis. Imagine un élève qui apprend les maths dans un pays, et qui ensuite déménage ailleurs-il ne commence pas à zéro. Il peut appliquer ce qu'il sait déjà.
En mélangeant ces modèles, on vise à créer un système capable de repérer avec précision les commentaires discriminatoires.
Réalisation des expériences
Une fois nos modèles construits, il fallait voir comment ils fonctionnaient. On les a mis à l'épreuve et on s'est concentrés sur deux scores principaux : la précision et le F1-macro. Alors que la précision nous dit combien de commentaires ont été correctement étiquetés, le score F1-macro nous aide à comprendre comment le modèle performe à travers les différentes catégories.
C'est un peu comme jouer à un jeu vidéo et vérifier non seulement ton score global mais aussi comment tu as réussi dans les différents niveaux.
Résultats et découvertes
Après les tests, on a trouvé que Random Forest était meilleur que les autres modèles. Il est très efficace pour trouver des motifs dans les commentaires, ce qui l'aide à différencier les étiquettes "Discrimination" et "Autre". Cependant, il a parfois du mal avec des commentaires qui ne montrent pas clairement de langage discriminatoire.
Par exemple, des phrases qui peuvent avoir l'air mauvaises mais qui ne sont pas censées être discriminatoires peuvent embrouiller le modèle. Les fautes d'orthographe, les tournures maladroites ou des mots courants apparaissant dans des contextes différents posent aussi des problèmes.
Données en streaming
Une des fonctionnalités les plus cool de notre système, c’est qu’il peut traiter des données en temps réel, grâce à la technologie de streaming. Ça veut dire qu'au lieu d'attendre un gros lot de commentaires à analyser, on peut examiner chaque commentaire dès qu'il arrive. C'est un peu comme regarder ta série préférée en direct et pouvoir réagir immédiatement !
On utilise des outils comme Apache Kafka et Apache Spark Streaming pour gérer ce flux d'infos. Voilà comment ça fonctionne :
Collecte de données : On recueille des commentaires sur des plateformes sociales comme Facebook et TikTok.
Traitement : Les commentaires passent par Kafka, où ils sont triés et envoyés pour traitement.
Classification : Le modèle le plus performant analyse chaque commentaire et le classe selon nos étiquettes prédéfinies.
Stockage : Les résultats sont enregistrés dans un format facile à visualiser et à comprendre.
On a même créé une interface conviviale pour montrer les résultats, avec des tableaux et des graphiques !
Conclusion et travaux futurs
En résumé, on a réussi à développer un système pour détecter les commentaires discriminatoires régionaux sur les réseaux sociaux vietnamiens. En créant le dataset ViRDC et en expérimentant différents modèles d'apprentissage automatique, on a mis en place un moyen fiable pour analyser et traiter ces commentaires en temps réel.
Mais on ne compte pas s'arrêter là. Nos plans futurs incluent l'intégration de modèles avancés de traitement du langage naturel pour s'attaquer à différentes formes de discrimination. On veut aussi améliorer notre processus de taggage et explorer des méthodes de deep learning pour de meilleures performances.
Finalement, on espère créer un système qui soit facile à utiliser et fonctionne bien avec les plateformes sociales existantes. On pense que cet effort aidera à promouvoir la compréhension et l'acceptation entre les diverses régions du Vietnam-un commentaire à la fois !
Titre: A Big Data-empowered System for Real-time Detection of Regional Discriminatory Comments on Vietnamese Social Media
Résumé: Regional discrimination is a persistent social issue in Vietnam. While existing research has explored hate speech in the Vietnamese language, the specific issue of regional discrimination remains under-addressed. Previous studies primarily focused on model development without considering practical system implementation. In this work, we propose a task called Detection of Regional Discriminatory Comments on Vietnamese Social Media, leveraging the power of machine learning and transfer learning models. We have built the ViRDC (Vietnamese Regional Discrimination Comments) dataset, which contains comments from social media platforms, providing a valuable resource for further research and development. Our approach integrates streaming capabilities to process real-time data from social media networks, ensuring the system's scalability and responsiveness. We developed the system on the Apache Spark framework to efficiently handle increasing data inputs during streaming. Our system offers a comprehensive solution for the real-time detection of regional discrimination in Vietnam.
Auteurs: An Nghiep Huynh, Thanh Dat Do, Trong Hop Do
Dernière mise à jour: 2024-10-29 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2411.02587
Source PDF: https://arxiv.org/pdf/2411.02587
Licence: https://creativecommons.org/publicdomain/zero/1.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.