Traiter la désinformation dans les mèmes arabes
Un ensemble de données pour identifier la propagande dans les mèmes arabes pour une meilleure culture médiatique.
― 6 min lire
Table des matières
- Le Rôle des Réseaux Sociaux
- C'est Quoi des Memes ?
- L'Importance de Détecter le Contenu Trompeur
- Notre Ensemble de Données
- Processus de Collecte de Données
- Phase d'Annotation
- Résultats et Conclusions
- Performance des Différents Modèles
- Conclusion
- Travaux Futurs
- Considérations Éthiques
- Source originale
- Liens de référence
Avec la montée de la communication en ligne, les memes sont devenus un moyen populaire pour les gens de partager des idées culturelles et politiques. Cependant, beaucoup de ces memes peuvent induire les gens en erreur. C'est super important pour différents groupes, comme les entreprises de réseaux sociaux et les décideurs, de reconnaître ces memes trompeurs, car ils peuvent nuire aux individus et à la société dans son ensemble. Même s'il y a eu des efforts pour créer des outils qui trouvent du Contenu trompeur dans des langues fortes comme l'anglais, il y a eu peu de travail pour les langues avec moins de ressources, comme l'arabe.
Dans cette étude, nous avons créé un ensemble de données de memes arabes qui montre du contenu trompeur. Cet effort est un premier pas significatif vers la compréhension et le traitement de la Propagande dans les memes arabes.
Le Rôle des Réseaux Sociaux
Les réseaux sociaux ont changé la façon dont les gens partagent l'information. Alors que beaucoup de publications peuvent aider au journalisme citoyen et sensibiliser, beaucoup de contenu partagé vise à tromper les utilisateurs pour diverses raisons, y compris la manipulation sociale ou politique. Le fait que n'importe qui puisse partager du contenu a aussi conduit à une augmentation de comportements négatifs en ligne, comme la désinformation, le discours de haine et le harcèlement.
Une raison majeure pour laquelle les gens tombent dans le piège de l'information trompeuse est le manque d'alphabétisation médiatique, qui est la capacité d'accéder, d'analyser et de créer différents types de médias. Ce manque peut amener les gens à partager rapidement des informations fausses, surtout sur des plateformes comme Instagram et Twitter.
C'est Quoi des Memes ?
Le contenu en ligne combine généralement texte, images et vidéos. Les memes, en particulier, ont gagné en popularité car ils peuvent rapidement faire passer des idées ou de l'humour. En général, un meme se compose d'une image et d'un texte. Bien que les memes soient souvent créés pour faire rire, ils peuvent aussi transmettre des messages persuasifs qui peuvent induire le public en erreur. Donc, les chercheurs essaient de trouver des moyens de détecter automatiquement les memes nuisibles ou trompeurs.
L'Importance de Détecter le Contenu Trompeur
Le contenu trompeur, surtout la propagande, peut influencer lourdement l'opinion publique. Ça peut entraver la prise de décision éclairée, c'est pourquoi la recherche s'est concentrée sur différents types de contenu, y compris les memes, pour définir des méthodes d'identification et de traitement de ces problèmes. Les études précédentes se sont largement concentrées sur l'anglais, et pas assez d'attention a été portée aux memes arabes.
Notre Ensemble de Données
Pour combler cette lacune, nous avons collecté et annoté environ 6 000 memes arabes. Nous avons catégorisé ces memes en quatre groupes pour identifier le contenu propagandiste. Cet ensemble de données est le premier du genre pour les memes arabes et aidera à faire avancer la recherche dans ce domaine. Les catégories sont conçues pour aider les futurs chercheurs à comprendre comment identifier un contenu similaire.
Processus de Collecte de Données
Notre collecte de données a impliqué plusieurs étapes. D'abord, nous avons manuellement sélectionné des groupes publics sur des plateformes comme Facebook et Instagram, en nous concentrant sur des publications concernant des personnalités publiques et la politique. Comme certaines plateformes ne permettent pas la collecte automatique d'images, nous avons créé une méthode semi-automatique pour rassembler des memes. Nous avons aussi collecté des tweets avec des mots-clés spécifiques qui incluaient des images.
Après avoir collecté les memes, nous avons filtré les doublons et vérifié que tous les memes contenaient du texte lisible en utilisant un outil OCR. Nous avons ensuite employé un classificateur pour déterminer quels memes étaient appropriés pour notre ensemble de données.
Phase d'Annotation
Le processus d'annotation a été divisé en deux phases. Dans la première phase, nous avons catégorisé les memes comme non memes, autre, pas de propagande ou propagande. Dans la deuxième phase, nous avons édité le texte pour corriger les erreurs résultant du processus OCR. Nous avons fourni des directives d'annotation pour aider les annotateurs à prendre des décisions cohérentes.
Résultats et Conclusions
Nous avons mené diverses expériences pour évaluer différents modèles et techniques pour identifier la propagande dans les memes. Nos résultats montrent que les modèles ajustés fonctionnent beaucoup mieux que les modèles de langue plus grands en ce qui concerne la détection de contenu trompeur.
Performance des Différents Modèles
Nous avons testé plusieurs modèles sur plusieurs modalités-texte, images et formats combinés. Parmi les modèles basés sur le texte, le modèle Qarib ajusté a obtenu la meilleure performance. Pour les modèles basés sur les images, ResNet50 a été le meilleur. En examinant les modèles combinés, le modèle qui utilisait à la fois des fonctionnalités de texte et d'image a bien fonctionné.
Conclusion
Cette étude introduit un ensemble de données unique pour les memes arabes, soulignant l'importance d'examiner la propagande sous cette forme de communication. Nos résultats suggèrent que des modèles dédiés peuvent identifier efficacement le contenu trompeur. Nous visons à élargir cet ensemble de données à l'avenir pour inclure des catégories plus nuancées de contenu nuisible.
Travaux Futurs
La recherche future se concentrera sur l'élargissement de l'ensemble de données avec des annotations plus détaillées, y compris celles liées au discours de haine et aux autres formes de propagande. De plus, nous reconnaissons la nécessité de résoudre le déséquilibre des classes dans notre ensemble de données pour améliorer la performance des modèles.
Considérations Éthiques
Bien que notre ensemble de données contienne uniquement des memes, nous n'avons pas collecté d'informations personnelles sur les utilisateurs, donc aucun risque pour la vie privée. Cependant, nous reconnaissons que la nature subjective des annotations peut introduire des biais. Nous encourageons les utilisateurs de cet ensemble de données à reconnaître et à tenir compte de ces limitations potentielles dans leurs recherches.
En créant cette ressource, nous espérons soutenir les efforts visant à lutter contre la propagande et la désinformation au sein des communautés arabophones et contribuer au développement d'outils pour comprendre l'alphabétisation médiatique.
Titre: ArMeme: Propagandistic Content in Arabic Memes
Résumé: With the rise of digital communication, memes have become a significant medium for cultural and political expression that is often used to mislead audiences. Identification of such misleading and persuasive multimodal content has become more important among various stakeholders, including social media platforms, policymakers, and the broader society as they often cause harm to individuals, organizations, and/or society. While there has been effort to develop AI-based automatic systems for resource-rich languages (e.g., English), it is relatively little to none for medium to low resource languages. In this study, we focused on developing an Arabic memes dataset with manual annotations of propagandistic content. We annotated ~6K Arabic memes collected from various social media platforms, which is a first resource for Arabic multimodal research. We provide a comprehensive analysis aiming to develop computational tools for their detection. We will make them publicly available for the community.
Auteurs: Firoj Alam, Abul Hasnat, Fatema Ahmed, Md Arid Hasan, Maram Hasanain
Dernière mise à jour: 2024-10-06 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2406.03916
Source PDF: https://arxiv.org/pdf/2406.03916
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.