Dataset pour la détection de subjectivité dans les nouvelles arabes
Un nouveau jeu de données aide à repérer le contenu subjectif dans les articles de news en arabe.
― 10 min lire
Table des matières
La détection de la Subjectivité dans les phrases d'actualité est super importante pour repérer le biais médiatique, améliorer la fiabilité et éviter la désinformation en identifiant le contenu basé sur des opinions. Cette pratique donne un aperçu des sentiments du public et aide les lecteurs à faire des choix éclairés tout en favorisant la pensée critique. Même si des méthodes ont été développées pour cette tâche, la plupart des travaux se sont concentrés sur l'anglais et d'autres langues largement utilisées.
Dans cette étude, on présente un grand jeu de données pour la détection de la subjectivité en arabe, avec 3,6K phrases annotées manuellement, et des explications basées sur GPT-4o. On fournit des instructions en anglais et en arabe pour aider à peaufiner les Modèles linguistiques. Notre analyse discute du jeu de données, de la méthode d'annotation et des résultats de benchmarks détaillés, y compris ceux de différents modèles. Nos résultats montrent que les annotateurs ont été fortement influencés par leurs origines politiques, culturelles et religieuses pendant le processus d'annotation. Les résultats indiquent que les modèles avec apprentissage en contexte affichent de meilleurs résultats. On prévoit de publier ce jeu de données et des ressources pour la communauté élargie.
Détecter la subjectivité dans les phrases d'actualité sert plusieurs buts. Ça aide à identifier le biais médiatique en faisant la différence entre un reportage objectif et un contenu subjectif, améliorant ainsi la fiabilité des sources d'info. Cette différenciation est essentielle pour lutter contre la désinformation en marquant le contenu basé sur des opinions pour vérification. À mesure que la dépendance aux réseaux sociaux grandit, les utilisateurs utilisent souvent un langage informel et des dialectes mélangés. Les lecteurs se tournent généralement vers les médias pour obtenir des infos sur l'actualité. Même si les gens peuvent voir les Nouvelles de sources fiables comme objectives, des études révèlent que les rapports d'actualités peuvent être subjectifs et refléter la position de l'organisation médiatique. Donc, analyser la subjectivité contribue à comprendre le sentiment public et l'impact social des nouvelles. Ça permet aux lecteurs de prendre des décisions éclairées et encourage la pensée critique en mettant l'accent sur les éléments subjectifs dans les articles d'actualité.
Les recherches précédentes se sont principalement concentrées sur le développement de méthodes pour identifier automatiquement le contenu subjectif, souvent en se concentrant sur l'anglais ou d'autres langues bien dotées. Cependant, il y a un intérêt croissant pour des langues complexes comme l'arabe. La recherche dans ce domaine aborde les nuances linguistiques, se concentrant principalement sur l'arabe standard moderne (ASM) et les dialectes régionaux. La variation entre les dialectes arabes à travers les régions crée des défis supplémentaires pour les annotateurs de divers horizons. Donc, on cible le contenu d'actualité arabe, surtout vu la rareté des ressources pour construire des systèmes d'IA dans cette langue.
On présente "Thati", qui signifie "subjectif" en arabe, un grand jeu de données relativement équilibré de phrases d'actualité annotées manuellement. Pendant l'annotation, on a examiné des questions clés : (i) Quelles caractéristiques émergent dans les rapports d'actualité concernant la subjectivité ? (ii) Comment les annotateurs de divers horizons interprètent-ils les rapports d'actualité ? (iii) Les stratégies d'annotation actuelles devraient-elles être affinées pour refléter la complexité de la langue et ses spécificités culturelles ?
On a réalisé des expériences approfondies pour créer des benchmarks en utilisant divers modèles de langage pré-entraînés (PLMs) et modèles de langage large (LLMs) pour établir une base pour la recherche future. Étant donné que les LLMs actuels améliorent continuellement le PNL, atteignant de meilleures performances dans des tâches comme la traduction automatique et l'analyse des sentiments, on a utilisé GPT-4o pour générer des explications pour les classifications de phrases. De plus, on a développé des instructions pour chaque point de données, menant à un jeu de données complet suivant les instructions.
Résumé des contributions
- On a développé un jeu de données avec environ 3,6K phrases d'actualité annotées manuellement, le plus grand de son genre.
- Une analyse détaillée du processus d'annotation abordant nos questions de recherche a été fournie.
- Les résultats de benchmark utilisant divers PLMs et LLMs sont inclus.
- Le jeu de données contient des explications pour les étiquettes fournies, utiles pour développer des modèles basés sur des explications.
- Un jeu de données suivant les instructions a été créé pour aider à construire des modèles capables de suivre des instructions.
Travaux connexes
La recherche en analyse de subjectivité classe généralement les textes comme subjectifs ou objectifs avant de catégoriser les sentiments comme "positifs", "négatifs" ou "mixtes". Cela sert de première étape vers l'analyse des sentiments, se concentrant principalement sur les fragments subjectifs. Les études antérieures utilisaient principalement des approches basées sur des règles pour les textes en anglais. Récemment, des modèles basés sur des transformateurs ont été employés pour aborder ce problème.
Pour l'arabe, des efforts antérieurs ont proposé des systèmes pour l'analyse de subjectivité du contenu des réseaux sociaux et ont développé un corpus incluant des phrases de diverses sources en ligne, annotées comme objectives, subjectives ou neutres. Ces développements de corpus contribuent significativement à l'étude de la subjectivité et de l'analyse des sentiments tant en ASM qu'en arabe dialectal. De plus, des Jeux de données ciblant des dialectes spécifiques, comme le dialecte Najdi saoudien, ont également été créés.
Développer des systèmes d'IA nécessite des jeux de données annotés, mais les Annotations de subjectivité impliquent intrinsèquement des biais façonnés par les perspectives, antécédents et contextes sociaux des annotateurs. Les opinions politiques peuvent influencer la façon dont le texte est interprété et annoté. Cela soulève des lacunes dans la littérature sur la subjectivité, particulièrement dans le contexte diversifié de l'arabe.
Les annotations manuelles présentent des défis, reflétant la nature subjective de la tâche. Les niveaux d'accord parmi les annotateurs révèlent des aperçus sur la subjectivité du contenu et mettent en lumière les difficultés à obtenir des annotations cohérentes. Des niveaux d'accord élevés indiquent un contenu plus clair, tandis que des désaccords dévoilent des zones d'ambiguïté.
Cette étude vise à combler le fossé dans la détection de subjectivité pour l'arabe en fournissant un jeu de données et des résultats de benchmark qui bénéficient à la recherche et au développement de modèles.
Collecte de données
Pour préparer le jeu de données pour l'annotation de subjectivité, nous avons suivi deux phases :
Sélection d'articles d'actualité : On a sélectionné des articles du jeu de données AraFacts, qui contient des affirmations vérifiées par des sites de vérification des faits en arabe. On a collecté 1 159 articles et ajouté 221 articles d'opinion provenant de divers médias arabes. Ce processus de sélection visait à équilibrer la représentation des phrases objectives par rapport aux phrases subjectives.
Sélection de phrases : On a appliqué deux stratégies : une méthode basée sur des règles pour sélectionner des phrases autonomes de longueur appropriée et une stratégie basée sur des modèles utilisant des modèles transformateurs pour évaluer la subjectivité des phrases. On a construit un pool d'annotation de 4 524 phrases.
Annotation des données
Des annotateurs humains ont été employés via Amazon Mechanical Turk pour annoter le jeu de données selon des directives dérivées d'études précédentes. Les annotateurs ont défini les phrases subjectives comme celles exprimant des sentiments ou interprétations personnelles, tandis que les phrases objectives présentaient des données vérifiables. On a réalisé plusieurs études pilotes pour assurer la clarté des directives.
Pour maintenir la qualité de l'annotation, on a préparé des phrases exemples pour les tests de qualification et maintenu une précision spécifiée tout au long du processus d'annotation. On a rassemblé 3 661 phrases avec un accord de 66,6 %, dont 1 579 étaient subjectives et 2 082 objectives.
Analyse de l'annotation
Accord d'annotation : On a calculé l'accord entre annotateurs (IAA), trouvant un niveau d'accord d'environ 0,54. Cela indique un niveau d'accord modéré pour l'annotation de subjectivité.
Analyse approfondie : En annotant, on s'est concentré sur les facteurs influençant la compréhension et la qualité. Les biais politiques et culturels ont joué un rôle significatif, affectant la façon dont les annotateurs jugeaient les phrases. Les désaccords surgissaient souvent à cause de plusieurs interprétations de phrases ou termes.
Conclusion et travaux futurs
Cette étude introduit un jeu de données substantiel pour la détection de subjectivité en arabe et fournit des aperçus sur le processus d'annotation. Elle démontre également l'efficacité de divers modèles dans la tâche de classification.
Les recherches futures devraient impliquer une gamme plus large d'annotateurs pour améliorer les annotations de subjectivité. Ce travail jette les bases pour comprendre la subjectivité dans le paysage médiatique arabe tout en soulevant des considérations importantes pour le domaine du PNL.
Limites
La complexité de l'annotation de subjectivité présente des défis, même avec des directives claires. Certains annotateurs ont eu du mal à passer les tests de qualification, souvent en raison de divers antécédents influençant leurs interprétations.
Éthique et impact plus large
Des articles d'actualité ont été collectés à partir de diverses sources, et bien qu'on ait tenté de minimiser le biais dans les annotations, on encourage les utilisateurs à être conscients des limites du jeu de données. Ce travail pourrait bénéficier aux vérificateurs de faits, journalistes et décideurs tout en encourageant plus de recherches sur la détection de subjectivité en arabe.
Directives d'annotation
Pour faciliter le processus d'annotation, on a affiné les directives précédentes, fournissant des cas d'utilisation et des exemples pour les phrases subjectives et objectives. Les annotateurs sélectionnaient "Oui", "Non" ou "Pas sûr" pour chaque tâche, indiquant la classification de la phrase.
Défis d'annotation
Annoter la subjectivité est complexe à cause des différents horizons des annotateurs, ce qui influençait leurs interprétations. Les écarts dans l'étiquetage ont mis en évidence les défis d'obtenir des résultats cohérents. Malgré ces obstacles, l'étude a produit des aperçus précieux dans la détection de subjectivité, informant les pratiques futures et les directions de recherche.
Titre: ThatiAR: Subjectivity Detection in Arabic News Sentences
Résumé: Detecting subjectivity in news sentences is crucial for identifying media bias, enhancing credibility, and combating misinformation by flagging opinion-based content. It provides insights into public sentiment, empowers readers to make informed decisions, and encourages critical thinking. While research has developed methods and systems for this purpose, most efforts have focused on English and other high-resourced languages. In this study, we present the first large dataset for subjectivity detection in Arabic, consisting of ~3.6K manually annotated sentences, and GPT-4o based explanation. In addition, we included instructions (both in English and Arabic) to facilitate LLM based fine-tuning. We provide an in-depth analysis of the dataset, annotation process, and extensive benchmark results, including PLMs and LLMs. Our analysis of the annotation process highlights that annotators were strongly influenced by their political, cultural, and religious backgrounds, especially at the beginning of the annotation process. The experimental results suggest that LLMs with in-context learning provide better performance. We aim to release the dataset and resources for the community.
Auteurs: Reem Suwaileh, Maram Hasanain, Fatema Hubail, Wajdi Zaghouani, Firoj Alam
Dernière mise à jour: 2024-06-08 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2406.05559
Source PDF: https://arxiv.org/pdf/2406.05559
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.