Aborder la subjectivité dans le reportage d'actualités
Une étude sur la détection de déclarations subjectives dans les articles de presse en utilisant des techniques avancées.
― 7 min lire
Table des matières
- Introduction
- Le Problème de la Subjectivité dans les Articles de Presse
- Notre Approche de Génération de Données
- Création d'une Liste de Contrôle de Subjectivité
- Conception de Prompts pour la Génération de Textes
- Techniques de Génération de Données et d'Équilibrage
- Entraînement de Modèles Spécifiques à la Langue
- Évaluation de Nos Méthodes
- Comparaison de Différents Modèles GPT-3
- Évaluation Qualitative des Textes Générés
- Conclusion
- Source originale
- Liens de référence
Ce document est protégé par des droits d'auteur, et son utilisation est autorisée sous la licence Creative Commons Attribution 4.0 International.
Introduction
Dans le monde du journalisme, il est super important de savoir quand un texte exprime des opinions personnelles plutôt que des infos factuelles. C'est crucial parce que des nouvelles biaisées peuvent influencer l'opinion publique, même si certaines parties d'un article se basent sur des faits. La capacité de déterminer automatiquement si un texte est subjectif ou objectif pourrait vraiment aider les éditeurs et ceux qui vérifient les faits.
Le Problème de la Subjectivité dans les Articles de Presse
Les articles de presse mélangent souvent faits et opinions. Ce mélange peut créer de la confusion chez les lecteurs, car des déclarations subjectives peuvent déformer la vérité. Notre but est de classer les phrases des articles de presse comme subjectives, c'est-à-dire qu'elles reflètent des points de vue personnels, ou objectives, c'est-à-dire qu'elles présentent des informations factuelles sans biais personnel.
Un des principaux défis est le déséquilibre des classes dans le jeu de données. Il y a souvent beaucoup plus de phrases objectives que subjectives. Ce déséquilibre peut faire en sorte que les Modèles aient du mal à identifier les phrases subjectives. De plus, l'idée de subjectivité peut varier selon les cultures et les contextes. Ainsi, une simple reformulation des phrases peut ne pas capturer l'aspect journalistique de la subjectivité.
Notre Approche de Génération de Données
Pour aborder ces problèmes, on a créé de nouvelles données d'entraînement en utilisant une méthode avec des modèles GPT-3. Notre travail est basé sur une liste de contrôle tirée des standards journalistiques pour s'assurer que les textes générés reflètent divers styles Subjectifs. Cela nous permet de créer des matériaux d'entraînement qui représentent mieux le sujet.
On a fait des expériences en trois langues : anglais, turc et allemand. Nos résultats montrent que l'utilisation de différents styles subjectifs améliore la performance des modèles conçus pour détecter la subjectivité. Ça met en lumière l'importance des expressions subjectives variées dans chaque langue.
Une autre découverte clé est que l'utilisation de l'oversampling basé sur le style, ce qui signifie créer plus d'échantillons à partir de styles subjectifs, fonctionne mieux que la reformulation normale, surtout en turc et en anglais. Cependant, on a noté que GPT-3 a parfois du mal à produire des textes de qualité dans des langues autres que l'anglais.
Création d'une Liste de Contrôle de Subjectivité
Pour générer efficacement des textes qui reflètent une perspective journalistique, on a développé une liste de contrôle. On a consulté des éditeurs pour comprendre comment ils évaluent la subjectivité dans les articles. Après avoir rassemblé ces infos, on les a croisées avec la littérature existante sur le journalisme et la linguistique. Le résultat est une liste de contrôle complète qui comprend des styles distincts représentant divers angles subjectifs.
Conception de Prompts pour la Génération de Textes
Notre prochaine étape a été de créer des prompts en anglais, turc et allemand pour donner des instructions aux modèles GPT-3 sur comment générer des textes basés sur les styles identifiés. On a d'abord conçu un modèle en anglais, mais il n'a pas bien fonctionné dans d'autres langues. Du coup, on a adapté les modèles pour chaque langue séparément.
Les deux premiers auteurs de notre travail, étant des locuteurs natifs turcs et allemands, ont discuté des prompts anglais et se sont assurés que les traductions capturent le sens voulu. Cette approche a permis de garder la cohérence entre les langues tout en offrant de la flexibilité pour les différences de style.
Techniques de Génération de Données et d'Équilibrage
Pour générer notre jeu de données, on a d'abord mesuré l'écart entre le nombre de phrases subjectives et objectives. Ensuite, on a sélectionné des échantillons au hasard pour créer un jeu de données équilibré. En se concentrant sur les différences dans le nombre d'échantillons, on a veillé à ce que nos modèles aient suffisamment de données pour apprendre.
On a utilisé des techniques de sous-échantillonnage et de sur-échantillonnage pour gérer le déséquilibre des classes. Le sous-échantillonnage consiste à retirer des échantillons Objectifs jusqu'à ce qu'ils correspondent au nombre d'échantillons subjectifs, tandis que le sur-échantillonnage consiste à ajouter des échantillons générés au jeu de données original pour équilibrer les classes.
Entraînement de Modèles Spécifiques à la Langue
Pour notre tâche de détection de subjectivité, on s’est appuyé sur des modèles spécifiques à chaque langue : Roberta-base pour l'anglais, German Bert pour l'allemand, et BERTurk pour le turc. Ces modèles se sont avérés efficaces pour des tâches dans leurs langues respectives. On a limité la longueur de l'entrée pour garantir un traitement efficace et on a effectué l'entraînement sur plusieurs époques pour peaufiner les modèles.
Évaluation de Nos Méthodes
Après avoir entraîné les modèles, on a évalué dans quelle mesure les nouveaux échantillons générés avec GPT-3 amélioraient la précision des modèles. On a comparé la performance de nos modèles à trois bases de référence : ceux entraînés uniquement sur des Jeux de données originaux, ceux entraînés avec une reformulation normale, et ceux utilisant des textes objectifs reformulés.
Nos résultats ont montré que l'oversampling basé sur le style améliorait significativement la performance des modèles pour l'anglais et le turc. Cependant, ça n'a pas eu les mêmes bénéfices pour les transformateurs allemands. Parmi les différents styles, on a trouvé que certains styles comme partisan et exagéré fonctionnaient bien pour le turc, tandis que les styles de propagande et exagéré avaient un effet positif sur les modèles anglais.
Comparaison de Différents Modèles GPT-3
On voulait aussi explorer comment différents modèles GPT-3 performent dans la génération d'échantillons d'entraînement. Pour cela, on a comparé text-davinci-003 avec gpt-3.5-turbo (ChatGPT). Même s'il n'y avait pas de différences significatives de performance dans l'ensemble, certaines améliorations ont été notées dans certains styles subjectifs en utilisant le modèle ChatGPT.
Évaluation Qualitative des Textes Générés
En plus des évaluations quantitatives, on a fait une évaluation qualitative des textes générés. On a regardé la naturalité, la justesse et la pertinence des textes produits par les deux modèles. On a découvert que les échantillons en anglais contenaient souvent des phrases exagérées et utilisaient parfois un langage offensant. Pour les échantillons turcs, on a remarqué que les références à la première personne étaient communes, rendant les textes moins formels. Les échantillons allemands contenaient parfois un langage qui n'était pas adapté au contexte.
Conclusion
En résumé, notre étude a utilisé un échantillonnage basé sur le style avec des modèles GPT-3, en se concentrant sur les styles journalistiques pour s'attaquer à la rareté des données dans la détection de subjectivité. Nos expériences ont mis en avant que cette approche est plus efficace que la reformulation standard. Différents styles apportaient des bénéfices variés selon la langue, reflétant des distinctions culturelles et des biais potentiels dans les données.
Notre travail est spécifique à chaque langue et limité par la disponibilité de données de haute qualité pour les langues moins courantes. Les recherches futures devraient s'intéresser à trouver de meilleurs modèles pour ces langues et à améliorer la formulation des prompts pour obtenir des résultats plus précis. De plus, la sélection des échantillons joue un rôle clé dans l'obtention d'un transfert de style efficace, ce que nous prévoyons d'explorer davantage dans les prochaines études.
Titre: DWReCO at CheckThat! 2023: Enhancing Subjectivity Detection through Style-based Data Sampling
Résumé: This paper describes our submission for the subjectivity detection task at the CheckThat! Lab. To tackle class imbalances in the task, we have generated additional training materials with GPT-3 models using prompts of different styles from a subjectivity checklist based on journalistic perspective. We used the extended training set to fine-tune language-specific transformer models. Our experiments in English, German and Turkish demonstrate that different subjective styles are effective across all languages. In addition, we observe that the style-based oversampling is better than paraphrasing in Turkish and English. Lastly, the GPT-3 models sometimes produce lacklustre results when generating style-based texts in non-English languages.
Auteurs: Ipek Baris Schlicht, Lynn Khellaf, Defne Altiok
Dernière mise à jour: 2023-07-07 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2307.03550
Source PDF: https://arxiv.org/pdf/2307.03550
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.