Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage# Intelligence artificielle# Ordinateurs et société

Le Rôle des Sources dans le Journalisme

Une étude sur comment les sources influencent les articles de presse.

― 7 min lire


Sources en journalismeSources en journalismeinfluencent les articles de news.Analyser comment les sources
Table des matières

Les articles de presse s'appuient sur des Sources pour fournir des infos précises. Comprendre quand, comment et pourquoi les journalistes utilisent ces sources peut nous donner des aperçus sur les nouvelles que l'on lit. Cette compréhension peut aussi aider les journalistes à mieux faire leur boulot.

Pour soutenir ça, on a créé un gros jeu de données qui inclut plein d'exemples de sources utilisées dans des articles de news. Ce dataset nous permet de construire des modèles qui peuvent détecter d'où vient l'info et qui l'a fournie. On a aussi introduit une nouvelle tâche, appelée prédiction de source, pour étudier comment les sources interagissent dans les histoires d'actualité. Nos résultats montrent qu'on peut bien faire cette tâche, ce qui pourrait améliorer la manière dont les articles sont écrits et comment les journalistes choisissent leurs sources.

Le journalisme façonne nos opinions, et les infos qu'on consomme reposent sur les sources utilisées par les reporters. Identifier ces sources est important dans plusieurs domaines, comme détecter la désinformation et comprendre les arguments dans le discours médiatique. Relier l'info à des sources peut être délicat, car certaines attributions sont claires, tandis que d'autres sont plus subtiles. Par le passé, la plupart des efforts se concentraient sur des cas simples, comme identifier des citations, ce qui donnait une grande précision mais laissait de côté beaucoup d'autres instances.

Les sources peuvent se combiner de différentes manières dans un même article. Certaines sources sont évidentes, tandis que d'autres peuvent être sous-entendues ou peu claires. Notre question principale est : cet article a-t-il besoin d'une autre source ?

Attribution des sources

Dans notre travail, on définit "source" de manière large pour inclure plein de façons dont les journalistes collectent des infos. On a identifié 16 catégories de sourcing et créé le plus gros dataset d'attribution de sources avec plus de 28 000 attributions dans plus de 1 300 articles. En entraînant des modèles sur ces données, on a atteint une bonne précision pour lier les infos à leurs sources.

On a testé différentes méthodes et découvert que les approches lexicales traditionnelles et d'autres modèles avaient souvent du mal à bien performer dans cette tâche. Beaucoup de phrases contiennent des infos sourcées qui ne reposent pas sur des mots-clés clairs, rendant l'attribution compliquée.

Dans la première partie de notre recherche, on se concentre sur comment attribuer des sources. On établit des critères pour définir ce qui rend une phrase attribuable à une source, sur la base de signaux explicites ou implicites. Les sources peuvent inclure des individus ou des organisations et peuvent être mentionnées directement ou sous des termes plus généraux.

On vise à maximiser le nombre d'attributions tout en s'assurant que la même source est bien identifiée dans plusieurs phrases. Cette approche nous permet de considérer divers canaux d'information. Notre processus de création de dataset a impliqué le recrutement d'annotateurs, y compris un journaliste professionnel et un étudiant, qui ont collaboré pour étiqueter les articles. Leur collaboration a mené à un taux élevé d'accord dans l'identification des sources.

Modèles d'attribution des sources

On a divisé la tâche d'attribution des sources en deux étapes : Détection et Récupération. La détection consiste à déterminer si une phrase peut être liée à une source, tandis que la récupération se concentre sur l'identification de quelle source il s'agit. Utiliser des modèles différents pour chaque étape s'est avéré plus efficace que de combiner les deux tâches en une seule.

Les méthodes de base qu'on a testées ont montré des résultats variés. Certaines méthodes s'appuyaient sur la recherche de motifs de co-occurrence entre les sources et les verbes de parole, tandis que d'autres utilisaient des règles plus complexes et une analyse syntaxique. On a aussi exploré des approches qui utilisent des datasets existants pour établir des liens entre sources et citations.

Pour la détection, on a utilisé un classificateur binaire de phrases ainsi qu'une approche d'embedding à l'échelle du document. Pour la récupération, on a mis en œuvre des méthodes qui impliquent de prédire des tokens associés aux sources, de détecter des plages dans les phrases, et de générer des réponses ouvertes pour identifier les sources.

Après avoir évalué les modèles, on a trouvé que la meilleure approche se basait sur une combinaison de modèles de langage avancés et de nos méthodes de détection de sources, atteignant un taux de précision élevé.

Insights de l'analyse des sources

Avec un pipeline d'attribution fonctionnel, on s'est concentré sur l'apprentissage de l'utilisation des sources dans les articles de news. On a analysé des milliers de documents non étiquetés pour évaluer dans quelle mesure les articles attribuent leurs infos à des sources et quand ces sources sont généralement utilisées.

Nos résultats indiquent que les articles attribuent généralement environ la moitié de leurs phrases à des sources, et ça reste cohérent peu importe la longueur du document. Cependant, l'utilisation des sources n'est pas uniforme : certaines sources dominent, tandis que d'autres contribuent moins.

On a aussi regardé comment les sources sont ajoutées au fil du temps dans les articles. Au début, les premières versions contiennent souvent moins de sources, mais au fur et à mesure que les articles sont mis à jour, d'autres sources ont tendance à être ajoutées de manière cohérente. Ce schéma suggère que comprendre quelles sources sont ajoutées peut informer de futures recommandations pour les journalistes.

Compositionalité des sources

Une question intéressante à explorer est comment certaines sources sont choisies pour apparaître ensemble dans un article. On a conçu deux approches pour aborder cette question : ablation et NewsEdits.

Dans la tâche d'ablation, on a retiré systématiquement des sources des articles et évalué comment cela affectait le contenu restant. Le but était de comprendre si la composition des sources était équilibrée ou si certaines sources étaient essentielles à l'info de l'article.

La tâche NewsEdits se concentrait sur des articles qui avaient subi des modifications. En examinant les paires de versions d'articles, on pouvait voir combien de nouvelles sources étaient ajoutées au fil du temps et les relations entre elles.

Nos résultats ont montré qu'on pouvait prédire avec précision quand des sources majeures étaient retirées des articles, indiquant que l'utilisation des sources suit un certain schéma. Les sources majeures jouaient un rôle crucial, tandis que les sources mineures étaient moins prévisibles.

Conclusion

En résumé, notre travail fournit une vue d'ensemble complète des habitudes de sourcing dans le journalisme. On a développé un vaste dataset qui capture une variété de types de sources et créé des modèles qui peuvent identifier et attribuer des infos efficacement.

On pense que nos résultats peuvent aider les journalistes à améliorer leur reporting en offrant de meilleurs outils pour évaluer quand et pourquoi les sources sont utilisées dans les articles de news. À l'avenir, on espère construire un système de recommandation qui aide les reporters à sourcer des infos.

À travers cette recherche, on vise à poser une fondation pour d'autres études sur la dynamique de l'utilisation des sources dans l'écriture d'actualité, ouvrant la voie à des améliorations de la qualité et de la fiabilité des news que nous consommons.

Source originale

Titre: Identifying Informational Sources in News Articles

Résumé: News articles are driven by the informational sources journalists use in reporting. Modeling when, how and why sources get used together in stories can help us better understand the information we consume and even help journalists with the task of producing it. In this work, we take steps toward this goal by constructing the largest and widest-ranging annotated dataset, to date, of informational sources used in news writing. We show that our dataset can be used to train high-performing models for information detection and source attribution. We further introduce a novel task, source prediction, to study the compositionality of sources in news articles. We show good performance on this task, which we argue is an important proof for narrative science exploring the internal structure of news articles and aiding in planning-based language generation, and an important step towards a source-recommendation system to aid journalists.

Auteurs: Alexander Spangher, Nanyun Peng, Jonathan May, Emilio Ferrara

Dernière mise à jour: 2023-05-24 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2305.14904

Source PDF: https://arxiv.org/pdf/2305.14904

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires