Simple Science

La science de pointe expliquée simplement

# Informatique# Bibliothèques numériques# Calcul et langage

Graph de connaissances en littérature mondiale : Une nouvelle ressource

Une ressource qui connecte des auteurs et des œuvres du monde entier, en mettant l'accent sur les voix sous-représentées.

― 10 min lire


Nouvelle ressource pourNouvelle ressource pourla littérature mondialevariés grâce aux données.Connecter des auteurs et des lecteurs
Table des matières

Les médias numériques ont changé la façon dont on accède à l'info sur la littérature. Les auteurs, lecteurs et chercheurs peuvent maintenant trouver et partager plein de données sur les livres et leurs écrivains. Mais souvent, ces infos manquent de lien et ne représentent pas bien les écrivains des pays non occidentaux. Ce travail présente le World Literature Knowledge Graph (WL-KG), une ressource qui rassemble des détails sur les écrivains et leurs œuvres du monde entier. Son but est de fournir des faits utiles sur ces auteurs et leur littérature, surtout ceux qui ne reçoivent pas assez d'attention.

Le WL-KG inclut des infos sur la façon dont différents lecteurs perçoivent les œuvres littéraires. Ces données proviennent de diverses communautés de lecture et sont organisées dans un format cohérent. Les utilisateurs peuvent accéder à cette ressource via une plateforme en ligne, permettant une exploration claire et interactive de la connaissance littéraire.

L'impact des médias numériques a entraîné des changements dans la manière dont les gens lisent et étudient la littérature. Les plateformes numériques servent de fenêtres sur différentes cultures et offrent des points de vue uniques sur la façon dont les communautés interagissent avec les œuvres littéraires. Bien que ces outils offrent de nouvelles opportunités de recherche, ils rencontrent aussi des défis. La quantité d'infos disponible est souvent disjointe, et beaucoup d'écrivains et de leurs œuvres ne sont pas bien représentés. De plus, des ressources comme Wikipédia et Wikidata ont tendance à négliger les auteurs d'origine non occidentale.

Le World Literature Knowledge Graph répond à ces problèmes en créant une base de connaissances complète. Il compile des données sur les écrivains et leurs œuvres provenant de trois sources principales : Wikidata, Open Library et Goodreads. Cette collection est construite sur un cadre partagé qui met en avant les origines ethniques des auteurs et reflète les réponses des lecteurs à leurs œuvres.

Le WL-KG sert deux buts principaux : (i) analyser à quel point les écrivains non occidentaux sont sous-représentés ; et (ii) examiner comment différentes communautés de lecteurs réagissent à diverses œuvres. Ces objectifs peuvent soutenir le développement d'outils pour recommander des livres et découvrir du contenu littéraire, au bénéfice des utilisateurs dans des environnements multiculturels comme les enseignants et les chercheurs.

Cette ressource est hébergée sur une plateforme de visualisation, permettant aux utilisateurs d'explorer visuellement les infos. Tant la plateforme que le WL-KG ont été testés par divers experts du domaine qui les ont trouvés utiles pour leur travail. Les retours qu'ils ont fournis ont montré que cette ressource pouvait améliorer leur performance et mener à des résultats positifs.

Contexte et travaux connexes

La littérature mondiale est une approche moderne de l'étude de la littérature qui se concentre sur la façon dont les œuvres se connectent au-delà des frontières. Cette perspective encourage les gens à regarder au-delà des limites nationales et historiques et à analyser comment la littérature est reçue dans le monde. Récemment, les réseaux sociaux ont fourni une quantité d'infos sans précédent sur les écrivains et leurs œuvres, ouvrant la voie à de nouvelles méthodes de recherche.

Les principales caractéristiques de cette théorie qui ont été utilisées pour développer le WL-KG sont l'accent mis sur la réception par les lecteurs et la perspective non occidentale. Cette ressource permet aux utilisateurs d'apprendre sur les auteurs et leurs œuvres à l'échelle mondiale tout en analysant les questions de représentation dans des communautés de lecteurs spécifiques.

Il existe de nombreuses ressources numériques qui fournissent des infos sur la littérature. Par exemple, Wikidata est une base de connaissances générale, tandis que Goodreads et Open Library se concentrent spécifiquement sur les livres. Le WL-KG se démarque parce que c'est la première ressource à étudier l'intersection de la production littéraire et des origines ethniques des auteurs. Bien que certaines recherches examinent la littérature à travers le prisme de Wikipédia, le WL-KG vise à fournir une plateforme qui promeut les humanités numériques et les études littéraires tout en abordant les lacunes de connaissance sur les auteurs.

Technologies sémantiques pour les études littéraires

De nombreuses plateformes en ligne offrent des informations littéraires, chacune servant des objectifs différents. Certaines bases de données sont gérées par des experts, tandis que d'autres s'appuient sur du contenu généré par les utilisateurs. Par exemple, la European Literary Text Collection se concentre sur des romans de 1848 à 1920, et DraCor rassemble des pièces de théâtre dans plusieurs langues.

Le WL-KG est unique car il étudie spécifiquement la relation entre la littérature et les origines ethniques des écrivains. Les archives existantes omettent souvent cet aspect, ce qui peut conduire à une représentation inégale. Tandis que des plateformes comme Wikidata sont connectées à des données ouvertes liées, Open Library offre des interfaces de programmation d'application (API), et Goodreads a moins d'options pour l'intégration des données.

Le modèle sémantique du WL-KG relie l'information littéraire de différentes sources de manière cohérente, permettant aux utilisateurs d'analyser les œuvres littéraires à travers un prisme ethnique et culturel.

Le modèle sémantique

Le modèle sémantique utilisé dans le WL-KG aide à représenter la sous-représentation ethnique et à comprendre l'histoire de publication des œuvres littéraires. Le réseau d'ontologie sous-représentée est essentiel pour ce modèle et se compose de deux parties : l'ontologie des écrivains sous-représentés et l'ontologie des livres sous-représentés.

Ce modèle se connecte à des ontologies établies pour en améliorer l'efficacité. Par exemple, le modèle FRBR clarifie les relations entre une œuvre, ses expressions et leurs formes physiques. L'ontologie PROV suit comment les infos sont collectées et qui est impliqué dans des éditions spécifiques, tandis que le modèle DOLCE fournit un cadre pour représenter les événements de vie significatifs des écrivains.

Pour évaluer la sous-représentation, le WL-KG repose sur deux critères basés sur les études post-coloniales. Un auteur peut être considéré comme sous-représenté s'il est né dans une ancienne colonie non occidentale ou appartient à une minorité ethnique dans un pays occidental. Cependant, se baser uniquement sur le lieu de naissance peut mener à des inexactitudes, puisque beaucoup d'auteurs célèbres sont nés dans d'anciennes colonies. Donc, le terme "transnational" est utilisé pour élargir la définition et inclure ceux qui ont travaillé au-delà des frontières de leur pays.

Processus de collecte de données

La création du WL-KG a commencé par la collecte d'infos de Wikidata sur des entités identifiées comme écrivains. Les données incluaient leur origine ethnique, leur sexe, les œuvres qu'ils ont produites, ainsi que leur lieu de naissance et de décès.

Pour enrichir cette base de connaissances, le projet s'est concentré sur des identifiants externes pour connecter les écrivains à Open Library et Goodreads. Un programme informatique a été utilisé pour faire correspondre les noms des écrivains et leurs années de naissance sur différentes plateformes. Cette approche a également impliqué de récupérer des données de Goodreads pour rassembler des infos supplémentaires.

Après cette première cartographie, une évaluation de la qualité a été effectuée pour s'assurer que les liens entre les écrivains et leurs œuvres étaient précis. Cela a impliqué de comparer les noms entre les plateformes et de vérifier manuellement des échantillons pour garantir la fiabilité.

Collecte de données et statistiques

Une fois les identifiants externes établis, le projet a collecté des œuvres des auteurs identifiés. Open Library a fourni accès à toutes les œuvres, tandis que les données de Goodreads ont été obtenues par scraping web. L'accent a été mis sur les œuvres ayant reçu un certain engagement de la part des lecteurs.

Les stats montrent qu'Open Library et Goodreads incluaient plus d'œuvres et d'écrivains que Wikidata, avec une meilleure représentation pour les auteurs "transnationaux". L'analyse de l'engagement des lecteurs avec ces œuvres a révélé des différences significatives entre les deux plateformes, Goodreads ayant des milliards d'évaluations contre un nombre plus réduit pour Open Library.

Plateforme de visualisation

Le WL-KG soutient l'interaction des utilisateurs via une interface facile à naviguer appelée SKATEBOARD, qui permet aux utilisateurs d'explorer visuellement les connexions littéraires. Les utilisateurs peuvent rechercher des auteurs et des œuvres, en faisant glisser des éléments vers un tableau central pour voir les relations. Cette fonctionnalité de glisser-déposer simplifie l'exploration et encourage les utilisateurs à découvrir de nouvelles connexions dans la littérature.

La plateforme permet aussi des recherches basées sur divers facteurs, comme le pays de naissance de l'écrivain, sa citoyenneté ou des groupes minoritaires spécifiques. Les utilisateurs peuvent avoir un aperçu de toutes les œuvres liées à un thème ou un sujet spécifique.

Évaluation des ressources

Pour comprendre à quel point le WL-KG répond aux besoins des utilisateurs, des entretiens ont été menés avec différents professionnels. Les participants ont été invités à rechercher des écrivains sous-représentés et à donner leur avis sur leur expérience en utilisant la plateforme. L'ergonomie était un point focal, et beaucoup d'utilisateurs ont eu des difficultés à naviguer dans la ressource à cause d'un manque de familiarité avec les interfaces basées sur des graphes.

La plupart des répondants ont reconnu le potentiel du WL-KG pour découvrir de nouveaux auteurs, tandis que certains ont mentionné qu'il était moins utile pour explorer de nouvelles œuvres. Les participants utilisaient souvent des ressources en ligne générales pour leurs recherches littéraires, indiquant que le WL-KG pourrait combler une lacune dans l'exploration littéraire spécialisée.

Des suggestions ont été faites pour améliorer l'expérience utilisateur. Certains utilisateurs ont noté que disposer d'une liste indexée d'auteurs basée sur leur pays de naissance pourrait simplifier les recherches. D'autres ont souligné que des infos supplémentaires sur les associations manquantes dans les œuvres amélioreraient la complétude de la ressource.

Conclusion et travaux futurs

Le WL-KG est un outil précieux pour découvrir des faits sur les écrivains et leurs œuvres à l'échelle mondiale. Il met en lumière le manque de représentation des auteurs non occidentaux tout en permettant d'explorer comment différentes communautés s'engagent avec la littérature. La ressource est accessible au public et offre une expérience conviviale, même si les utilisateurs peuvent avoir besoin de conseils en raison de leur manque de familiarité avec les ressources basées sur des graphes.

À l'avenir, le WL-KG va élargir sa base de connaissances, l'enrichissant avec les contributions de nouvelles communautés de lecture et de plateformes thématiques. De plus, la plateforme de visualisation subira des améliorations basées sur les retours des utilisateurs, avec un accent sur la rendre plus intuitive pour les utilisateurs non experts. Le projet prévoit également de mettre en place un système de recommandation pour tester son efficacité à fournir des suggestions littéraires plus équitables.

Source originale

Titre: The World Literature Knowledge Graph

Résumé: Digital media have enabled the access to unprecedented literary knowledge. Authors, readers, and scholars are now able to discover and share an increasing amount of information about books and their authors. However, these sources of knowledge are fragmented and do not adequately represent non-Western writers and their works. In this paper we present The World Literature Knowledge Graph, a semantic resource containing 194,346 writers and 965,210 works, specifically designed for exploring facts about literary works and authors from different parts of the world. The knowledge graph integrates information about the reception of literary works gathered from 3 different communities of readers, aligned according to a single semantic model. The resource is accessible through an online visualization platform, which can be found at the following URL: https://literaturegraph.di.unito.it/. This platform has been rigorously tested and validated by $3$ distinct categories of experts who have found it to be highly beneficial for their respective work domains. These categories include teachers, researchers in the humanities, and professionals in the publishing industry. The feedback received from these experts confirms that they can effectively utilize the platform to enhance their work processes and achieve valuable outcomes.

Auteurs: Marco Antonio Stranisci, Eleonora Bernasconi, Viviana Patti, Stefano Ferilli, Miguel Ceriani, Rossana Damiano

Dernière mise à jour: 2023-07-31 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2307.16659

Source PDF: https://arxiv.org/pdf/2307.16659

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires