Curatr : Un nouvel outil pour la recherche en sciences humaines
Curatr aide les chercheurs en humanités à simplifier leur processus d'analyse de texte.
― 6 min lire
Table des matières
- Le Besoin de Curatr
- Aperçu de Curatr
- Comment Curatr Fonctionne
- Importance de la Transparence
- Le Processus de Curation
- Mise en Œuvre des Word Embeddings
- Construction de Lexiques Thématiques
- Curation des Textes
- Étude de Cas de Curatr en Action
- Évaluation des Textes Récupérés
- Thèmes et Perspectives Émergents
- Découverte de Textes Moins Connus
- Conclusion
- Directions Futures
- Source originale
- Liens de référence
Avec l'essor des collections numériques de littérature d'hier et d'aujourd'hui, les chercheurs en sciences humaines ont désormais accès à une énorme quantité de matériel. Mais trier tout ça, c'est pas toujours simple. Cet article parle d'une plateforme conçue pour aider les chercheurs à explorer et sélectionner des textes pertinents plus facilement.
Le Besoin de Curatr
Trouver la bonne info dans de grandes bibliothèques numériques peut être un vrai casse-tête. Les chercheurs ont souvent du mal à extraire les textes les plus adaptés dans des collections qui sont trop grandes ou trop variées. Du coup, il faut des outils et des systèmes pour rendre tout ça plus simple et efficace.
Aperçu de Curatr
Curatr est une plateforme en ligne créée pour aider les chercheurs en sciences humaines à organiser et analyser des textes littéraires historiques. Elle utilise des techniques avancées de machine learning pour aider les utilisateurs à identifier des thèmes et des textes pertinents. En combinant savoir-faire expert et technologie, cette plateforme vise à soutenir les chercheurs qui bossent avec de grandes collections de textes.
Comment Curatr Fonctionne
Curatr utilise un processus de text mining qui combine des infos de grandes collections littéraires avec des algorithmes de machine learning. La plateforme permet aux utilisateurs de créer des lexiques thématiques, ou des listes de mots liés à des sujets spécifiques, pour mieux cibler leurs recherches. Ça veut dire que les chercheurs peuvent extraire des ensembles de textes plus petits de collections vastes, comme celles des 18e et 19e siècles.
Importance de la Transparence
Un des points forts de Curatr, c'est sa transparence sur l'utilisation du machine learning. Beaucoup de chercheurs hésitent à utiliser le machine learning parce qu'ils ne comprennent pas comment ça marche. Curatr palie à ça en rendant ses processus clairs et en intégrant le savoir-faire expert dans l'analyse des textes littéraires.
Le Processus de Curation
Le processus de curation consiste à sélectionner, interpréter et comprendre le matériel disponible. Curatr soutient ce workflow en permettant aux utilisateurs de faire des recherches conceptuelles. Les chercheurs peuvent entrer des mots-clés, ou des termes initiaux liés à leur sujet, et le système utilise le machine learning pour suggérer des termes associés. Cela les aide à construire un lexique plus complet de termes liés à leur domaine d'intérêt.
Mise en Œuvre des Word Embeddings
Au cœur de la fonctionnalité de Curatr, il y a une technique appelée word embedding. Ça consiste à représenter les mots sous forme de nombres d'une façon qui permet au système de comprendre la relation entre les différents mots en fonction de leur contexte. En utilisant le word embedding, Curatr peut créer des listes de mots qui se ressemblent en signification et qui sont liés à des thèmes spécifiques.
Construction de Lexiques Thématiques
Avec la plateforme, les chercheurs peuvent commencer par des mots basiques ou des mots clés. Curatr les développe ensuite en suggérant des mots similaires. Les utilisateurs peuvent choisir quels mots supplémentaires inclure, ce qui leur permet de peaufiner leurs recherches en fonction de leur propre expertise. Ce processus itératif aide les chercheurs à créer des lexiques thématiques plus détaillés et solides.
Curation des Textes
Une fois que les chercheurs ont leurs lexiques, ils peuvent les utiliser pour récupérer des textes pertinents depuis la base de données de Curatr. Les textes sont classés selon la fréquence d'apparition des termes de leur lexique dans chaque document, ce qui aide à extraire les pièces les plus pertinentes d'une grande collection. Les utilisateurs peuvent aussi modifier leurs sélections et relancer des recherches pour obtenir de meilleurs résultats.
Étude de Cas de Curatr en Action
Une étude de cas spécifique utilisant Curatr s'est concentrée sur les attitudes culturelles envers la migration en Grande-Bretagne au 19e siècle, en lien avec des thèmes de contagion et de maladie. La recherche a examiné comment les migrants, en particulier les communautés irlandaises et juives, étaient représentés dans la fiction historique.
En utilisant la plateforme, les chercheurs ont pu créer des lexiques thématiques en lien avec leurs domaines d'intérêt. Ils se sont concentrés sur des mots comme 'migration' et 'maladie', interrogeant le système pour découvrir des textes qui reflètent les attitudes et les concepts de l'époque.
Évaluation des Textes Récupérés
Évaluer à quel point les textes récupérés sont utiles dans le cadre de la recherche en sciences humaines est crucial. Dans cette étude de cas, les chercheurs ont cherché des documents qui non seulement correspondaient à leurs thèmes, mais qui apportaient aussi de nouvelles perspectives. Ils ont pris en compte deux types de pertinence : si le texte correspondait à leurs termes de recherche et s'il ajoutait des infos précieuses à leur étude.
Thèmes et Perspectives Émergents
L'étude a révélé divers thèmes, y compris le chevauchement de la migration avec des problèmes politiques de l'époque. Des termes et phrases peu familiers ont également été identifiés, élargissant la compréhension de la façon dont les gens envisageaient et discutaient de ces sujets dans le passé.
La capacité de Curatr à établir des connexions entre des concepts apparemment disparates a mis en lumière son potentiel pour offrir de nouvelles perspectives sur des théories établies.
Découverte de Textes Moins Connus
Une découverte importante a été la récupération de textes d'auteurs moins connus. Beaucoup des œuvres trouvées grâce à Curatr n'avaient pas été largement étudiées, suggérant que la plateforme pourrait ouvrir de nouvelles voies de recherche. En élargissant les termes de recherche, les chercheurs ont trouvé des textes qui apportaient des points de vue uniques et remettaient en question les croyances existantes sur la migration et la santé à l'époque.
Conclusion
Curatr est un outil super important pour les chercheurs en sciences humaines car il aide à explorer et analyser de grandes collections littéraires. Son utilisation innovante du machine learning et sa transparence dans ses processus en font une ressource précieuse pour les chercheurs souhaitant approfondir leur compréhension des textes historiques. En permettant aux utilisateurs de sélectionner des sous-ensembles pertinents dans d'énormes bases de données, Curatr aide à dénicher de nouvelles perspectives et soutient l'évolution continue de la recherche en sciences humaines.
Directions Futures
À mesure que de plus en plus de collections deviennent disponibles en ligne, Curatr a le potentiel d'élargir son champ et d'inclure d'autres sources. Cela pourrait encore améliorer sa capacité à aider les chercheurs à remettre en question des points de vue traditionnels et à reconnaître des œuvres négligées ou sous-estimées en littérature. Le développement continu d'outils comme Curatr jouera un rôle essentiel dans l'avenir de l'exploration académique à l'ère numérique.
Titre: Curatr: A Platform for Semantic Analysis and Curation of Historical Literary Texts
Résumé: The increasing availability of digital collections of historical and contemporary literature presents a wealth of possibilities for new research in the humanities. The scale and diversity of such collections however, presents particular challenges in identifying and extracting relevant content. This paper presents Curatr, an online platform for the exploration and curation of literature with machine learning-supported semantic search, designed within the context of digital humanities scholarship. The platform provides a text mining workflow that combines neural word embeddings with expert domain knowledge to enable the generation of thematic lexicons, allowing researches to curate relevant sub-corpora from a large corpus of 18th and 19th century digitised texts.
Auteurs: Susan Leavy, Gerardine Meaney, Karen Wade, Derek Greene
Dernière mise à jour: 2023-06-13 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2306.08020
Source PDF: https://arxiv.org/pdf/2306.08020
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.