Simple Science

La science de pointe expliquée simplement

# Informatique# Bibliothèques numériques

Classer les travaux académiques dans différentes bases de données

Un aperçu de comment les bases de données catégorisent les matériaux de recherche publiés.

― 7 min lire


Aperçus sur laAperçus sur laclassification desdocuments de base derecherche.classifient les publications deExaminer comment les bases de données
Table des matières

Cet article examine comment différentes bases de données classifient les types d'œuvres publiées. On se concentre sur cinq bases de données majeures : OpenAlex, Scopus, Web of Science, Semantic Scholar et PubMed. Chacune de ces bases a sa propre façon de trier et de catégoriser les documents, ce qui peut mener à de la confusion quand on compare les résultats d'une plateforme à l'autre.

Importance de la classification des documents

Quand on fait de la recherche, c'est super important de savoir comment les documents sont catégorisés. Différentes bases peuvent considérer des œuvres similaires de manière différente, ce qui impacte l'analyse bibliométrique, qui étudie la quantité et la qualité des recherches publiées. C'est surtout important pour savoir quels documents inclure dans les études. Par exemple, certaines bases peuvent classer les éditoriaux différemment des articles de recherche. Ces différences peuvent fausser les résultats quand on évalue la fréquence à laquelle les articles sont cités ou leur influence dans des domaines spécifiques.

Aperçu de la couverture des bases de données

OpenAlex devient une ressource importante pour les chercheurs car c'est une alternative en accès libre aux bases de données payantes. Elle offre une grande variété de matériaux, ce qui en fait un outil utile pour l'analyse bibliométrique dans les bibliothèques et universités. La croissance de la science ouverte souligne la nécessité de métadonnées ouvertes, entraînant plus d'attention sur l'évaluation des bases de données ouvertes par rapport aux traditionnelles.

Comparaison des bases ouvertes et propriétaires

Dans notre analyse, on s'est principalement concentré sur comment OpenAlex, Semantic Scholar et PubMed se comparent aux bases de données propriétaires comme Scopus et Web of Science. Chaque base a sa manière de labelliser les documents, ce qui peut entraîner des différences significatives dans le nombre de documents inclus dans leurs collections. Par exemple, certains papiers peuvent être classés comme "revues" dans une base et comme "articles" dans une autre.

Défis de classification

Il y a des défis à comparer les classifications de différentes bases de données. Une étude a montré qu'environ 17 % des publications dans Web of Science avaient des classifications incorrectes. Des problèmes similaires ont été trouvés en comparant les classifications des publications d'auteurs russes dans Scopus et Web of Science. Donc, savoir comment chaque base classe différents Types de documents est essentiel.

Définir des termes clés

Pour comprendre ces classifications, il faut définir des termes clés :

  • Types de publication : Ça fait référence aux différents lieux où les œuvres sont publiées, comme les revues, les livres ou les actes de conférence.
  • Types de documents : Ça fait référence aux types spécifiques de documents publiés, comme les articles, les revues, les éditoriaux, etc.
  • Types d'études : Ça fait référence aux méthodes utilisées dans la recherche, et ça peut varier considérablement d'une discipline à l'autre.

Identifier ces types aide à refléter les caractéristiques des documents de recherche. Par exemple, les articles sont la forme de publication la plus courante, tandis que les articles de revue résument les résultats de recherches précédentes.

Types de documents dans l'analyse de base de données

Dans notre analyse, on a classé les documents en trois grands groupes :

  1. Discours de recherche : Ça inclut les articles et les revues qui se concentrent sur la présentation des résultats de recherche.
  2. Discourse éditorial : Ça couvre les lettres, éditoriaux et autres éléments qui fournissent des opinions ou des discussions sur la recherche.
  3. Non attribué : Ça inclut les œuvres qui ne rentrent pas parfaitement dans les deux autres catégories.

Spécificités des bases de données

Chaque base a sa propre méthode pour classifier les documents. Par exemple, Web of Science a un système de classification très détaillé avec 87 catégories de types de documents, tandis que Scopus n'en a que 18. OpenAlex et PubMed classifient aussi les documents efficacement, mais ils ne labellisent pas toujours chaque type de document de manière distincte. Semantic Scholar, en revanche, a le moins de catégories.

Comparaison des types de publication

La classification des types de publication montre comment chaque base traite différents types d'œuvres. Les revues dominent généralement dans toutes les bases, suivies des actes de conférence et des livres. Cependant, beaucoup d'articles restent non attribués à un lieu spécifique, surtout dans Semantic Scholar.

Types de documents et leur distribution

Notre analyse des publications de revues entre 2012 et 2022 a montré que la plupart des articles dans OpenAlex étaient classés comme articles de revue. OpenAlex a attribué cette classification à plus de 99 % des articles, tandis que Scopus et Web of Science ont classé environ 80 % et 78 %, respectivement.

Matériaux éditoriaux et de recherche

Les matériaux éditoriaux, comme les lettres et les éditoriaux, étaient moins communs dans OpenAlex, ne représentant qu'environ 0,3 % des articles. Scopus et Web of Science, en revanche, ont attribué un pourcentage plus élevé à ces types (environ 4 % et 7 %, respectivement). La proportion de revues a aussi été notée, avec Semantic Scholar montrant le pourcentage le plus élevé d'articles de revue.

Recherche vs. discours éditorial

En analysant la relation entre les documents de recherche et éditoriaux, on a trouvé que les matériaux éditoriaux étaient significativement moins courants dans OpenAlex par rapport aux autres bases. La plupart des articles dans OpenAlex étaient axés sur la recherche, tandis qu'un pourcentage plus important de discours éditoriaux a été trouvé dans Scopus, Web of Science, Semantic Scholar et PubMed.

Caractéristiques des textes de recherche et éditoriaux

On a examiné différentes caractéristiques pour différencier les textes de recherche et éditoriaux. Les articles de recherche avaient généralement plus d'auteurs, de citations et de références par rapport aux textes éditoriaux. L'article de recherche moyen avait aussi des résumés et des titres plus longs que les pièces éditoriales.

Limitations de l'étude

Il y a quelques limites à notre analyse. D'abord, le système de classification utilisé simplifie la distinction entre le contenu de recherche et éditorial. De plus, certains documents peuvent apparaître plusieurs fois dans différentes bases, entraînant une sur-représentation de certains domaines, particulièrement en sciences de la vie à cause du focus de PubMed.

La nécessité de standardisation

Cette étude montre des incohérences dans la façon dont différentes bases classifient les types de publication et de documents. L'absence d'un système standard sur ces plateformes complique les comparaisons et les interprétations. Les utilisateurs de ces bases doivent reconnaître les différences de classification et l'impact potentiel sur les résultats de recherche.

Directions futures

Pour améliorer la qualité des métadonnées, il serait bénéfique que les auteurs précisent les types de documents lors de la soumission. Cela pourrait améliorer l'exactitude des classifications à travers différentes bases de données. OpenAlex commence déjà à séparer les articles de revue et les prépublications comme des types distincts, montrant un mouvement vers une catégorisation plus précise.

En conclusion, comprendre comment différentes bases de données classifient les publications et les documents est essentiel pour quiconque s'engage dans la recherche bibliométrique. En reconnaissant ces différences, les chercheurs peuvent mieux interpréter leurs résultats et naviguer dans les complexités de l'édition académique.

Source originale

Titre: Analysis of the Publication and Document Types in OpenAlex, Web of Science, Scopus, Pubmed and Semantic Scholar

Résumé: This study compares and analyses publication and document types in the following bibliographic databases: OpenAlex, Scopus, Web of Science, Semantic Scholar and PubMed. The results demonstrate that typologies can differ considerably between individual database providers. Moreover, the distinction between research and non-research texts, which is required to identify relevant documents for bibliometric analysis, can vary depending on the data source because publications are classified differently in the respective databases. The focus of this study, in addition to the cross-database comparison, is primarily on the coverage and analysis of the publication and document types contained in OpenAlex, as OpenAlex is becoming increasingly important as a free alternative to established proprietary providers for bibliometric analyses at libraries and universities.

Auteurs: Nick Haupka, Jack H. Culbert, Alexander Schniedermann, Najko Jahn, Philipp Mayr

Dernière mise à jour: 2024-06-21 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2406.15154

Source PDF: https://arxiv.org/pdf/2406.15154

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Articles similaires