Classer les travaux académiques dans différentes bases de données
Un aperçu de comment les bases de données catégorisent les matériaux de recherche publiés.
― 7 min lire
Table des matières
- Importance de la classification des documents
- Aperçu de la couverture des bases de données
- Comparaison des bases ouvertes et propriétaires
- Défis de classification
- Définir des termes clés
- Types de documents dans l'analyse de base de données
- Spécificités des bases de données
- Comparaison des types de publication
- Types de documents et leur distribution
- Matériaux éditoriaux et de recherche
- Recherche vs. discours éditorial
- Caractéristiques des textes de recherche et éditoriaux
- Limitations de l'étude
- La nécessité de standardisation
- Directions futures
- Source originale
- Liens de référence
Cet article examine comment différentes bases de données classifient les types d'œuvres publiées. On se concentre sur cinq bases de données majeures : OpenAlex, Scopus, Web of Science, Semantic Scholar et PubMed. Chacune de ces bases a sa propre façon de trier et de catégoriser les documents, ce qui peut mener à de la confusion quand on compare les résultats d'une plateforme à l'autre.
Importance de la classification des documents
Quand on fait de la recherche, c'est super important de savoir comment les documents sont catégorisés. Différentes bases peuvent considérer des œuvres similaires de manière différente, ce qui impacte l'analyse bibliométrique, qui étudie la quantité et la qualité des recherches publiées. C'est surtout important pour savoir quels documents inclure dans les études. Par exemple, certaines bases peuvent classer les éditoriaux différemment des articles de recherche. Ces différences peuvent fausser les résultats quand on évalue la fréquence à laquelle les articles sont cités ou leur influence dans des domaines spécifiques.
Aperçu de la couverture des bases de données
OpenAlex devient une ressource importante pour les chercheurs car c'est une alternative en accès libre aux bases de données payantes. Elle offre une grande variété de matériaux, ce qui en fait un outil utile pour l'analyse bibliométrique dans les bibliothèques et universités. La croissance de la science ouverte souligne la nécessité de métadonnées ouvertes, entraînant plus d'attention sur l'évaluation des bases de données ouvertes par rapport aux traditionnelles.
Comparaison des bases ouvertes et propriétaires
Dans notre analyse, on s'est principalement concentré sur comment OpenAlex, Semantic Scholar et PubMed se comparent aux bases de données propriétaires comme Scopus et Web of Science. Chaque base a sa manière de labelliser les documents, ce qui peut entraîner des différences significatives dans le nombre de documents inclus dans leurs collections. Par exemple, certains papiers peuvent être classés comme "revues" dans une base et comme "articles" dans une autre.
Défis de classification
Il y a des défis à comparer les classifications de différentes bases de données. Une étude a montré qu'environ 17 % des publications dans Web of Science avaient des classifications incorrectes. Des problèmes similaires ont été trouvés en comparant les classifications des publications d'auteurs russes dans Scopus et Web of Science. Donc, savoir comment chaque base classe différents Types de documents est essentiel.
Définir des termes clés
Pour comprendre ces classifications, il faut définir des termes clés :
- Types de publication : Ça fait référence aux différents lieux où les œuvres sont publiées, comme les revues, les livres ou les actes de conférence.
- Types de documents : Ça fait référence aux types spécifiques de documents publiés, comme les articles, les revues, les éditoriaux, etc.
- Types d'études : Ça fait référence aux méthodes utilisées dans la recherche, et ça peut varier considérablement d'une discipline à l'autre.
Identifier ces types aide à refléter les caractéristiques des documents de recherche. Par exemple, les articles sont la forme de publication la plus courante, tandis que les articles de revue résument les résultats de recherches précédentes.
Types de documents dans l'analyse de base de données
Dans notre analyse, on a classé les documents en trois grands groupes :
- Discours de recherche : Ça inclut les articles et les revues qui se concentrent sur la présentation des résultats de recherche.
- Discourse éditorial : Ça couvre les lettres, éditoriaux et autres éléments qui fournissent des opinions ou des discussions sur la recherche.
- Non attribué : Ça inclut les œuvres qui ne rentrent pas parfaitement dans les deux autres catégories.
Spécificités des bases de données
Chaque base a sa propre méthode pour classifier les documents. Par exemple, Web of Science a un système de classification très détaillé avec 87 catégories de types de documents, tandis que Scopus n'en a que 18. OpenAlex et PubMed classifient aussi les documents efficacement, mais ils ne labellisent pas toujours chaque type de document de manière distincte. Semantic Scholar, en revanche, a le moins de catégories.
Comparaison des types de publication
La classification des types de publication montre comment chaque base traite différents types d'œuvres. Les revues dominent généralement dans toutes les bases, suivies des actes de conférence et des livres. Cependant, beaucoup d'articles restent non attribués à un lieu spécifique, surtout dans Semantic Scholar.
Types de documents et leur distribution
Notre analyse des publications de revues entre 2012 et 2022 a montré que la plupart des articles dans OpenAlex étaient classés comme articles de revue. OpenAlex a attribué cette classification à plus de 99 % des articles, tandis que Scopus et Web of Science ont classé environ 80 % et 78 %, respectivement.
Matériaux éditoriaux et de recherche
Les matériaux éditoriaux, comme les lettres et les éditoriaux, étaient moins communs dans OpenAlex, ne représentant qu'environ 0,3 % des articles. Scopus et Web of Science, en revanche, ont attribué un pourcentage plus élevé à ces types (environ 4 % et 7 %, respectivement). La proportion de revues a aussi été notée, avec Semantic Scholar montrant le pourcentage le plus élevé d'articles de revue.
Recherche vs. discours éditorial
En analysant la relation entre les documents de recherche et éditoriaux, on a trouvé que les matériaux éditoriaux étaient significativement moins courants dans OpenAlex par rapport aux autres bases. La plupart des articles dans OpenAlex étaient axés sur la recherche, tandis qu'un pourcentage plus important de discours éditoriaux a été trouvé dans Scopus, Web of Science, Semantic Scholar et PubMed.
Caractéristiques des textes de recherche et éditoriaux
On a examiné différentes caractéristiques pour différencier les textes de recherche et éditoriaux. Les articles de recherche avaient généralement plus d'auteurs, de citations et de références par rapport aux textes éditoriaux. L'article de recherche moyen avait aussi des résumés et des titres plus longs que les pièces éditoriales.
Limitations de l'étude
Il y a quelques limites à notre analyse. D'abord, le système de classification utilisé simplifie la distinction entre le contenu de recherche et éditorial. De plus, certains documents peuvent apparaître plusieurs fois dans différentes bases, entraînant une sur-représentation de certains domaines, particulièrement en sciences de la vie à cause du focus de PubMed.
La nécessité de standardisation
Cette étude montre des incohérences dans la façon dont différentes bases classifient les types de publication et de documents. L'absence d'un système standard sur ces plateformes complique les comparaisons et les interprétations. Les utilisateurs de ces bases doivent reconnaître les différences de classification et l'impact potentiel sur les résultats de recherche.
Directions futures
Pour améliorer la qualité des métadonnées, il serait bénéfique que les auteurs précisent les types de documents lors de la soumission. Cela pourrait améliorer l'exactitude des classifications à travers différentes bases de données. OpenAlex commence déjà à séparer les articles de revue et les prépublications comme des types distincts, montrant un mouvement vers une catégorisation plus précise.
En conclusion, comprendre comment différentes bases de données classifient les publications et les documents est essentiel pour quiconque s'engage dans la recherche bibliométrique. En reconnaissant ces différences, les chercheurs peuvent mieux interpréter leurs résultats et naviguer dans les complexités de l'édition académique.
Titre: Analysis of the Publication and Document Types in OpenAlex, Web of Science, Scopus, Pubmed and Semantic Scholar
Résumé: This study compares and analyses publication and document types in the following bibliographic databases: OpenAlex, Scopus, Web of Science, Semantic Scholar and PubMed. The results demonstrate that typologies can differ considerably between individual database providers. Moreover, the distinction between research and non-research texts, which is required to identify relevant documents for bibliometric analysis, can vary depending on the data source because publications are classified differently in the respective databases. The focus of this study, in addition to the cross-database comparison, is primarily on the coverage and analysis of the publication and document types contained in OpenAlex, as OpenAlex is becoming increasingly important as a free alternative to established proprietary providers for bibliometric analyses at libraries and universities.
Auteurs: Nick Haupka, Jack H. Culbert, Alexander Schniedermann, Najko Jahn, Philipp Mayr
Dernière mise à jour: 2024-06-21 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2406.15154
Source PDF: https://arxiv.org/pdf/2406.15154
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://webofscience.help.clarivate.com/en-us/Content/document-types.html
- https://docs.openalex.org/api-entities/works/work-object
- https://groups.google.com/g/openalex-users/c/YujaIIjY02A
- https://web.archive.org/web/20240527182403/
- https://assets.ctfassets.net/o78em1y1w4i4/EX1iy8VxBeQKf8aN2XzOp/c36f79db25484cb38a5972ad9a5472ec/Scopus_ContentCoverage_Guide_WEB.pdf
- https://id.nlm.nih.gov/mesh/D052182
- https://www.bibliometrie.info
- https://github.com/ourresearch/openalex-guts/
- https://hal.science
- https://github.com/naustica/openalex