Repenser les comptages de citations dans le financement de la recherche
Une nouvelle méthode pour prédire les citations basée sur les caractéristiques des articles.
Michael Balzer, Adhen Benlahlou
― 9 min lire
Table des matières
- Le Problème avec les Citations
- Une Nouvelle Approche
- L'Importance des Caractéristiques Observables
- Méthodologie : Comment on Fait des Prédictions
- Résultats : Ce qu'on a Trouvé
- Techniques Avancées : Apprentissage Automatique pour la Sélection des Variables
- Optimisation : Regarder les Critères d'Arrêt
- Conclusion : Vers des Évaluations Plus Équitables
- Source originale
- Liens de référence
Dans le monde de la recherche, obtenir des financements, c'est super important. Pour beaucoup d'organisations, savoir comment faire prospérer la science et obtenir les résultats les plus marquants est crucial. Quand il s'agit de décider qui reçoit de l'argent, le nombre de citations d'un article est souvent sous les projecteurs. Mais attention : ces chiffres peuvent être influencés par des choses qui n'ont rien à voir avec l'impact réel de la recherche.
Cet article examine un problème courant appelé l'Effet Matthieu. En gros, les auteurs célèbres et les revues connues obtiennent souvent plus de citations, pas forcément parce que leur travail est meilleur, mais parce qu'ils sont déjà populaires. Pour aborder cela, on va discuter d'une façon de prédire combien de citations un article va recevoir en utilisant juste les infos disponibles quand l'article est soumis-avant que quiconque ne sache qui sont les auteurs.
On va mixer des méthodes statistiques classiques et modernes tout en utilisant plein de données de Recherche biomédicale. Nos résultats montrent qu'il est possible de prédire les citations assez précisément sans tenir compte de qui a écrit l'article ou où il a été publié. Comme ça, on peut rendre le processus de financement de la recherche plus équitable et axé sur la qualité plutôt que sur le prestige.
Le Problème avec les Citations
Chaque fois que des chercheurs publient un article, ils espèrent qu'il fera avancer les connaissances et suscitera des discussions intéressantes. Mais tous les articles ne sont pas égaux à cet égard. Le nombre de citations qu'un article reçoit est souvent utilisé comme critère pour évaluer son importance. Mais peut-on faire confiance à ce chiffre ?
Au fil des ans, de nombreuses études ont montré que les Comptes de citations sont affectés par des facteurs sans rapport avec la qualité réelle de la recherche. Par exemple, le style d'écriture, le nombre d'auteurs, et même les biais liés à la langue et au genre jouent un rôle. Et ce n'est pas un nouveau problème-les chercheurs s'appuient sur les citations pour mesurer l'impact scientifique depuis 1927.
Depuis le début, il y a eu du scepticisme sur le fait que les citations reflètent vraiment des contributions scientifiques réelles. Certains experts soutiennent que les citations sont façonnées par de nombreuses variables au-delà de la seule valeur du travail. Des pratiques comme l'auto-citation et les cercles de citation peuvent artificiellement gonfler les chiffres, donnant l'impression que certains articles sont plus importants que d'autres simplement à cause de manipulations.
L'Effet Matthieu complique encore plus les choses. Les auteurs réputés ou les articles publiés dans des revues prestigieuses obtiennent souvent plus de citations, indépendamment de la qualité réelle du travail. Cela peut mener à des situations où des auteurs plus récents ou moins connus galèrent pendant que des noms établis brillent, même si leur travail n'est pas supérieur.
Du coup, alors que les organisations de recherche publiques cherchent à promouvoir une recherche de qualité, la dépendance aux comptes de citations en tant que mesure fiable est remise en question.
Une Nouvelle Approche
Pour aborder ce problème, on propose une façon de prédire les citations en se concentrant sur les caractéristiques observables d'un article, en laissant de côté toute information liée aux auteurs et aux revues pour éviter les biais. En faisant ça, on espère réduire l'influence des facteurs associés à l'Effet Matthieu.
On va se concentrer sur des caractéristiques qui peuvent être facilement observées lors d'un processus de révision par les pairs en double aveugle. Par exemple, on a remarqué que les articles qui se réfèrent à des littératures plus récentes tendent à être cités plus souvent que ceux qui regardent vers le passé. De plus, on va examiner comment le nombre de références et leur nouveauté impactent le nombre total de citations.
En utilisant de vastes ensembles de données de recherche biomédicale, on va montrer qu'il est en effet possible de faire des prédictions précises sur combien de fois un article pourrait être cité en se basant uniquement sur les variables présentes au moment de sa soumission.
L'Importance des Caractéristiques Observables
Dans le domaine de la science, il y a beaucoup de variables à prendre en compte. La portée de la recherche, la qualité et la méthodologie jouent tous des rôles vitaux. Cependant, quand on parle de prédire les citations, se concentrer sur les caractéristiques observables durant la phase de soumission semble donner une vue plus claire.
L'ensemble de données qu'on va utiliser vient du PubMed Knowledge Graph, qui inclut des millions d'articles avec des attributs détaillés. Cette ressource nous permet d'analyser des tendances et des patterns dans la recherche biomédicale au-delà de la surface.
En examinant les citations d'articles publiés entre certaines années et en filtrant l'ensemble de données pour n'inclure que les variables nécessaires, on peut créer un modèle plus efficace pour prédire les citations.
Méthodologie : Comment on Fait des Prédictions
Pour prédire les citations efficacement, on a cherché à utiliser des méthodes adaptables et simples. On a commencé avec des modèles linéaires classiques et des modèles linéaires généralisés tout en explorant de grands ensembles de données.
On a rencontré des défis puisque les comptes de citations ne sont pas toujours normalement distribués et peuvent souvent être gonflés par des zéros. Pour gérer ces problèmes, on a utilisé un modèle appelé régression binomiale négative, qui est plus accommodant pour des données de compte comme les chiffres de citations.
En termes pratiques, on a examiné une série de variables qui pourraient impacter les comptes de citations. En faisant attention aux années de publication, au nombre de références, et au type de publication, on visait à créer un modèle qui pourrait donner des prédictions fiables.
Notre but était de créer un modèle qui pourrait estimer les citations basées uniquement sur les caractéristiques visibles au moment de la soumission.
Résultats : Ce qu'on a Trouvé
Après avoir utilisé nos méthodes proposées, on était contents de voir que nos modèles se sont bien comportés pour prédire les comptes de citations. Les coefficients estimés indiquaient une forte signification, et nos prédictions étaient en étroite correspondance avec la littérature établie.
Notamment, le nombre de références, les types de termes MeSH, et la longueur de l'article ont eu un impact positif sur les comptes de citations. Ça veut dire que les articles qui étaient complets et bien référencés ont généralement reçu plus d'attention.
Cependant, on a aussi remarqué que l'âge des références pouvait avoir un impact négatif, indiquant que le contenu qui se réfère à des sources plus anciennes pourrait être moins pertinent dans l'environnement de recherche rapide d'aujourd'hui. De plus, les articles axés sur des thèmes cliniques ont souvent récolté plus de citations que ceux sur d'autres sujets.
Quand on a évalué la performance de nos modèles, on a découvert qu'ils étaient précis non seulement sur notre ensemble d'apprentissage mais aussi sur de nouvelles données non vues. Ça suggère que les modèles qu'on a construits sont robustes et fiables.
Techniques Avancées : Apprentissage Automatique pour la Sélection des Variables
Au-delà des statistiques traditionnelles, on s'est aussi aventurés dans le monde de l'apprentissage automatique pour améliorer encore nos prédictions. En utilisant le boosting par gradient basé sur des modèles, on visait à simplifier nos modèles et identifier quelles variables comptaient le plus.
Dans ce modèle, l'algorithme ajuste itérativement pour trouver les meilleures prédictions, tout en gardant une trace des variables qui mènent systématiquement à de meilleurs résultats. Cette méthode permet à la fois la sélection de modèles et l'identification des variables sans trop compter sur l'intuition humaine.
La beauté de l'utilisation de l'apprentissage automatique ici, c'est que les méthodes peuvent s'adapter et se perfectionner en fonction des données, conduisant potentiellement à de meilleurs résultats tout en gardant tout frais et pertinent.
Optimisation : Regarder les Critères d'Arrêt
En travaillant avec notre modèle de boosting par gradient, on a remarqué quelque chose d'intéressant : les critères d'arrêt pouvaient être ajustés. En termes simples, on pouvait décider quand arrêter le processus d'amélioration du modèle en fonction de ses performances.
Cette flexibilité nous a permis d'éviter le surajustement tout en s'assurant qu'on capturait des relations importantes dans les données. En contrôlant le nombre de variables incluses, on pouvait maintenir la simplicité du modèle sans sacrifier la performance.
En faisant ces ajustements, on a découvert qu'avec moins de variables, on pouvait atteindre une qualité de prédiction similaire. Cette réalisation joue un rôle clé dans le fait de rendre notre approche non seulement efficace mais aussi efficiente.
Conclusion : Vers des Évaluations Plus Équitables
La principale conclusion de nos résultats, c'est qu'en se concentrant sur les caractéristiques observables et en excluant les aspects liés au prestige, on peut obtenir un moyen plus objectif de prédire les citations. Notre approche aide à atténuer les effets des biais qui affectent actuellement le processus d'évaluation.
En prédisant les citations basées uniquement sur les caractéristiques visibles disponibles lors de la phase de révision, on peut s'assurer que les organismes de financement dirigent leurs ressources vers une recherche de qualité plutôt que simplement vers les noms les plus célèbres ou les revues les plus réputées.
En regardant vers l'avenir, il y a un potentiel immense pour développer ce travail. Avec des données et des variables supplémentaires, on peut continuer à affiner nos modèles et aider à façonner un paysage de recherche plus équitable.
Alors, la prochaine fois que tu entends parler des comptes de citations, souviens-toi : ce n'est pas juste une question de chiffres ; c'est une question de la qualité de la science qui les sous-tend. Et qui sait, la prochaine grande percée pourrait venir d'un auteur dont tu n'as jamais entendu parler !
Titre: Mitigating Consequences of Prestige in Citations of Publications
Résumé: For many public research organizations, funding creation of science and maximizing scientific output is of central interest. Typically, when evaluating scientific production for funding, citations are utilized as a proxy, although these are severely influenced by factors beyond scientific impact. This study aims to mitigate the consequences of the Matthew effect in citations, where prominent authors and prestigious journals receive more citations regardless of the scientific content of the publications. To this end, the study presents an approach to predicting citations of papers based solely on observable characteristics available at the submission stage of a double-blind peer-review process. Combining classical linear models, generalized linear models and utilizing large-scale data sets on biomedical papers based on the PubMed database, the results demonstrate that it is possible to make fairly accurate predictions of citations using only observable characteristics of papers excluding information on authors and journals, thereby mitigating the Matthew effect. Thus, the outcomes have important implications for the field of scientometrics, providing a more objective method for citation prediction by relying on pre-publication variables that are immune to manipulation by authors and journals, thereby enhancing the objectivity of the evaluation process. Our approach is thus important for government agencies responsible for funding the creation of high-quality scientific content rather than perpetuating prestige.
Auteurs: Michael Balzer, Adhen Benlahlou
Dernière mise à jour: Dec 10, 2024
Langue: English
Source URL: https://arxiv.org/abs/2411.05584
Source PDF: https://arxiv.org/pdf/2411.05584
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.