Le défi de la citation de logiciels dans la recherche
Cet article examine la nécessité de meilleures pratiques de citation de logiciels dans le milieu académique.
― 8 min lire
Table des matières
- Qu'est-ce que les mentions de logiciels ?
- L'importance de la citation appropriée
- État actuel des mentions de logiciels
- Jeux de données pour les mentions de logiciels
- Évaluation de l'utilité des jeux de données
- Défis rencontrés dans les jeux de données
- Problèmes spécifiques avec les jeux de données
- Le problème des mentions informelles
- Besoin de pratiques de citation de logiciels
- Le rôle des logiciels open source
- Questions de recherche
- Méthodologie
- Résultats sur les mentions de logiciels
- Qualité des mentions
- Comparaisons des types de logiciels
- Améliorations nécessaires dans la citation de logiciels
- Directions futures
- Conclusion
- Source originale
- Liens de référence
Le logiciel est une partie vitale de nombreux projets de recherche. Cependant, il est souvent mentionné sans être correctement cité. Ce manque de citation appropriée rend difficile de suivre comment le logiciel est utilisé dans la recherche et de donner du crédit aux créateurs de ce logiciel. Cet article examine les défis liés à l'utilisation de jeux de données qui collectent les Mentions de logiciels dans les articles de recherche, en particulier pour les chercheurs souhaitant étudier l'utilisation du logiciel et les pratiques de citation.
Qu'est-ce que les mentions de logiciels ?
Les mentions de logiciels sont des références à un logiciel dans des articles académiques. Au lieu de citer formellement le logiciel, les chercheurs pourraient simplement le mentionner dans le texte. Par exemple, un chercheur pourrait dire : "Nous avons utilisé le logiciel X pour l'analyse", mais sans fournir de référence appropriée qui pointe vers le logiciel lui-même ou ses créateurs. Cette mention informelle n'aide pas les autres à trouver le logiciel ou à donner du crédit à ses auteurs.
L'importance de la citation appropriée
La citation appropriée est importante pour plusieurs raisons :
- Crédit : Elle permet aux auteurs de logiciels de recevoir la reconnaissance qu'ils méritent pour leur travail.
- Trouvabilité : Elle aide les autres à trouver le logiciel, ce qui est crucial pour la reproductibilité en recherche.
- Contrôle des versions : Citer des versions spécifiques de logiciels évite la confusion sur version utilisée, ce qui peut affecter les résultats de recherche.
État actuel des mentions de logiciels
De nombreux chercheurs ne suivent toujours pas de bonnes pratiques en matière de citation de logiciels. Dans certaines études, il a été constaté que moins de la moitié des articles qui mentionnaient un logiciel incluaient une citation appropriée. Ce manque suggère un besoin de meilleures pratiques et outils qui encouragent une citation correcte.
Jeux de données pour les mentions de logiciels
Récemment, de nouveaux jeux de données contenant des mentions de logiciels provenant d'articles de recherche ont été publiés. Ces jeux de données sont utiles pour comprendre comment différents logiciels sont utilisés dans la recherche. Cependant, la qualité de ces jeux de données varie, et ils peuvent poser des défis aux chercheurs.
Évaluation de l'utilité des jeux de données
Pour évaluer si ces jeux de données sont utiles pour la recherche, notre approche comprend plusieurs étapes :
- Échantillonnage : Prendre un petit échantillon représentatif du jeu de données pour examen.
- Annotation manuelle : Vérifier chaque mention dans l'échantillon pour évaluer sa qualité, comme si elle fournit suffisamment d'informations pour une citation appropriée.
- Analyse : Analyser les données annotées pour évaluer l'utilisabilité globale du jeu de données.
Défis rencontrés dans les jeux de données
Lors de l'évaluation de l'utilisabilité des jeux de données de mentions de logiciels, plusieurs défis ont été identifiés :
- Qualité des mentions : Beaucoup de mentions n'étaient pas citées correctement, ce qui signifie qu'elles ne fournissaient pas d'informations adéquates pour que d'autres puissent localiser ou utiliser le logiciel.
- Problèmes d'accès : Certains jeux de données n'incluaient pas de liens vers le logiciel. Cela rendait difficile pour les chercheurs de trouver le logiciel mentionné dans les articles.
- Variété des sources : Certaines mentions pointaient vers différentes versions ou même différents logiciels, ce qui peut semer la confusion chez les chercheurs.
Problèmes spécifiques avec les jeux de données
Un jeu de données peut ne pas fournir du tout de liens vers le logiciel. En revanche, un autre jeu de données pourrait inclure des liens qui pointent vers différentes versions du même logiciel ou même vers un logiciel différent qui a un nom similaire. Cette incohérence rend difficile la réalisation de recherches fiables.
Le problème des mentions informelles
De nombreuses mentions de logiciels dans les articles de recherche sont informelles. Les mentions informelles ne fournissent pas assez de détails pour aider quelqu'un à trouver le logiciel. Par exemple, un article qui dit : "Nous avons utilisé le logiciel X", sans lien ou citation appropriée, laisse les lecteurs sans informations essentielles. La réalité avec les mentions informelles est qu'elles nuisent à la reconnaissance des logiciels et rendent difficile l'évaluation de la recherche par d'autres.
Besoin de pratiques de citation de logiciels
Le principal problème avec l'utilisation des jeux de données de mentions de logiciels est le manque global de bonnes pratiques de citation de logiciels dans la communauté de recherche. Les auteurs devraient respecter les principes établis pour la citation de logiciels afin de rendre l'utilisation des logiciels transparente et accessible.
Le rôle des logiciels open source
Les logiciels open source, qui permettent aux utilisateurs de voir et de modifier le code source, sont souvent cités différemment des logiciels propriétaires. Il y a des indications que les logiciels open source sont plus susceptibles d'être correctement cités, car ils sont souvent accompagnés d'une documentation et de ressources accessibles qui facilitent la citation.
Questions de recherche
L'étude visait à répondre à plusieurs questions :
- Les jeux de données de mentions de logiciels sont-ils utiles pour la recherche ?
- Comment les citations de logiciels open source et propriétaires diffèrent-elles ?
- La pratique de la citation de logiciels s'est-elle améliorée ces dernières années ?
Méthodologie
Pour répondre à ces questions, une approche systématique a été adoptée :
- Échantillonnage : Des échantillons ont été prélevés à partir de deux grands jeux de données de mentions de logiciels.
- Analyse : Chaque échantillon a été évalué pour la qualité des mentions de logiciels, les types de citations utilisées et l'accessibilité des liens vers les logiciels.
Résultats sur les mentions de logiciels
L'analyse des échantillons a révélé qu'une partie significative des mentions de logiciels n'était pas correctement citée. Ce manque de citation formelle entrave la capacité des chercheurs à suivre l'utilisation des logiciels avec précision et à donner un crédit approprié aux auteurs de logiciels.
Qualité des mentions
En termes de qualité des mentions, il a été constaté que :
- Un pourcentage élevé de mentions n'incluait pas de liens vers le logiciel.
- Beaucoup de mentions ne précisaient pas quelle version du logiciel a été utilisée.
- La qualité des mentions extraites variait considérablement entre les jeux de données.
Comparaisons des types de logiciels
L'étude a également tenté de différencier comment les logiciels open source et propriétaires étaient cités dans la littérature académique. Il a été hypothétisé que les logiciels open source seraient cités de manière plus favorable en raison de leur nature et de la disponibilité de métadonnées.
Améliorations nécessaires dans la citation de logiciels
Malgré quelques progrès, il reste encore beaucoup à faire pour améliorer les pratiques de citation de logiciels. Une application plus cohérente des principes de citation de logiciels est nécessaire pour garantir que les logiciels soient correctement crédités dans la recherche.
Directions futures
À l'avenir, les chercheurs devraient plaider pour de meilleures pratiques en matière de citation de logiciels. Voici quelques suggestions :
- Créer des annuaires complets pour les logiciels de recherche qui peuvent servir de références de base.
- Encourager l'utilisation d'identifiants uniques (comme les DOI) pour les logiciels afin de simplifier les citations.
- Améliorer la formation et les ressources pour les chercheurs sur l'importance de la citation de logiciels.
Conclusion
En conclusion, les jeux de données de mentions de logiciels présentent à la fois des opportunités et des défis pour la recherche. Bien qu'ils puissent fournir des aperçus sur l'utilisation des logiciels dans le milieu académique, leur efficacité est limitée par des pratiques de citation incohérentes. En se concentrant sur une citation appropriée et en travaillant à améliorer la qualité de ces jeux de données, la communauté de recherche peut mieux soutenir les auteurs de logiciels et améliorer la reproductibilité du travail scientifique.
En promouvant de meilleures pratiques en matière de citation de logiciels, nous pouvons nous assurer que les contributions des logiciels sont reconnues et que les chercheurs ont accès aux outils dont ils ont besoin pour leur travail.
Titre: Don't mention it: An approach to assess challenges to using software mentions for citation and discoverability research
Résumé: Datasets collecting software mentions from scholarly publications can potentially be used for research into the software that has been used in the published research, as well as into the practice of software citation. Recently, new software mention datasets with different characteristics have been published. We present an approach to assess the usability of such datasets for research on research software. Our approach includes sampling and data preparation, manual annotation for quality and mention characteristics, and annotation analysis. We applied it to two software mention datasets for evaluation based on qualitative observation. Doing this, we were able to find challenges to working with the selected datasets to do research. Main issues refer to the structure of the dataset, the quality of the extracted mentions (54% and 23% of mentions respectively are not to software), and software accessibility. While one dataset does not provide links to mentioned software at all, the other does so in a way that can impede quantitative research endeavors: (1) Links may come from different sources and each point to different software for the same mention. (2) The quality of the automatically retrieved links is generally poor (in our sample, 65.4% link the wrong software). (3) Links exist only for a small subset (in our sample, 20.5%) of mentions, which may lead to skewed or disproportionate samples. However, the greatest challenge and underlying issue in working with software mention datasets is the still suboptimal practice of software citation: Software should not be mentioned, it should be cited following the software citation principles.
Auteurs: Stephan Druskat, Neil P. Chue Hong, Sammie Buzzard, Olexandr Konovalov, Patrick Kornek
Dernière mise à jour: 2024-02-22 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2402.14602
Source PDF: https://arxiv.org/pdf/2402.14602
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://orcid.org/0000-0003-4925-7248
- https://orcid.org/0000-0002-8876-7606
- https://orcid.org/0000-0003-0722-2549
- https://orcid.org/0000-0001-5299-3292
- https://orcid.org/0000-0003-2609-0422
- https://www.force11.org/group/software-citation-implementation-working-group
- https://force11.org/group/software-citation-working-group/
- https://force11.org/groups/software-citation-implementation-working-group/
- https://software.ac.uk/cw21/hack-day
- https://unpaywall.org/