Connecter des logiciels de recherche aux projets de la NSF
De nouveaux jeux de données aident à identifier et suivre les logiciels issus de recherches financées par la NSF.
― 8 min lire
Table des matières
- Importance du logiciel de recherche
- Aperçu des ensembles de données
- Trouver des logiciels des projets NSF
- Annotation des logiciels
- Lien avec les prix NSF
- Formation des modèles prédictifs
- Résultats de la formation du modèle
- Exploration des tendances de production de logiciels
- Directions de recherche futures
- Conclusion
- Source originale
- Liens de référence
Le logiciel joue un rôle clé dans la recherche aujourd'hui, mais il est souvent difficile à trouver ou à reconnaître. Cet article parle d'un projet qui a créé deux ensembles de données pour aider à identifier et à suivre les Logiciels de recherche produits grâce au financement de la National Science Foundation (NSF). En reliant les Projets de recherche aux logiciels qu'ils génèrent, ce projet espère faciliter la tâche des chercheurs et des autres pour trouver et référencer ces outils.
Importance du logiciel de recherche
Le logiciel de recherche est crucial pour les universitaires et les scientifiques, leur permettant d'analyser des données, de simuler des processus et de partager des résultats. Récemment, il y a eu une poussée pour citer les logiciels comme des articles de recherche traditionnels. C'est important car reconnaître le logiciel utilisé dans la recherche aide à établir des crédits et favorise la collaboration.
Cependant, contrairement aux articles de recherche, qui sont généralement faciles à trouver dans des revues académiques, les logiciels produits dans la recherche ne sont pas toujours facilement disponibles ou faciles à identifier. Cela pose des défis pour d'autres chercheurs qui cherchent à s'appuyer sur des travaux antérieurs ou pour ceux qui essaient de comprendre l'impact total d'une étude.
Aperçu des ensembles de données
Pour répondre au besoin d'une meilleure identification des logiciels de recherche, ce projet présente deux ensembles de données. Le premier ensemble contient près de 1 000 exemples de production de logiciels provenant de projets de recherche financés par la NSF, qui ont été étiquetés manuellement pour confirmer qu'ils contenaient des logiciels. Cet ensemble permet aux chercheurs de former des modèles qui prédiront la production de logiciels en fonction des descriptions textuelles fournies dans les résumés des prix NSF et les rapports de résultats de projets.
Le deuxième ensemble est une collection plus grande contenant plus de 150 000 prix NSF de 2010 à 2023. Cet ensemble déduit la production de logiciels en appliquant des modèles formés aux descriptions textuelles des projets financés par la NSF. L'objectif est de fournir une vue plus complète de la production de logiciels à travers un large éventail d'efforts de recherche.
Trouver des logiciels des projets NSF
La première étape de la création des ensembles de données était d'identifier quels projets financés par la NSF avaient produit des logiciels. Il y a deux façons de faire cela. Une façon consiste à rechercher manuellement dans les résumés des prix NSF et les rapports de résultats des projets, à la recherche de mentions de production de logiciels. Bien que cela soit minutieux, cette méthode prend beaucoup de temps et peut conduire à des erreurs.
L'autre méthode consiste à utiliser un modèle formé pour prédire la production de logiciels en fonction du texte. Bien que plus rapide, cette approche peut également entraîner des erreurs. Pour rassembler des exemples précis de logiciels produits, un script Python a été développé pour rechercher sur GitHub des dépôts qui mentionnaient le financement NSF dans leurs descriptions. Ce script recherchait des phrases clés comme "National Science Foundation" ou "NSF Grant."
Au total, environ 1 520 dépôts GitHub uniques ont été trouvés qui reconnaissaient le financement NSF. Chaque dépôt devait être vérifié pour déterminer s'il contenait réellement un logiciel ou non.
Annotation des logiciels
Une fois les dépôts GitHub pertinents découverts, ils ont été catégorisés comme "logiciel" ou "pas logiciel." Pendant le processus d'étiquetage, l'équipe de recherche a examiné de près le contenu des dépôts. Ils ont pris en compte divers facteurs, comme si le dépôt contenait de la documentation ou des outils logiciels réels.
Pour établir des normes d'étiquetage cohérentes, l'équipe a mené des essais où chaque membre a examiné indépendamment un ensemble de dépôts. Leur accord a été mesuré, et ils ont atteint un consensus presque parfait sur ce qui qualifie comme logiciel par rapport à d'autres contenus, comme des matériaux d'enseignement ou des notes de projet. En fin de compte, ce processus collaboratif a conduit à un ensemble de données plus précis.
Lien avec les prix NSF
Ensuite, chaque dépôt GitHub annoté devait être connecté à son prix NSF spécifique. Un script a été créé pour extraire des informations des pages GitHub, en extrayant les numéros de prix NSF mentionnés dans le fichier README de chaque dépôt. Pendant ce processus, l'équipe s'est assurée que les références NSF provenaient de l'agence de financement correcte et non d'autres organisations avec des acronymes similaires.
Après avoir lié les dépôts aux prix NSF, ils ont compilé un ensemble de données contenant 446 prix confirmés comme ayant produit des logiciels et 471 prix qui n'en avaient pas. Cette étape était cruciale pour les étapes d'analyse et de Formation du modèle.
Formation des modèles prédictifs
Avec l'ensemble de données de formation Soft-Search préparé, l'équipe a formé trois modèles différents conçus pour prédire la production de logiciels. Ceux-ci comprenaient des modèles basés sur la régression logistique et des modèles plus avancés qui utilisaient des embeddings sémantiques pour mieux comprendre le contexte des mots dans le texte.
Chaque modèle a été formé sur 80 % des données de formation disponibles, et leurs performances ont été évaluées à l'aide de métriques mesurant leur capacité à prédire la production de logiciels. Le modèle le plus performant a montré des résultats prometteurs, indiquant qu'il pouvait effectivement prédire la production de logiciels en fonction du texte fourni.
Résultats de la formation du modèle
Les résultats de la formation du modèle ont démontré l'efficacité de l'approche Soft-Search. Lorsque les modèles ont été testés, un modèle a atteint la plus grande précision en utilisant le texte du résumé des prix comme entrée. Cela a suggéré que le modèle pouvait identifier avec confiance les projets susceptibles de produire des logiciels en fonction de leurs descriptions.
Fait intéressant, un autre tour de tests utilisant le texte des rapports de résultats des projets a donné encore de meilleurs résultats. Cela indique que les rapports de résultats de projets contiennent souvent des références plus directes aux logiciels par rapport aux résumés, qui ne font peut-être qu'en faire allusion. Dans l'ensemble, ces résultats soulignent l'importance d'une communication claire dans la documentation de recherche.
Exploration des tendances de production de logiciels
En compilant l'ensemble de données inférées Soft-Search, l'équipe a pu commencer à analyser les tendances de production de logiciels au fil du temps. Ils ont tracé le pourcentage de prix NSF prévus pour avoir produit des logiciels chaque année. L'analyse s'est concentrée sur les principaux domaines de recherche financés par la NSF, tels que les mathématiques et les sciences physiques, les sciences informatiques et l'ingénierie.
Les résultats ont révélé une augmentation constante de la production de logiciels parmi les projets récompensés. De plus, il a été noté que les projets avec des durées de financement plus longues avaient tendance à produire des logiciels à des taux plus élevés, suggérant que le soutien prolongé peut conduire à des résultats logiciels plus substantiels.
Directions de recherche futures
Le travail avec Soft-Search ouvre diverses avenues pour de futures enquêtes. Par exemple, la méthode initiale pour localiser les logiciels de recherche par le biais de références textuelles a montré que de nombreux prix n'incluaient pas de liens vers leurs sorties logicielles. Ce manque indique un besoin d'amélioration des pratiques de documentation dans les propositions de recherche, garantissant que les outils logiciels soient facilement identifiables.
D'autres investigations pourraient se concentrer sur comment automatiser la connexion entre les articles de recherche et leurs sorties logicielles, facilitant l'accès et la citation des outils pertinents pour les futurs chercheurs.
Conclusion
L'initiative Soft-Search contribue aux efforts en cours pour améliorer la visibilité des logiciels de recherche. En créant et en analysant deux ensembles de données qui relient les projets financés par la NSF aux logiciels qu'ils produisent, ce travail vise à renforcer la capacité de la communauté académique à suivre et à utiliser ces outils essentiels. Alors que le rôle des logiciels dans la recherche continue de croître, des projets comme Soft-Search joueront un rôle clé dans la promotion d'une meilleure collaboration, de pratiques de citation, et finalement, dans l'avancement des connaissances dans divers domaines.
Titre: Soft-Search: Two Datasets to Study the Identification and Production of Research Software
Résumé: Software is an important tool for scholarly work, but software produced for research is in many cases not easily identifiable or discoverable. A potential first step in linking research and software is software identification. In this paper we present two datasets to study the identification and production of research software. The first dataset contains almost 1000 human labeled annotations of software production from National Science Foundation (NSF) awarded research projects. We use this dataset to train models that predict software production. Our second dataset is created by applying the trained predictive models across the abstracts and project outcomes reports for all NSF funded projects between the years of 2010 and 2023. The result is an inferred dataset of software production for over 150,000 NSF awards. We release the Soft-Search dataset to aid in identifying and understanding research software production: https://github.com/si2-urssi/eager
Auteurs: Eva Maxfield Brown, Lindsey Schwartz, Richard Lewei Huang, Nicholas Weber
Dernière mise à jour: 2023-02-27 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2302.14177
Source PDF: https://arxiv.org/pdf/2302.14177
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.