Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Bibliotecas digitales# Ingeniería del software

Conectando Software de Investigación a Proyectos de NSF

Nuevos conjuntos de datos ayudan a identificar y rastrear software de investigaciones financiadas por la NSF.

― 8 minilectura


Software de investigaciónSoftware de investigacióny seguimiento de la NSFpartir de proyectos de la NSF.visibilidad del software generado aNuevos conjuntos de datos mejoran la
Tabla de contenidos

El Software juega un papel clave en la investigación hoy en día, pero a menudo es difícil de encontrar o reconocer. Este documento habla sobre un proyecto que creó dos Conjuntos de datos para ayudar a identificar y rastrear el software de investigación producido a través de financiamiento de la Fundación Nacional de Ciencias (NSF). Al conectar Proyectos de Investigación con el software que generan, este proyecto espera facilitar a los investigadores y otros encontrar y referenciar estas herramientas.

Importancia del Software de Investigación

El software de investigación es crucial para académicos y científicos, permitiéndoles analizar datos, simular procesos y compartir hallazgos. Últimamente, ha habido un empuje por citar el software igual que los artículos de investigación tradicionales. Esto es importante porque reconocer el software usado en la investigación ayuda a establecer crédito y fomenta la colaboración.

Sin embargo, a diferencia de los artículos de investigación, que suelen ser fáciles de encontrar a través de revistas académicas, el software producido en la investigación no siempre está disponible o fácil de identificar. Esto crea desafíos para otros investigadores que buscan construir sobre trabajos previos o para aquellos que intentan entender el impacto completo de un estudio.

Visión General de los Conjuntos de Datos

Para abordar la necesidad de una mejor identificación del software de investigación, este proyecto presenta dos conjuntos de datos. El primer conjunto consiste en casi 1,000 ejemplos de producción de software de proyectos de investigación financiados por la NSF, que fueron etiquetados manualmente para confirmar que contenían software. Este conjunto permite a los investigadores entrenar modelos que predecirán la producción de software basándose en descripciones de texto proporcionadas en resúmenes de premios de la NSF y reportes de resultados de proyectos.

El segundo conjunto es una colección más grande que contiene más de 150,000 premios de la NSF desde 2010 hasta 2023. Este conjunto infiere la producción de software aplicando modelos entrenados a las descripciones de texto de proyectos financiados por la NSF. El objetivo es proporcionar una visión más completa de la producción de software a través de una amplia gama de esfuerzos de investigación.

Encontrando Software de Proyectos de la NSF

El primer paso para crear los conjuntos de datos fue identificar qué proyectos financiados por la NSF habían producido software. Hay dos maneras de hacer esto. Una forma incluye buscar manualmente a través de resúmenes de premios de la NSF y reportes de resultados de proyectos, buscando menciones de producción de software. Aunque es metódica, este método toma mucho tiempo y puede llevar a errores.

La otra forma es emplear un modelo entrenado para predecir la producción de software basándose en el texto. Si bien es más rápido, este enfoque también puede resultar en errores. Para reunir ejemplos precisos de software producido, se desarrolló un script en Python para buscar en GitHub repositorios que mencionaran financiamiento de la NSF en sus descripciones. Este script buscó frases clave como "Fundación Nacional de Ciencias" o "Subvención de la NSF."

En total, se encontraron aproximadamente 1,520 repositorios únicos en GitHub que reconocieron financiamiento de la NSF. Cada repositorio tuvo que ser revisado para determinar si contenía software real o no.

Anotando Software

Una vez que se descubrieron los repositorios relevantes de GitHub, se categorizaron como "software" o "no software." Durante el proceso de etiquetado, el equipo de investigación examinó de cerca el contenido de los repositorios. Consideraron una gama de factores, como si el repositorio contenía documentación o herramientas de software reales.

Para establecer estándares de etiquetado consistentes, el equipo realizó pruebas donde cada miembro revisó de manera independiente un conjunto de repositorios. Se midió su acuerdo, y alcanzaron un consenso casi perfecto sobre lo que califica como software frente a otros contenidos, como materiales de enseñanza o notas de proyectos. En última instancia, este proceso colaborativo condujo a un conjunto de datos más preciso.

Vinculando a los Premios de la NSF

A continuación, cada repositorio de GitHub anotado necesitaba ser conectado a su premio específico de la NSF. Se creó un script para extraer información de las páginas de GitHub, extrayendo los números de premio de la NSF mencionados en el archivo README de cada repositorio. Durante este proceso, el equipo se aseguró de que las referencias a la NSF provinieran de la agencia de financiamiento correcta y no de otras organizaciones con acrónimos similares.

Después de vincular repositorios a premios de la NSF, compilaron un conjunto de datos que contenía 446 premios que se confirmó habían producido software y 471 premios que no. Este paso fue crucial para las etapas posteriores de análisis y Entrenamiento del modelo.

Entrenando Modelos Predictivos

Con el conjunto de datos de entrenamiento Soft-Search preparado, el equipo entrenó tres modelos diferentes diseñados para predecir la producción de software. Estos incluían modelos basados en regresión logística y modelos más avanzados que usaron incrustaciones semánticas para entender mejor el contexto de las palabras en el texto.

Cada modelo fue entrenado con el 80% de los datos de entrenamiento disponibles, y su rendimiento se evaluó usando métricas que miden qué tan bien podían predecir la producción de software. El modelo con mejor rendimiento mostró resultados prometedores, indicando que podía predecir efectivamente la producción de software basándose en el texto proporcionado.

Resultados del Entrenamiento del Modelo

Los resultados del entrenamiento del modelo demostraron la efectividad del enfoque Soft-Search. Cuando se probaron los modelos, uno alcanzó la mayor precisión al utilizar el texto del resumen del premio como entrada. Sugería que el modelo podía identificar con confianza proyectos que probablemente producirían software basándose en sus descripciones.

Curiosamente, otra ronda de pruebas utilizando el texto del reporte de resultados del proyecto arrojó incluso mejores resultados. Esto indica que los reportes de resultados de proyectos a menudo contienen referencias más directas al software en comparación con los resúmenes, que pueden solo insinuar su existencia. En general, estos hallazgos destacan la importancia de una comunicación clara en la documentación de investigación.

Explorando Tendencias en la Producción de Software

Al compilar el conjunto de datos inferido de Soft-Search, el equipo pudo comenzar a analizar tendencias en la producción de software a lo largo del tiempo. Representaron el porcentaje de premios de la NSF predichos para haber producido software anualmente. El análisis se centró en áreas de investigación principales financiadas por la NSF, como Matemáticas y Ciencias Físicas, Ciencias de la Computación e Información, y Ingeniería.

Los resultados revelaron un aumento constante en la producción de software entre los proyectos premiados. Además, se notó que los proyectos con duraciones de financiamiento más largas tendían a producir software a tasas más altas, sugiriendo que un apoyo prolongado puede llevar a resultados de software más sustanciales.

Direcciones Futuras de Investigación

El trabajo con Soft-Search abre diversas avenidas para la futura indagación. Por ejemplo, el método inicial para localizar software de investigación a través de referencias de texto mostró que muchos premios no incluían enlaces a sus resultados de software. Esta brecha indica la necesidad de mejorar las prácticas de documentación en propuestas de investigación, asegurando que las herramientas de software sean fácilmente identificables.

Investigaciones adicionales podrían centrarse en cómo automatizar la conexión entre artículos de investigación y sus resultados de software, facilitando el acceso y citación de herramientas relevantes para futuros investigadores.

Conclusión

La iniciativa Soft-Search contribuye a los esfuerzos en curso para mejorar la visibilidad del software de investigación. Al crear y analizar dos conjuntos de datos que conectan proyectos financiados por la NSF con el software que producen, este trabajo busca fortalecer la capacidad de la comunidad académica para rastrear y utilizar estas herramientas esenciales. A medida que el papel del software en la investigación sigue creciendo, proyectos como Soft-Search jugarán un papel clave en fomentar mejores prácticas de colaboración y citación, y, en última instancia, en avanzar el conocimiento a través de varios campos.

Fuente original

Título: Soft-Search: Two Datasets to Study the Identification and Production of Research Software

Resumen: Software is an important tool for scholarly work, but software produced for research is in many cases not easily identifiable or discoverable. A potential first step in linking research and software is software identification. In this paper we present two datasets to study the identification and production of research software. The first dataset contains almost 1000 human labeled annotations of software production from National Science Foundation (NSF) awarded research projects. We use this dataset to train models that predict software production. Our second dataset is created by applying the trained predictive models across the abstracts and project outcomes reports for all NSF funded projects between the years of 2010 and 2023. The result is an inferred dataset of software production for over 150,000 NSF awards. We release the Soft-Search dataset to aid in identifying and understanding research software production: https://github.com/si2-urssi/eager

Autores: Eva Maxfield Brown, Lindsey Schwartz, Richard Lewei Huang, Nicholas Weber

Última actualización: 2023-02-27 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2302.14177

Fuente PDF: https://arxiv.org/pdf/2302.14177

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Artículos similares