Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Ingeniería del software

El desafío de la citación de software en la investigación

Este artículo examina la necesidad de mejores prácticas de citación de software en la academia.

― 7 minilectura


Desafíos de Citación deDesafíos de Citación deSoftwaresoftware en la investigación.Abordando las limitaciones al citar
Tabla de contenidos

El software es una parte clave de muchos proyectos de investigación. Sin embargo, a menudo se menciona sin ser correctamente citado. Esta falta de cita adecuada dificulta rastrear cómo se usa el software en la investigación y dar crédito a los creadores de ese software. Este artículo analiza los desafíos de usar conjuntos de datos que recopilan Menciones de Software en artículos de investigación, especialmente para investigadores que quieren estudiar el uso del software y las prácticas de citación.

¿Qué Son las Menciones de Software?

Las menciones de software son referencias al software en documentos académicos. En lugar de citar formalmente el software, los investigadores pueden mencionarlo de manera simple en el texto. Por ejemplo, un investigador podría decir: "Usamos el Software X para el análisis", pero no proporciona una referencia adecuada que apunte al software en sí o a sus creadores. Esta mención informal no ayuda a los demás a encontrar el software ni a dar crédito a sus autores.

La Importancia de la Cita Adecuada

La cita adecuada es importante por varias razones:

  1. Crédito: Permite que los autores del software reciban el reconocimiento adecuado por su trabajo.
  2. Localización: Ayuda a otros a encontrar el software, lo cual es crucial para la reproducibilidad en la investigación.
  3. Control de Versiones: Citar versiones específicas de software evita confusiones sobre qué versión se usó, lo que puede afectar los resultados de la investigación.

Estado Actual de las Menciones de Software

Muchos investigadores aún no siguen buenas prácticas en la citación de software. En algunos estudios, se encontró que menos de la mitad de los documentos que mencionaron software incluyeron una cita adecuada. Esta brecha sugiere la necesidad de mejores prácticas y herramientas que fomenten la cita adecuada.

Conjuntos de Datos para Menciones de Software

Recientemente, se han publicado nuevos conjuntos de datos que contienen menciones de software en artículos de investigación. Estos conjuntos de datos son útiles para entender cómo se utiliza el software en la investigación. Sin embargo, la calidad de estos conjuntos de datos varía y pueden presentar desafíos para los investigadores.

Evaluación de la Usabilidad del Conjunto de Datos

Para evaluar si estos conjuntos de datos son útiles para la investigación, nuestro enfoque incluye varios pasos:

  1. Muestreo: Tomar una pequeña muestra representativa del conjunto de datos para revisión.
  2. Anotación Manual: Revisar cada mención en la muestra para evaluar su calidad, como si proporciona suficiente información para una cita adecuada.
  3. Análisis: Analizar los datos anotados para evaluar la usabilidad general del conjunto de datos.

Desafíos Encontrados en los Conjuntos de Datos

Al evaluar la usabilidad de los conjuntos de datos de menciones de software, se identificaron varios desafíos:

  • Calidad de las Menciones: Muchas menciones no estaban citadas correctamente, lo que significa que no proporcionaban información adecuada para que otros localizaran o usaran el software.
  • Problemas de Acceso: Algunos conjuntos de datos no incluían enlaces al software. Esto dificultaba que los investigadores encontraran el software mencionado en los documentos.
  • Variedad de Fuentes: Algunas menciones apuntaban a diferentes versiones o incluso a software completamente diferente, lo que puede confundir a los investigadores.

Problemas Específicos con los Conjuntos de Datos

Un conjunto de datos podría no proporcionar ningún enlace al software. En contraste, otro conjunto podría incluir enlaces que apuntan a diferentes versiones del mismo software o incluso a software diferente que simplemente tiene un nombre similar. Esta inconsistencia hace que sea difícil llevar a cabo la investigación de manera confiable.

El Problema de las Menciones Informales

Muchas menciones de software en artículos de investigación son informales. Las menciones informales no proporcionan suficiente detalle para ayudar a alguien a encontrar el software. Por ejemplo, un artículo que dice: "Usamos el Software X", sin un enlace o cita adecuada, deja a los lectores sin información esencial. La realidad con las menciones informales es que socavan el reconocimiento del software y dificultan que otros evalúen la investigación.

Necesidad de Prácticas de Citación de Software

El problema principal con el uso de conjuntos de datos de menciones de software es la falta general de buenas prácticas de citación de software en la comunidad investigadora. Los autores deberían adherirse a principios establecidos para la citación de software para que el uso del software sea transparente y accesible.

El Papel del Software de Código Abierto

El software de código abierto, que permite a los usuarios ver y modificar el código fuente, a menudo se cita de manera diferente al software de código cerrado. Hay indicios de que el software de código abierto es más propenso a ser citado correctamente, ya que a menudo viene con documentación accesible y recursos que facilitan la citación.

Preguntas de Investigación

El estudio tenía como objetivo responder a varias preguntas:

  1. ¿Son útiles los conjuntos de datos de menciones de software para la investigación?
  2. ¿Cómo difieren las citas de software de código abierto y de código cerrado?
  3. ¿Ha mejorado la práctica de citación de software en los últimos años?

Metodología

Para responder a estas preguntas, se adoptó un enfoque sistemático:

  1. Muestreo: Se tomaron muestras de dos conjuntos de datos principales de menciones de software.
  2. Análisis: Cada muestra se evaluó por la calidad de las menciones de software, los tipos de citas utilizadas y la accesibilidad de los enlaces al software.

Hallazgos sobre las Menciones de Software

El análisis de las muestras reveló que una parte significativa de las menciones de software no estaba correctamente citada. Esta falta de citación formal obstaculiza la capacidad de los investigadores para rastrear el uso del software con precisión y dar el crédito apropiado a los autores del software.

Calidad de las Menciones

En términos de la calidad de las menciones, se encontró que:

  • Un alto porcentaje de menciones no incluía enlaces al software.
  • Muchas menciones no especificaban qué versión del software se utilizó.
  • La calidad de las menciones extraídas variaba significativamente entre los conjuntos de datos.

Comparaciones de Tipos de Software

El estudio también intentó diferenciar entre cómo se citaban el software de código abierto y el software de código cerrado en la literatura académica. Se hipotetizó que el software de código abierto sería citado de manera más favorable debido a su naturaleza y la disponibilidad de metadatos.

Mejoras Necesarias en la Citación de Software

A pesar de algunos avances, aún queda un largo camino por recorrer para mejorar las prácticas de citación de software. Es necesaria una aplicación más consistente de los principios de citación de software para asegurar que el software sea correctamente acreditado en la investigación.

Direcciones Futuras

De cara al futuro, los investigadores deberían abogar por mejores prácticas en la citación de software. Aquí hay algunas sugerencias:

  • Crear directorios completos para software de investigación que puedan servir como referencias.
  • Fomentar el uso de identificadores únicos (como DOIs) para el software para simplificar las citas.
  • Mejorar la capacitación y los recursos para los investigadores sobre la importancia de la citación de software.

Conclusión

En conclusión, los conjuntos de datos de menciones de software presentan tanto oportunidades como desafíos para la investigación. Aunque pueden proporcionar información sobre el uso del software en la academia, su efectividad se ve limitada por prácticas de citación inconsistentes. Al centrarse en la citación adecuada y trabajar para mejorar la calidad de estos conjuntos de datos, la comunidad investigadora puede apoyar mejor a los autores de software y mejorar la reproducibilidad del trabajo científico.

Al promover mejores prácticas en la citación de software, podemos asegurar que las contribuciones de software sean reconocidas y que los investigadores tengan acceso a las herramientas que necesitan para su trabajo.

Fuente original

Título: Don't mention it: An approach to assess challenges to using software mentions for citation and discoverability research

Resumen: Datasets collecting software mentions from scholarly publications can potentially be used for research into the software that has been used in the published research, as well as into the practice of software citation. Recently, new software mention datasets with different characteristics have been published. We present an approach to assess the usability of such datasets for research on research software. Our approach includes sampling and data preparation, manual annotation for quality and mention characteristics, and annotation analysis. We applied it to two software mention datasets for evaluation based on qualitative observation. Doing this, we were able to find challenges to working with the selected datasets to do research. Main issues refer to the structure of the dataset, the quality of the extracted mentions (54% and 23% of mentions respectively are not to software), and software accessibility. While one dataset does not provide links to mentioned software at all, the other does so in a way that can impede quantitative research endeavors: (1) Links may come from different sources and each point to different software for the same mention. (2) The quality of the automatically retrieved links is generally poor (in our sample, 65.4% link the wrong software). (3) Links exist only for a small subset (in our sample, 20.5%) of mentions, which may lead to skewed or disproportionate samples. However, the greatest challenge and underlying issue in working with software mention datasets is the still suboptimal practice of software citation: Software should not be mentioned, it should be cited following the software citation principles.

Autores: Stephan Druskat, Neil P. Chue Hong, Sammie Buzzard, Olexandr Konovalov, Patrick Kornek

Última actualización: 2024-02-22 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2402.14602

Fuente PDF: https://arxiv.org/pdf/2402.14602

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Artículos similares