Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Ingeniería del software

Desafíos y Tendencias en Compartir Artefactos de Investigación de Software

Un estudio sobre el intercambio, mantenimiento y calidad de los artefactos de investigación en software.

― 6 minilectura


Compartición deCompartición deartefactos en ingenieríade softwareinvestigación.calidad de los artefactos deEvaluando prácticas, problemas y
Tabla de contenidos

En los últimos años, se ha animado a los investigadores en ingeniería de software (SE) a compartir sus Artefactos de investigación junto con sus publicaciones. Los artefactos pueden incluir código, datos y otros materiales que respaldan los hallazgos de un artículo de investigación. Compartir estos materiales ayuda a otros a entender, verificar y construir sobre el trabajo. Sin embargo, el estado actual de compartir estos artefactos, junto con su Calidad e impacto, necesita ser mejor entendido.

Este artículo se centra en estudiar y caracterizar el intercambio de artefactos en las publicaciones de SE. Se analiza varios aspectos como cómo los investigadores comparten sus artefactos, qué tan bien los mantienen, su Popularidad y su calidad.

Recolección de Datos

Para reunir datos, revisamos 2,196 artículos publicados en las principales conferencias de SE desde 2017 hasta 2022, extrayendo un total de 1,487 artefactos. Las conferencias en las que nos enfocamos son reconocidas en la industria y son conocidas por sus altos estándares de investigación.

El estudio examina cuatro áreas principales:

  1. Prácticas comunes para compartir artefactos.
  2. Mantenimiento de artefactos después de la publicación.
  3. Popularidad de los artefactos dentro de la comunidad.
  4. La calidad general de estos artefactos.

Prácticas Comunes para Compartir Artefactos

Al analizar cómo los investigadores comparten sus artefactos, se encontró que un número creciente de publicaciones ahora incluye enlaces a estos materiales. La proporción de artículos que proporcionan artefactos aumentó del 60.1% en 2017 al 81.1% en 2022.

Los investigadores utilizan diferentes plataformas para almacenar y compartir artefactos, siendo GitHub la opción más popular. Muchos investigadores prefieren GitHub debido a su facilidad de uso y familiaridad, aunque algunas conferencias recomiendan el uso de plataformas como Zenodo, que está diseñada específicamente para compartir materiales de investigación. La proporción de artefactos en Zenodo aumentó del 0% en 2017 al 16% en 2022.

Python se destacó como el lenguaje de programación más utilizado para estos artefactos, superando a Java, que tradicionalmente era el favorito. En 2022, el 61.1% de los artefactos estaban escritos en Python, reflejando la creciente tendencia de usar este lenguaje versátil en investigación.

Mantenimiento de Artefactos

Mantener los artefactos con el tiempo es crucial, ya que los enlaces pueden volverse inactivos o "irse a la oscuridad", lo que a menudo se conoce como "link rot". La tasa de "link rot" ha aumentado, haciendo que sea cada vez más importante para los investigadores asegurar que sus artefactos sigan siendo accesibles.

Desde 2017 hasta 2022, la tasa de "link rot" escaló del 4.8% al 29.8%. El método de almacenamiento particular afecta la probabilidad de "link rot"; los artefactos en unidades temporales tenían una alta tasa de inaccesibilidad, mientras que los almacenados en GitHub y Zenodo tenían tasas más bajas de desaparición.

También es importante que los investigadores actualicen sus artefactos. En promedio, más del 90% de los artefactos necesitan actualizaciones continuas después de la publicación. Sin embargo, la tasa de actualizaciones disminuye con el tiempo, con artefactos más antiguos recibiendo más atención que los más nuevos.

Popularidad de los Artefactos

La popularidad de los artefactos se puede medir a través del número de estrellas que reciben en GitHub. Muchos artefactos reciben poca atención, con el 65% de ellos teniendo diez o menos estrellas. Esto sugiere que, a pesar del crecimiento en el intercambio de artefactos, la mayoría no logra un reconocimiento significativo o un uso en el mundo real.

Solo el 3.7% de los artefactos logró superar las 100 estrellas, lo que indica que, aunque hay un aumento en el intercambio de artefactos, muchos de estos materiales no llegan a una amplia audiencia o no tienen un impacto sustancial.

Calidad de los Artefactos

La calidad de los artefactos compartidos es esencial para su utilidad y confiabilidad. Este estudio también examinó la calidad de la documentación y la prevalencia de "code smells", que son indicadores de problemas potenciales en el código.

Para los artefactos de Python, más del 96% activó alertas de "code smell", lo que indica que muchos artefactos pueden no estar a la altura. En el caso de los artefactos de Java, la tasa de alertas fue aún más alta, alcanzando el 98.3%. Los problemas se relacionan principalmente con las convenciones de codificación en lugar de problemas funcionales, lo que genera preocupaciones sobre la calidad general y la mantenibilidad de estos artefactos.

Hallazgos y Sugerencias

A partir de este análisis, queda claro que, aunque compartir artefactos está ganando terreno en la comunidad de SE, todavía hay varios desafíos. Para mejorar la calidad y disponibilidad de estos artefactos, se pueden hacer varias recomendaciones clave:

  1. Mejorar la Guía sobre la Preparación de Artefactos: Las conferencias y revistas deberían proporcionar pautas más claras sobre la preparación de artefactos, incluyendo qué plataformas usar y cómo documentar los artefactos de manera efectiva.

  2. Promover Soluciones de Almacenamiento Sostenibles: Incentivar a los investigadores a usar plataformas establecidas como GitHub y Zenodo para el almacenamiento, minimizando el uso de unidades temporales y sitios web personales, que son propensos al "link rot".

  3. Estandarizar las Ubicaciones de URL: Las URL de los artefactos deberían ser claramente visibles en las publicaciones, idealmente en una sección dedicada. Esto facilitaría su búsqueda y acceso.

  4. Fomentar un Mantenimiento Regular: Los investigadores necesitan tratar sus artefactos como proyectos continuos en lugar de entregas únicas. Las actualizaciones regulares son esenciales para mantener útiles los artefactos.

  5. Enfocarse en Mejorar la Calidad: Se deberían hacer mayores esfuerzos para mejorar la calidad de los artefactos, especialmente en términos de documentación. Archivos README claros y completos pueden mejorar significativamente la usabilidad y reproducibilidad.

  6. Aumentar la Conciencia sobre la Importancia de los Artefactos: La comunidad debería seguir fomentando un entorno donde los artefactos sean valorados como componentes críticos de la investigación, no solo como materiales suplementarios.

Conclusión

La creciente transparencia y el intercambio de artefactos en las publicaciones de SE representan un progreso positivo en el campo. Sin embargo, la comunidad debe abordar los problemas persistentes relacionados con el mantenimiento, la popularidad y la calidad de los artefactos. Al implementar estas sugerencias, los investigadores y organizadores de conferencias pueden mejorar la efectividad y el impacto de los artefactos de investigación, beneficiando en última instancia a la comunidad más amplia de ingeniería de software.

A medida que los artefactos de investigación continúan jugando un papel crucial en facilitar la colaboración, verificación y avances en la ingeniería de software, el enfoque en mejorar sus prácticas será vital para asegurar que los beneficios de compartir estos materiales se realicen plenamente.

Fuente original

Título: Research Artifacts in Software Engineering Publications: Status and Trends

Resumen: The Software Engineering (SE) community has been embracing the open science policy and encouraging researchers to disclose artifacts in their publications. However, the status and trends of artifact practice and quality remain unclear, lacking insights on further improvement. In this paper, we present an empirical study to characterize the research artifacts in SE publications. Specifically, we manually collect 1,487 artifacts from all 2,196 papers published in top-tier SE conferences (ASE, FSE, ICSE, and ISSTA) from 2017 to 2022. We investigate the common practices (e.g., URL location and format, storage websites), maintenance activities (e.g., last update time and URL validity), popularity (e.g., the number of stars on GitHub and characteristics), and quality (e.g., documentation and code smell) of these artifacts. Based on our analysis, we reveal a rise in publications providing artifacts. The usage of Zenodo for sharing artifacts has significantly increased. However, artifacts stored in GitHub tend to receive few stars, indicating a limited influence on real-world SE applications. We summarize the results and provide suggestions to different stakeholders in conjunction with current guidelines.

Autores: Mugeng Liu, Xiaolong Huang, Wei He, Yibing Xie, Jie M. Zhang, Xiang Jing, Zhenpeng Chen, Yun Ma

Última actualización: 2024-04-10 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2404.06852

Fuente PDF: https://arxiv.org/pdf/2404.06852

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares